{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.6666666666666666,
  "eval_steps": 9000,
  "global_step": 30000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.2222222222222223e-05,
      "grad_norm": 2.0185797214508057,
      "learning_rate": 2e-05,
      "loss": 3.2618,
      "step": 1
    },
    {
      "epoch": 4.4444444444444447e-05,
      "grad_norm": 1.7432889938354492,
      "learning_rate": 4e-05,
      "loss": 3.3564,
      "step": 2
    },
    {
      "epoch": 6.666666666666667e-05,
      "grad_norm": 1.9091120958328247,
      "learning_rate": 6e-05,
      "loss": 3.0943,
      "step": 3
    },
    {
      "epoch": 8.888888888888889e-05,
      "grad_norm": 2.1515886783599854,
      "learning_rate": 8e-05,
      "loss": 3.59,
      "step": 4
    },
    {
      "epoch": 0.00011111111111111112,
      "grad_norm": 1.7237238883972168,
      "learning_rate": 0.0001,
      "loss": 3.4605,
      "step": 5
    },
    {
      "epoch": 0.00013333333333333334,
      "grad_norm": 1.9830104112625122,
      "learning_rate": 0.00012,
      "loss": 3.2866,
      "step": 6
    },
    {
      "epoch": 0.00015555555555555556,
      "grad_norm": 1.3985366821289062,
      "learning_rate": 0.00014,
      "loss": 2.9885,
      "step": 7
    },
    {
      "epoch": 0.00017777777777777779,
      "grad_norm": 1.373055100440979,
      "learning_rate": 0.00016,
      "loss": 2.912,
      "step": 8
    },
    {
      "epoch": 0.0002,
      "grad_norm": 1.2396327257156372,
      "learning_rate": 0.00018,
      "loss": 3.0742,
      "step": 9
    },
    {
      "epoch": 0.00022222222222222223,
      "grad_norm": 1.1442056894302368,
      "learning_rate": 0.0002,
      "loss": 2.78,
      "step": 10
    },
    {
      "epoch": 0.00024444444444444443,
      "grad_norm": 1.284921646118164,
      "learning_rate": 0.00019999555456768172,
      "loss": 3.1471,
      "step": 11
    },
    {
      "epoch": 0.0002666666666666667,
      "grad_norm": 1.205655574798584,
      "learning_rate": 0.00019999110913536343,
      "loss": 2.4173,
      "step": 12
    },
    {
      "epoch": 0.0002888888888888889,
      "grad_norm": 1.5106496810913086,
      "learning_rate": 0.00019998666370304514,
      "loss": 2.5291,
      "step": 13
    },
    {
      "epoch": 0.0003111111111111111,
      "grad_norm": 1.3649957180023193,
      "learning_rate": 0.00019998221827072682,
      "loss": 2.6059,
      "step": 14
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 0.9807085990905762,
      "learning_rate": 0.00019997777283840856,
      "loss": 2.081,
      "step": 15
    },
    {
      "epoch": 0.00035555555555555557,
      "grad_norm": 1.188325047492981,
      "learning_rate": 0.00019997332740609024,
      "loss": 2.4606,
      "step": 16
    },
    {
      "epoch": 0.00037777777777777777,
      "grad_norm": 1.1331664323806763,
      "learning_rate": 0.00019996888197377195,
      "loss": 2.5574,
      "step": 17
    },
    {
      "epoch": 0.0004,
      "grad_norm": 1.0140057802200317,
      "learning_rate": 0.00019996443654145366,
      "loss": 2.252,
      "step": 18
    },
    {
      "epoch": 0.0004222222222222222,
      "grad_norm": 1.0648610591888428,
      "learning_rate": 0.00019995999110913537,
      "loss": 2.3768,
      "step": 19
    },
    {
      "epoch": 0.00044444444444444447,
      "grad_norm": 1.0701093673706055,
      "learning_rate": 0.00019995554567681708,
      "loss": 2.1406,
      "step": 20
    },
    {
      "epoch": 0.00046666666666666666,
      "grad_norm": 1.1271121501922607,
      "learning_rate": 0.0001999511002444988,
      "loss": 2.6222,
      "step": 21
    },
    {
      "epoch": 0.0004888888888888889,
      "grad_norm": 0.9573381543159485,
      "learning_rate": 0.0001999466548121805,
      "loss": 2.4028,
      "step": 22
    },
    {
      "epoch": 0.0005111111111111112,
      "grad_norm": 1.0101866722106934,
      "learning_rate": 0.0001999422093798622,
      "loss": 2.0944,
      "step": 23
    },
    {
      "epoch": 0.0005333333333333334,
      "grad_norm": 1.0080087184906006,
      "learning_rate": 0.00019993776394754392,
      "loss": 2.1232,
      "step": 24
    },
    {
      "epoch": 0.0005555555555555556,
      "grad_norm": 1.2665172815322876,
      "learning_rate": 0.0001999333185152256,
      "loss": 2.2484,
      "step": 25
    },
    {
      "epoch": 0.0005777777777777778,
      "grad_norm": 1.3734925985336304,
      "learning_rate": 0.00019992887308290734,
      "loss": 2.2124,
      "step": 26
    },
    {
      "epoch": 0.0006,
      "grad_norm": 0.9276817440986633,
      "learning_rate": 0.00019992442765058902,
      "loss": 1.9483,
      "step": 27
    },
    {
      "epoch": 0.0006222222222222223,
      "grad_norm": 1.1612797975540161,
      "learning_rate": 0.00019991998221827073,
      "loss": 2.4238,
      "step": 28
    },
    {
      "epoch": 0.0006444444444444444,
      "grad_norm": 1.1764159202575684,
      "learning_rate": 0.00019991553678595244,
      "loss": 2.2082,
      "step": 29
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 1.1657731533050537,
      "learning_rate": 0.00019991109135363415,
      "loss": 2.5774,
      "step": 30
    },
    {
      "epoch": 0.0006888888888888888,
      "grad_norm": 1.1365610361099243,
      "learning_rate": 0.00019990664592131586,
      "loss": 2.255,
      "step": 31
    },
    {
      "epoch": 0.0007111111111111111,
      "grad_norm": 1.0857913494110107,
      "learning_rate": 0.00019990220048899757,
      "loss": 2.1554,
      "step": 32
    },
    {
      "epoch": 0.0007333333333333333,
      "grad_norm": 1.1258957386016846,
      "learning_rate": 0.00019989775505667928,
      "loss": 2.3615,
      "step": 33
    },
    {
      "epoch": 0.0007555555555555555,
      "grad_norm": 1.1459455490112305,
      "learning_rate": 0.00019989330962436096,
      "loss": 2.0614,
      "step": 34
    },
    {
      "epoch": 0.0007777777777777777,
      "grad_norm": 1.2175862789154053,
      "learning_rate": 0.0001998888641920427,
      "loss": 2.5134,
      "step": 35
    },
    {
      "epoch": 0.0008,
      "grad_norm": 1.15297532081604,
      "learning_rate": 0.00019988441875972438,
      "loss": 2.131,
      "step": 36
    },
    {
      "epoch": 0.0008222222222222222,
      "grad_norm": 1.2607117891311646,
      "learning_rate": 0.0001998799733274061,
      "loss": 2.55,
      "step": 37
    },
    {
      "epoch": 0.0008444444444444444,
      "grad_norm": 1.2785695791244507,
      "learning_rate": 0.0001998755278950878,
      "loss": 2.2228,
      "step": 38
    },
    {
      "epoch": 0.0008666666666666666,
      "grad_norm": 1.3944299221038818,
      "learning_rate": 0.0001998710824627695,
      "loss": 2.1888,
      "step": 39
    },
    {
      "epoch": 0.0008888888888888889,
      "grad_norm": 1.207436203956604,
      "learning_rate": 0.00019986663703045124,
      "loss": 2.3371,
      "step": 40
    },
    {
      "epoch": 0.0009111111111111111,
      "grad_norm": 1.114500641822815,
      "learning_rate": 0.00019986219159813293,
      "loss": 1.9219,
      "step": 41
    },
    {
      "epoch": 0.0009333333333333333,
      "grad_norm": 1.1595293283462524,
      "learning_rate": 0.00019985774616581464,
      "loss": 2.3528,
      "step": 42
    },
    {
      "epoch": 0.0009555555555555555,
      "grad_norm": 1.482299566268921,
      "learning_rate": 0.00019985330073349635,
      "loss": 2.1761,
      "step": 43
    },
    {
      "epoch": 0.0009777777777777777,
      "grad_norm": 1.19706130027771,
      "learning_rate": 0.00019984885530117806,
      "loss": 1.9884,
      "step": 44
    },
    {
      "epoch": 0.001,
      "grad_norm": 1.2986372709274292,
      "learning_rate": 0.00019984440986885974,
      "loss": 2.0929,
      "step": 45
    },
    {
      "epoch": 0.0010222222222222223,
      "grad_norm": 1.2313750982284546,
      "learning_rate": 0.00019983996443654147,
      "loss": 2.0196,
      "step": 46
    },
    {
      "epoch": 0.0010444444444444444,
      "grad_norm": 1.4543802738189697,
      "learning_rate": 0.00019983551900422318,
      "loss": 2.5609,
      "step": 47
    },
    {
      "epoch": 0.0010666666666666667,
      "grad_norm": 1.598586082458496,
      "learning_rate": 0.00019983107357190487,
      "loss": 2.2982,
      "step": 48
    },
    {
      "epoch": 0.0010888888888888888,
      "grad_norm": 1.8242489099502563,
      "learning_rate": 0.0001998266281395866,
      "loss": 2.5548,
      "step": 49
    },
    {
      "epoch": 0.0011111111111111111,
      "grad_norm": 1.455721378326416,
      "learning_rate": 0.00019982218270726829,
      "loss": 2.0304,
      "step": 50
    },
    {
      "epoch": 0.0011333333333333334,
      "grad_norm": 0.9750809073448181,
      "learning_rate": 0.00019981773727495,
      "loss": 2.6573,
      "step": 51
    },
    {
      "epoch": 0.0011555555555555555,
      "grad_norm": 0.989897608757019,
      "learning_rate": 0.0001998132918426317,
      "loss": 2.4163,
      "step": 52
    },
    {
      "epoch": 0.0011777777777777778,
      "grad_norm": 1.0368322134017944,
      "learning_rate": 0.00019980884641031341,
      "loss": 2.4216,
      "step": 53
    },
    {
      "epoch": 0.0012,
      "grad_norm": 1.0627018213272095,
      "learning_rate": 0.0001998044009779951,
      "loss": 1.8118,
      "step": 54
    },
    {
      "epoch": 0.0012222222222222222,
      "grad_norm": 1.1870719194412231,
      "learning_rate": 0.00019979995554567683,
      "loss": 2.5546,
      "step": 55
    },
    {
      "epoch": 0.0012444444444444445,
      "grad_norm": 0.931128978729248,
      "learning_rate": 0.00019979551011335854,
      "loss": 2.5249,
      "step": 56
    },
    {
      "epoch": 0.0012666666666666666,
      "grad_norm": 0.9158191084861755,
      "learning_rate": 0.00019979106468104023,
      "loss": 2.5717,
      "step": 57
    },
    {
      "epoch": 0.001288888888888889,
      "grad_norm": 0.9137040972709656,
      "learning_rate": 0.00019978661924872196,
      "loss": 2.1914,
      "step": 58
    },
    {
      "epoch": 0.0013111111111111112,
      "grad_norm": 1.376840591430664,
      "learning_rate": 0.00019978217381640365,
      "loss": 2.4341,
      "step": 59
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 1.404250144958496,
      "learning_rate": 0.00019977772838408538,
      "loss": 2.5547,
      "step": 60
    },
    {
      "epoch": 0.0013555555555555556,
      "grad_norm": 1.5059726238250732,
      "learning_rate": 0.00019977328295176706,
      "loss": 2.5984,
      "step": 61
    },
    {
      "epoch": 0.0013777777777777777,
      "grad_norm": 1.6965712308883667,
      "learning_rate": 0.00019976883751944877,
      "loss": 2.6359,
      "step": 62
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.3054988384246826,
      "learning_rate": 0.00019976439208713048,
      "loss": 2.295,
      "step": 63
    },
    {
      "epoch": 0.0014222222222222223,
      "grad_norm": 1.1799784898757935,
      "learning_rate": 0.0001997599466548122,
      "loss": 2.1869,
      "step": 64
    },
    {
      "epoch": 0.0014444444444444444,
      "grad_norm": 1.0440560579299927,
      "learning_rate": 0.0001997555012224939,
      "loss": 1.866,
      "step": 65
    },
    {
      "epoch": 0.0014666666666666667,
      "grad_norm": 0.9532372951507568,
      "learning_rate": 0.0001997510557901756,
      "loss": 2.4219,
      "step": 66
    },
    {
      "epoch": 0.001488888888888889,
      "grad_norm": 0.9747480750083923,
      "learning_rate": 0.00019974661035785732,
      "loss": 2.2124,
      "step": 67
    },
    {
      "epoch": 0.001511111111111111,
      "grad_norm": 1.0619615316390991,
      "learning_rate": 0.000199742164925539,
      "loss": 1.8204,
      "step": 68
    },
    {
      "epoch": 0.0015333333333333334,
      "grad_norm": 1.6607592105865479,
      "learning_rate": 0.00019973771949322074,
      "loss": 2.2274,
      "step": 69
    },
    {
      "epoch": 0.0015555555555555555,
      "grad_norm": 1.3055371046066284,
      "learning_rate": 0.00019973327406090242,
      "loss": 2.2607,
      "step": 70
    },
    {
      "epoch": 0.0015777777777777778,
      "grad_norm": 1.2005525827407837,
      "learning_rate": 0.00019972882862858413,
      "loss": 2.0241,
      "step": 71
    },
    {
      "epoch": 0.0016,
      "grad_norm": 1.1328130960464478,
      "learning_rate": 0.00019972438319626584,
      "loss": 2.386,
      "step": 72
    },
    {
      "epoch": 0.0016222222222222222,
      "grad_norm": 1.0630085468292236,
      "learning_rate": 0.00019971993776394755,
      "loss": 2.0699,
      "step": 73
    },
    {
      "epoch": 0.0016444444444444445,
      "grad_norm": 1.115866780281067,
      "learning_rate": 0.00019971549233162926,
      "loss": 2.063,
      "step": 74
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.1004247665405273,
      "learning_rate": 0.00019971104689931097,
      "loss": 2.1662,
      "step": 75
    },
    {
      "epoch": 0.0016888888888888889,
      "grad_norm": 1.0936720371246338,
      "learning_rate": 0.00019970660146699268,
      "loss": 1.9738,
      "step": 76
    },
    {
      "epoch": 0.0017111111111111112,
      "grad_norm": 1.2349518537521362,
      "learning_rate": 0.0001997021560346744,
      "loss": 1.5752,
      "step": 77
    },
    {
      "epoch": 0.0017333333333333333,
      "grad_norm": 1.0439680814743042,
      "learning_rate": 0.0001996977106023561,
      "loss": 1.9034,
      "step": 78
    },
    {
      "epoch": 0.0017555555555555556,
      "grad_norm": 0.9948009252548218,
      "learning_rate": 0.00019969326517003778,
      "loss": 1.8501,
      "step": 79
    },
    {
      "epoch": 0.0017777777777777779,
      "grad_norm": 1.0389902591705322,
      "learning_rate": 0.00019968881973771952,
      "loss": 2.1502,
      "step": 80
    },
    {
      "epoch": 0.0018,
      "grad_norm": 1.0846196413040161,
      "learning_rate": 0.0001996843743054012,
      "loss": 2.108,
      "step": 81
    },
    {
      "epoch": 0.0018222222222222223,
      "grad_norm": 1.234468936920166,
      "learning_rate": 0.0001996799288730829,
      "loss": 2.0001,
      "step": 82
    },
    {
      "epoch": 0.0018444444444444443,
      "grad_norm": 1.2024580240249634,
      "learning_rate": 0.00019967548344076462,
      "loss": 2.3106,
      "step": 83
    },
    {
      "epoch": 0.0018666666666666666,
      "grad_norm": 1.201183557510376,
      "learning_rate": 0.00019967103800844633,
      "loss": 1.9006,
      "step": 84
    },
    {
      "epoch": 0.001888888888888889,
      "grad_norm": 1.0216937065124512,
      "learning_rate": 0.00019966659257612804,
      "loss": 1.6863,
      "step": 85
    },
    {
      "epoch": 0.001911111111111111,
      "grad_norm": 1.1731654405593872,
      "learning_rate": 0.00019966214714380975,
      "loss": 2.3693,
      "step": 86
    },
    {
      "epoch": 0.0019333333333333333,
      "grad_norm": 1.063701868057251,
      "learning_rate": 0.00019965770171149146,
      "loss": 1.988,
      "step": 87
    },
    {
      "epoch": 0.0019555555555555554,
      "grad_norm": 1.2443939447402954,
      "learning_rate": 0.00019965325627917314,
      "loss": 1.4262,
      "step": 88
    },
    {
      "epoch": 0.001977777777777778,
      "grad_norm": 1.5228159427642822,
      "learning_rate": 0.00019964881084685488,
      "loss": 1.9502,
      "step": 89
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.217005729675293,
      "learning_rate": 0.00019964436541453656,
      "loss": 2.0106,
      "step": 90
    },
    {
      "epoch": 0.002022222222222222,
      "grad_norm": 1.1886168718338013,
      "learning_rate": 0.00019963991998221827,
      "loss": 2.0472,
      "step": 91
    },
    {
      "epoch": 0.0020444444444444447,
      "grad_norm": 1.2553871870040894,
      "learning_rate": 0.00019963547454989998,
      "loss": 2.1674,
      "step": 92
    },
    {
      "epoch": 0.0020666666666666667,
      "grad_norm": 1.221604347229004,
      "learning_rate": 0.0001996310291175817,
      "loss": 1.8596,
      "step": 93
    },
    {
      "epoch": 0.002088888888888889,
      "grad_norm": 1.43986177444458,
      "learning_rate": 0.0001996265836852634,
      "loss": 2.1683,
      "step": 94
    },
    {
      "epoch": 0.002111111111111111,
      "grad_norm": 1.3448739051818848,
      "learning_rate": 0.0001996221382529451,
      "loss": 2.3144,
      "step": 95
    },
    {
      "epoch": 0.0021333333333333334,
      "grad_norm": 1.3225668668746948,
      "learning_rate": 0.00019961769282062682,
      "loss": 2.1214,
      "step": 96
    },
    {
      "epoch": 0.0021555555555555555,
      "grad_norm": 1.2970373630523682,
      "learning_rate": 0.00019961324738830853,
      "loss": 1.8806,
      "step": 97
    },
    {
      "epoch": 0.0021777777777777776,
      "grad_norm": 1.3479090929031372,
      "learning_rate": 0.00019960880195599024,
      "loss": 2.0935,
      "step": 98
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.3814531564712524,
      "learning_rate": 0.00019960435652367192,
      "loss": 2.0354,
      "step": 99
    },
    {
      "epoch": 0.0022222222222222222,
      "grad_norm": 1.3102446794509888,
      "learning_rate": 0.00019959991109135366,
      "loss": 1.2051,
      "step": 100
    },
    {
      "epoch": 0.0022444444444444443,
      "grad_norm": 0.9198299050331116,
      "learning_rate": 0.00019959546565903534,
      "loss": 2.6,
      "step": 101
    },
    {
      "epoch": 0.002266666666666667,
      "grad_norm": 0.8828571438789368,
      "learning_rate": 0.00019959102022671705,
      "loss": 2.1932,
      "step": 102
    },
    {
      "epoch": 0.002288888888888889,
      "grad_norm": 0.9989007711410522,
      "learning_rate": 0.00019958657479439876,
      "loss": 2.681,
      "step": 103
    },
    {
      "epoch": 0.002311111111111111,
      "grad_norm": 0.8256343007087708,
      "learning_rate": 0.00019958212936208047,
      "loss": 2.2186,
      "step": 104
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 0.9154222011566162,
      "learning_rate": 0.00019957768392976218,
      "loss": 2.4561,
      "step": 105
    },
    {
      "epoch": 0.0023555555555555556,
      "grad_norm": 0.9879103899002075,
      "learning_rate": 0.0001995732384974439,
      "loss": 2.3361,
      "step": 106
    },
    {
      "epoch": 0.0023777777777777777,
      "grad_norm": 0.9192826151847839,
      "learning_rate": 0.0001995687930651256,
      "loss": 2.199,
      "step": 107
    },
    {
      "epoch": 0.0024,
      "grad_norm": 0.7983688116073608,
      "learning_rate": 0.00019956434763280728,
      "loss": 2.302,
      "step": 108
    },
    {
      "epoch": 0.0024222222222222223,
      "grad_norm": 1.095608115196228,
      "learning_rate": 0.00019955990220048902,
      "loss": 2.0953,
      "step": 109
    },
    {
      "epoch": 0.0024444444444444444,
      "grad_norm": 0.9284802079200745,
      "learning_rate": 0.0001995554567681707,
      "loss": 2.2772,
      "step": 110
    },
    {
      "epoch": 0.0024666666666666665,
      "grad_norm": 0.9606927633285522,
      "learning_rate": 0.0001995510113358524,
      "loss": 2.1875,
      "step": 111
    },
    {
      "epoch": 0.002488888888888889,
      "grad_norm": 1.0119353532791138,
      "learning_rate": 0.00019954656590353412,
      "loss": 2.5585,
      "step": 112
    },
    {
      "epoch": 0.002511111111111111,
      "grad_norm": 1.0580315589904785,
      "learning_rate": 0.00019954212047121583,
      "loss": 1.9465,
      "step": 113
    },
    {
      "epoch": 0.002533333333333333,
      "grad_norm": 1.0393487215042114,
      "learning_rate": 0.00019953767503889754,
      "loss": 2.4296,
      "step": 114
    },
    {
      "epoch": 0.0025555555555555557,
      "grad_norm": 0.9013755321502686,
      "learning_rate": 0.00019953322960657925,
      "loss": 2.1599,
      "step": 115
    },
    {
      "epoch": 0.002577777777777778,
      "grad_norm": 0.9927599430084229,
      "learning_rate": 0.00019952878417426096,
      "loss": 2.229,
      "step": 116
    },
    {
      "epoch": 0.0026,
      "grad_norm": 0.980317234992981,
      "learning_rate": 0.00019952433874194267,
      "loss": 2.2677,
      "step": 117
    },
    {
      "epoch": 0.0026222222222222224,
      "grad_norm": 0.9289875626564026,
      "learning_rate": 0.00019951989330962438,
      "loss": 2.0434,
      "step": 118
    },
    {
      "epoch": 0.0026444444444444445,
      "grad_norm": 1.0189963579177856,
      "learning_rate": 0.00019951544787730606,
      "loss": 2.3035,
      "step": 119
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.948377788066864,
      "learning_rate": 0.0001995110024449878,
      "loss": 2.393,
      "step": 120
    },
    {
      "epoch": 0.002688888888888889,
      "grad_norm": 1.0509932041168213,
      "learning_rate": 0.0001995065570126695,
      "loss": 2.0819,
      "step": 121
    },
    {
      "epoch": 0.002711111111111111,
      "grad_norm": 1.1264628171920776,
      "learning_rate": 0.0001995021115803512,
      "loss": 2.4757,
      "step": 122
    },
    {
      "epoch": 0.0027333333333333333,
      "grad_norm": 1.0365453958511353,
      "learning_rate": 0.00019949766614803293,
      "loss": 1.8598,
      "step": 123
    },
    {
      "epoch": 0.0027555555555555554,
      "grad_norm": 1.0879734754562378,
      "learning_rate": 0.0001994932207157146,
      "loss": 1.755,
      "step": 124
    },
    {
      "epoch": 0.002777777777777778,
      "grad_norm": 1.0849332809448242,
      "learning_rate": 0.00019948877528339632,
      "loss": 2.301,
      "step": 125
    },
    {
      "epoch": 0.0028,
      "grad_norm": 1.2393407821655273,
      "learning_rate": 0.00019948432985107803,
      "loss": 2.4259,
      "step": 126
    },
    {
      "epoch": 0.002822222222222222,
      "grad_norm": 1.0852195024490356,
      "learning_rate": 0.00019947988441875974,
      "loss": 2.2987,
      "step": 127
    },
    {
      "epoch": 0.0028444444444444446,
      "grad_norm": 1.0208133459091187,
      "learning_rate": 0.00019947543898644142,
      "loss": 2.0007,
      "step": 128
    },
    {
      "epoch": 0.0028666666666666667,
      "grad_norm": 1.3235000371932983,
      "learning_rate": 0.00019947099355412316,
      "loss": 1.823,
      "step": 129
    },
    {
      "epoch": 0.0028888888888888888,
      "grad_norm": 1.0890294313430786,
      "learning_rate": 0.00019946654812180487,
      "loss": 1.9903,
      "step": 130
    },
    {
      "epoch": 0.0029111111111111113,
      "grad_norm": 1.0155043601989746,
      "learning_rate": 0.00019946210268948655,
      "loss": 2.187,
      "step": 131
    },
    {
      "epoch": 0.0029333333333333334,
      "grad_norm": 0.9742645025253296,
      "learning_rate": 0.00019945765725716828,
      "loss": 1.7798,
      "step": 132
    },
    {
      "epoch": 0.0029555555555555555,
      "grad_norm": 1.1656670570373535,
      "learning_rate": 0.00019945321182484997,
      "loss": 2.091,
      "step": 133
    },
    {
      "epoch": 0.002977777777777778,
      "grad_norm": 1.167108178138733,
      "learning_rate": 0.0001994487663925317,
      "loss": 1.8146,
      "step": 134
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.1924433708190918,
      "learning_rate": 0.0001994443209602134,
      "loss": 2.3853,
      "step": 135
    },
    {
      "epoch": 0.003022222222222222,
      "grad_norm": 1.0378752946853638,
      "learning_rate": 0.0001994398755278951,
      "loss": 2.0718,
      "step": 136
    },
    {
      "epoch": 0.0030444444444444442,
      "grad_norm": 1.1159776449203491,
      "learning_rate": 0.0001994354300955768,
      "loss": 2.0957,
      "step": 137
    },
    {
      "epoch": 0.0030666666666666668,
      "grad_norm": 1.1870075464248657,
      "learning_rate": 0.00019943098466325852,
      "loss": 2.35,
      "step": 138
    },
    {
      "epoch": 0.003088888888888889,
      "grad_norm": 1.035266637802124,
      "learning_rate": 0.00019942653923094023,
      "loss": 1.8653,
      "step": 139
    },
    {
      "epoch": 0.003111111111111111,
      "grad_norm": 1.1399930715560913,
      "learning_rate": 0.00019942209379862193,
      "loss": 1.9809,
      "step": 140
    },
    {
      "epoch": 0.0031333333333333335,
      "grad_norm": 1.3499666452407837,
      "learning_rate": 0.00019941764836630364,
      "loss": 2.2888,
      "step": 141
    },
    {
      "epoch": 0.0031555555555555555,
      "grad_norm": 1.0297796726226807,
      "learning_rate": 0.00019941320293398533,
      "loss": 1.7906,
      "step": 142
    },
    {
      "epoch": 0.0031777777777777776,
      "grad_norm": 1.1028872728347778,
      "learning_rate": 0.00019940875750166706,
      "loss": 2.1624,
      "step": 143
    },
    {
      "epoch": 0.0032,
      "grad_norm": 1.206077218055725,
      "learning_rate": 0.00019940431206934875,
      "loss": 2.1504,
      "step": 144
    },
    {
      "epoch": 0.0032222222222222222,
      "grad_norm": 1.2086775302886963,
      "learning_rate": 0.00019939986663703046,
      "loss": 2.3128,
      "step": 145
    },
    {
      "epoch": 0.0032444444444444443,
      "grad_norm": 1.1570020914077759,
      "learning_rate": 0.00019939542120471217,
      "loss": 2.0801,
      "step": 146
    },
    {
      "epoch": 0.003266666666666667,
      "grad_norm": 1.0718797445297241,
      "learning_rate": 0.00019939097577239388,
      "loss": 2.065,
      "step": 147
    },
    {
      "epoch": 0.003288888888888889,
      "grad_norm": 1.1464978456497192,
      "learning_rate": 0.00019938653034007558,
      "loss": 1.9657,
      "step": 148
    },
    {
      "epoch": 0.003311111111111111,
      "grad_norm": 1.1516777276992798,
      "learning_rate": 0.0001993820849077573,
      "loss": 2.0504,
      "step": 149
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 1.5645363330841064,
      "learning_rate": 0.000199377639475439,
      "loss": 1.5633,
      "step": 150
    },
    {
      "epoch": 0.0033555555555555556,
      "grad_norm": 1.1891536712646484,
      "learning_rate": 0.00019937319404312069,
      "loss": 3.123,
      "step": 151
    },
    {
      "epoch": 0.0033777777777777777,
      "grad_norm": 0.9136642813682556,
      "learning_rate": 0.00019936874861080242,
      "loss": 2.5287,
      "step": 152
    },
    {
      "epoch": 0.0034,
      "grad_norm": 0.8435269594192505,
      "learning_rate": 0.0001993643031784841,
      "loss": 2.0756,
      "step": 153
    },
    {
      "epoch": 0.0034222222222222223,
      "grad_norm": 0.9647784233093262,
      "learning_rate": 0.00019935985774616584,
      "loss": 2.6655,
      "step": 154
    },
    {
      "epoch": 0.0034444444444444444,
      "grad_norm": 0.9868387579917908,
      "learning_rate": 0.00019935541231384752,
      "loss": 2.2848,
      "step": 155
    },
    {
      "epoch": 0.0034666666666666665,
      "grad_norm": 0.9726805686950684,
      "learning_rate": 0.00019935096688152923,
      "loss": 2.4014,
      "step": 156
    },
    {
      "epoch": 0.003488888888888889,
      "grad_norm": 0.9441511034965515,
      "learning_rate": 0.00019934652144921094,
      "loss": 2.5675,
      "step": 157
    },
    {
      "epoch": 0.003511111111111111,
      "grad_norm": 0.9878379106521606,
      "learning_rate": 0.00019934207601689265,
      "loss": 2.6569,
      "step": 158
    },
    {
      "epoch": 0.003533333333333333,
      "grad_norm": 0.8798769116401672,
      "learning_rate": 0.00019933763058457436,
      "loss": 2.0542,
      "step": 159
    },
    {
      "epoch": 0.0035555555555555557,
      "grad_norm": 0.9095421433448792,
      "learning_rate": 0.00019933318515225607,
      "loss": 2.285,
      "step": 160
    },
    {
      "epoch": 0.003577777777777778,
      "grad_norm": 0.9291555881500244,
      "learning_rate": 0.00019932873971993778,
      "loss": 1.9679,
      "step": 161
    },
    {
      "epoch": 0.0036,
      "grad_norm": 0.9357460737228394,
      "learning_rate": 0.00019932429428761947,
      "loss": 2.3933,
      "step": 162
    },
    {
      "epoch": 0.0036222222222222224,
      "grad_norm": 0.8855668902397156,
      "learning_rate": 0.0001993198488553012,
      "loss": 1.9916,
      "step": 163
    },
    {
      "epoch": 0.0036444444444444445,
      "grad_norm": 0.9187053442001343,
      "learning_rate": 0.00019931540342298288,
      "loss": 2.0824,
      "step": 164
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 1.1022460460662842,
      "learning_rate": 0.0001993109579906646,
      "loss": 2.568,
      "step": 165
    },
    {
      "epoch": 0.0036888888888888887,
      "grad_norm": 0.9649732708930969,
      "learning_rate": 0.0001993065125583463,
      "loss": 2.2971,
      "step": 166
    },
    {
      "epoch": 0.003711111111111111,
      "grad_norm": 1.0184253454208374,
      "learning_rate": 0.000199302067126028,
      "loss": 1.7719,
      "step": 167
    },
    {
      "epoch": 0.0037333333333333333,
      "grad_norm": 0.9337177872657776,
      "learning_rate": 0.00019929762169370972,
      "loss": 2.2636,
      "step": 168
    },
    {
      "epoch": 0.0037555555555555554,
      "grad_norm": 1.0286427736282349,
      "learning_rate": 0.00019929317626139143,
      "loss": 2.2228,
      "step": 169
    },
    {
      "epoch": 0.003777777777777778,
      "grad_norm": 1.1010359525680542,
      "learning_rate": 0.00019928873082907314,
      "loss": 2.1194,
      "step": 170
    },
    {
      "epoch": 0.0038,
      "grad_norm": 0.9902762174606323,
      "learning_rate": 0.00019928428539675482,
      "loss": 2.0477,
      "step": 171
    },
    {
      "epoch": 0.003822222222222222,
      "grad_norm": 1.027158498764038,
      "learning_rate": 0.00019927983996443656,
      "loss": 2.2227,
      "step": 172
    },
    {
      "epoch": 0.0038444444444444446,
      "grad_norm": 1.1360422372817993,
      "learning_rate": 0.00019927539453211824,
      "loss": 2.1383,
      "step": 173
    },
    {
      "epoch": 0.0038666666666666667,
      "grad_norm": 1.079567790031433,
      "learning_rate": 0.00019927094909979998,
      "loss": 2.0045,
      "step": 174
    },
    {
      "epoch": 0.0038888888888888888,
      "grad_norm": 1.1772125959396362,
      "learning_rate": 0.00019926650366748166,
      "loss": 2.391,
      "step": 175
    },
    {
      "epoch": 0.003911111111111111,
      "grad_norm": 1.141251564025879,
      "learning_rate": 0.00019926205823516337,
      "loss": 2.3594,
      "step": 176
    },
    {
      "epoch": 0.003933333333333333,
      "grad_norm": 1.1975033283233643,
      "learning_rate": 0.00019925761280284508,
      "loss": 2.3618,
      "step": 177
    },
    {
      "epoch": 0.003955555555555556,
      "grad_norm": 1.1129261255264282,
      "learning_rate": 0.0001992531673705268,
      "loss": 2.2306,
      "step": 178
    },
    {
      "epoch": 0.003977777777777778,
      "grad_norm": 1.1002864837646484,
      "learning_rate": 0.0001992487219382085,
      "loss": 1.8381,
      "step": 179
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.1377021074295044,
      "learning_rate": 0.0001992442765058902,
      "loss": 2.0356,
      "step": 180
    },
    {
      "epoch": 0.004022222222222222,
      "grad_norm": 1.4153897762298584,
      "learning_rate": 0.00019923983107357192,
      "loss": 2.7178,
      "step": 181
    },
    {
      "epoch": 0.004044444444444444,
      "grad_norm": 1.2157433032989502,
      "learning_rate": 0.0001992353856412536,
      "loss": 2.4506,
      "step": 182
    },
    {
      "epoch": 0.004066666666666666,
      "grad_norm": 0.9832949638366699,
      "learning_rate": 0.00019923094020893534,
      "loss": 1.741,
      "step": 183
    },
    {
      "epoch": 0.004088888888888889,
      "grad_norm": 1.001465916633606,
      "learning_rate": 0.00019922649477661702,
      "loss": 2.0157,
      "step": 184
    },
    {
      "epoch": 0.004111111111111111,
      "grad_norm": 1.265584945678711,
      "learning_rate": 0.00019922204934429873,
      "loss": 1.9393,
      "step": 185
    },
    {
      "epoch": 0.0041333333333333335,
      "grad_norm": 0.9340965747833252,
      "learning_rate": 0.00019921760391198044,
      "loss": 1.5743,
      "step": 186
    },
    {
      "epoch": 0.0041555555555555556,
      "grad_norm": 1.1283515691757202,
      "learning_rate": 0.00019921315847966215,
      "loss": 2.1761,
      "step": 187
    },
    {
      "epoch": 0.004177777777777778,
      "grad_norm": 1.1578409671783447,
      "learning_rate": 0.00019920871304734386,
      "loss": 1.9808,
      "step": 188
    },
    {
      "epoch": 0.0042,
      "grad_norm": 1.1886849403381348,
      "learning_rate": 0.00019920426761502557,
      "loss": 2.0558,
      "step": 189
    },
    {
      "epoch": 0.004222222222222222,
      "grad_norm": 1.1597763299942017,
      "learning_rate": 0.00019919982218270728,
      "loss": 1.7477,
      "step": 190
    },
    {
      "epoch": 0.004244444444444445,
      "grad_norm": 1.3805791139602661,
      "learning_rate": 0.000199195376750389,
      "loss": 2.417,
      "step": 191
    },
    {
      "epoch": 0.004266666666666667,
      "grad_norm": 1.0003913640975952,
      "learning_rate": 0.0001991909313180707,
      "loss": 1.6218,
      "step": 192
    },
    {
      "epoch": 0.004288888888888889,
      "grad_norm": 1.3551957607269287,
      "learning_rate": 0.00019918648588575238,
      "loss": 1.9898,
      "step": 193
    },
    {
      "epoch": 0.004311111111111111,
      "grad_norm": 1.1434892416000366,
      "learning_rate": 0.00019918204045343412,
      "loss": 1.9191,
      "step": 194
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 1.4276580810546875,
      "learning_rate": 0.00019917759502111583,
      "loss": 2.6117,
      "step": 195
    },
    {
      "epoch": 0.004355555555555555,
      "grad_norm": 1.2569234371185303,
      "learning_rate": 0.0001991731495887975,
      "loss": 2.3478,
      "step": 196
    },
    {
      "epoch": 0.004377777777777778,
      "grad_norm": 1.2063052654266357,
      "learning_rate": 0.00019916870415647925,
      "loss": 1.7194,
      "step": 197
    },
    {
      "epoch": 0.0044,
      "grad_norm": 1.2578668594360352,
      "learning_rate": 0.00019916425872416093,
      "loss": 1.8399,
      "step": 198
    },
    {
      "epoch": 0.004422222222222222,
      "grad_norm": 1.3557889461517334,
      "learning_rate": 0.00019915981329184264,
      "loss": 1.7986,
      "step": 199
    },
    {
      "epoch": 0.0044444444444444444,
      "grad_norm": 1.1643545627593994,
      "learning_rate": 0.00019915536785952435,
      "loss": 0.9736,
      "step": 200
    },
    {
      "epoch": 0.0044666666666666665,
      "grad_norm": 0.8325818777084351,
      "learning_rate": 0.00019915092242720606,
      "loss": 2.4007,
      "step": 201
    },
    {
      "epoch": 0.004488888888888889,
      "grad_norm": 0.8650193810462952,
      "learning_rate": 0.00019914647699488774,
      "loss": 2.5101,
      "step": 202
    },
    {
      "epoch": 0.004511111111111111,
      "grad_norm": 0.9151462912559509,
      "learning_rate": 0.00019914203156256948,
      "loss": 2.5409,
      "step": 203
    },
    {
      "epoch": 0.004533333333333334,
      "grad_norm": 0.9534851312637329,
      "learning_rate": 0.0001991375861302512,
      "loss": 2.5584,
      "step": 204
    },
    {
      "epoch": 0.004555555555555556,
      "grad_norm": 1.0231379270553589,
      "learning_rate": 0.00019913314069793287,
      "loss": 2.6602,
      "step": 205
    },
    {
      "epoch": 0.004577777777777778,
      "grad_norm": 0.9632158875465393,
      "learning_rate": 0.0001991286952656146,
      "loss": 2.6002,
      "step": 206
    },
    {
      "epoch": 0.0046,
      "grad_norm": 1.0429253578186035,
      "learning_rate": 0.0001991242498332963,
      "loss": 2.6089,
      "step": 207
    },
    {
      "epoch": 0.004622222222222222,
      "grad_norm": 0.9749168753623962,
      "learning_rate": 0.000199119804400978,
      "loss": 2.3811,
      "step": 208
    },
    {
      "epoch": 0.004644444444444444,
      "grad_norm": 0.9203815460205078,
      "learning_rate": 0.0001991153589686597,
      "loss": 2.1381,
      "step": 209
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 0.9455024600028992,
      "learning_rate": 0.00019911091353634142,
      "loss": 2.146,
      "step": 210
    },
    {
      "epoch": 0.004688888888888889,
      "grad_norm": 0.9243069291114807,
      "learning_rate": 0.00019910646810402313,
      "loss": 2.1003,
      "step": 211
    },
    {
      "epoch": 0.004711111111111111,
      "grad_norm": 1.0209660530090332,
      "learning_rate": 0.00019910202267170484,
      "loss": 2.071,
      "step": 212
    },
    {
      "epoch": 0.004733333333333333,
      "grad_norm": 1.012393593788147,
      "learning_rate": 0.00019909757723938655,
      "loss": 2.2602,
      "step": 213
    },
    {
      "epoch": 0.004755555555555555,
      "grad_norm": 0.9024783372879028,
      "learning_rate": 0.00019909313180706826,
      "loss": 2.0416,
      "step": 214
    },
    {
      "epoch": 0.0047777777777777775,
      "grad_norm": 0.9131224155426025,
      "learning_rate": 0.00019908868637474997,
      "loss": 2.0136,
      "step": 215
    },
    {
      "epoch": 0.0048,
      "grad_norm": 1.0129530429840088,
      "learning_rate": 0.00019908424094243165,
      "loss": 2.1961,
      "step": 216
    },
    {
      "epoch": 0.0048222222222222225,
      "grad_norm": 1.032002568244934,
      "learning_rate": 0.00019907979551011339,
      "loss": 2.4571,
      "step": 217
    },
    {
      "epoch": 0.004844444444444445,
      "grad_norm": 1.0772045850753784,
      "learning_rate": 0.00019907535007779507,
      "loss": 2.4692,
      "step": 218
    },
    {
      "epoch": 0.004866666666666667,
      "grad_norm": 1.191462516784668,
      "learning_rate": 0.00019907090464547678,
      "loss": 2.4173,
      "step": 219
    },
    {
      "epoch": 0.004888888888888889,
      "grad_norm": 0.932000458240509,
      "learning_rate": 0.0001990664592131585,
      "loss": 1.8604,
      "step": 220
    },
    {
      "epoch": 0.004911111111111111,
      "grad_norm": 0.981555163860321,
      "learning_rate": 0.0001990620137808402,
      "loss": 2.0899,
      "step": 221
    },
    {
      "epoch": 0.004933333333333333,
      "grad_norm": 1.1891900300979614,
      "learning_rate": 0.0001990575683485219,
      "loss": 2.5571,
      "step": 222
    },
    {
      "epoch": 0.004955555555555556,
      "grad_norm": 1.1692445278167725,
      "learning_rate": 0.00019905312291620362,
      "loss": 2.5805,
      "step": 223
    },
    {
      "epoch": 0.004977777777777778,
      "grad_norm": 1.0407524108886719,
      "learning_rate": 0.00019904867748388533,
      "loss": 2.2875,
      "step": 224
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.0695056915283203,
      "learning_rate": 0.000199044232051567,
      "loss": 2.0416,
      "step": 225
    },
    {
      "epoch": 0.005022222222222222,
      "grad_norm": 1.0115299224853516,
      "learning_rate": 0.00019903978661924875,
      "loss": 1.7508,
      "step": 226
    },
    {
      "epoch": 0.005044444444444444,
      "grad_norm": 1.1566762924194336,
      "learning_rate": 0.00019903534118693043,
      "loss": 2.4423,
      "step": 227
    },
    {
      "epoch": 0.005066666666666666,
      "grad_norm": 0.9989776015281677,
      "learning_rate": 0.00019903089575461216,
      "loss": 2.151,
      "step": 228
    },
    {
      "epoch": 0.005088888888888889,
      "grad_norm": 1.2262234687805176,
      "learning_rate": 0.00019902645032229385,
      "loss": 2.2061,
      "step": 229
    },
    {
      "epoch": 0.005111111111111111,
      "grad_norm": 1.2781702280044556,
      "learning_rate": 0.00019902200488997556,
      "loss": 2.2511,
      "step": 230
    },
    {
      "epoch": 0.0051333333333333335,
      "grad_norm": 1.030868411064148,
      "learning_rate": 0.00019901755945765727,
      "loss": 1.8807,
      "step": 231
    },
    {
      "epoch": 0.005155555555555556,
      "grad_norm": 1.1099014282226562,
      "learning_rate": 0.00019901311402533898,
      "loss": 1.851,
      "step": 232
    },
    {
      "epoch": 0.005177777777777778,
      "grad_norm": 1.1968982219696045,
      "learning_rate": 0.00019900866859302069,
      "loss": 2.3074,
      "step": 233
    },
    {
      "epoch": 0.0052,
      "grad_norm": 4.037053108215332,
      "learning_rate": 0.0001990042231607024,
      "loss": 1.2435,
      "step": 234
    },
    {
      "epoch": 0.005222222222222222,
      "grad_norm": 1.3485006093978882,
      "learning_rate": 0.0001989997777283841,
      "loss": 2.6664,
      "step": 235
    },
    {
      "epoch": 0.005244444444444445,
      "grad_norm": 1.3291981220245361,
      "learning_rate": 0.0001989953322960658,
      "loss": 2.6971,
      "step": 236
    },
    {
      "epoch": 0.005266666666666667,
      "grad_norm": 1.1521776914596558,
      "learning_rate": 0.00019899088686374752,
      "loss": 1.7944,
      "step": 237
    },
    {
      "epoch": 0.005288888888888889,
      "grad_norm": 1.2484724521636963,
      "learning_rate": 0.0001989864414314292,
      "loss": 2.0471,
      "step": 238
    },
    {
      "epoch": 0.005311111111111111,
      "grad_norm": 1.1432991027832031,
      "learning_rate": 0.00019898199599911092,
      "loss": 1.7747,
      "step": 239
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.2061238288879395,
      "learning_rate": 0.00019897755056679263,
      "loss": 2.0491,
      "step": 240
    },
    {
      "epoch": 0.005355555555555555,
      "grad_norm": 1.239780068397522,
      "learning_rate": 0.00019897310513447434,
      "loss": 1.9352,
      "step": 241
    },
    {
      "epoch": 0.005377777777777778,
      "grad_norm": 1.127219319343567,
      "learning_rate": 0.00019896865970215604,
      "loss": 1.8506,
      "step": 242
    },
    {
      "epoch": 0.0054,
      "grad_norm": 1.2166545391082764,
      "learning_rate": 0.00019896421426983775,
      "loss": 1.9212,
      "step": 243
    },
    {
      "epoch": 0.005422222222222222,
      "grad_norm": 1.2617690563201904,
      "learning_rate": 0.00019895976883751946,
      "loss": 2.2364,
      "step": 244
    },
    {
      "epoch": 0.0054444444444444445,
      "grad_norm": 1.1415480375289917,
      "learning_rate": 0.00019895532340520115,
      "loss": 1.6936,
      "step": 245
    },
    {
      "epoch": 0.0054666666666666665,
      "grad_norm": 1.3354425430297852,
      "learning_rate": 0.00019895087797288288,
      "loss": 2.2787,
      "step": 246
    },
    {
      "epoch": 0.005488888888888889,
      "grad_norm": 1.2059561014175415,
      "learning_rate": 0.00019894643254056457,
      "loss": 1.8052,
      "step": 247
    },
    {
      "epoch": 0.005511111111111111,
      "grad_norm": 1.4655388593673706,
      "learning_rate": 0.0001989419871082463,
      "loss": 2.0077,
      "step": 248
    },
    {
      "epoch": 0.005533333333333334,
      "grad_norm": 1.3460962772369385,
      "learning_rate": 0.00019893754167592799,
      "loss": 1.5681,
      "step": 249
    },
    {
      "epoch": 0.005555555555555556,
      "grad_norm": 1.3929909467697144,
      "learning_rate": 0.0001989330962436097,
      "loss": 1.0755,
      "step": 250
    },
    {
      "epoch": 0.005577777777777778,
      "grad_norm": 0.882461667060852,
      "learning_rate": 0.0001989286508112914,
      "loss": 2.3571,
      "step": 251
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.8160984516143799,
      "learning_rate": 0.00019892420537897311,
      "loss": 2.1735,
      "step": 252
    },
    {
      "epoch": 0.005622222222222222,
      "grad_norm": 0.960930585861206,
      "learning_rate": 0.00019891975994665482,
      "loss": 2.6054,
      "step": 253
    },
    {
      "epoch": 0.005644444444444444,
      "grad_norm": 0.8251810669898987,
      "learning_rate": 0.00019891531451433653,
      "loss": 2.0065,
      "step": 254
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 1.0334161520004272,
      "learning_rate": 0.00019891086908201824,
      "loss": 2.6611,
      "step": 255
    },
    {
      "epoch": 0.005688888888888889,
      "grad_norm": 0.842257559299469,
      "learning_rate": 0.00019890642364969993,
      "loss": 2.4828,
      "step": 256
    },
    {
      "epoch": 0.005711111111111111,
      "grad_norm": 0.9164858460426331,
      "learning_rate": 0.00019890197821738166,
      "loss": 2.1206,
      "step": 257
    },
    {
      "epoch": 0.005733333333333333,
      "grad_norm": 0.9651452898979187,
      "learning_rate": 0.00019889753278506334,
      "loss": 2.4083,
      "step": 258
    },
    {
      "epoch": 0.005755555555555555,
      "grad_norm": 0.9866958260536194,
      "learning_rate": 0.00019889308735274505,
      "loss": 2.1013,
      "step": 259
    },
    {
      "epoch": 0.0057777777777777775,
      "grad_norm": 1.070527195930481,
      "learning_rate": 0.00019888864192042676,
      "loss": 2.2968,
      "step": 260
    },
    {
      "epoch": 0.0058,
      "grad_norm": 0.9571377038955688,
      "learning_rate": 0.00019888419648810847,
      "loss": 2.1576,
      "step": 261
    },
    {
      "epoch": 0.0058222222222222226,
      "grad_norm": 0.9992108345031738,
      "learning_rate": 0.00019887975105579018,
      "loss": 2.2888,
      "step": 262
    },
    {
      "epoch": 0.005844444444444445,
      "grad_norm": 1.1087584495544434,
      "learning_rate": 0.0001988753056234719,
      "loss": 2.5346,
      "step": 263
    },
    {
      "epoch": 0.005866666666666667,
      "grad_norm": 0.9204451441764832,
      "learning_rate": 0.0001988708601911536,
      "loss": 2.1632,
      "step": 264
    },
    {
      "epoch": 0.005888888888888889,
      "grad_norm": 1.0632692575454712,
      "learning_rate": 0.00019886641475883528,
      "loss": 2.0163,
      "step": 265
    },
    {
      "epoch": 0.005911111111111111,
      "grad_norm": 0.8824703693389893,
      "learning_rate": 0.00019886196932651702,
      "loss": 2.1842,
      "step": 266
    },
    {
      "epoch": 0.005933333333333333,
      "grad_norm": 0.9968849420547485,
      "learning_rate": 0.0001988575238941987,
      "loss": 1.759,
      "step": 267
    },
    {
      "epoch": 0.005955555555555556,
      "grad_norm": 0.8787574768066406,
      "learning_rate": 0.00019885307846188044,
      "loss": 1.9331,
      "step": 268
    },
    {
      "epoch": 0.005977777777777778,
      "grad_norm": 0.9968923926353455,
      "learning_rate": 0.00019884863302956215,
      "loss": 2.1228,
      "step": 269
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.0544264316558838,
      "learning_rate": 0.00019884418759724383,
      "loss": 2.2878,
      "step": 270
    },
    {
      "epoch": 0.006022222222222222,
      "grad_norm": 1.1249428987503052,
      "learning_rate": 0.00019883974216492557,
      "loss": 2.7626,
      "step": 271
    },
    {
      "epoch": 0.006044444444444444,
      "grad_norm": 1.0347892045974731,
      "learning_rate": 0.00019883529673260725,
      "loss": 2.0306,
      "step": 272
    },
    {
      "epoch": 0.006066666666666666,
      "grad_norm": 1.2068800926208496,
      "learning_rate": 0.00019883085130028896,
      "loss": 2.2855,
      "step": 273
    },
    {
      "epoch": 0.0060888888888888885,
      "grad_norm": 1.149796485900879,
      "learning_rate": 0.00019882640586797067,
      "loss": 2.152,
      "step": 274
    },
    {
      "epoch": 0.006111111111111111,
      "grad_norm": 1.0143542289733887,
      "learning_rate": 0.00019882196043565238,
      "loss": 2.0048,
      "step": 275
    },
    {
      "epoch": 0.0061333333333333335,
      "grad_norm": 1.0721570253372192,
      "learning_rate": 0.00019881751500333406,
      "loss": 1.7903,
      "step": 276
    },
    {
      "epoch": 0.006155555555555556,
      "grad_norm": 1.0670387744903564,
      "learning_rate": 0.0001988130695710158,
      "loss": 2.0941,
      "step": 277
    },
    {
      "epoch": 0.006177777777777778,
      "grad_norm": 1.0809588432312012,
      "learning_rate": 0.0001988086241386975,
      "loss": 1.9082,
      "step": 278
    },
    {
      "epoch": 0.0062,
      "grad_norm": 1.0367165803909302,
      "learning_rate": 0.0001988041787063792,
      "loss": 2.0686,
      "step": 279
    },
    {
      "epoch": 0.006222222222222222,
      "grad_norm": 1.156284213066101,
      "learning_rate": 0.00019879973327406093,
      "loss": 1.902,
      "step": 280
    },
    {
      "epoch": 0.006244444444444445,
      "grad_norm": 1.3220890760421753,
      "learning_rate": 0.0001987952878417426,
      "loss": 2.62,
      "step": 281
    },
    {
      "epoch": 0.006266666666666667,
      "grad_norm": 1.1455974578857422,
      "learning_rate": 0.00019879084240942432,
      "loss": 1.9175,
      "step": 282
    },
    {
      "epoch": 0.006288888888888889,
      "grad_norm": 0.9246114492416382,
      "learning_rate": 0.00019878639697710603,
      "loss": 1.3599,
      "step": 283
    },
    {
      "epoch": 0.006311111111111111,
      "grad_norm": 1.1708238124847412,
      "learning_rate": 0.00019878195154478774,
      "loss": 1.9443,
      "step": 284
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 1.157710313796997,
      "learning_rate": 0.00019877750611246945,
      "loss": 2.2282,
      "step": 285
    },
    {
      "epoch": 0.006355555555555555,
      "grad_norm": 1.285626769065857,
      "learning_rate": 0.00019877306068015116,
      "loss": 2.1003,
      "step": 286
    },
    {
      "epoch": 0.006377777777777777,
      "grad_norm": 1.0390872955322266,
      "learning_rate": 0.00019876861524783287,
      "loss": 1.8012,
      "step": 287
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.1510474681854248,
      "learning_rate": 0.00019876416981551458,
      "loss": 2.1254,
      "step": 288
    },
    {
      "epoch": 0.006422222222222222,
      "grad_norm": 1.3641140460968018,
      "learning_rate": 0.0001987597243831963,
      "loss": 2.3282,
      "step": 289
    },
    {
      "epoch": 0.0064444444444444445,
      "grad_norm": 1.0441592931747437,
      "learning_rate": 0.00019875527895087797,
      "loss": 1.7094,
      "step": 290
    },
    {
      "epoch": 0.006466666666666667,
      "grad_norm": 1.1648244857788086,
      "learning_rate": 0.0001987508335185597,
      "loss": 2.133,
      "step": 291
    },
    {
      "epoch": 0.006488888888888889,
      "grad_norm": 1.0608255863189697,
      "learning_rate": 0.0001987463880862414,
      "loss": 2.0179,
      "step": 292
    },
    {
      "epoch": 0.006511111111111111,
      "grad_norm": 1.0799864530563354,
      "learning_rate": 0.0001987419426539231,
      "loss": 1.9634,
      "step": 293
    },
    {
      "epoch": 0.006533333333333334,
      "grad_norm": 1.2921239137649536,
      "learning_rate": 0.0001987374972216048,
      "loss": 2.4441,
      "step": 294
    },
    {
      "epoch": 0.006555555555555556,
      "grad_norm": 1.1664376258850098,
      "learning_rate": 0.00019873305178928652,
      "loss": 1.9942,
      "step": 295
    },
    {
      "epoch": 0.006577777777777778,
      "grad_norm": 1.1544493436813354,
      "learning_rate": 0.00019872860635696823,
      "loss": 1.8961,
      "step": 296
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.3305240869522095,
      "learning_rate": 0.00019872416092464994,
      "loss": 1.856,
      "step": 297
    },
    {
      "epoch": 0.006622222222222222,
      "grad_norm": 1.4333610534667969,
      "learning_rate": 0.00019871971549233165,
      "loss": 2.0938,
      "step": 298
    },
    {
      "epoch": 0.006644444444444444,
      "grad_norm": 1.2909725904464722,
      "learning_rate": 0.00019871527006001333,
      "loss": 1.6913,
      "step": 299
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 1.4358770847320557,
      "learning_rate": 0.00019871082462769507,
      "loss": 1.5876,
      "step": 300
    },
    {
      "epoch": 0.006688888888888889,
      "grad_norm": 0.8535404205322266,
      "learning_rate": 0.00019870637919537675,
      "loss": 1.9958,
      "step": 301
    },
    {
      "epoch": 0.006711111111111111,
      "grad_norm": 1.211012363433838,
      "learning_rate": 0.00019870193376305846,
      "loss": 2.779,
      "step": 302
    },
    {
      "epoch": 0.006733333333333333,
      "grad_norm": 1.0414246320724487,
      "learning_rate": 0.00019869748833074017,
      "loss": 2.8231,
      "step": 303
    },
    {
      "epoch": 0.0067555555555555554,
      "grad_norm": 1.2068099975585938,
      "learning_rate": 0.00019869304289842188,
      "loss": 1.6087,
      "step": 304
    },
    {
      "epoch": 0.0067777777777777775,
      "grad_norm": 0.9062244296073914,
      "learning_rate": 0.0001986885974661036,
      "loss": 2.0376,
      "step": 305
    },
    {
      "epoch": 0.0068,
      "grad_norm": 1.050722599029541,
      "learning_rate": 0.0001986841520337853,
      "loss": 2.4353,
      "step": 306
    },
    {
      "epoch": 0.006822222222222223,
      "grad_norm": 1.019980788230896,
      "learning_rate": 0.000198679706601467,
      "loss": 3.0914,
      "step": 307
    },
    {
      "epoch": 0.006844444444444445,
      "grad_norm": 1.0676994323730469,
      "learning_rate": 0.00019867526116914872,
      "loss": 2.7055,
      "step": 308
    },
    {
      "epoch": 0.006866666666666667,
      "grad_norm": 1.0136735439300537,
      "learning_rate": 0.00019867081573683043,
      "loss": 2.2563,
      "step": 309
    },
    {
      "epoch": 0.006888888888888889,
      "grad_norm": 1.0082719326019287,
      "learning_rate": 0.0001986663703045121,
      "loss": 2.1568,
      "step": 310
    },
    {
      "epoch": 0.006911111111111111,
      "grad_norm": 1.094128131866455,
      "learning_rate": 0.00019866192487219385,
      "loss": 2.389,
      "step": 311
    },
    {
      "epoch": 0.006933333333333333,
      "grad_norm": 1.003639817237854,
      "learning_rate": 0.00019865747943987553,
      "loss": 2.3295,
      "step": 312
    },
    {
      "epoch": 0.006955555555555556,
      "grad_norm": 1.0831363201141357,
      "learning_rate": 0.00019865303400755724,
      "loss": 2.0496,
      "step": 313
    },
    {
      "epoch": 0.006977777777777778,
      "grad_norm": 1.0065604448318481,
      "learning_rate": 0.00019864858857523895,
      "loss": 2.1804,
      "step": 314
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.0352177619934082,
      "learning_rate": 0.00019864414314292066,
      "loss": 2.4527,
      "step": 315
    },
    {
      "epoch": 0.007022222222222222,
      "grad_norm": 1.0518782138824463,
      "learning_rate": 0.00019863969771060237,
      "loss": 2.3495,
      "step": 316
    },
    {
      "epoch": 0.007044444444444444,
      "grad_norm": 1.220797061920166,
      "learning_rate": 0.00019863525227828408,
      "loss": 2.4,
      "step": 317
    },
    {
      "epoch": 0.007066666666666666,
      "grad_norm": 1.1383063793182373,
      "learning_rate": 0.00019863080684596579,
      "loss": 2.4244,
      "step": 318
    },
    {
      "epoch": 0.0070888888888888885,
      "grad_norm": 1.526397943496704,
      "learning_rate": 0.00019862636141364747,
      "loss": 1.7485,
      "step": 319
    },
    {
      "epoch": 0.0071111111111111115,
      "grad_norm": 1.0949018001556396,
      "learning_rate": 0.0001986219159813292,
      "loss": 1.9363,
      "step": 320
    },
    {
      "epoch": 0.0071333333333333335,
      "grad_norm": 1.0451679229736328,
      "learning_rate": 0.0001986174705490109,
      "loss": 1.9554,
      "step": 321
    },
    {
      "epoch": 0.007155555555555556,
      "grad_norm": 1.0854243040084839,
      "learning_rate": 0.0001986130251166926,
      "loss": 2.1951,
      "step": 322
    },
    {
      "epoch": 0.007177777777777778,
      "grad_norm": 1.0035200119018555,
      "learning_rate": 0.0001986085796843743,
      "loss": 1.6209,
      "step": 323
    },
    {
      "epoch": 0.0072,
      "grad_norm": 1.0116002559661865,
      "learning_rate": 0.00019860413425205602,
      "loss": 1.7879,
      "step": 324
    },
    {
      "epoch": 0.007222222222222222,
      "grad_norm": 1.1284961700439453,
      "learning_rate": 0.00019859968881973773,
      "loss": 2.0992,
      "step": 325
    },
    {
      "epoch": 0.007244444444444445,
      "grad_norm": 1.320739984512329,
      "learning_rate": 0.00019859524338741944,
      "loss": 2.3344,
      "step": 326
    },
    {
      "epoch": 0.007266666666666667,
      "grad_norm": 1.277235507965088,
      "learning_rate": 0.00019859079795510115,
      "loss": 2.425,
      "step": 327
    },
    {
      "epoch": 0.007288888888888889,
      "grad_norm": 1.2710049152374268,
      "learning_rate": 0.00019858635252278286,
      "loss": 2.4202,
      "step": 328
    },
    {
      "epoch": 0.007311111111111111,
      "grad_norm": 1.2284647226333618,
      "learning_rate": 0.00019858190709046456,
      "loss": 2.1545,
      "step": 329
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 1.0845654010772705,
      "learning_rate": 0.00019857746165814625,
      "loss": 2.2328,
      "step": 330
    },
    {
      "epoch": 0.007355555555555555,
      "grad_norm": 1.2547738552093506,
      "learning_rate": 0.00019857301622582798,
      "loss": 2.133,
      "step": 331
    },
    {
      "epoch": 0.007377777777777777,
      "grad_norm": 1.1611700057983398,
      "learning_rate": 0.00019856857079350967,
      "loss": 2.0966,
      "step": 332
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.2430363893508911,
      "learning_rate": 0.00019856412536119138,
      "loss": 2.4461,
      "step": 333
    },
    {
      "epoch": 0.007422222222222222,
      "grad_norm": 1.3478891849517822,
      "learning_rate": 0.00019855967992887309,
      "loss": 2.933,
      "step": 334
    },
    {
      "epoch": 0.0074444444444444445,
      "grad_norm": 1.0155457258224487,
      "learning_rate": 0.0001985552344965548,
      "loss": 1.592,
      "step": 335
    },
    {
      "epoch": 0.007466666666666667,
      "grad_norm": 1.3190248012542725,
      "learning_rate": 0.0001985507890642365,
      "loss": 2.4571,
      "step": 336
    },
    {
      "epoch": 0.007488888888888889,
      "grad_norm": 1.029272437095642,
      "learning_rate": 0.00019854634363191821,
      "loss": 1.934,
      "step": 337
    },
    {
      "epoch": 0.007511111111111111,
      "grad_norm": 1.2280033826828003,
      "learning_rate": 0.00019854189819959992,
      "loss": 2.1479,
      "step": 338
    },
    {
      "epoch": 0.007533333333333334,
      "grad_norm": 1.4739404916763306,
      "learning_rate": 0.0001985374527672816,
      "loss": 2.152,
      "step": 339
    },
    {
      "epoch": 0.007555555555555556,
      "grad_norm": 1.1608688831329346,
      "learning_rate": 0.00019853300733496334,
      "loss": 1.92,
      "step": 340
    },
    {
      "epoch": 0.007577777777777778,
      "grad_norm": 1.4820302724838257,
      "learning_rate": 0.00019852856190264503,
      "loss": 2.2862,
      "step": 341
    },
    {
      "epoch": 0.0076,
      "grad_norm": 1.1243106126785278,
      "learning_rate": 0.00019852411647032676,
      "loss": 1.8865,
      "step": 342
    },
    {
      "epoch": 0.007622222222222222,
      "grad_norm": 1.044349193572998,
      "learning_rate": 0.00019851967103800847,
      "loss": 1.8475,
      "step": 343
    },
    {
      "epoch": 0.007644444444444444,
      "grad_norm": 1.279213309288025,
      "learning_rate": 0.00019851522560569015,
      "loss": 1.9203,
      "step": 344
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.4509048461914062,
      "learning_rate": 0.0001985107801733719,
      "loss": 2.2009,
      "step": 345
    },
    {
      "epoch": 0.007688888888888889,
      "grad_norm": 1.2652575969696045,
      "learning_rate": 0.00019850633474105357,
      "loss": 1.904,
      "step": 346
    },
    {
      "epoch": 0.007711111111111111,
      "grad_norm": 1.2127101421356201,
      "learning_rate": 0.00019850188930873528,
      "loss": 1.9152,
      "step": 347
    },
    {
      "epoch": 0.007733333333333333,
      "grad_norm": 1.404150128364563,
      "learning_rate": 0.000198497443876417,
      "loss": 1.9976,
      "step": 348
    },
    {
      "epoch": 0.0077555555555555555,
      "grad_norm": 1.2537544965744019,
      "learning_rate": 0.0001984929984440987,
      "loss": 2.0656,
      "step": 349
    },
    {
      "epoch": 0.0077777777777777776,
      "grad_norm": 1.3624613285064697,
      "learning_rate": 0.00019848855301178039,
      "loss": 1.1099,
      "step": 350
    },
    {
      "epoch": 0.0078,
      "grad_norm": 0.81158047914505,
      "learning_rate": 0.00019848410757946212,
      "loss": 1.8968,
      "step": 351
    },
    {
      "epoch": 0.007822222222222222,
      "grad_norm": 0.880883514881134,
      "learning_rate": 0.00019847966214714383,
      "loss": 1.9325,
      "step": 352
    },
    {
      "epoch": 0.007844444444444444,
      "grad_norm": 0.8987894058227539,
      "learning_rate": 0.00019847521671482551,
      "loss": 2.2298,
      "step": 353
    },
    {
      "epoch": 0.007866666666666666,
      "grad_norm": 1.0311617851257324,
      "learning_rate": 0.00019847077128250725,
      "loss": 2.3218,
      "step": 354
    },
    {
      "epoch": 0.00788888888888889,
      "grad_norm": 0.8493891954421997,
      "learning_rate": 0.00019846632585018893,
      "loss": 1.7183,
      "step": 355
    },
    {
      "epoch": 0.007911111111111112,
      "grad_norm": 1.1851890087127686,
      "learning_rate": 0.00019846188041787064,
      "loss": 2.8064,
      "step": 356
    },
    {
      "epoch": 0.007933333333333334,
      "grad_norm": 1.2422465085983276,
      "learning_rate": 0.00019845743498555235,
      "loss": 2.3756,
      "step": 357
    },
    {
      "epoch": 0.007955555555555556,
      "grad_norm": 1.0323742628097534,
      "learning_rate": 0.00019845298955323406,
      "loss": 2.0961,
      "step": 358
    },
    {
      "epoch": 0.007977777777777778,
      "grad_norm": 1.067252278327942,
      "learning_rate": 0.00019844854412091575,
      "loss": 2.1538,
      "step": 359
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.0115009546279907,
      "learning_rate": 0.00019844409868859748,
      "loss": 2.3508,
      "step": 360
    },
    {
      "epoch": 0.008022222222222222,
      "grad_norm": 1.1757656335830688,
      "learning_rate": 0.0001984396532562792,
      "loss": 2.6968,
      "step": 361
    },
    {
      "epoch": 0.008044444444444444,
      "grad_norm": 1.1666429042816162,
      "learning_rate": 0.0001984352078239609,
      "loss": 2.6373,
      "step": 362
    },
    {
      "epoch": 0.008066666666666666,
      "grad_norm": 1.017223596572876,
      "learning_rate": 0.0001984307623916426,
      "loss": 2.3417,
      "step": 363
    },
    {
      "epoch": 0.008088888888888889,
      "grad_norm": 1.0340126752853394,
      "learning_rate": 0.0001984263169593243,
      "loss": 2.1653,
      "step": 364
    },
    {
      "epoch": 0.00811111111111111,
      "grad_norm": 1.080710768699646,
      "learning_rate": 0.00019842187152700603,
      "loss": 2.0727,
      "step": 365
    },
    {
      "epoch": 0.008133333333333333,
      "grad_norm": 1.028197169303894,
      "learning_rate": 0.0001984174260946877,
      "loss": 2.2213,
      "step": 366
    },
    {
      "epoch": 0.008155555555555555,
      "grad_norm": 1.0855611562728882,
      "learning_rate": 0.00019841298066236942,
      "loss": 2.2509,
      "step": 367
    },
    {
      "epoch": 0.008177777777777779,
      "grad_norm": 1.209976315498352,
      "learning_rate": 0.00019840853523005113,
      "loss": 2.4916,
      "step": 368
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.2807508707046509,
      "learning_rate": 0.00019840408979773284,
      "loss": 2.5933,
      "step": 369
    },
    {
      "epoch": 0.008222222222222223,
      "grad_norm": 1.2134485244750977,
      "learning_rate": 0.00019839964436541455,
      "loss": 2.3836,
      "step": 370
    },
    {
      "epoch": 0.008244444444444445,
      "grad_norm": 1.2704893350601196,
      "learning_rate": 0.00019839519893309626,
      "loss": 2.2113,
      "step": 371
    },
    {
      "epoch": 0.008266666666666667,
      "grad_norm": 1.1323747634887695,
      "learning_rate": 0.00019839075350077797,
      "loss": 2.1391,
      "step": 372
    },
    {
      "epoch": 0.008288888888888889,
      "grad_norm": 1.337632417678833,
      "learning_rate": 0.00019838630806845965,
      "loss": 2.0809,
      "step": 373
    },
    {
      "epoch": 0.008311111111111111,
      "grad_norm": 1.1467673778533936,
      "learning_rate": 0.0001983818626361414,
      "loss": 2.1559,
      "step": 374
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 1.0973697900772095,
      "learning_rate": 0.00019837741720382307,
      "loss": 2.1691,
      "step": 375
    },
    {
      "epoch": 0.008355555555555555,
      "grad_norm": 1.081419825553894,
      "learning_rate": 0.00019837297177150478,
      "loss": 1.8748,
      "step": 376
    },
    {
      "epoch": 0.008377777777777777,
      "grad_norm": 1.1397238969802856,
      "learning_rate": 0.0001983685263391865,
      "loss": 2.4479,
      "step": 377
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.1830220222473145,
      "learning_rate": 0.0001983640809068682,
      "loss": 1.8428,
      "step": 378
    },
    {
      "epoch": 0.008422222222222222,
      "grad_norm": 1.1788650751113892,
      "learning_rate": 0.0001983596354745499,
      "loss": 2.3886,
      "step": 379
    },
    {
      "epoch": 0.008444444444444444,
      "grad_norm": 1.1691720485687256,
      "learning_rate": 0.00019835519004223162,
      "loss": 2.1664,
      "step": 380
    },
    {
      "epoch": 0.008466666666666667,
      "grad_norm": 1.2139278650283813,
      "learning_rate": 0.00019835074460991333,
      "loss": 2.1289,
      "step": 381
    },
    {
      "epoch": 0.00848888888888889,
      "grad_norm": 1.1885567903518677,
      "learning_rate": 0.00019834629917759504,
      "loss": 2.1388,
      "step": 382
    },
    {
      "epoch": 0.008511111111111112,
      "grad_norm": 1.0878989696502686,
      "learning_rate": 0.00019834185374527675,
      "loss": 2.1997,
      "step": 383
    },
    {
      "epoch": 0.008533333333333334,
      "grad_norm": 1.1863476037979126,
      "learning_rate": 0.00019833740831295843,
      "loss": 2.0619,
      "step": 384
    },
    {
      "epoch": 0.008555555555555556,
      "grad_norm": 0.9970036149024963,
      "learning_rate": 0.00019833296288064017,
      "loss": 1.9043,
      "step": 385
    },
    {
      "epoch": 0.008577777777777778,
      "grad_norm": 1.1479637622833252,
      "learning_rate": 0.00019832851744832185,
      "loss": 2.0531,
      "step": 386
    },
    {
      "epoch": 0.0086,
      "grad_norm": 1.1556382179260254,
      "learning_rate": 0.00019832407201600356,
      "loss": 1.9609,
      "step": 387
    },
    {
      "epoch": 0.008622222222222222,
      "grad_norm": 1.0361340045928955,
      "learning_rate": 0.00019831962658368527,
      "loss": 1.5959,
      "step": 388
    },
    {
      "epoch": 0.008644444444444444,
      "grad_norm": 1.329168438911438,
      "learning_rate": 0.00019831518115136698,
      "loss": 1.99,
      "step": 389
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 0.9925628900527954,
      "learning_rate": 0.0001983107357190487,
      "loss": 1.8825,
      "step": 390
    },
    {
      "epoch": 0.008688888888888888,
      "grad_norm": 1.093542218208313,
      "learning_rate": 0.0001983062902867304,
      "loss": 1.9614,
      "step": 391
    },
    {
      "epoch": 0.00871111111111111,
      "grad_norm": 1.203778624534607,
      "learning_rate": 0.0001983018448544121,
      "loss": 1.9022,
      "step": 392
    },
    {
      "epoch": 0.008733333333333333,
      "grad_norm": 1.1799529790878296,
      "learning_rate": 0.0001982973994220938,
      "loss": 1.9502,
      "step": 393
    },
    {
      "epoch": 0.008755555555555556,
      "grad_norm": 1.216221570968628,
      "learning_rate": 0.00019829295398977553,
      "loss": 2.1193,
      "step": 394
    },
    {
      "epoch": 0.008777777777777778,
      "grad_norm": 0.9906027317047119,
      "learning_rate": 0.0001982885085574572,
      "loss": 1.383,
      "step": 395
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.2726753950119019,
      "learning_rate": 0.00019828406312513892,
      "loss": 2.2093,
      "step": 396
    },
    {
      "epoch": 0.008822222222222223,
      "grad_norm": 1.3959466218948364,
      "learning_rate": 0.00019827961769282063,
      "loss": 2.3859,
      "step": 397
    },
    {
      "epoch": 0.008844444444444445,
      "grad_norm": 1.1952037811279297,
      "learning_rate": 0.00019827517226050234,
      "loss": 1.1905,
      "step": 398
    },
    {
      "epoch": 0.008866666666666667,
      "grad_norm": 1.6015812158584595,
      "learning_rate": 0.00019827072682818405,
      "loss": 1.5636,
      "step": 399
    },
    {
      "epoch": 0.008888888888888889,
      "grad_norm": 1.3363481760025024,
      "learning_rate": 0.00019826628139586576,
      "loss": 1.2587,
      "step": 400
    },
    {
      "epoch": 0.008911111111111111,
      "grad_norm": 0.9448645710945129,
      "learning_rate": 0.00019826183596354747,
      "loss": 2.5974,
      "step": 401
    },
    {
      "epoch": 0.008933333333333333,
      "grad_norm": 1.0095126628875732,
      "learning_rate": 0.00019825739053122918,
      "loss": 1.7864,
      "step": 402
    },
    {
      "epoch": 0.008955555555555555,
      "grad_norm": 1.0201154947280884,
      "learning_rate": 0.0001982529450989109,
      "loss": 2.7348,
      "step": 403
    },
    {
      "epoch": 0.008977777777777777,
      "grad_norm": 1.1061842441558838,
      "learning_rate": 0.00019824849966659257,
      "loss": 2.3834,
      "step": 404
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9118261933326721,
      "learning_rate": 0.0001982440542342743,
      "loss": 1.836,
      "step": 405
    },
    {
      "epoch": 0.009022222222222221,
      "grad_norm": 1.0042697191238403,
      "learning_rate": 0.000198239608801956,
      "loss": 2.5867,
      "step": 406
    },
    {
      "epoch": 0.009044444444444445,
      "grad_norm": 1.1671693325042725,
      "learning_rate": 0.0001982351633696377,
      "loss": 2.6269,
      "step": 407
    },
    {
      "epoch": 0.009066666666666667,
      "grad_norm": 1.1431063413619995,
      "learning_rate": 0.0001982307179373194,
      "loss": 2.5555,
      "step": 408
    },
    {
      "epoch": 0.00908888888888889,
      "grad_norm": 0.8985481262207031,
      "learning_rate": 0.00019822627250500112,
      "loss": 1.936,
      "step": 409
    },
    {
      "epoch": 0.009111111111111111,
      "grad_norm": 0.9388520121574402,
      "learning_rate": 0.00019822182707268283,
      "loss": 2.1971,
      "step": 410
    },
    {
      "epoch": 0.009133333333333334,
      "grad_norm": 0.9923820495605469,
      "learning_rate": 0.00019821738164036454,
      "loss": 1.9397,
      "step": 411
    },
    {
      "epoch": 0.009155555555555556,
      "grad_norm": 1.0085341930389404,
      "learning_rate": 0.00019821293620804625,
      "loss": 2.4101,
      "step": 412
    },
    {
      "epoch": 0.009177777777777778,
      "grad_norm": 0.9523325562477112,
      "learning_rate": 0.00019820849077572793,
      "loss": 1.9858,
      "step": 413
    },
    {
      "epoch": 0.0092,
      "grad_norm": 1.1963249444961548,
      "learning_rate": 0.00019820404534340967,
      "loss": 2.3538,
      "step": 414
    },
    {
      "epoch": 0.009222222222222222,
      "grad_norm": 1.3541535139083862,
      "learning_rate": 0.00019819959991109135,
      "loss": 2.2814,
      "step": 415
    },
    {
      "epoch": 0.009244444444444444,
      "grad_norm": 1.0171335935592651,
      "learning_rate": 0.00019819515447877306,
      "loss": 2.2014,
      "step": 416
    },
    {
      "epoch": 0.009266666666666666,
      "grad_norm": 1.2136662006378174,
      "learning_rate": 0.0001981907090464548,
      "loss": 2.5623,
      "step": 417
    },
    {
      "epoch": 0.009288888888888888,
      "grad_norm": 1.0422919988632202,
      "learning_rate": 0.00019818626361413648,
      "loss": 2.2285,
      "step": 418
    },
    {
      "epoch": 0.00931111111111111,
      "grad_norm": 1.0269100666046143,
      "learning_rate": 0.00019818181818181821,
      "loss": 2.3557,
      "step": 419
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 1.1379530429840088,
      "learning_rate": 0.0001981773727494999,
      "loss": 2.4131,
      "step": 420
    },
    {
      "epoch": 0.009355555555555556,
      "grad_norm": 1.0211209058761597,
      "learning_rate": 0.0001981729273171816,
      "loss": 1.8259,
      "step": 421
    },
    {
      "epoch": 0.009377777777777778,
      "grad_norm": 1.1744202375411987,
      "learning_rate": 0.00019816848188486332,
      "loss": 2.3931,
      "step": 422
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.0835683345794678,
      "learning_rate": 0.00019816403645254503,
      "loss": 2.2542,
      "step": 423
    },
    {
      "epoch": 0.009422222222222222,
      "grad_norm": 1.0544909238815308,
      "learning_rate": 0.0001981595910202267,
      "loss": 2.4754,
      "step": 424
    },
    {
      "epoch": 0.009444444444444445,
      "grad_norm": 1.1325610876083374,
      "learning_rate": 0.00019815514558790844,
      "loss": 2.1238,
      "step": 425
    },
    {
      "epoch": 0.009466666666666667,
      "grad_norm": 1.1464831829071045,
      "learning_rate": 0.00019815070015559015,
      "loss": 2.2553,
      "step": 426
    },
    {
      "epoch": 0.009488888888888889,
      "grad_norm": 1.1274349689483643,
      "learning_rate": 0.00019814625472327184,
      "loss": 1.8174,
      "step": 427
    },
    {
      "epoch": 0.00951111111111111,
      "grad_norm": 1.0821290016174316,
      "learning_rate": 0.00019814180929095357,
      "loss": 1.6858,
      "step": 428
    },
    {
      "epoch": 0.009533333333333333,
      "grad_norm": 1.3764736652374268,
      "learning_rate": 0.00019813736385863526,
      "loss": 1.3461,
      "step": 429
    },
    {
      "epoch": 0.009555555555555555,
      "grad_norm": 1.249497652053833,
      "learning_rate": 0.00019813291842631697,
      "loss": 2.1228,
      "step": 430
    },
    {
      "epoch": 0.009577777777777777,
      "grad_norm": 1.2419813871383667,
      "learning_rate": 0.00019812847299399867,
      "loss": 2.1365,
      "step": 431
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.314886212348938,
      "learning_rate": 0.00019812402756168038,
      "loss": 2.2265,
      "step": 432
    },
    {
      "epoch": 0.009622222222222223,
      "grad_norm": 1.0927438735961914,
      "learning_rate": 0.00019811958212936207,
      "loss": 2.0217,
      "step": 433
    },
    {
      "epoch": 0.009644444444444445,
      "grad_norm": 1.2256649732589722,
      "learning_rate": 0.0001981151366970438,
      "loss": 2.2507,
      "step": 434
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 1.03929603099823,
      "learning_rate": 0.0001981106912647255,
      "loss": 1.9413,
      "step": 435
    },
    {
      "epoch": 0.00968888888888889,
      "grad_norm": 1.1300630569458008,
      "learning_rate": 0.0001981062458324072,
      "loss": 1.9357,
      "step": 436
    },
    {
      "epoch": 0.009711111111111111,
      "grad_norm": 1.2890658378601074,
      "learning_rate": 0.00019810180040008893,
      "loss": 2.3707,
      "step": 437
    },
    {
      "epoch": 0.009733333333333333,
      "grad_norm": 1.2537641525268555,
      "learning_rate": 0.00019809735496777062,
      "loss": 2.1404,
      "step": 438
    },
    {
      "epoch": 0.009755555555555556,
      "grad_norm": 1.3065662384033203,
      "learning_rate": 0.00019809290953545235,
      "loss": 1.8732,
      "step": 439
    },
    {
      "epoch": 0.009777777777777778,
      "grad_norm": 1.2419967651367188,
      "learning_rate": 0.00019808846410313403,
      "loss": 2.0917,
      "step": 440
    },
    {
      "epoch": 0.0098,
      "grad_norm": 1.2205204963684082,
      "learning_rate": 0.00019808401867081574,
      "loss": 1.8757,
      "step": 441
    },
    {
      "epoch": 0.009822222222222222,
      "grad_norm": 1.2660763263702393,
      "learning_rate": 0.00019807957323849745,
      "loss": 2.0742,
      "step": 442
    },
    {
      "epoch": 0.009844444444444444,
      "grad_norm": 1.4117144346237183,
      "learning_rate": 0.00019807512780617916,
      "loss": 2.214,
      "step": 443
    },
    {
      "epoch": 0.009866666666666666,
      "grad_norm": 1.4298971891403198,
      "learning_rate": 0.00019807068237386087,
      "loss": 2.3438,
      "step": 444
    },
    {
      "epoch": 0.009888888888888888,
      "grad_norm": 1.215808391571045,
      "learning_rate": 0.00019806623694154258,
      "loss": 1.895,
      "step": 445
    },
    {
      "epoch": 0.009911111111111112,
      "grad_norm": 1.3122926950454712,
      "learning_rate": 0.0001980617915092243,
      "loss": 2.0398,
      "step": 446
    },
    {
      "epoch": 0.009933333333333334,
      "grad_norm": 1.1686663627624512,
      "learning_rate": 0.00019805734607690597,
      "loss": 1.7546,
      "step": 447
    },
    {
      "epoch": 0.009955555555555556,
      "grad_norm": 1.2826588153839111,
      "learning_rate": 0.0001980529006445877,
      "loss": 1.5605,
      "step": 448
    },
    {
      "epoch": 0.009977777777777778,
      "grad_norm": 1.3911142349243164,
      "learning_rate": 0.0001980484552122694,
      "loss": 2.1493,
      "step": 449
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1573456525802612,
      "learning_rate": 0.0001980440097799511,
      "loss": 1.0559,
      "step": 450
    },
    {
      "epoch": 0.010022222222222222,
      "grad_norm": 0.9642929434776306,
      "learning_rate": 0.0001980395643476328,
      "loss": 2.429,
      "step": 451
    },
    {
      "epoch": 0.010044444444444444,
      "grad_norm": 1.0742043256759644,
      "learning_rate": 0.00019803511891531452,
      "loss": 2.8014,
      "step": 452
    },
    {
      "epoch": 0.010066666666666666,
      "grad_norm": 1.0266245603561401,
      "learning_rate": 0.00019803067348299623,
      "loss": 2.243,
      "step": 453
    },
    {
      "epoch": 0.010088888888888889,
      "grad_norm": 1.0255544185638428,
      "learning_rate": 0.00019802622805067794,
      "loss": 2.6152,
      "step": 454
    },
    {
      "epoch": 0.01011111111111111,
      "grad_norm": 1.0187287330627441,
      "learning_rate": 0.00019802178261835965,
      "loss": 2.5966,
      "step": 455
    },
    {
      "epoch": 0.010133333333333333,
      "grad_norm": 1.1178388595581055,
      "learning_rate": 0.00019801733718604136,
      "loss": 2.3659,
      "step": 456
    },
    {
      "epoch": 0.010155555555555555,
      "grad_norm": 0.8631261587142944,
      "learning_rate": 0.00019801289175372307,
      "loss": 2.3432,
      "step": 457
    },
    {
      "epoch": 0.010177777777777779,
      "grad_norm": 1.211785912513733,
      "learning_rate": 0.00019800844632140475,
      "loss": 3.0955,
      "step": 458
    },
    {
      "epoch": 0.0102,
      "grad_norm": 0.940540075302124,
      "learning_rate": 0.0001980040008890865,
      "loss": 2.066,
      "step": 459
    },
    {
      "epoch": 0.010222222222222223,
      "grad_norm": 1.0023077726364136,
      "learning_rate": 0.00019799955545676817,
      "loss": 2.7285,
      "step": 460
    },
    {
      "epoch": 0.010244444444444445,
      "grad_norm": 0.9289823174476624,
      "learning_rate": 0.00019799511002444988,
      "loss": 2.2766,
      "step": 461
    },
    {
      "epoch": 0.010266666666666667,
      "grad_norm": 1.1237691640853882,
      "learning_rate": 0.0001979906645921316,
      "loss": 2.2359,
      "step": 462
    },
    {
      "epoch": 0.010288888888888889,
      "grad_norm": 1.0011184215545654,
      "learning_rate": 0.0001979862191598133,
      "loss": 2.1984,
      "step": 463
    },
    {
      "epoch": 0.010311111111111111,
      "grad_norm": 1.146254301071167,
      "learning_rate": 0.000197981773727495,
      "loss": 2.2411,
      "step": 464
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.9433885812759399,
      "learning_rate": 0.00019797732829517672,
      "loss": 1.904,
      "step": 465
    },
    {
      "epoch": 0.010355555555555555,
      "grad_norm": 1.004146695137024,
      "learning_rate": 0.00019797288286285843,
      "loss": 2.2064,
      "step": 466
    },
    {
      "epoch": 0.010377777777777777,
      "grad_norm": 1.0210295915603638,
      "learning_rate": 0.0001979684374305401,
      "loss": 1.5308,
      "step": 467
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.9375552535057068,
      "learning_rate": 0.00019796399199822185,
      "loss": 1.8823,
      "step": 468
    },
    {
      "epoch": 0.010422222222222222,
      "grad_norm": 1.146342396736145,
      "learning_rate": 0.00019795954656590353,
      "loss": 2.1973,
      "step": 469
    },
    {
      "epoch": 0.010444444444444444,
      "grad_norm": 1.3529064655303955,
      "learning_rate": 0.00019795510113358524,
      "loss": 2.1686,
      "step": 470
    },
    {
      "epoch": 0.010466666666666668,
      "grad_norm": 1.20050847530365,
      "learning_rate": 0.00019795065570126695,
      "loss": 2.375,
      "step": 471
    },
    {
      "epoch": 0.01048888888888889,
      "grad_norm": 1.1357581615447998,
      "learning_rate": 0.00019794621026894866,
      "loss": 2.0837,
      "step": 472
    },
    {
      "epoch": 0.010511111111111112,
      "grad_norm": 1.2051777839660645,
      "learning_rate": 0.00019794176483663037,
      "loss": 2.2979,
      "step": 473
    },
    {
      "epoch": 0.010533333333333334,
      "grad_norm": 1.0995031595230103,
      "learning_rate": 0.00019793731940431208,
      "loss": 1.9967,
      "step": 474
    },
    {
      "epoch": 0.010555555555555556,
      "grad_norm": 0.9710855484008789,
      "learning_rate": 0.0001979328739719938,
      "loss": 1.8624,
      "step": 475
    },
    {
      "epoch": 0.010577777777777778,
      "grad_norm": 0.9975488781929016,
      "learning_rate": 0.0001979284285396755,
      "loss": 1.9911,
      "step": 476
    },
    {
      "epoch": 0.0106,
      "grad_norm": 1.172976016998291,
      "learning_rate": 0.0001979239831073572,
      "loss": 2.2303,
      "step": 477
    },
    {
      "epoch": 0.010622222222222222,
      "grad_norm": 1.2332903146743774,
      "learning_rate": 0.0001979195376750389,
      "loss": 2.0349,
      "step": 478
    },
    {
      "epoch": 0.010644444444444444,
      "grad_norm": 1.2118853330612183,
      "learning_rate": 0.00019791509224272063,
      "loss": 2.0179,
      "step": 479
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.274030327796936,
      "learning_rate": 0.0001979106468104023,
      "loss": 2.2792,
      "step": 480
    },
    {
      "epoch": 0.010688888888888888,
      "grad_norm": 1.137203335762024,
      "learning_rate": 0.00019790620137808402,
      "loss": 2.1596,
      "step": 481
    },
    {
      "epoch": 0.01071111111111111,
      "grad_norm": 1.1505786180496216,
      "learning_rate": 0.00019790175594576573,
      "loss": 2.1158,
      "step": 482
    },
    {
      "epoch": 0.010733333333333333,
      "grad_norm": 1.4947055578231812,
      "learning_rate": 0.00019789731051344744,
      "loss": 2.2569,
      "step": 483
    },
    {
      "epoch": 0.010755555555555556,
      "grad_norm": 1.2543015480041504,
      "learning_rate": 0.00019789286508112915,
      "loss": 2.5869,
      "step": 484
    },
    {
      "epoch": 0.010777777777777778,
      "grad_norm": 1.3077988624572754,
      "learning_rate": 0.00019788841964881086,
      "loss": 2.4492,
      "step": 485
    },
    {
      "epoch": 0.0108,
      "grad_norm": 1.2072759866714478,
      "learning_rate": 0.00019788397421649257,
      "loss": 1.8196,
      "step": 486
    },
    {
      "epoch": 0.010822222222222223,
      "grad_norm": 1.24198579788208,
      "learning_rate": 0.00019787952878417425,
      "loss": 1.8827,
      "step": 487
    },
    {
      "epoch": 0.010844444444444445,
      "grad_norm": 1.1785317659378052,
      "learning_rate": 0.000197875083351856,
      "loss": 2.1422,
      "step": 488
    },
    {
      "epoch": 0.010866666666666667,
      "grad_norm": 1.1350680589675903,
      "learning_rate": 0.00019787063791953767,
      "loss": 2.3487,
      "step": 489
    },
    {
      "epoch": 0.010888888888888889,
      "grad_norm": 1.1342957019805908,
      "learning_rate": 0.00019786619248721938,
      "loss": 2.0963,
      "step": 490
    },
    {
      "epoch": 0.010911111111111111,
      "grad_norm": 1.143448829650879,
      "learning_rate": 0.00019786174705490112,
      "loss": 1.944,
      "step": 491
    },
    {
      "epoch": 0.010933333333333333,
      "grad_norm": 1.3490346670150757,
      "learning_rate": 0.0001978573016225828,
      "loss": 2.3935,
      "step": 492
    },
    {
      "epoch": 0.010955555555555555,
      "grad_norm": 1.3346196413040161,
      "learning_rate": 0.0001978528561902645,
      "loss": 1.898,
      "step": 493
    },
    {
      "epoch": 0.010977777777777777,
      "grad_norm": 1.2539373636245728,
      "learning_rate": 0.00019784841075794622,
      "loss": 1.9348,
      "step": 494
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.1212438344955444,
      "learning_rate": 0.00019784396532562793,
      "loss": 1.7501,
      "step": 495
    },
    {
      "epoch": 0.011022222222222221,
      "grad_norm": 1.1676902770996094,
      "learning_rate": 0.00019783951989330964,
      "loss": 1.8469,
      "step": 496
    },
    {
      "epoch": 0.011044444444444445,
      "grad_norm": 1.299802303314209,
      "learning_rate": 0.00019783507446099135,
      "loss": 2.1494,
      "step": 497
    },
    {
      "epoch": 0.011066666666666667,
      "grad_norm": 1.1392693519592285,
      "learning_rate": 0.00019783062902867303,
      "loss": 1.6344,
      "step": 498
    },
    {
      "epoch": 0.01108888888888889,
      "grad_norm": 1.3532847166061401,
      "learning_rate": 0.00019782618359635477,
      "loss": 2.4302,
      "step": 499
    },
    {
      "epoch": 0.011111111111111112,
      "grad_norm": 1.3752100467681885,
      "learning_rate": 0.00019782173816403648,
      "loss": 1.621,
      "step": 500
    },
    {
      "epoch": 0.011133333333333334,
      "grad_norm": 1.0528823137283325,
      "learning_rate": 0.00019781729273171816,
      "loss": 2.8213,
      "step": 501
    },
    {
      "epoch": 0.011155555555555556,
      "grad_norm": 0.9636852741241455,
      "learning_rate": 0.0001978128472993999,
      "loss": 2.6139,
      "step": 502
    },
    {
      "epoch": 0.011177777777777778,
      "grad_norm": 0.8850682973861694,
      "learning_rate": 0.00019780840186708158,
      "loss": 2.2437,
      "step": 503
    },
    {
      "epoch": 0.0112,
      "grad_norm": 0.8470168113708496,
      "learning_rate": 0.0001978039564347633,
      "loss": 2.3191,
      "step": 504
    },
    {
      "epoch": 0.011222222222222222,
      "grad_norm": 0.8107976317405701,
      "learning_rate": 0.000197799511002445,
      "loss": 2.0328,
      "step": 505
    },
    {
      "epoch": 0.011244444444444444,
      "grad_norm": 1.0478322505950928,
      "learning_rate": 0.0001977950655701267,
      "loss": 2.484,
      "step": 506
    },
    {
      "epoch": 0.011266666666666666,
      "grad_norm": 0.9263590574264526,
      "learning_rate": 0.0001977906201378084,
      "loss": 2.2178,
      "step": 507
    },
    {
      "epoch": 0.011288888888888888,
      "grad_norm": 1.0026721954345703,
      "learning_rate": 0.00019778617470549013,
      "loss": 2.5007,
      "step": 508
    },
    {
      "epoch": 0.01131111111111111,
      "grad_norm": 1.0698866844177246,
      "learning_rate": 0.00019778172927317184,
      "loss": 2.7865,
      "step": 509
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 0.9517433047294617,
      "learning_rate": 0.00019777728384085352,
      "loss": 2.2822,
      "step": 510
    },
    {
      "epoch": 0.011355555555555556,
      "grad_norm": 1.3576043844223022,
      "learning_rate": 0.00019777283840853525,
      "loss": 2.4233,
      "step": 511
    },
    {
      "epoch": 0.011377777777777778,
      "grad_norm": 1.0271457433700562,
      "learning_rate": 0.00019776839297621694,
      "loss": 1.9884,
      "step": 512
    },
    {
      "epoch": 0.0114,
      "grad_norm": 0.9532172679901123,
      "learning_rate": 0.00019776394754389867,
      "loss": 2.2577,
      "step": 513
    },
    {
      "epoch": 0.011422222222222222,
      "grad_norm": 0.9463943243026733,
      "learning_rate": 0.00019775950211158036,
      "loss": 2.0965,
      "step": 514
    },
    {
      "epoch": 0.011444444444444445,
      "grad_norm": 0.9251181483268738,
      "learning_rate": 0.00019775505667926207,
      "loss": 2.067,
      "step": 515
    },
    {
      "epoch": 0.011466666666666667,
      "grad_norm": 1.0688096284866333,
      "learning_rate": 0.00019775061124694378,
      "loss": 1.8894,
      "step": 516
    },
    {
      "epoch": 0.011488888888888889,
      "grad_norm": 1.0997282266616821,
      "learning_rate": 0.00019774616581462549,
      "loss": 2.1035,
      "step": 517
    },
    {
      "epoch": 0.01151111111111111,
      "grad_norm": 0.9962407350540161,
      "learning_rate": 0.0001977417203823072,
      "loss": 2.0402,
      "step": 518
    },
    {
      "epoch": 0.011533333333333333,
      "grad_norm": 1.348712682723999,
      "learning_rate": 0.0001977372749499889,
      "loss": 2.0119,
      "step": 519
    },
    {
      "epoch": 0.011555555555555555,
      "grad_norm": 1.1667520999908447,
      "learning_rate": 0.00019773282951767061,
      "loss": 2.2905,
      "step": 520
    },
    {
      "epoch": 0.011577777777777777,
      "grad_norm": 1.2998605966567993,
      "learning_rate": 0.0001977283840853523,
      "loss": 2.41,
      "step": 521
    },
    {
      "epoch": 0.0116,
      "grad_norm": 1.2200543880462646,
      "learning_rate": 0.00019772393865303403,
      "loss": 2.1653,
      "step": 522
    },
    {
      "epoch": 0.011622222222222223,
      "grad_norm": 1.22711980342865,
      "learning_rate": 0.00019771949322071572,
      "loss": 2.3273,
      "step": 523
    },
    {
      "epoch": 0.011644444444444445,
      "grad_norm": 1.0310214757919312,
      "learning_rate": 0.00019771504778839743,
      "loss": 1.9963,
      "step": 524
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 1.083256721496582,
      "learning_rate": 0.00019771060235607914,
      "loss": 2.3606,
      "step": 525
    },
    {
      "epoch": 0.01168888888888889,
      "grad_norm": 1.2202749252319336,
      "learning_rate": 0.00019770615692376084,
      "loss": 2.631,
      "step": 526
    },
    {
      "epoch": 0.011711111111111111,
      "grad_norm": 1.06405508518219,
      "learning_rate": 0.00019770171149144255,
      "loss": 2.4102,
      "step": 527
    },
    {
      "epoch": 0.011733333333333333,
      "grad_norm": 1.1642934083938599,
      "learning_rate": 0.00019769726605912426,
      "loss": 2.237,
      "step": 528
    },
    {
      "epoch": 0.011755555555555556,
      "grad_norm": 1.1670068502426147,
      "learning_rate": 0.00019769282062680597,
      "loss": 2.4295,
      "step": 529
    },
    {
      "epoch": 0.011777777777777778,
      "grad_norm": 0.9800331592559814,
      "learning_rate": 0.00019768837519448766,
      "loss": 2.1423,
      "step": 530
    },
    {
      "epoch": 0.0118,
      "grad_norm": 0.9930852055549622,
      "learning_rate": 0.0001976839297621694,
      "loss": 1.8156,
      "step": 531
    },
    {
      "epoch": 0.011822222222222222,
      "grad_norm": 1.056531548500061,
      "learning_rate": 0.00019767948432985108,
      "loss": 1.8047,
      "step": 532
    },
    {
      "epoch": 0.011844444444444444,
      "grad_norm": 1.2376655340194702,
      "learning_rate": 0.0001976750388975328,
      "loss": 2.5516,
      "step": 533
    },
    {
      "epoch": 0.011866666666666666,
      "grad_norm": 1.1320395469665527,
      "learning_rate": 0.0001976705934652145,
      "loss": 2.0158,
      "step": 534
    },
    {
      "epoch": 0.011888888888888888,
      "grad_norm": 1.2286890745162964,
      "learning_rate": 0.0001976661480328962,
      "loss": 2.076,
      "step": 535
    },
    {
      "epoch": 0.011911111111111112,
      "grad_norm": 1.0306121110916138,
      "learning_rate": 0.00019766170260057791,
      "loss": 2.0124,
      "step": 536
    },
    {
      "epoch": 0.011933333333333334,
      "grad_norm": 1.0622620582580566,
      "learning_rate": 0.00019765725716825962,
      "loss": 1.5545,
      "step": 537
    },
    {
      "epoch": 0.011955555555555556,
      "grad_norm": 1.341714859008789,
      "learning_rate": 0.00019765281173594133,
      "loss": 2.3409,
      "step": 538
    },
    {
      "epoch": 0.011977777777777778,
      "grad_norm": 1.1659297943115234,
      "learning_rate": 0.00019764836630362304,
      "loss": 2.2122,
      "step": 539
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.3139978647232056,
      "learning_rate": 0.00019764392087130475,
      "loss": 2.2616,
      "step": 540
    },
    {
      "epoch": 0.012022222222222222,
      "grad_norm": 1.2108430862426758,
      "learning_rate": 0.00019763947543898643,
      "loss": 1.9457,
      "step": 541
    },
    {
      "epoch": 0.012044444444444444,
      "grad_norm": 1.1554898023605347,
      "learning_rate": 0.00019763503000666817,
      "loss": 1.8838,
      "step": 542
    },
    {
      "epoch": 0.012066666666666667,
      "grad_norm": 1.2730211019515991,
      "learning_rate": 0.00019763058457434985,
      "loss": 1.956,
      "step": 543
    },
    {
      "epoch": 0.012088888888888889,
      "grad_norm": 1.1034775972366333,
      "learning_rate": 0.00019762613914203156,
      "loss": 1.8911,
      "step": 544
    },
    {
      "epoch": 0.01211111111111111,
      "grad_norm": 1.2222429513931274,
      "learning_rate": 0.00019762169370971327,
      "loss": 2.1464,
      "step": 545
    },
    {
      "epoch": 0.012133333333333333,
      "grad_norm": 1.1918668746948242,
      "learning_rate": 0.00019761724827739498,
      "loss": 1.9456,
      "step": 546
    },
    {
      "epoch": 0.012155555555555555,
      "grad_norm": 1.3241868019104004,
      "learning_rate": 0.0001976128028450767,
      "loss": 2.0008,
      "step": 547
    },
    {
      "epoch": 0.012177777777777777,
      "grad_norm": 1.350508689880371,
      "learning_rate": 0.0001976083574127584,
      "loss": 1.3506,
      "step": 548
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.172800898551941,
      "learning_rate": 0.0001976039119804401,
      "loss": 1.9213,
      "step": 549
    },
    {
      "epoch": 0.012222222222222223,
      "grad_norm": 1.1749026775360107,
      "learning_rate": 0.0001975994665481218,
      "loss": 1.7579,
      "step": 550
    },
    {
      "epoch": 0.012244444444444445,
      "grad_norm": 0.9225996136665344,
      "learning_rate": 0.00019759502111580353,
      "loss": 2.291,
      "step": 551
    },
    {
      "epoch": 0.012266666666666667,
      "grad_norm": 0.9325944185256958,
      "learning_rate": 0.00019759057568348521,
      "loss": 2.2216,
      "step": 552
    },
    {
      "epoch": 0.012288888888888889,
      "grad_norm": 0.9500211477279663,
      "learning_rate": 0.00019758613025116695,
      "loss": 2.5704,
      "step": 553
    },
    {
      "epoch": 0.012311111111111111,
      "grad_norm": 1.1819994449615479,
      "learning_rate": 0.00019758168481884863,
      "loss": 2.5077,
      "step": 554
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 0.9431033134460449,
      "learning_rate": 0.00019757723938653034,
      "loss": 2.3682,
      "step": 555
    },
    {
      "epoch": 0.012355555555555555,
      "grad_norm": 0.9775313138961792,
      "learning_rate": 0.00019757279395421205,
      "loss": 2.4359,
      "step": 556
    },
    {
      "epoch": 0.012377777777777777,
      "grad_norm": 0.9984149932861328,
      "learning_rate": 0.00019756834852189376,
      "loss": 2.5361,
      "step": 557
    },
    {
      "epoch": 0.0124,
      "grad_norm": 0.906059741973877,
      "learning_rate": 0.00019756390308957547,
      "loss": 2.3952,
      "step": 558
    },
    {
      "epoch": 0.012422222222222222,
      "grad_norm": 0.9690796136856079,
      "learning_rate": 0.00019755945765725718,
      "loss": 2.397,
      "step": 559
    },
    {
      "epoch": 0.012444444444444444,
      "grad_norm": 0.9722429513931274,
      "learning_rate": 0.0001975550122249389,
      "loss": 1.8349,
      "step": 560
    },
    {
      "epoch": 0.012466666666666666,
      "grad_norm": 0.9823850393295288,
      "learning_rate": 0.00019755056679262057,
      "loss": 2.2631,
      "step": 561
    },
    {
      "epoch": 0.01248888888888889,
      "grad_norm": 0.9302381873130798,
      "learning_rate": 0.0001975461213603023,
      "loss": 2.1919,
      "step": 562
    },
    {
      "epoch": 0.012511111111111112,
      "grad_norm": 0.8757230043411255,
      "learning_rate": 0.000197541675927984,
      "loss": 1.6037,
      "step": 563
    },
    {
      "epoch": 0.012533333333333334,
      "grad_norm": 1.046424388885498,
      "learning_rate": 0.0001975372304956657,
      "loss": 2.2169,
      "step": 564
    },
    {
      "epoch": 0.012555555555555556,
      "grad_norm": 0.9741431474685669,
      "learning_rate": 0.00019753278506334744,
      "loss": 2.0183,
      "step": 565
    },
    {
      "epoch": 0.012577777777777778,
      "grad_norm": 1.3711148500442505,
      "learning_rate": 0.00019752833963102912,
      "loss": 2.6775,
      "step": 566
    },
    {
      "epoch": 0.0126,
      "grad_norm": 0.8870599865913391,
      "learning_rate": 0.00019752389419871083,
      "loss": 1.7707,
      "step": 567
    },
    {
      "epoch": 0.012622222222222222,
      "grad_norm": 1.0855683088302612,
      "learning_rate": 0.00019751944876639254,
      "loss": 1.799,
      "step": 568
    },
    {
      "epoch": 0.012644444444444444,
      "grad_norm": 0.9656704068183899,
      "learning_rate": 0.00019751500333407425,
      "loss": 1.7359,
      "step": 569
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.2054580450057983,
      "learning_rate": 0.00019751055790175596,
      "loss": 2.5957,
      "step": 570
    },
    {
      "epoch": 0.012688888888888888,
      "grad_norm": 1.1266636848449707,
      "learning_rate": 0.00019750611246943767,
      "loss": 2.3791,
      "step": 571
    },
    {
      "epoch": 0.01271111111111111,
      "grad_norm": 1.1475385427474976,
      "learning_rate": 0.00019750166703711935,
      "loss": 1.9109,
      "step": 572
    },
    {
      "epoch": 0.012733333333333333,
      "grad_norm": 1.1101495027542114,
      "learning_rate": 0.0001974972216048011,
      "loss": 2.52,
      "step": 573
    },
    {
      "epoch": 0.012755555555555555,
      "grad_norm": 1.0961709022521973,
      "learning_rate": 0.0001974927761724828,
      "loss": 1.8186,
      "step": 574
    },
    {
      "epoch": 0.012777777777777779,
      "grad_norm": 1.013954758644104,
      "learning_rate": 0.00019748833074016448,
      "loss": 1.8662,
      "step": 575
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.2467371225357056,
      "learning_rate": 0.00019748388530784622,
      "loss": 2.2989,
      "step": 576
    },
    {
      "epoch": 0.012822222222222223,
      "grad_norm": 0.9631433486938477,
      "learning_rate": 0.0001974794398755279,
      "loss": 1.9812,
      "step": 577
    },
    {
      "epoch": 0.012844444444444445,
      "grad_norm": 1.0559232234954834,
      "learning_rate": 0.0001974749944432096,
      "loss": 2.0645,
      "step": 578
    },
    {
      "epoch": 0.012866666666666667,
      "grad_norm": 1.1318047046661377,
      "learning_rate": 0.00019747054901089132,
      "loss": 1.435,
      "step": 579
    },
    {
      "epoch": 0.012888888888888889,
      "grad_norm": 1.2401933670043945,
      "learning_rate": 0.00019746610357857303,
      "loss": 2.2909,
      "step": 580
    },
    {
      "epoch": 0.012911111111111111,
      "grad_norm": 1.312298059463501,
      "learning_rate": 0.0001974616581462547,
      "loss": 2.3061,
      "step": 581
    },
    {
      "epoch": 0.012933333333333333,
      "grad_norm": 1.2518435716629028,
      "learning_rate": 0.00019745721271393645,
      "loss": 2.206,
      "step": 582
    },
    {
      "epoch": 0.012955555555555555,
      "grad_norm": 1.06098210811615,
      "learning_rate": 0.00019745276728161816,
      "loss": 1.7114,
      "step": 583
    },
    {
      "epoch": 0.012977777777777777,
      "grad_norm": 1.3275994062423706,
      "learning_rate": 0.00019744832184929984,
      "loss": 2.2089,
      "step": 584
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.2673600912094116,
      "learning_rate": 0.00019744387641698158,
      "loss": 2.2679,
      "step": 585
    },
    {
      "epoch": 0.013022222222222221,
      "grad_norm": 1.2805787324905396,
      "learning_rate": 0.00019743943098466326,
      "loss": 2.2918,
      "step": 586
    },
    {
      "epoch": 0.013044444444444444,
      "grad_norm": 1.1600666046142578,
      "learning_rate": 0.00019743498555234497,
      "loss": 1.2676,
      "step": 587
    },
    {
      "epoch": 0.013066666666666667,
      "grad_norm": 1.1756904125213623,
      "learning_rate": 0.00019743054012002668,
      "loss": 2.1211,
      "step": 588
    },
    {
      "epoch": 0.01308888888888889,
      "grad_norm": 1.272376298904419,
      "learning_rate": 0.0001974260946877084,
      "loss": 2.335,
      "step": 589
    },
    {
      "epoch": 0.013111111111111112,
      "grad_norm": 1.4618241786956787,
      "learning_rate": 0.0001974216492553901,
      "loss": 1.4798,
      "step": 590
    },
    {
      "epoch": 0.013133333333333334,
      "grad_norm": 1.2375410795211792,
      "learning_rate": 0.0001974172038230718,
      "loss": 1.9871,
      "step": 591
    },
    {
      "epoch": 0.013155555555555556,
      "grad_norm": 1.113440990447998,
      "learning_rate": 0.00019741275839075352,
      "loss": 2.031,
      "step": 592
    },
    {
      "epoch": 0.013177777777777778,
      "grad_norm": 1.2986788749694824,
      "learning_rate": 0.00019740831295843523,
      "loss": 2.1056,
      "step": 593
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.5188066959381104,
      "learning_rate": 0.00019740386752611694,
      "loss": 2.1861,
      "step": 594
    },
    {
      "epoch": 0.013222222222222222,
      "grad_norm": 1.3240394592285156,
      "learning_rate": 0.00019739942209379862,
      "loss": 2.1017,
      "step": 595
    },
    {
      "epoch": 0.013244444444444444,
      "grad_norm": 1.2840043306350708,
      "learning_rate": 0.00019739497666148036,
      "loss": 2.1652,
      "step": 596
    },
    {
      "epoch": 0.013266666666666666,
      "grad_norm": 1.364159107208252,
      "learning_rate": 0.00019739053122916204,
      "loss": 1.9971,
      "step": 597
    },
    {
      "epoch": 0.013288888888888888,
      "grad_norm": 1.1430398225784302,
      "learning_rate": 0.00019738608579684375,
      "loss": 1.9919,
      "step": 598
    },
    {
      "epoch": 0.01331111111111111,
      "grad_norm": 1.3228200674057007,
      "learning_rate": 0.00019738164036452546,
      "loss": 1.8816,
      "step": 599
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 1.4547879695892334,
      "learning_rate": 0.00019737719493220717,
      "loss": 1.5917,
      "step": 600
    },
    {
      "epoch": 0.013355555555555556,
      "grad_norm": 0.9293891787528992,
      "learning_rate": 0.00019737274949988888,
      "loss": 2.4767,
      "step": 601
    },
    {
      "epoch": 0.013377777777777778,
      "grad_norm": 0.9814039468765259,
      "learning_rate": 0.00019736830406757059,
      "loss": 2.2821,
      "step": 602
    },
    {
      "epoch": 0.0134,
      "grad_norm": 0.9720081090927124,
      "learning_rate": 0.0001973638586352523,
      "loss": 2.1433,
      "step": 603
    },
    {
      "epoch": 0.013422222222222223,
      "grad_norm": 0.9438430666923523,
      "learning_rate": 0.00019735941320293398,
      "loss": 2.3608,
      "step": 604
    },
    {
      "epoch": 0.013444444444444445,
      "grad_norm": 1.006701946258545,
      "learning_rate": 0.00019735496777061571,
      "loss": 2.5349,
      "step": 605
    },
    {
      "epoch": 0.013466666666666667,
      "grad_norm": 1.0583053827285767,
      "learning_rate": 0.0001973505223382974,
      "loss": 2.5001,
      "step": 606
    },
    {
      "epoch": 0.013488888888888889,
      "grad_norm": 1.0254452228546143,
      "learning_rate": 0.00019734607690597913,
      "loss": 2.2549,
      "step": 607
    },
    {
      "epoch": 0.013511111111111111,
      "grad_norm": 1.2084726095199585,
      "learning_rate": 0.00019734163147366082,
      "loss": 2.4463,
      "step": 608
    },
    {
      "epoch": 0.013533333333333333,
      "grad_norm": 0.9051474332809448,
      "learning_rate": 0.00019733718604134253,
      "loss": 2.1048,
      "step": 609
    },
    {
      "epoch": 0.013555555555555555,
      "grad_norm": 1.0502593517303467,
      "learning_rate": 0.00019733274060902424,
      "loss": 2.311,
      "step": 610
    },
    {
      "epoch": 0.013577777777777777,
      "grad_norm": 1.096829891204834,
      "learning_rate": 0.00019732829517670595,
      "loss": 2.7433,
      "step": 611
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.9817884564399719,
      "learning_rate": 0.00019732384974438766,
      "loss": 2.0434,
      "step": 612
    },
    {
      "epoch": 0.013622222222222223,
      "grad_norm": 0.9800563454627991,
      "learning_rate": 0.00019731940431206936,
      "loss": 2.0227,
      "step": 613
    },
    {
      "epoch": 0.013644444444444445,
      "grad_norm": 1.216512680053711,
      "learning_rate": 0.00019731495887975107,
      "loss": 2.2587,
      "step": 614
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 1.0319756269454956,
      "learning_rate": 0.00019731051344743276,
      "loss": 1.9165,
      "step": 615
    },
    {
      "epoch": 0.01368888888888889,
      "grad_norm": 1.0077224969863892,
      "learning_rate": 0.0001973060680151145,
      "loss": 2.0971,
      "step": 616
    },
    {
      "epoch": 0.013711111111111111,
      "grad_norm": 1.3256494998931885,
      "learning_rate": 0.00019730162258279618,
      "loss": 1.4384,
      "step": 617
    },
    {
      "epoch": 0.013733333333333334,
      "grad_norm": 1.2625467777252197,
      "learning_rate": 0.00019729717715047789,
      "loss": 2.4546,
      "step": 618
    },
    {
      "epoch": 0.013755555555555556,
      "grad_norm": 0.9197932481765747,
      "learning_rate": 0.0001972927317181596,
      "loss": 1.7022,
      "step": 619
    },
    {
      "epoch": 0.013777777777777778,
      "grad_norm": 1.1302087306976318,
      "learning_rate": 0.0001972882862858413,
      "loss": 2.2369,
      "step": 620
    },
    {
      "epoch": 0.0138,
      "grad_norm": 1.1746357679367065,
      "learning_rate": 0.00019728384085352301,
      "loss": 1.9065,
      "step": 621
    },
    {
      "epoch": 0.013822222222222222,
      "grad_norm": 0.9957026243209839,
      "learning_rate": 0.00019727939542120472,
      "loss": 2.0097,
      "step": 622
    },
    {
      "epoch": 0.013844444444444444,
      "grad_norm": 1.36981999874115,
      "learning_rate": 0.00019727494998888643,
      "loss": 2.2754,
      "step": 623
    },
    {
      "epoch": 0.013866666666666666,
      "grad_norm": 1.234215259552002,
      "learning_rate": 0.00019727050455656812,
      "loss": 1.9893,
      "step": 624
    },
    {
      "epoch": 0.013888888888888888,
      "grad_norm": 1.3092060089111328,
      "learning_rate": 0.00019726605912424985,
      "loss": 2.0953,
      "step": 625
    },
    {
      "epoch": 0.013911111111111112,
      "grad_norm": 1.4026519060134888,
      "learning_rate": 0.00019726161369193154,
      "loss": 2.1843,
      "step": 626
    },
    {
      "epoch": 0.013933333333333334,
      "grad_norm": 1.152025580406189,
      "learning_rate": 0.00019725716825961327,
      "loss": 1.5955,
      "step": 627
    },
    {
      "epoch": 0.013955555555555556,
      "grad_norm": 1.158659815788269,
      "learning_rate": 0.00019725272282729495,
      "loss": 1.8902,
      "step": 628
    },
    {
      "epoch": 0.013977777777777778,
      "grad_norm": 1.1227903366088867,
      "learning_rate": 0.00019724827739497666,
      "loss": 1.876,
      "step": 629
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.273788571357727,
      "learning_rate": 0.00019724383196265837,
      "loss": 2.251,
      "step": 630
    },
    {
      "epoch": 0.014022222222222222,
      "grad_norm": 1.1840415000915527,
      "learning_rate": 0.00019723938653034008,
      "loss": 2.3503,
      "step": 631
    },
    {
      "epoch": 0.014044444444444444,
      "grad_norm": 1.2534960508346558,
      "learning_rate": 0.0001972349410980218,
      "loss": 2.174,
      "step": 632
    },
    {
      "epoch": 0.014066666666666667,
      "grad_norm": 1.0638322830200195,
      "learning_rate": 0.0001972304956657035,
      "loss": 1.886,
      "step": 633
    },
    {
      "epoch": 0.014088888888888889,
      "grad_norm": 1.2099584341049194,
      "learning_rate": 0.0001972260502333852,
      "loss": 1.9944,
      "step": 634
    },
    {
      "epoch": 0.01411111111111111,
      "grad_norm": 1.2023608684539795,
      "learning_rate": 0.0001972216048010669,
      "loss": 1.9364,
      "step": 635
    },
    {
      "epoch": 0.014133333333333333,
      "grad_norm": 1.1572262048721313,
      "learning_rate": 0.00019721715936874863,
      "loss": 2.1014,
      "step": 636
    },
    {
      "epoch": 0.014155555555555555,
      "grad_norm": 1.0198612213134766,
      "learning_rate": 0.00019721271393643031,
      "loss": 1.833,
      "step": 637
    },
    {
      "epoch": 0.014177777777777777,
      "grad_norm": 1.3424072265625,
      "learning_rate": 0.00019720826850411202,
      "loss": 2.4898,
      "step": 638
    },
    {
      "epoch": 0.0142,
      "grad_norm": 1.2197932004928589,
      "learning_rate": 0.00019720382307179376,
      "loss": 2.2606,
      "step": 639
    },
    {
      "epoch": 0.014222222222222223,
      "grad_norm": 1.3500276803970337,
      "learning_rate": 0.00019719937763947544,
      "loss": 1.7025,
      "step": 640
    },
    {
      "epoch": 0.014244444444444445,
      "grad_norm": 1.1504669189453125,
      "learning_rate": 0.00019719493220715715,
      "loss": 2.2101,
      "step": 641
    },
    {
      "epoch": 0.014266666666666667,
      "grad_norm": 1.2708158493041992,
      "learning_rate": 0.00019719048677483886,
      "loss": 1.8772,
      "step": 642
    },
    {
      "epoch": 0.01428888888888889,
      "grad_norm": 1.2431827783584595,
      "learning_rate": 0.00019718604134252057,
      "loss": 2.4282,
      "step": 643
    },
    {
      "epoch": 0.014311111111111111,
      "grad_norm": 1.0196614265441895,
      "learning_rate": 0.00019718159591020225,
      "loss": 1.5048,
      "step": 644
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 1.1712734699249268,
      "learning_rate": 0.000197177150477884,
      "loss": 1.8576,
      "step": 645
    },
    {
      "epoch": 0.014355555555555555,
      "grad_norm": 1.1533782482147217,
      "learning_rate": 0.00019717270504556567,
      "loss": 2.02,
      "step": 646
    },
    {
      "epoch": 0.014377777777777778,
      "grad_norm": 1.6188006401062012,
      "learning_rate": 0.0001971682596132474,
      "loss": 1.8601,
      "step": 647
    },
    {
      "epoch": 0.0144,
      "grad_norm": 1.3643068075180054,
      "learning_rate": 0.00019716381418092912,
      "loss": 1.4255,
      "step": 648
    },
    {
      "epoch": 0.014422222222222222,
      "grad_norm": 1.3484489917755127,
      "learning_rate": 0.0001971593687486108,
      "loss": 1.8002,
      "step": 649
    },
    {
      "epoch": 0.014444444444444444,
      "grad_norm": 1.403101921081543,
      "learning_rate": 0.00019715492331629254,
      "loss": 1.7269,
      "step": 650
    },
    {
      "epoch": 0.014466666666666666,
      "grad_norm": 0.9351359605789185,
      "learning_rate": 0.00019715047788397422,
      "loss": 2.1206,
      "step": 651
    },
    {
      "epoch": 0.01448888888888889,
      "grad_norm": 0.9588861465454102,
      "learning_rate": 0.00019714603245165593,
      "loss": 2.3429,
      "step": 652
    },
    {
      "epoch": 0.014511111111111112,
      "grad_norm": 1.1111140251159668,
      "learning_rate": 0.00019714158701933764,
      "loss": 1.4592,
      "step": 653
    },
    {
      "epoch": 0.014533333333333334,
      "grad_norm": 1.1909570693969727,
      "learning_rate": 0.00019713714158701935,
      "loss": 3.3025,
      "step": 654
    },
    {
      "epoch": 0.014555555555555556,
      "grad_norm": 1.0534789562225342,
      "learning_rate": 0.00019713269615470103,
      "loss": 2.5017,
      "step": 655
    },
    {
      "epoch": 0.014577777777777778,
      "grad_norm": 0.9852713346481323,
      "learning_rate": 0.00019712825072238277,
      "loss": 2.2406,
      "step": 656
    },
    {
      "epoch": 0.0146,
      "grad_norm": 1.0007407665252686,
      "learning_rate": 0.00019712380529006448,
      "loss": 2.4341,
      "step": 657
    },
    {
      "epoch": 0.014622222222222222,
      "grad_norm": 1.042779803276062,
      "learning_rate": 0.00019711935985774616,
      "loss": 2.7508,
      "step": 658
    },
    {
      "epoch": 0.014644444444444444,
      "grad_norm": 1.1719785928726196,
      "learning_rate": 0.0001971149144254279,
      "loss": 2.4725,
      "step": 659
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 1.1312509775161743,
      "learning_rate": 0.00019711046899310958,
      "loss": 2.785,
      "step": 660
    },
    {
      "epoch": 0.014688888888888888,
      "grad_norm": 0.9337582588195801,
      "learning_rate": 0.0001971060235607913,
      "loss": 1.9317,
      "step": 661
    },
    {
      "epoch": 0.01471111111111111,
      "grad_norm": 1.0465712547302246,
      "learning_rate": 0.000197101578128473,
      "loss": 2.4791,
      "step": 662
    },
    {
      "epoch": 0.014733333333333333,
      "grad_norm": 1.153633713722229,
      "learning_rate": 0.0001970971326961547,
      "loss": 2.2393,
      "step": 663
    },
    {
      "epoch": 0.014755555555555555,
      "grad_norm": 1.0808809995651245,
      "learning_rate": 0.00019709268726383642,
      "loss": 2.2079,
      "step": 664
    },
    {
      "epoch": 0.014777777777777779,
      "grad_norm": 0.9384297728538513,
      "learning_rate": 0.00019708824183151813,
      "loss": 2.0951,
      "step": 665
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.1360176801681519,
      "learning_rate": 0.00019708379639919984,
      "loss": 2.3019,
      "step": 666
    },
    {
      "epoch": 0.014822222222222223,
      "grad_norm": 1.0996544361114502,
      "learning_rate": 0.00019707935096688155,
      "loss": 2.898,
      "step": 667
    },
    {
      "epoch": 0.014844444444444445,
      "grad_norm": 1.4694558382034302,
      "learning_rate": 0.00019707490553456326,
      "loss": 1.0145,
      "step": 668
    },
    {
      "epoch": 0.014866666666666667,
      "grad_norm": 1.1620367765426636,
      "learning_rate": 0.00019707046010224494,
      "loss": 2.2568,
      "step": 669
    },
    {
      "epoch": 0.014888888888888889,
      "grad_norm": 1.0012505054473877,
      "learning_rate": 0.00019706601466992668,
      "loss": 1.8907,
      "step": 670
    },
    {
      "epoch": 0.014911111111111111,
      "grad_norm": 1.0330564975738525,
      "learning_rate": 0.00019706156923760836,
      "loss": 2.2003,
      "step": 671
    },
    {
      "epoch": 0.014933333333333333,
      "grad_norm": 1.0624566078186035,
      "learning_rate": 0.00019705712380529007,
      "loss": 2.2616,
      "step": 672
    },
    {
      "epoch": 0.014955555555555555,
      "grad_norm": 1.1532998085021973,
      "learning_rate": 0.00019705267837297178,
      "loss": 2.2152,
      "step": 673
    },
    {
      "epoch": 0.014977777777777777,
      "grad_norm": 1.1985361576080322,
      "learning_rate": 0.0001970482329406535,
      "loss": 2.2832,
      "step": 674
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.1824263334274292,
      "learning_rate": 0.0001970437875083352,
      "loss": 2.2331,
      "step": 675
    },
    {
      "epoch": 0.015022222222222222,
      "grad_norm": 1.146777868270874,
      "learning_rate": 0.0001970393420760169,
      "loss": 2.0233,
      "step": 676
    },
    {
      "epoch": 0.015044444444444444,
      "grad_norm": 1.541884183883667,
      "learning_rate": 0.00019703489664369862,
      "loss": 2.4609,
      "step": 677
    },
    {
      "epoch": 0.015066666666666667,
      "grad_norm": 1.0570106506347656,
      "learning_rate": 0.0001970304512113803,
      "loss": 1.8679,
      "step": 678
    },
    {
      "epoch": 0.01508888888888889,
      "grad_norm": 1.243215799331665,
      "learning_rate": 0.00019702600577906204,
      "loss": 1.6684,
      "step": 679
    },
    {
      "epoch": 0.015111111111111112,
      "grad_norm": 1.1231662034988403,
      "learning_rate": 0.00019702156034674372,
      "loss": 2.2193,
      "step": 680
    },
    {
      "epoch": 0.015133333333333334,
      "grad_norm": 1.2087405920028687,
      "learning_rate": 0.00019701711491442543,
      "loss": 2.0532,
      "step": 681
    },
    {
      "epoch": 0.015155555555555556,
      "grad_norm": 1.1215788125991821,
      "learning_rate": 0.00019701266948210714,
      "loss": 1.9981,
      "step": 682
    },
    {
      "epoch": 0.015177777777777778,
      "grad_norm": 1.0537729263305664,
      "learning_rate": 0.00019700822404978885,
      "loss": 2.0095,
      "step": 683
    },
    {
      "epoch": 0.0152,
      "grad_norm": 1.1330578327178955,
      "learning_rate": 0.00019700377861747056,
      "loss": 2.028,
      "step": 684
    },
    {
      "epoch": 0.015222222222222222,
      "grad_norm": 1.1553888320922852,
      "learning_rate": 0.00019699933318515227,
      "loss": 1.5913,
      "step": 685
    },
    {
      "epoch": 0.015244444444444444,
      "grad_norm": 1.0828315019607544,
      "learning_rate": 0.00019699488775283398,
      "loss": 1.6112,
      "step": 686
    },
    {
      "epoch": 0.015266666666666666,
      "grad_norm": 1.225699782371521,
      "learning_rate": 0.0001969904423205157,
      "loss": 2.3407,
      "step": 687
    },
    {
      "epoch": 0.015288888888888888,
      "grad_norm": 1.2007973194122314,
      "learning_rate": 0.0001969859968881974,
      "loss": 2.3212,
      "step": 688
    },
    {
      "epoch": 0.01531111111111111,
      "grad_norm": 1.386231780052185,
      "learning_rate": 0.00019698155145587908,
      "loss": 2.0497,
      "step": 689
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 1.2499487400054932,
      "learning_rate": 0.00019697710602356082,
      "loss": 2.276,
      "step": 690
    },
    {
      "epoch": 0.015355555555555556,
      "grad_norm": 1.2209858894348145,
      "learning_rate": 0.0001969726605912425,
      "loss": 1.89,
      "step": 691
    },
    {
      "epoch": 0.015377777777777778,
      "grad_norm": 1.2517179250717163,
      "learning_rate": 0.0001969682151589242,
      "loss": 2.0313,
      "step": 692
    },
    {
      "epoch": 0.0154,
      "grad_norm": 1.2715023756027222,
      "learning_rate": 0.00019696376972660592,
      "loss": 2.2077,
      "step": 693
    },
    {
      "epoch": 0.015422222222222223,
      "grad_norm": 1.231107473373413,
      "learning_rate": 0.00019695932429428763,
      "loss": 2.2723,
      "step": 694
    },
    {
      "epoch": 0.015444444444444445,
      "grad_norm": 1.2120702266693115,
      "learning_rate": 0.00019695487886196934,
      "loss": 2.1168,
      "step": 695
    },
    {
      "epoch": 0.015466666666666667,
      "grad_norm": 1.1936527490615845,
      "learning_rate": 0.00019695043342965105,
      "loss": 2.0022,
      "step": 696
    },
    {
      "epoch": 0.015488888888888889,
      "grad_norm": 1.2992490530014038,
      "learning_rate": 0.00019694598799733276,
      "loss": 1.9607,
      "step": 697
    },
    {
      "epoch": 0.015511111111111111,
      "grad_norm": 1.205354928970337,
      "learning_rate": 0.00019694154256501444,
      "loss": 1.748,
      "step": 698
    },
    {
      "epoch": 0.015533333333333333,
      "grad_norm": 1.3571568727493286,
      "learning_rate": 0.00019693709713269618,
      "loss": 1.795,
      "step": 699
    },
    {
      "epoch": 0.015555555555555555,
      "grad_norm": 1.4771002531051636,
      "learning_rate": 0.00019693265170037786,
      "loss": 2.1537,
      "step": 700
    },
    {
      "epoch": 0.015577777777777777,
      "grad_norm": 1.1767499446868896,
      "learning_rate": 0.00019692820626805957,
      "loss": 2.5639,
      "step": 701
    },
    {
      "epoch": 0.0156,
      "grad_norm": 1.3834136724472046,
      "learning_rate": 0.00019692376083574128,
      "loss": 1.7281,
      "step": 702
    },
    {
      "epoch": 0.015622222222222221,
      "grad_norm": 0.7690825462341309,
      "learning_rate": 0.000196919315403423,
      "loss": 2.0467,
      "step": 703
    },
    {
      "epoch": 0.015644444444444443,
      "grad_norm": 0.8094202280044556,
      "learning_rate": 0.0001969148699711047,
      "loss": 2.2269,
      "step": 704
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.8339313268661499,
      "learning_rate": 0.0001969104245387864,
      "loss": 2.0145,
      "step": 705
    },
    {
      "epoch": 0.015688888888888888,
      "grad_norm": 1.0422499179840088,
      "learning_rate": 0.00019690597910646812,
      "loss": 2.2106,
      "step": 706
    },
    {
      "epoch": 0.01571111111111111,
      "grad_norm": 0.9235741496086121,
      "learning_rate": 0.00019690153367414983,
      "loss": 2.2554,
      "step": 707
    },
    {
      "epoch": 0.015733333333333332,
      "grad_norm": 1.0492695569992065,
      "learning_rate": 0.00019689708824183153,
      "loss": 2.2707,
      "step": 708
    },
    {
      "epoch": 0.015755555555555554,
      "grad_norm": 1.0586918592453003,
      "learning_rate": 0.00019689264280951322,
      "loss": 2.4847,
      "step": 709
    },
    {
      "epoch": 0.01577777777777778,
      "grad_norm": 1.087799072265625,
      "learning_rate": 0.00019688819737719495,
      "loss": 2.6584,
      "step": 710
    },
    {
      "epoch": 0.0158,
      "grad_norm": 0.9089024066925049,
      "learning_rate": 0.00019688375194487664,
      "loss": 2.463,
      "step": 711
    },
    {
      "epoch": 0.015822222222222224,
      "grad_norm": 1.0169419050216675,
      "learning_rate": 0.00019687930651255835,
      "loss": 2.562,
      "step": 712
    },
    {
      "epoch": 0.015844444444444446,
      "grad_norm": 0.9576930999755859,
      "learning_rate": 0.00019687486108024008,
      "loss": 2.0399,
      "step": 713
    },
    {
      "epoch": 0.015866666666666668,
      "grad_norm": 1.0270696878433228,
      "learning_rate": 0.00019687041564792177,
      "loss": 2.3984,
      "step": 714
    },
    {
      "epoch": 0.01588888888888889,
      "grad_norm": 1.1256415843963623,
      "learning_rate": 0.00019686597021560347,
      "loss": 2.1972,
      "step": 715
    },
    {
      "epoch": 0.015911111111111112,
      "grad_norm": 1.1607558727264404,
      "learning_rate": 0.00019686152478328518,
      "loss": 2.1832,
      "step": 716
    },
    {
      "epoch": 0.015933333333333334,
      "grad_norm": 1.0180697441101074,
      "learning_rate": 0.0001968570793509669,
      "loss": 1.897,
      "step": 717
    },
    {
      "epoch": 0.015955555555555556,
      "grad_norm": 1.1228909492492676,
      "learning_rate": 0.00019685263391864858,
      "loss": 1.6522,
      "step": 718
    },
    {
      "epoch": 0.015977777777777778,
      "grad_norm": 1.1269443035125732,
      "learning_rate": 0.0001968481884863303,
      "loss": 2.1708,
      "step": 719
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.2360373735427856,
      "learning_rate": 0.000196843743054012,
      "loss": 2.2552,
      "step": 720
    },
    {
      "epoch": 0.016022222222222222,
      "grad_norm": 1.2020705938339233,
      "learning_rate": 0.00019683929762169373,
      "loss": 2.0644,
      "step": 721
    },
    {
      "epoch": 0.016044444444444445,
      "grad_norm": 1.1314325332641602,
      "learning_rate": 0.00019683485218937544,
      "loss": 2.1421,
      "step": 722
    },
    {
      "epoch": 0.016066666666666667,
      "grad_norm": 1.1173206567764282,
      "learning_rate": 0.00019683040675705712,
      "loss": 2.0589,
      "step": 723
    },
    {
      "epoch": 0.01608888888888889,
      "grad_norm": 1.234604001045227,
      "learning_rate": 0.00019682596132473886,
      "loss": 2.1747,
      "step": 724
    },
    {
      "epoch": 0.01611111111111111,
      "grad_norm": 1.0637574195861816,
      "learning_rate": 0.00019682151589242054,
      "loss": 2.2928,
      "step": 725
    },
    {
      "epoch": 0.016133333333333333,
      "grad_norm": 1.1036534309387207,
      "learning_rate": 0.00019681707046010225,
      "loss": 2.4124,
      "step": 726
    },
    {
      "epoch": 0.016155555555555555,
      "grad_norm": 1.160920262336731,
      "learning_rate": 0.00019681262502778396,
      "loss": 2.1769,
      "step": 727
    },
    {
      "epoch": 0.016177777777777777,
      "grad_norm": 0.9460611939430237,
      "learning_rate": 0.00019680817959546567,
      "loss": 2.0493,
      "step": 728
    },
    {
      "epoch": 0.0162,
      "grad_norm": 1.0128278732299805,
      "learning_rate": 0.00019680373416314736,
      "loss": 1.8745,
      "step": 729
    },
    {
      "epoch": 0.01622222222222222,
      "grad_norm": 1.1487228870391846,
      "learning_rate": 0.0001967992887308291,
      "loss": 2.0736,
      "step": 730
    },
    {
      "epoch": 0.016244444444444443,
      "grad_norm": 1.1187260150909424,
      "learning_rate": 0.0001967948432985108,
      "loss": 1.9883,
      "step": 731
    },
    {
      "epoch": 0.016266666666666665,
      "grad_norm": 1.276348352432251,
      "learning_rate": 0.00019679039786619248,
      "loss": 1.7453,
      "step": 732
    },
    {
      "epoch": 0.016288888888888887,
      "grad_norm": 1.0150865316390991,
      "learning_rate": 0.00019678595243387422,
      "loss": 1.7307,
      "step": 733
    },
    {
      "epoch": 0.01631111111111111,
      "grad_norm": 1.0547184944152832,
      "learning_rate": 0.0001967815070015559,
      "loss": 1.8055,
      "step": 734
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 1.1808862686157227,
      "learning_rate": 0.0001967770615692376,
      "loss": 2.0142,
      "step": 735
    },
    {
      "epoch": 0.016355555555555557,
      "grad_norm": 1.3099372386932373,
      "learning_rate": 0.00019677261613691932,
      "loss": 2.3656,
      "step": 736
    },
    {
      "epoch": 0.01637777777777778,
      "grad_norm": 1.294157862663269,
      "learning_rate": 0.00019676817070460103,
      "loss": 2.0817,
      "step": 737
    },
    {
      "epoch": 0.0164,
      "grad_norm": 1.13506281375885,
      "learning_rate": 0.00019676372527228274,
      "loss": 1.9877,
      "step": 738
    },
    {
      "epoch": 0.016422222222222223,
      "grad_norm": 1.2554447650909424,
      "learning_rate": 0.00019675927983996445,
      "loss": 2.3157,
      "step": 739
    },
    {
      "epoch": 0.016444444444444446,
      "grad_norm": 1.1055458784103394,
      "learning_rate": 0.00019675483440764616,
      "loss": 2.1281,
      "step": 740
    },
    {
      "epoch": 0.016466666666666668,
      "grad_norm": 1.5507477521896362,
      "learning_rate": 0.00019675038897532787,
      "loss": 1.7193,
      "step": 741
    },
    {
      "epoch": 0.01648888888888889,
      "grad_norm": 1.3108044862747192,
      "learning_rate": 0.00019674594354300958,
      "loss": 1.5882,
      "step": 742
    },
    {
      "epoch": 0.016511111111111112,
      "grad_norm": 1.2059918642044067,
      "learning_rate": 0.00019674149811069126,
      "loss": 1.9798,
      "step": 743
    },
    {
      "epoch": 0.016533333333333334,
      "grad_norm": 1.1982961893081665,
      "learning_rate": 0.000196737052678373,
      "loss": 1.8826,
      "step": 744
    },
    {
      "epoch": 0.016555555555555556,
      "grad_norm": 1.2684075832366943,
      "learning_rate": 0.00019673260724605468,
      "loss": 2.2258,
      "step": 745
    },
    {
      "epoch": 0.016577777777777778,
      "grad_norm": 1.0842028856277466,
      "learning_rate": 0.0001967281618137364,
      "loss": 1.7994,
      "step": 746
    },
    {
      "epoch": 0.0166,
      "grad_norm": 1.293434739112854,
      "learning_rate": 0.0001967237163814181,
      "loss": 2.0513,
      "step": 747
    },
    {
      "epoch": 0.016622222222222222,
      "grad_norm": 1.282414197921753,
      "learning_rate": 0.0001967192709490998,
      "loss": 1.9613,
      "step": 748
    },
    {
      "epoch": 0.016644444444444444,
      "grad_norm": 1.408108115196228,
      "learning_rate": 0.00019671482551678152,
      "loss": 1.9771,
      "step": 749
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 1.5824871063232422,
      "learning_rate": 0.00019671038008446323,
      "loss": 1.9777,
      "step": 750
    },
    {
      "epoch": 0.01668888888888889,
      "grad_norm": 1.7164340019226074,
      "learning_rate": 0.00019670593465214494,
      "loss": 1.7608,
      "step": 751
    },
    {
      "epoch": 0.01671111111111111,
      "grad_norm": 1.0201396942138672,
      "learning_rate": 0.00019670148921982662,
      "loss": 2.8536,
      "step": 752
    },
    {
      "epoch": 0.016733333333333333,
      "grad_norm": 1.1302566528320312,
      "learning_rate": 0.00019669704378750836,
      "loss": 3.0723,
      "step": 753
    },
    {
      "epoch": 0.016755555555555555,
      "grad_norm": 0.9833186268806458,
      "learning_rate": 0.00019669259835519004,
      "loss": 2.5592,
      "step": 754
    },
    {
      "epoch": 0.016777777777777777,
      "grad_norm": 1.1132311820983887,
      "learning_rate": 0.00019668815292287175,
      "loss": 2.5013,
      "step": 755
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.0777004957199097,
      "learning_rate": 0.00019668370749055346,
      "loss": 2.578,
      "step": 756
    },
    {
      "epoch": 0.01682222222222222,
      "grad_norm": 0.9996433258056641,
      "learning_rate": 0.00019667926205823517,
      "loss": 2.6638,
      "step": 757
    },
    {
      "epoch": 0.016844444444444443,
      "grad_norm": 0.9491451382637024,
      "learning_rate": 0.00019667481662591688,
      "loss": 2.2324,
      "step": 758
    },
    {
      "epoch": 0.016866666666666665,
      "grad_norm": 1.1342917680740356,
      "learning_rate": 0.0001966703711935986,
      "loss": 2.2155,
      "step": 759
    },
    {
      "epoch": 0.016888888888888887,
      "grad_norm": 1.0377998352050781,
      "learning_rate": 0.0001966659257612803,
      "loss": 2.0908,
      "step": 760
    },
    {
      "epoch": 0.01691111111111111,
      "grad_norm": 1.5156100988388062,
      "learning_rate": 0.000196661480328962,
      "loss": 1.7761,
      "step": 761
    },
    {
      "epoch": 0.016933333333333335,
      "grad_norm": 1.339430570602417,
      "learning_rate": 0.00019665703489664372,
      "loss": 2.4221,
      "step": 762
    },
    {
      "epoch": 0.016955555555555557,
      "grad_norm": 1.0605875253677368,
      "learning_rate": 0.0001966525894643254,
      "loss": 2.3038,
      "step": 763
    },
    {
      "epoch": 0.01697777777777778,
      "grad_norm": 1.099420428276062,
      "learning_rate": 0.00019664814403200714,
      "loss": 1.8862,
      "step": 764
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9548482894897461,
      "learning_rate": 0.00019664369859968882,
      "loss": 1.9038,
      "step": 765
    },
    {
      "epoch": 0.017022222222222223,
      "grad_norm": 1.0867154598236084,
      "learning_rate": 0.00019663925316737053,
      "loss": 2.3261,
      "step": 766
    },
    {
      "epoch": 0.017044444444444445,
      "grad_norm": 1.0911372900009155,
      "learning_rate": 0.00019663480773505224,
      "loss": 2.1344,
      "step": 767
    },
    {
      "epoch": 0.017066666666666667,
      "grad_norm": 1.2783464193344116,
      "learning_rate": 0.00019663036230273395,
      "loss": 2.0554,
      "step": 768
    },
    {
      "epoch": 0.01708888888888889,
      "grad_norm": 1.0362484455108643,
      "learning_rate": 0.00019662591687041566,
      "loss": 1.9389,
      "step": 769
    },
    {
      "epoch": 0.01711111111111111,
      "grad_norm": 1.4606289863586426,
      "learning_rate": 0.00019662147143809737,
      "loss": 1.4451,
      "step": 770
    },
    {
      "epoch": 0.017133333333333334,
      "grad_norm": 1.1501736640930176,
      "learning_rate": 0.00019661702600577908,
      "loss": 2.4976,
      "step": 771
    },
    {
      "epoch": 0.017155555555555556,
      "grad_norm": 1.2100738286972046,
      "learning_rate": 0.00019661258057346076,
      "loss": 2.1542,
      "step": 772
    },
    {
      "epoch": 0.017177777777777778,
      "grad_norm": 1.2099733352661133,
      "learning_rate": 0.0001966081351411425,
      "loss": 2.2964,
      "step": 773
    },
    {
      "epoch": 0.0172,
      "grad_norm": 0.9988672137260437,
      "learning_rate": 0.00019660368970882418,
      "loss": 1.6329,
      "step": 774
    },
    {
      "epoch": 0.017222222222222222,
      "grad_norm": 1.2203208208084106,
      "learning_rate": 0.0001965992442765059,
      "loss": 1.9813,
      "step": 775
    },
    {
      "epoch": 0.017244444444444444,
      "grad_norm": 1.2115823030471802,
      "learning_rate": 0.0001965947988441876,
      "loss": 2.5386,
      "step": 776
    },
    {
      "epoch": 0.017266666666666666,
      "grad_norm": 1.1591236591339111,
      "learning_rate": 0.0001965903534118693,
      "loss": 2.2034,
      "step": 777
    },
    {
      "epoch": 0.01728888888888889,
      "grad_norm": 1.2802622318267822,
      "learning_rate": 0.00019658590797955102,
      "loss": 1.9755,
      "step": 778
    },
    {
      "epoch": 0.01731111111111111,
      "grad_norm": 1.5906323194503784,
      "learning_rate": 0.00019658146254723273,
      "loss": 2.1452,
      "step": 779
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 1.6918163299560547,
      "learning_rate": 0.00019657701711491444,
      "loss": 2.0825,
      "step": 780
    },
    {
      "epoch": 0.017355555555555555,
      "grad_norm": 1.3963426351547241,
      "learning_rate": 0.00019657257168259615,
      "loss": 2.6064,
      "step": 781
    },
    {
      "epoch": 0.017377777777777777,
      "grad_norm": 1.2364081144332886,
      "learning_rate": 0.00019656812625027786,
      "loss": 2.3085,
      "step": 782
    },
    {
      "epoch": 0.0174,
      "grad_norm": 1.233431339263916,
      "learning_rate": 0.00019656368081795954,
      "loss": 1.4694,
      "step": 783
    },
    {
      "epoch": 0.01742222222222222,
      "grad_norm": 1.1503186225891113,
      "learning_rate": 0.00019655923538564128,
      "loss": 1.8187,
      "step": 784
    },
    {
      "epoch": 0.017444444444444443,
      "grad_norm": 1.1116048097610474,
      "learning_rate": 0.00019655478995332296,
      "loss": 1.8397,
      "step": 785
    },
    {
      "epoch": 0.017466666666666665,
      "grad_norm": 1.279958963394165,
      "learning_rate": 0.00019655034452100467,
      "loss": 2.1105,
      "step": 786
    },
    {
      "epoch": 0.01748888888888889,
      "grad_norm": 1.1690638065338135,
      "learning_rate": 0.0001965458990886864,
      "loss": 1.8329,
      "step": 787
    },
    {
      "epoch": 0.017511111111111113,
      "grad_norm": 1.4253699779510498,
      "learning_rate": 0.0001965414536563681,
      "loss": 2.4336,
      "step": 788
    },
    {
      "epoch": 0.017533333333333335,
      "grad_norm": 1.2776070833206177,
      "learning_rate": 0.0001965370082240498,
      "loss": 2.4518,
      "step": 789
    },
    {
      "epoch": 0.017555555555555557,
      "grad_norm": 1.512034296989441,
      "learning_rate": 0.0001965325627917315,
      "loss": 2.1827,
      "step": 790
    },
    {
      "epoch": 0.01757777777777778,
      "grad_norm": 1.1982293128967285,
      "learning_rate": 0.00019652811735941322,
      "loss": 1.9153,
      "step": 791
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.2013659477233887,
      "learning_rate": 0.0001965236719270949,
      "loss": 2.081,
      "step": 792
    },
    {
      "epoch": 0.017622222222222223,
      "grad_norm": 1.1781667470932007,
      "learning_rate": 0.00019651922649477664,
      "loss": 2.0006,
      "step": 793
    },
    {
      "epoch": 0.017644444444444445,
      "grad_norm": 1.2165113687515259,
      "learning_rate": 0.00019651478106245832,
      "loss": 1.7922,
      "step": 794
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 1.2281546592712402,
      "learning_rate": 0.00019651033563014003,
      "loss": 2.0171,
      "step": 795
    },
    {
      "epoch": 0.01768888888888889,
      "grad_norm": 1.2754110097885132,
      "learning_rate": 0.00019650589019782176,
      "loss": 1.662,
      "step": 796
    },
    {
      "epoch": 0.01771111111111111,
      "grad_norm": 1.219094157218933,
      "learning_rate": 0.00019650144476550345,
      "loss": 1.9778,
      "step": 797
    },
    {
      "epoch": 0.017733333333333334,
      "grad_norm": 1.177097201347351,
      "learning_rate": 0.00019649699933318518,
      "loss": 1.9318,
      "step": 798
    },
    {
      "epoch": 0.017755555555555556,
      "grad_norm": 1.5781985521316528,
      "learning_rate": 0.00019649255390086687,
      "loss": 1.7374,
      "step": 799
    },
    {
      "epoch": 0.017777777777777778,
      "grad_norm": 1.26176118850708,
      "learning_rate": 0.00019648810846854858,
      "loss": 1.6688,
      "step": 800
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.1339136362075806,
      "learning_rate": 0.00019648366303623029,
      "loss": 1.5807,
      "step": 801
    },
    {
      "epoch": 0.017822222222222222,
      "grad_norm": 1.3230016231536865,
      "learning_rate": 0.000196479217603912,
      "loss": 3.0471,
      "step": 802
    },
    {
      "epoch": 0.017844444444444444,
      "grad_norm": 1.4688678979873657,
      "learning_rate": 0.00019647477217159368,
      "loss": 1.3478,
      "step": 803
    },
    {
      "epoch": 0.017866666666666666,
      "grad_norm": 1.306009292602539,
      "learning_rate": 0.00019647032673927541,
      "loss": 2.7983,
      "step": 804
    },
    {
      "epoch": 0.017888888888888888,
      "grad_norm": 1.1074703931808472,
      "learning_rate": 0.00019646588130695712,
      "loss": 2.3747,
      "step": 805
    },
    {
      "epoch": 0.01791111111111111,
      "grad_norm": 1.3425999879837036,
      "learning_rate": 0.0001964614358746388,
      "loss": 2.726,
      "step": 806
    },
    {
      "epoch": 0.017933333333333332,
      "grad_norm": 1.1015830039978027,
      "learning_rate": 0.00019645699044232054,
      "loss": 2.3845,
      "step": 807
    },
    {
      "epoch": 0.017955555555555554,
      "grad_norm": 0.9824787378311157,
      "learning_rate": 0.00019645254501000223,
      "loss": 2.2274,
      "step": 808
    },
    {
      "epoch": 0.017977777777777777,
      "grad_norm": 1.1457710266113281,
      "learning_rate": 0.00019644809957768394,
      "loss": 2.5331,
      "step": 809
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.09781014919281,
      "learning_rate": 0.00019644365414536564,
      "loss": 2.2203,
      "step": 810
    },
    {
      "epoch": 0.01802222222222222,
      "grad_norm": 1.3251962661743164,
      "learning_rate": 0.00019643920871304735,
      "loss": 2.3068,
      "step": 811
    },
    {
      "epoch": 0.018044444444444443,
      "grad_norm": 1.0364882946014404,
      "learning_rate": 0.00019643476328072906,
      "loss": 2.0702,
      "step": 812
    },
    {
      "epoch": 0.01806666666666667,
      "grad_norm": 1.027541160583496,
      "learning_rate": 0.00019643031784841077,
      "loss": 2.3624,
      "step": 813
    },
    {
      "epoch": 0.01808888888888889,
      "grad_norm": 1.0804171562194824,
      "learning_rate": 0.00019642587241609248,
      "loss": 2.2597,
      "step": 814
    },
    {
      "epoch": 0.018111111111111113,
      "grad_norm": 0.9873744249343872,
      "learning_rate": 0.00019642142698377417,
      "loss": 2.0124,
      "step": 815
    },
    {
      "epoch": 0.018133333333333335,
      "grad_norm": 1.2539011240005493,
      "learning_rate": 0.0001964169815514559,
      "loss": 1.6722,
      "step": 816
    },
    {
      "epoch": 0.018155555555555557,
      "grad_norm": 1.0545837879180908,
      "learning_rate": 0.00019641253611913758,
      "loss": 1.9449,
      "step": 817
    },
    {
      "epoch": 0.01817777777777778,
      "grad_norm": 1.0569536685943604,
      "learning_rate": 0.00019640809068681932,
      "loss": 2.1474,
      "step": 818
    },
    {
      "epoch": 0.0182,
      "grad_norm": 1.0982191562652588,
      "learning_rate": 0.000196403645254501,
      "loss": 2.0039,
      "step": 819
    },
    {
      "epoch": 0.018222222222222223,
      "grad_norm": 1.1790661811828613,
      "learning_rate": 0.00019639919982218271,
      "loss": 2.2475,
      "step": 820
    },
    {
      "epoch": 0.018244444444444445,
      "grad_norm": 1.2144410610198975,
      "learning_rate": 0.00019639475438986442,
      "loss": 2.005,
      "step": 821
    },
    {
      "epoch": 0.018266666666666667,
      "grad_norm": 1.3091073036193848,
      "learning_rate": 0.00019639030895754613,
      "loss": 2.2285,
      "step": 822
    },
    {
      "epoch": 0.01828888888888889,
      "grad_norm": 1.0567389726638794,
      "learning_rate": 0.00019638586352522784,
      "loss": 1.681,
      "step": 823
    },
    {
      "epoch": 0.01831111111111111,
      "grad_norm": 1.2873115539550781,
      "learning_rate": 0.00019638141809290955,
      "loss": 2.4649,
      "step": 824
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.1891435384750366,
      "learning_rate": 0.00019637697266059126,
      "loss": 2.0758,
      "step": 825
    },
    {
      "epoch": 0.018355555555555556,
      "grad_norm": 1.301710605621338,
      "learning_rate": 0.00019637252722827294,
      "loss": 2.2872,
      "step": 826
    },
    {
      "epoch": 0.018377777777777778,
      "grad_norm": 1.0890244245529175,
      "learning_rate": 0.00019636808179595468,
      "loss": 1.8396,
      "step": 827
    },
    {
      "epoch": 0.0184,
      "grad_norm": 1.1202166080474854,
      "learning_rate": 0.00019636363636363636,
      "loss": 2.0805,
      "step": 828
    },
    {
      "epoch": 0.018422222222222222,
      "grad_norm": 2.2393441200256348,
      "learning_rate": 0.00019635919093131807,
      "loss": 0.5444,
      "step": 829
    },
    {
      "epoch": 0.018444444444444444,
      "grad_norm": 1.2420040369033813,
      "learning_rate": 0.00019635474549899978,
      "loss": 1.9836,
      "step": 830
    },
    {
      "epoch": 0.018466666666666666,
      "grad_norm": 1.038867473602295,
      "learning_rate": 0.0001963503000666815,
      "loss": 1.7146,
      "step": 831
    },
    {
      "epoch": 0.018488888888888888,
      "grad_norm": 1.1635878086090088,
      "learning_rate": 0.0001963458546343632,
      "loss": 1.7218,
      "step": 832
    },
    {
      "epoch": 0.01851111111111111,
      "grad_norm": 1.0368382930755615,
      "learning_rate": 0.0001963414092020449,
      "loss": 1.3076,
      "step": 833
    },
    {
      "epoch": 0.018533333333333332,
      "grad_norm": 0.943245530128479,
      "learning_rate": 0.00019633696376972662,
      "loss": 1.1374,
      "step": 834
    },
    {
      "epoch": 0.018555555555555554,
      "grad_norm": 1.2916659116744995,
      "learning_rate": 0.00019633251833740833,
      "loss": 2.3984,
      "step": 835
    },
    {
      "epoch": 0.018577777777777776,
      "grad_norm": 1.0505813360214233,
      "learning_rate": 0.00019632807290509004,
      "loss": 1.6111,
      "step": 836
    },
    {
      "epoch": 0.0186,
      "grad_norm": 1.16885244846344,
      "learning_rate": 0.00019632362747277172,
      "loss": 1.683,
      "step": 837
    },
    {
      "epoch": 0.01862222222222222,
      "grad_norm": 1.203165054321289,
      "learning_rate": 0.00019631918204045346,
      "loss": 2.2429,
      "step": 838
    },
    {
      "epoch": 0.018644444444444446,
      "grad_norm": 2.2412188053131104,
      "learning_rate": 0.00019631473660813514,
      "loss": 2.1415,
      "step": 839
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.2367819547653198,
      "learning_rate": 0.00019631029117581685,
      "loss": 2.2188,
      "step": 840
    },
    {
      "epoch": 0.01868888888888889,
      "grad_norm": 1.673090934753418,
      "learning_rate": 0.00019630584574349856,
      "loss": 1.4442,
      "step": 841
    },
    {
      "epoch": 0.018711111111111112,
      "grad_norm": 1.2908966541290283,
      "learning_rate": 0.00019630140031118027,
      "loss": 2.2486,
      "step": 842
    },
    {
      "epoch": 0.018733333333333334,
      "grad_norm": 1.2924500703811646,
      "learning_rate": 0.00019629695487886198,
      "loss": 1.9328,
      "step": 843
    },
    {
      "epoch": 0.018755555555555557,
      "grad_norm": 1.275480031967163,
      "learning_rate": 0.0001962925094465437,
      "loss": 1.7754,
      "step": 844
    },
    {
      "epoch": 0.01877777777777778,
      "grad_norm": 1.1931178569793701,
      "learning_rate": 0.0001962880640142254,
      "loss": 2.1881,
      "step": 845
    },
    {
      "epoch": 0.0188,
      "grad_norm": 2.039440393447876,
      "learning_rate": 0.00019628361858190708,
      "loss": 1.644,
      "step": 846
    },
    {
      "epoch": 0.018822222222222223,
      "grad_norm": 1.3467886447906494,
      "learning_rate": 0.00019627917314958882,
      "loss": 2.2548,
      "step": 847
    },
    {
      "epoch": 0.018844444444444445,
      "grad_norm": 1.3075599670410156,
      "learning_rate": 0.0001962747277172705,
      "loss": 2.0337,
      "step": 848
    },
    {
      "epoch": 0.018866666666666667,
      "grad_norm": 1.1949859857559204,
      "learning_rate": 0.0001962702822849522,
      "loss": 1.9284,
      "step": 849
    },
    {
      "epoch": 0.01888888888888889,
      "grad_norm": 1.2792781591415405,
      "learning_rate": 0.00019626583685263392,
      "loss": 1.0456,
      "step": 850
    },
    {
      "epoch": 0.01891111111111111,
      "grad_norm": 1.4490439891815186,
      "learning_rate": 0.00019626139142031563,
      "loss": 1.6746,
      "step": 851
    },
    {
      "epoch": 0.018933333333333333,
      "grad_norm": 1.1604878902435303,
      "learning_rate": 0.00019625694598799734,
      "loss": 1.7505,
      "step": 852
    },
    {
      "epoch": 0.018955555555555555,
      "grad_norm": 0.9291083812713623,
      "learning_rate": 0.00019625250055567905,
      "loss": 2.5427,
      "step": 853
    },
    {
      "epoch": 0.018977777777777777,
      "grad_norm": 1.5711733102798462,
      "learning_rate": 0.00019624805512336076,
      "loss": 0.2669,
      "step": 854
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.1600127220153809,
      "learning_rate": 0.00019624360969104247,
      "loss": 2.9463,
      "step": 855
    },
    {
      "epoch": 0.01902222222222222,
      "grad_norm": 1.0230916738510132,
      "learning_rate": 0.00019623916425872418,
      "loss": 2.6563,
      "step": 856
    },
    {
      "epoch": 0.019044444444444444,
      "grad_norm": 0.9486801028251648,
      "learning_rate": 0.00019623471882640586,
      "loss": 1.8925,
      "step": 857
    },
    {
      "epoch": 0.019066666666666666,
      "grad_norm": 1.044983983039856,
      "learning_rate": 0.0001962302733940876,
      "loss": 2.311,
      "step": 858
    },
    {
      "epoch": 0.019088888888888888,
      "grad_norm": 1.4333350658416748,
      "learning_rate": 0.00019622582796176928,
      "loss": 1.7861,
      "step": 859
    },
    {
      "epoch": 0.01911111111111111,
      "grad_norm": 1.5485827922821045,
      "learning_rate": 0.000196221382529451,
      "loss": 1.7814,
      "step": 860
    },
    {
      "epoch": 0.019133333333333332,
      "grad_norm": 1.0253639221191406,
      "learning_rate": 0.00019621693709713273,
      "loss": 2.3211,
      "step": 861
    },
    {
      "epoch": 0.019155555555555554,
      "grad_norm": 1.0021156072616577,
      "learning_rate": 0.0001962124916648144,
      "loss": 2.2516,
      "step": 862
    },
    {
      "epoch": 0.019177777777777776,
      "grad_norm": 1.083513855934143,
      "learning_rate": 0.00019620804623249612,
      "loss": 2.483,
      "step": 863
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.0141162872314453,
      "learning_rate": 0.00019620360080017783,
      "loss": 2.1131,
      "step": 864
    },
    {
      "epoch": 0.019222222222222224,
      "grad_norm": 1.1440132856369019,
      "learning_rate": 0.00019619915536785954,
      "loss": 2.3115,
      "step": 865
    },
    {
      "epoch": 0.019244444444444446,
      "grad_norm": 1.368955373764038,
      "learning_rate": 0.00019619470993554122,
      "loss": 2.438,
      "step": 866
    },
    {
      "epoch": 0.019266666666666668,
      "grad_norm": 1.09905207157135,
      "learning_rate": 0.00019619026450322296,
      "loss": 2.1312,
      "step": 867
    },
    {
      "epoch": 0.01928888888888889,
      "grad_norm": 1.049364686012268,
      "learning_rate": 0.00019618581907090464,
      "loss": 2.0062,
      "step": 868
    },
    {
      "epoch": 0.019311111111111112,
      "grad_norm": 0.9739032983779907,
      "learning_rate": 0.00019618137363858635,
      "loss": 1.693,
      "step": 869
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.9700818061828613,
      "learning_rate": 0.00019617692820626809,
      "loss": 2.0532,
      "step": 870
    },
    {
      "epoch": 0.019355555555555556,
      "grad_norm": 1.3672065734863281,
      "learning_rate": 0.00019617248277394977,
      "loss": 1.429,
      "step": 871
    },
    {
      "epoch": 0.01937777777777778,
      "grad_norm": 1.079664707183838,
      "learning_rate": 0.00019616803734163148,
      "loss": 2.0825,
      "step": 872
    },
    {
      "epoch": 0.0194,
      "grad_norm": 1.2146960496902466,
      "learning_rate": 0.0001961635919093132,
      "loss": 2.2426,
      "step": 873
    },
    {
      "epoch": 0.019422222222222223,
      "grad_norm": 1.24970543384552,
      "learning_rate": 0.0001961591464769949,
      "loss": 2.6886,
      "step": 874
    },
    {
      "epoch": 0.019444444444444445,
      "grad_norm": 1.195928931236267,
      "learning_rate": 0.0001961547010446766,
      "loss": 2.4466,
      "step": 875
    },
    {
      "epoch": 0.019466666666666667,
      "grad_norm": 1.179833173751831,
      "learning_rate": 0.00019615025561235832,
      "loss": 2.2829,
      "step": 876
    },
    {
      "epoch": 0.01948888888888889,
      "grad_norm": 1.1945130825042725,
      "learning_rate": 0.00019614581018004,
      "loss": 2.418,
      "step": 877
    },
    {
      "epoch": 0.01951111111111111,
      "grad_norm": 1.167978286743164,
      "learning_rate": 0.00019614136474772174,
      "loss": 2.4884,
      "step": 878
    },
    {
      "epoch": 0.019533333333333333,
      "grad_norm": 1.125403642654419,
      "learning_rate": 0.00019613691931540345,
      "loss": 2.1588,
      "step": 879
    },
    {
      "epoch": 0.019555555555555555,
      "grad_norm": 1.150924801826477,
      "learning_rate": 0.00019613247388308513,
      "loss": 2.1924,
      "step": 880
    },
    {
      "epoch": 0.019577777777777777,
      "grad_norm": 1.2554140090942383,
      "learning_rate": 0.00019612802845076687,
      "loss": 2.2575,
      "step": 881
    },
    {
      "epoch": 0.0196,
      "grad_norm": 1.0867589712142944,
      "learning_rate": 0.00019612358301844855,
      "loss": 1.9348,
      "step": 882
    },
    {
      "epoch": 0.01962222222222222,
      "grad_norm": 1.228159785270691,
      "learning_rate": 0.00019611913758613026,
      "loss": 2.1239,
      "step": 883
    },
    {
      "epoch": 0.019644444444444444,
      "grad_norm": 1.3001697063446045,
      "learning_rate": 0.00019611469215381197,
      "loss": 2.0723,
      "step": 884
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.325709581375122,
      "learning_rate": 0.00019611024672149368,
      "loss": 2.3303,
      "step": 885
    },
    {
      "epoch": 0.019688888888888888,
      "grad_norm": 1.2864207029342651,
      "learning_rate": 0.00019610580128917539,
      "loss": 1.96,
      "step": 886
    },
    {
      "epoch": 0.01971111111111111,
      "grad_norm": 1.255982756614685,
      "learning_rate": 0.0001961013558568571,
      "loss": 1.8032,
      "step": 887
    },
    {
      "epoch": 0.019733333333333332,
      "grad_norm": 1.2519142627716064,
      "learning_rate": 0.0001960969104245388,
      "loss": 1.9856,
      "step": 888
    },
    {
      "epoch": 0.019755555555555554,
      "grad_norm": 1.3303425312042236,
      "learning_rate": 0.0001960924649922205,
      "loss": 0.3838,
      "step": 889
    },
    {
      "epoch": 0.019777777777777776,
      "grad_norm": 1.2367528676986694,
      "learning_rate": 0.00019608801955990222,
      "loss": 2.0583,
      "step": 890
    },
    {
      "epoch": 0.0198,
      "grad_norm": 1.3811371326446533,
      "learning_rate": 0.0001960835741275839,
      "loss": 2.1395,
      "step": 891
    },
    {
      "epoch": 0.019822222222222224,
      "grad_norm": 1.7128000259399414,
      "learning_rate": 0.00019607912869526564,
      "loss": 2.0093,
      "step": 892
    },
    {
      "epoch": 0.019844444444444446,
      "grad_norm": 1.5509915351867676,
      "learning_rate": 0.00019607468326294733,
      "loss": 2.571,
      "step": 893
    },
    {
      "epoch": 0.019866666666666668,
      "grad_norm": 1.2489700317382812,
      "learning_rate": 0.00019607023783062904,
      "loss": 1.582,
      "step": 894
    },
    {
      "epoch": 0.01988888888888889,
      "grad_norm": 1.2955539226531982,
      "learning_rate": 0.00019606579239831075,
      "loss": 1.6916,
      "step": 895
    },
    {
      "epoch": 0.019911111111111112,
      "grad_norm": 1.4643043279647827,
      "learning_rate": 0.00019606134696599246,
      "loss": 2.022,
      "step": 896
    },
    {
      "epoch": 0.019933333333333334,
      "grad_norm": 1.5307050943374634,
      "learning_rate": 0.00019605690153367416,
      "loss": 2.0634,
      "step": 897
    },
    {
      "epoch": 0.019955555555555556,
      "grad_norm": 1.3590905666351318,
      "learning_rate": 0.00019605245610135587,
      "loss": 1.5713,
      "step": 898
    },
    {
      "epoch": 0.01997777777777778,
      "grad_norm": 1.562294602394104,
      "learning_rate": 0.00019604801066903758,
      "loss": 1.7607,
      "step": 899
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8767348527908325,
      "learning_rate": 0.00019604356523671927,
      "loss": 2.1073,
      "step": 900
    },
    {
      "epoch": 0.020022222222222223,
      "grad_norm": 1.0802743434906006,
      "learning_rate": 0.000196039119804401,
      "loss": 2.7056,
      "step": 901
    },
    {
      "epoch": 0.020044444444444445,
      "grad_norm": 2.3722715377807617,
      "learning_rate": 0.00019603467437208269,
      "loss": 1.38,
      "step": 902
    },
    {
      "epoch": 0.020066666666666667,
      "grad_norm": 1.0593788623809814,
      "learning_rate": 0.0001960302289397644,
      "loss": 2.5719,
      "step": 903
    },
    {
      "epoch": 0.02008888888888889,
      "grad_norm": 1.0191380977630615,
      "learning_rate": 0.0001960257835074461,
      "loss": 2.4799,
      "step": 904
    },
    {
      "epoch": 0.02011111111111111,
      "grad_norm": 0.9760773777961731,
      "learning_rate": 0.00019602133807512781,
      "loss": 2.1631,
      "step": 905
    },
    {
      "epoch": 0.020133333333333333,
      "grad_norm": 1.1734133958816528,
      "learning_rate": 0.00019601689264280952,
      "loss": 2.8479,
      "step": 906
    },
    {
      "epoch": 0.020155555555555555,
      "grad_norm": 1.0349823236465454,
      "learning_rate": 0.00019601244721049123,
      "loss": 2.4701,
      "step": 907
    },
    {
      "epoch": 0.020177777777777777,
      "grad_norm": 1.1129311323165894,
      "learning_rate": 0.00019600800177817294,
      "loss": 3.0119,
      "step": 908
    },
    {
      "epoch": 0.0202,
      "grad_norm": 0.8805875778198242,
      "learning_rate": 0.00019600355634585463,
      "loss": 2.0471,
      "step": 909
    },
    {
      "epoch": 0.02022222222222222,
      "grad_norm": 0.9662013649940491,
      "learning_rate": 0.00019599911091353636,
      "loss": 2.1242,
      "step": 910
    },
    {
      "epoch": 0.020244444444444443,
      "grad_norm": 1.1028411388397217,
      "learning_rate": 0.00019599466548121805,
      "loss": 2.1906,
      "step": 911
    },
    {
      "epoch": 0.020266666666666665,
      "grad_norm": 1.1514785289764404,
      "learning_rate": 0.00019599022004889978,
      "loss": 2.4322,
      "step": 912
    },
    {
      "epoch": 0.020288888888888888,
      "grad_norm": 1.16688871383667,
      "learning_rate": 0.00019598577461658146,
      "loss": 2.4395,
      "step": 913
    },
    {
      "epoch": 0.02031111111111111,
      "grad_norm": 1.4184373617172241,
      "learning_rate": 0.00019598132918426317,
      "loss": 1.2305,
      "step": 914
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 1.03030264377594,
      "learning_rate": 0.00019597688375194488,
      "loss": 2.2355,
      "step": 915
    },
    {
      "epoch": 0.020355555555555557,
      "grad_norm": 1.3763560056686401,
      "learning_rate": 0.0001959724383196266,
      "loss": 1.1956,
      "step": 916
    },
    {
      "epoch": 0.02037777777777778,
      "grad_norm": 1.0465972423553467,
      "learning_rate": 0.0001959679928873083,
      "loss": 1.8871,
      "step": 917
    },
    {
      "epoch": 0.0204,
      "grad_norm": 1.0120636224746704,
      "learning_rate": 0.00019596354745499,
      "loss": 1.9974,
      "step": 918
    },
    {
      "epoch": 0.020422222222222224,
      "grad_norm": 1.0328166484832764,
      "learning_rate": 0.00019595910202267172,
      "loss": 2.0037,
      "step": 919
    },
    {
      "epoch": 0.020444444444444446,
      "grad_norm": 1.0897443294525146,
      "learning_rate": 0.0001959546565903534,
      "loss": 1.7993,
      "step": 920
    },
    {
      "epoch": 0.020466666666666668,
      "grad_norm": 1.1461929082870483,
      "learning_rate": 0.00019595021115803514,
      "loss": 1.8812,
      "step": 921
    },
    {
      "epoch": 0.02048888888888889,
      "grad_norm": 1.2209994792938232,
      "learning_rate": 0.00019594576572571682,
      "loss": 2.072,
      "step": 922
    },
    {
      "epoch": 0.020511111111111112,
      "grad_norm": 1.172695279121399,
      "learning_rate": 0.00019594132029339853,
      "loss": 2.1074,
      "step": 923
    },
    {
      "epoch": 0.020533333333333334,
      "grad_norm": 1.0516802072525024,
      "learning_rate": 0.00019593687486108024,
      "loss": 2.0596,
      "step": 924
    },
    {
      "epoch": 0.020555555555555556,
      "grad_norm": 1.3836328983306885,
      "learning_rate": 0.00019593242942876195,
      "loss": 1.7834,
      "step": 925
    },
    {
      "epoch": 0.020577777777777778,
      "grad_norm": 1.0988030433654785,
      "learning_rate": 0.00019592798399644366,
      "loss": 2.4386,
      "step": 926
    },
    {
      "epoch": 0.0206,
      "grad_norm": 1.2603306770324707,
      "learning_rate": 0.00019592353856412537,
      "loss": 1.9224,
      "step": 927
    },
    {
      "epoch": 0.020622222222222222,
      "grad_norm": 1.2427294254302979,
      "learning_rate": 0.00019591909313180708,
      "loss": 2.0508,
      "step": 928
    },
    {
      "epoch": 0.020644444444444444,
      "grad_norm": 1.2592589855194092,
      "learning_rate": 0.00019591464769948876,
      "loss": 0.9818,
      "step": 929
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 1.216002106666565,
      "learning_rate": 0.0001959102022671705,
      "loss": 1.968,
      "step": 930
    },
    {
      "epoch": 0.02068888888888889,
      "grad_norm": 1.0482780933380127,
      "learning_rate": 0.00019590575683485218,
      "loss": 1.9463,
      "step": 931
    },
    {
      "epoch": 0.02071111111111111,
      "grad_norm": 1.1712830066680908,
      "learning_rate": 0.00019590131140253392,
      "loss": 2.2402,
      "step": 932
    },
    {
      "epoch": 0.020733333333333333,
      "grad_norm": 1.2022780179977417,
      "learning_rate": 0.0001958968659702156,
      "loss": 2.2141,
      "step": 933
    },
    {
      "epoch": 0.020755555555555555,
      "grad_norm": 1.3972703218460083,
      "learning_rate": 0.0001958924205378973,
      "loss": 2.5702,
      "step": 934
    },
    {
      "epoch": 0.020777777777777777,
      "grad_norm": 1.3721685409545898,
      "learning_rate": 0.00019588797510557905,
      "loss": 1.9768,
      "step": 935
    },
    {
      "epoch": 0.0208,
      "grad_norm": 1.477299690246582,
      "learning_rate": 0.00019588352967326073,
      "loss": 2.271,
      "step": 936
    },
    {
      "epoch": 0.02082222222222222,
      "grad_norm": 1.2655388116836548,
      "learning_rate": 0.00019587908424094244,
      "loss": 2.1486,
      "step": 937
    },
    {
      "epoch": 0.020844444444444443,
      "grad_norm": 1.2654677629470825,
      "learning_rate": 0.00019587463880862415,
      "loss": 2.1803,
      "step": 938
    },
    {
      "epoch": 0.020866666666666665,
      "grad_norm": 1.217732548713684,
      "learning_rate": 0.00019587019337630586,
      "loss": 1.8073,
      "step": 939
    },
    {
      "epoch": 0.020888888888888887,
      "grad_norm": 1.2355321645736694,
      "learning_rate": 0.00019586574794398754,
      "loss": 2.1258,
      "step": 940
    },
    {
      "epoch": 0.02091111111111111,
      "grad_norm": 1.1818342208862305,
      "learning_rate": 0.00019586130251166928,
      "loss": 1.8276,
      "step": 941
    },
    {
      "epoch": 0.020933333333333335,
      "grad_norm": 1.1487818956375122,
      "learning_rate": 0.00019585685707935096,
      "loss": 1.6831,
      "step": 942
    },
    {
      "epoch": 0.020955555555555557,
      "grad_norm": 1.2802660465240479,
      "learning_rate": 0.00019585241164703267,
      "loss": 1.6609,
      "step": 943
    },
    {
      "epoch": 0.02097777777777778,
      "grad_norm": 1.1527976989746094,
      "learning_rate": 0.0001958479662147144,
      "loss": 1.6833,
      "step": 944
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.3876123428344727,
      "learning_rate": 0.0001958435207823961,
      "loss": 2.3983,
      "step": 945
    },
    {
      "epoch": 0.021022222222222223,
      "grad_norm": 1.2040034532546997,
      "learning_rate": 0.0001958390753500778,
      "loss": 1.846,
      "step": 946
    },
    {
      "epoch": 0.021044444444444445,
      "grad_norm": 1.370119571685791,
      "learning_rate": 0.0001958346299177595,
      "loss": 1.8897,
      "step": 947
    },
    {
      "epoch": 0.021066666666666668,
      "grad_norm": 1.3019564151763916,
      "learning_rate": 0.00019583018448544122,
      "loss": 1.8344,
      "step": 948
    },
    {
      "epoch": 0.02108888888888889,
      "grad_norm": 1.4427218437194824,
      "learning_rate": 0.00019582573905312293,
      "loss": 1.7637,
      "step": 949
    },
    {
      "epoch": 0.021111111111111112,
      "grad_norm": 1.5034881830215454,
      "learning_rate": 0.00019582129362080464,
      "loss": 1.0761,
      "step": 950
    },
    {
      "epoch": 0.021133333333333334,
      "grad_norm": 1.1429578065872192,
      "learning_rate": 0.00019581684818848632,
      "loss": 2.7195,
      "step": 951
    },
    {
      "epoch": 0.021155555555555556,
      "grad_norm": 0.976854681968689,
      "learning_rate": 0.00019581240275616806,
      "loss": 2.3101,
      "step": 952
    },
    {
      "epoch": 0.021177777777777778,
      "grad_norm": 1.206167221069336,
      "learning_rate": 0.00019580795732384977,
      "loss": 1.7676,
      "step": 953
    },
    {
      "epoch": 0.0212,
      "grad_norm": 0.972571849822998,
      "learning_rate": 0.00019580351189153145,
      "loss": 2.54,
      "step": 954
    },
    {
      "epoch": 0.021222222222222222,
      "grad_norm": 1.1512590646743774,
      "learning_rate": 0.0001957990664592132,
      "loss": 2.24,
      "step": 955
    },
    {
      "epoch": 0.021244444444444444,
      "grad_norm": 1.3974167108535767,
      "learning_rate": 0.00019579462102689487,
      "loss": 2.0927,
      "step": 956
    },
    {
      "epoch": 0.021266666666666666,
      "grad_norm": 1.048025131225586,
      "learning_rate": 0.00019579017559457658,
      "loss": 2.2076,
      "step": 957
    },
    {
      "epoch": 0.02128888888888889,
      "grad_norm": 1.2170542478561401,
      "learning_rate": 0.0001957857301622583,
      "loss": 2.3151,
      "step": 958
    },
    {
      "epoch": 0.02131111111111111,
      "grad_norm": 1.132617712020874,
      "learning_rate": 0.00019578128472994,
      "loss": 2.5876,
      "step": 959
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.075210690498352,
      "learning_rate": 0.0001957768392976217,
      "loss": 2.1453,
      "step": 960
    },
    {
      "epoch": 0.021355555555555555,
      "grad_norm": 1.2410504817962646,
      "learning_rate": 0.00019577239386530342,
      "loss": 2.6506,
      "step": 961
    },
    {
      "epoch": 0.021377777777777777,
      "grad_norm": 1.3010751008987427,
      "learning_rate": 0.00019576794843298513,
      "loss": 2.4697,
      "step": 962
    },
    {
      "epoch": 0.0214,
      "grad_norm": 1.0129830837249756,
      "learning_rate": 0.0001957635030006668,
      "loss": 1.4227,
      "step": 963
    },
    {
      "epoch": 0.02142222222222222,
      "grad_norm": 0.6315566897392273,
      "learning_rate": 0.00019575905756834855,
      "loss": 0.0922,
      "step": 964
    },
    {
      "epoch": 0.021444444444444443,
      "grad_norm": 1.1320451498031616,
      "learning_rate": 0.00019575461213603023,
      "loss": 2.1428,
      "step": 965
    },
    {
      "epoch": 0.021466666666666665,
      "grad_norm": 1.2234382629394531,
      "learning_rate": 0.00019575016670371194,
      "loss": 2.1096,
      "step": 966
    },
    {
      "epoch": 0.021488888888888887,
      "grad_norm": 0.9147301912307739,
      "learning_rate": 0.00019574572127139365,
      "loss": 1.7953,
      "step": 967
    },
    {
      "epoch": 0.021511111111111113,
      "grad_norm": 1.356390118598938,
      "learning_rate": 0.00019574127583907536,
      "loss": 2.2897,
      "step": 968
    },
    {
      "epoch": 0.021533333333333335,
      "grad_norm": 1.0729771852493286,
      "learning_rate": 0.00019573683040675707,
      "loss": 1.756,
      "step": 969
    },
    {
      "epoch": 0.021555555555555557,
      "grad_norm": 1.4511117935180664,
      "learning_rate": 0.00019573238497443878,
      "loss": 2.6018,
      "step": 970
    },
    {
      "epoch": 0.02157777777777778,
      "grad_norm": 1.0890446901321411,
      "learning_rate": 0.0001957279395421205,
      "loss": 1.9825,
      "step": 971
    },
    {
      "epoch": 0.0216,
      "grad_norm": 1.0413049459457397,
      "learning_rate": 0.0001957234941098022,
      "loss": 1.881,
      "step": 972
    },
    {
      "epoch": 0.021622222222222223,
      "grad_norm": 1.1469613313674927,
      "learning_rate": 0.0001957190486774839,
      "loss": 2.1205,
      "step": 973
    },
    {
      "epoch": 0.021644444444444445,
      "grad_norm": 1.2220079898834229,
      "learning_rate": 0.0001957146032451656,
      "loss": 1.8111,
      "step": 974
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 1.2006953954696655,
      "learning_rate": 0.00019571015781284733,
      "loss": 2.1679,
      "step": 975
    },
    {
      "epoch": 0.02168888888888889,
      "grad_norm": 1.1270962953567505,
      "learning_rate": 0.000195705712380529,
      "loss": 1.0779,
      "step": 976
    },
    {
      "epoch": 0.02171111111111111,
      "grad_norm": 1.1960642337799072,
      "learning_rate": 0.00019570126694821072,
      "loss": 2.047,
      "step": 977
    },
    {
      "epoch": 0.021733333333333334,
      "grad_norm": 1.4884071350097656,
      "learning_rate": 0.00019569682151589243,
      "loss": 2.0778,
      "step": 978
    },
    {
      "epoch": 0.021755555555555556,
      "grad_norm": 1.5839117765426636,
      "learning_rate": 0.00019569237608357414,
      "loss": 1.7589,
      "step": 979
    },
    {
      "epoch": 0.021777777777777778,
      "grad_norm": 1.19338858127594,
      "learning_rate": 0.00019568793065125585,
      "loss": 2.1839,
      "step": 980
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.2875008583068848,
      "learning_rate": 0.00019568348521893756,
      "loss": 1.7998,
      "step": 981
    },
    {
      "epoch": 0.021822222222222222,
      "grad_norm": 1.341842770576477,
      "learning_rate": 0.00019567903978661927,
      "loss": 1.8036,
      "step": 982
    },
    {
      "epoch": 0.021844444444444444,
      "grad_norm": 1.2057856321334839,
      "learning_rate": 0.00019567459435430095,
      "loss": 2.4206,
      "step": 983
    },
    {
      "epoch": 0.021866666666666666,
      "grad_norm": 1.2523908615112305,
      "learning_rate": 0.00019567014892198268,
      "loss": 2.2547,
      "step": 984
    },
    {
      "epoch": 0.02188888888888889,
      "grad_norm": 1.0343761444091797,
      "learning_rate": 0.00019566570348966437,
      "loss": 1.8124,
      "step": 985
    },
    {
      "epoch": 0.02191111111111111,
      "grad_norm": 1.5447239875793457,
      "learning_rate": 0.0001956612580573461,
      "loss": 2.615,
      "step": 986
    },
    {
      "epoch": 0.021933333333333332,
      "grad_norm": 1.5843077898025513,
      "learning_rate": 0.0001956568126250278,
      "loss": 2.2762,
      "step": 987
    },
    {
      "epoch": 0.021955555555555555,
      "grad_norm": 1.115618109703064,
      "learning_rate": 0.0001956523671927095,
      "loss": 1.8599,
      "step": 988
    },
    {
      "epoch": 0.021977777777777777,
      "grad_norm": 1.467014193534851,
      "learning_rate": 0.0001956479217603912,
      "loss": 2.2977,
      "step": 989
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.3508834838867188,
      "learning_rate": 0.00019564347632807292,
      "loss": 2.311,
      "step": 990
    },
    {
      "epoch": 0.02202222222222222,
      "grad_norm": 1.1721075773239136,
      "learning_rate": 0.00019563903089575462,
      "loss": 1.8702,
      "step": 991
    },
    {
      "epoch": 0.022044444444444443,
      "grad_norm": 1.4061206579208374,
      "learning_rate": 0.00019563458546343633,
      "loss": 1.9824,
      "step": 992
    },
    {
      "epoch": 0.022066666666666665,
      "grad_norm": 1.1400818824768066,
      "learning_rate": 0.00019563014003111804,
      "loss": 1.8775,
      "step": 993
    },
    {
      "epoch": 0.02208888888888889,
      "grad_norm": 1.2500072717666626,
      "learning_rate": 0.00019562569459879973,
      "loss": 2.1389,
      "step": 994
    },
    {
      "epoch": 0.022111111111111113,
      "grad_norm": 1.1026194095611572,
      "learning_rate": 0.00019562124916648146,
      "loss": 1.8361,
      "step": 995
    },
    {
      "epoch": 0.022133333333333335,
      "grad_norm": 1.262624740600586,
      "learning_rate": 0.00019561680373416315,
      "loss": 1.9002,
      "step": 996
    },
    {
      "epoch": 0.022155555555555557,
      "grad_norm": 1.2566834688186646,
      "learning_rate": 0.00019561235830184486,
      "loss": 1.7795,
      "step": 997
    },
    {
      "epoch": 0.02217777777777778,
      "grad_norm": 1.3451493978500366,
      "learning_rate": 0.00019560791286952657,
      "loss": 2.1366,
      "step": 998
    },
    {
      "epoch": 0.0222,
      "grad_norm": 1.2510582208633423,
      "learning_rate": 0.00019560346743720827,
      "loss": 1.6197,
      "step": 999
    },
    {
      "epoch": 0.022222222222222223,
      "grad_norm": 1.2556939125061035,
      "learning_rate": 0.00019559902200488998,
      "loss": 1.3633,
      "step": 1000
    },
    {
      "epoch": 0.022244444444444445,
      "grad_norm": 0.848939061164856,
      "learning_rate": 0.0001955945765725717,
      "loss": 2.5007,
      "step": 1001
    },
    {
      "epoch": 0.022266666666666667,
      "grad_norm": 1.0787360668182373,
      "learning_rate": 0.0001955901311402534,
      "loss": 2.1481,
      "step": 1002
    },
    {
      "epoch": 0.02228888888888889,
      "grad_norm": 1.044460654258728,
      "learning_rate": 0.00019558568570793509,
      "loss": 2.3699,
      "step": 1003
    },
    {
      "epoch": 0.02231111111111111,
      "grad_norm": 0.9113267660140991,
      "learning_rate": 0.00019558124027561682,
      "loss": 2.1719,
      "step": 1004
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.0063265562057495,
      "learning_rate": 0.0001955767948432985,
      "loss": 2.3777,
      "step": 1005
    },
    {
      "epoch": 0.022355555555555556,
      "grad_norm": 0.9605908393859863,
      "learning_rate": 0.00019557234941098024,
      "loss": 2.2322,
      "step": 1006
    },
    {
      "epoch": 0.022377777777777778,
      "grad_norm": 0.9526219367980957,
      "learning_rate": 0.00019556790397866192,
      "loss": 2.1858,
      "step": 1007
    },
    {
      "epoch": 0.0224,
      "grad_norm": 0.9146535992622375,
      "learning_rate": 0.00019556345854634363,
      "loss": 2.2971,
      "step": 1008
    },
    {
      "epoch": 0.022422222222222222,
      "grad_norm": 0.973808765411377,
      "learning_rate": 0.00019555901311402537,
      "loss": 2.1981,
      "step": 1009
    },
    {
      "epoch": 0.022444444444444444,
      "grad_norm": 1.3780828714370728,
      "learning_rate": 0.00019555456768170705,
      "loss": 1.4589,
      "step": 1010
    },
    {
      "epoch": 0.022466666666666666,
      "grad_norm": 1.200380802154541,
      "learning_rate": 0.00019555012224938876,
      "loss": 2.0646,
      "step": 1011
    },
    {
      "epoch": 0.022488888888888888,
      "grad_norm": 1.0672061443328857,
      "learning_rate": 0.00019554567681707047,
      "loss": 2.0919,
      "step": 1012
    },
    {
      "epoch": 0.02251111111111111,
      "grad_norm": 1.0158803462982178,
      "learning_rate": 0.00019554123138475218,
      "loss": 2.165,
      "step": 1013
    },
    {
      "epoch": 0.022533333333333332,
      "grad_norm": 1.2931088209152222,
      "learning_rate": 0.00019553678595243386,
      "loss": 1.9598,
      "step": 1014
    },
    {
      "epoch": 0.022555555555555554,
      "grad_norm": 1.1174200773239136,
      "learning_rate": 0.0001955323405201156,
      "loss": 1.8869,
      "step": 1015
    },
    {
      "epoch": 0.022577777777777776,
      "grad_norm": 1.2968811988830566,
      "learning_rate": 0.00019552789508779728,
      "loss": 1.8709,
      "step": 1016
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.1070488691329956,
      "learning_rate": 0.000195523449655479,
      "loss": 1.5826,
      "step": 1017
    },
    {
      "epoch": 0.02262222222222222,
      "grad_norm": 1.1246074438095093,
      "learning_rate": 0.00019551900422316073,
      "loss": 1.9008,
      "step": 1018
    },
    {
      "epoch": 0.022644444444444443,
      "grad_norm": 1.4724538326263428,
      "learning_rate": 0.0001955145587908424,
      "loss": 1.9687,
      "step": 1019
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 1.1362316608428955,
      "learning_rate": 0.00019551011335852412,
      "loss": 2.2574,
      "step": 1020
    },
    {
      "epoch": 0.02268888888888889,
      "grad_norm": 1.030013918876648,
      "learning_rate": 0.00019550566792620583,
      "loss": 1.8649,
      "step": 1021
    },
    {
      "epoch": 0.022711111111111112,
      "grad_norm": 1.0296804904937744,
      "learning_rate": 0.00019550122249388754,
      "loss": 1.9746,
      "step": 1022
    },
    {
      "epoch": 0.022733333333333335,
      "grad_norm": 1.0721232891082764,
      "learning_rate": 0.00019549677706156922,
      "loss": 2.0352,
      "step": 1023
    },
    {
      "epoch": 0.022755555555555557,
      "grad_norm": 1.4004583358764648,
      "learning_rate": 0.00019549233162925096,
      "loss": 2.079,
      "step": 1024
    },
    {
      "epoch": 0.02277777777777778,
      "grad_norm": 1.5219146013259888,
      "learning_rate": 0.00019548788619693264,
      "loss": 2.554,
      "step": 1025
    },
    {
      "epoch": 0.0228,
      "grad_norm": 1.1802712678909302,
      "learning_rate": 0.00019548344076461438,
      "loss": 1.3831,
      "step": 1026
    },
    {
      "epoch": 0.022822222222222223,
      "grad_norm": 1.1997747421264648,
      "learning_rate": 0.0001954789953322961,
      "loss": 2.23,
      "step": 1027
    },
    {
      "epoch": 0.022844444444444445,
      "grad_norm": 1.3436768054962158,
      "learning_rate": 0.00019547454989997777,
      "loss": 2.1588,
      "step": 1028
    },
    {
      "epoch": 0.022866666666666667,
      "grad_norm": 1.6653196811676025,
      "learning_rate": 0.0001954701044676595,
      "loss": 2.0499,
      "step": 1029
    },
    {
      "epoch": 0.02288888888888889,
      "grad_norm": 1.479083776473999,
      "learning_rate": 0.0001954656590353412,
      "loss": 2.1749,
      "step": 1030
    },
    {
      "epoch": 0.02291111111111111,
      "grad_norm": 1.25801420211792,
      "learning_rate": 0.0001954612136030229,
      "loss": 2.3237,
      "step": 1031
    },
    {
      "epoch": 0.022933333333333333,
      "grad_norm": 1.2146965265274048,
      "learning_rate": 0.0001954567681707046,
      "loss": 1.9281,
      "step": 1032
    },
    {
      "epoch": 0.022955555555555555,
      "grad_norm": 1.1866048574447632,
      "learning_rate": 0.00019545232273838632,
      "loss": 2.1571,
      "step": 1033
    },
    {
      "epoch": 0.022977777777777778,
      "grad_norm": 1.1639046669006348,
      "learning_rate": 0.00019544787730606803,
      "loss": 1.5634,
      "step": 1034
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.333937644958496,
      "learning_rate": 0.00019544343187374974,
      "loss": 2.0379,
      "step": 1035
    },
    {
      "epoch": 0.02302222222222222,
      "grad_norm": 1.1640256643295288,
      "learning_rate": 0.00019543898644143145,
      "loss": 1.8631,
      "step": 1036
    },
    {
      "epoch": 0.023044444444444444,
      "grad_norm": 1.238248586654663,
      "learning_rate": 0.00019543454100911313,
      "loss": 1.7345,
      "step": 1037
    },
    {
      "epoch": 0.023066666666666666,
      "grad_norm": 1.0815786123275757,
      "learning_rate": 0.00019543009557679487,
      "loss": 1.1185,
      "step": 1038
    },
    {
      "epoch": 0.023088888888888888,
      "grad_norm": 1.4080270528793335,
      "learning_rate": 0.00019542565014447655,
      "loss": 2.1232,
      "step": 1039
    },
    {
      "epoch": 0.02311111111111111,
      "grad_norm": 1.3079044818878174,
      "learning_rate": 0.00019542120471215826,
      "loss": 2.1561,
      "step": 1040
    },
    {
      "epoch": 0.023133333333333332,
      "grad_norm": 1.2550265789031982,
      "learning_rate": 0.00019541675927983997,
      "loss": 1.8651,
      "step": 1041
    },
    {
      "epoch": 0.023155555555555554,
      "grad_norm": 1.2704882621765137,
      "learning_rate": 0.00019541231384752168,
      "loss": 1.7722,
      "step": 1042
    },
    {
      "epoch": 0.023177777777777776,
      "grad_norm": 1.1533430814743042,
      "learning_rate": 0.0001954078684152034,
      "loss": 1.7708,
      "step": 1043
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.2300595045089722,
      "learning_rate": 0.0001954034229828851,
      "loss": 1.8022,
      "step": 1044
    },
    {
      "epoch": 0.02322222222222222,
      "grad_norm": 1.298561930656433,
      "learning_rate": 0.0001953989775505668,
      "loss": 1.8205,
      "step": 1045
    },
    {
      "epoch": 0.023244444444444446,
      "grad_norm": 1.3184154033660889,
      "learning_rate": 0.00019539453211824852,
      "loss": 2.1188,
      "step": 1046
    },
    {
      "epoch": 0.023266666666666668,
      "grad_norm": 1.3662607669830322,
      "learning_rate": 0.00019539008668593023,
      "loss": 2.0165,
      "step": 1047
    },
    {
      "epoch": 0.02328888888888889,
      "grad_norm": 1.4113154411315918,
      "learning_rate": 0.0001953856412536119,
      "loss": 1.8712,
      "step": 1048
    },
    {
      "epoch": 0.023311111111111112,
      "grad_norm": 1.5894526243209839,
      "learning_rate": 0.00019538119582129365,
      "loss": 2.2097,
      "step": 1049
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 1.606162428855896,
      "learning_rate": 0.00019537675038897533,
      "loss": 1.7208,
      "step": 1050
    },
    {
      "epoch": 0.023355555555555556,
      "grad_norm": 1.8017663955688477,
      "learning_rate": 0.00019537230495665704,
      "loss": 1.6968,
      "step": 1051
    },
    {
      "epoch": 0.02337777777777778,
      "grad_norm": 0.898545503616333,
      "learning_rate": 0.00019536785952433875,
      "loss": 2.2294,
      "step": 1052
    },
    {
      "epoch": 0.0234,
      "grad_norm": 1.1432520151138306,
      "learning_rate": 0.00019536341409202046,
      "loss": 2.3774,
      "step": 1053
    },
    {
      "epoch": 0.023422222222222223,
      "grad_norm": 0.9966428875923157,
      "learning_rate": 0.00019535896865970217,
      "loss": 2.0966,
      "step": 1054
    },
    {
      "epoch": 0.023444444444444445,
      "grad_norm": 1.1529353857040405,
      "learning_rate": 0.00019535452322738388,
      "loss": 2.9607,
      "step": 1055
    },
    {
      "epoch": 0.023466666666666667,
      "grad_norm": 1.0590641498565674,
      "learning_rate": 0.0001953500777950656,
      "loss": 2.3729,
      "step": 1056
    },
    {
      "epoch": 0.02348888888888889,
      "grad_norm": 1.1788803339004517,
      "learning_rate": 0.00019534563236274727,
      "loss": 2.0186,
      "step": 1057
    },
    {
      "epoch": 0.02351111111111111,
      "grad_norm": 1.3938393592834473,
      "learning_rate": 0.000195341186930429,
      "loss": 1.4386,
      "step": 1058
    },
    {
      "epoch": 0.023533333333333333,
      "grad_norm": 1.0461190938949585,
      "learning_rate": 0.0001953367414981107,
      "loss": 2.2823,
      "step": 1059
    },
    {
      "epoch": 0.023555555555555555,
      "grad_norm": 1.4732369184494019,
      "learning_rate": 0.0001953322960657924,
      "loss": 2.0163,
      "step": 1060
    },
    {
      "epoch": 0.023577777777777777,
      "grad_norm": 1.1343518495559692,
      "learning_rate": 0.0001953278506334741,
      "loss": 2.1538,
      "step": 1061
    },
    {
      "epoch": 0.0236,
      "grad_norm": 1.224971890449524,
      "learning_rate": 0.00019532340520115582,
      "loss": 2.4465,
      "step": 1062
    },
    {
      "epoch": 0.02362222222222222,
      "grad_norm": 1.2219271659851074,
      "learning_rate": 0.00019531895976883753,
      "loss": 2.0159,
      "step": 1063
    },
    {
      "epoch": 0.023644444444444444,
      "grad_norm": 1.1038373708724976,
      "learning_rate": 0.00019531451433651924,
      "loss": 1.9716,
      "step": 1064
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 1.0893348455429077,
      "learning_rate": 0.00019531006890420095,
      "loss": 1.7639,
      "step": 1065
    },
    {
      "epoch": 0.023688888888888888,
      "grad_norm": 1.0139858722686768,
      "learning_rate": 0.00019530562347188266,
      "loss": 2.218,
      "step": 1066
    },
    {
      "epoch": 0.02371111111111111,
      "grad_norm": 1.2331516742706299,
      "learning_rate": 0.00019530117803956437,
      "loss": 2.3592,
      "step": 1067
    },
    {
      "epoch": 0.023733333333333332,
      "grad_norm": 1.1039979457855225,
      "learning_rate": 0.00019529673260724605,
      "loss": 1.9273,
      "step": 1068
    },
    {
      "epoch": 0.023755555555555554,
      "grad_norm": 1.436119794845581,
      "learning_rate": 0.00019529228717492779,
      "loss": 2.1083,
      "step": 1069
    },
    {
      "epoch": 0.023777777777777776,
      "grad_norm": 1.0804810523986816,
      "learning_rate": 0.00019528784174260947,
      "loss": 1.7501,
      "step": 1070
    },
    {
      "epoch": 0.0238,
      "grad_norm": 1.2185988426208496,
      "learning_rate": 0.00019528339631029118,
      "loss": 2.149,
      "step": 1071
    },
    {
      "epoch": 0.023822222222222224,
      "grad_norm": 1.1719928979873657,
      "learning_rate": 0.0001952789508779729,
      "loss": 1.993,
      "step": 1072
    },
    {
      "epoch": 0.023844444444444446,
      "grad_norm": 1.6356178522109985,
      "learning_rate": 0.0001952745054456546,
      "loss": 2.8068,
      "step": 1073
    },
    {
      "epoch": 0.023866666666666668,
      "grad_norm": 1.1543465852737427,
      "learning_rate": 0.0001952700600133363,
      "loss": 2.0547,
      "step": 1074
    },
    {
      "epoch": 0.02388888888888889,
      "grad_norm": 1.1319878101348877,
      "learning_rate": 0.00019526561458101802,
      "loss": 2.0876,
      "step": 1075
    },
    {
      "epoch": 0.023911111111111112,
      "grad_norm": 1.2772685289382935,
      "learning_rate": 0.00019526116914869973,
      "loss": 2.2336,
      "step": 1076
    },
    {
      "epoch": 0.023933333333333334,
      "grad_norm": 0.9529381394386292,
      "learning_rate": 0.0001952567237163814,
      "loss": 1.6518,
      "step": 1077
    },
    {
      "epoch": 0.023955555555555556,
      "grad_norm": 1.26215660572052,
      "learning_rate": 0.00019525227828406315,
      "loss": 2.3245,
      "step": 1078
    },
    {
      "epoch": 0.02397777777777778,
      "grad_norm": 1.1040377616882324,
      "learning_rate": 0.00019524783285174483,
      "loss": 1.9655,
      "step": 1079
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.2873084545135498,
      "learning_rate": 0.00019524338741942654,
      "loss": 2.0115,
      "step": 1080
    },
    {
      "epoch": 0.024022222222222223,
      "grad_norm": 1.0961894989013672,
      "learning_rate": 0.00019523894198710825,
      "loss": 1.806,
      "step": 1081
    },
    {
      "epoch": 0.024044444444444445,
      "grad_norm": 1.0821303129196167,
      "learning_rate": 0.00019523449655478996,
      "loss": 2.027,
      "step": 1082
    },
    {
      "epoch": 0.024066666666666667,
      "grad_norm": 1.16420578956604,
      "learning_rate": 0.0001952300511224717,
      "loss": 2.0187,
      "step": 1083
    },
    {
      "epoch": 0.02408888888888889,
      "grad_norm": 1.0927135944366455,
      "learning_rate": 0.00019522560569015338,
      "loss": 1.5185,
      "step": 1084
    },
    {
      "epoch": 0.02411111111111111,
      "grad_norm": 1.2788599729537964,
      "learning_rate": 0.00019522116025783509,
      "loss": 1.8329,
      "step": 1085
    },
    {
      "epoch": 0.024133333333333333,
      "grad_norm": 0.9920259714126587,
      "learning_rate": 0.0001952167148255168,
      "loss": 0.8753,
      "step": 1086
    },
    {
      "epoch": 0.024155555555555555,
      "grad_norm": 1.2359035015106201,
      "learning_rate": 0.0001952122693931985,
      "loss": 2.3306,
      "step": 1087
    },
    {
      "epoch": 0.024177777777777777,
      "grad_norm": 1.3450963497161865,
      "learning_rate": 0.0001952078239608802,
      "loss": 1.969,
      "step": 1088
    },
    {
      "epoch": 0.0242,
      "grad_norm": 1.2884758710861206,
      "learning_rate": 0.00019520337852856192,
      "loss": 1.687,
      "step": 1089
    },
    {
      "epoch": 0.02422222222222222,
      "grad_norm": 1.1487677097320557,
      "learning_rate": 0.0001951989330962436,
      "loss": 1.9651,
      "step": 1090
    },
    {
      "epoch": 0.024244444444444443,
      "grad_norm": 1.2130123376846313,
      "learning_rate": 0.00019519448766392532,
      "loss": 2.0887,
      "step": 1091
    },
    {
      "epoch": 0.024266666666666666,
      "grad_norm": 1.3776239156723022,
      "learning_rate": 0.00019519004223160705,
      "loss": 1.8375,
      "step": 1092
    },
    {
      "epoch": 0.024288888888888888,
      "grad_norm": 1.2455872297286987,
      "learning_rate": 0.00019518559679928874,
      "loss": 1.9519,
      "step": 1093
    },
    {
      "epoch": 0.02431111111111111,
      "grad_norm": 1.3093212842941284,
      "learning_rate": 0.00019518115136697044,
      "loss": 2.0387,
      "step": 1094
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 1.227171778678894,
      "learning_rate": 0.00019517670593465215,
      "loss": 1.9908,
      "step": 1095
    },
    {
      "epoch": 0.024355555555555554,
      "grad_norm": 1.207175374031067,
      "learning_rate": 0.00019517226050233386,
      "loss": 1.8354,
      "step": 1096
    },
    {
      "epoch": 0.02437777777777778,
      "grad_norm": 1.1748722791671753,
      "learning_rate": 0.00019516781507001555,
      "loss": 1.6467,
      "step": 1097
    },
    {
      "epoch": 0.0244,
      "grad_norm": 1.3979183435440063,
      "learning_rate": 0.00019516336963769728,
      "loss": 1.6041,
      "step": 1098
    },
    {
      "epoch": 0.024422222222222224,
      "grad_norm": 1.6925382614135742,
      "learning_rate": 0.00019515892420537897,
      "loss": 0.7031,
      "step": 1099
    },
    {
      "epoch": 0.024444444444444446,
      "grad_norm": 1.2615066766738892,
      "learning_rate": 0.0001951544787730607,
      "loss": 1.1416,
      "step": 1100
    },
    {
      "epoch": 0.024466666666666668,
      "grad_norm": 1.1813077926635742,
      "learning_rate": 0.0001951500333407424,
      "loss": 1.403,
      "step": 1101
    },
    {
      "epoch": 0.02448888888888889,
      "grad_norm": 1.0336699485778809,
      "learning_rate": 0.0001951455879084241,
      "loss": 2.6675,
      "step": 1102
    },
    {
      "epoch": 0.024511111111111112,
      "grad_norm": 1.214032769203186,
      "learning_rate": 0.00019514114247610583,
      "loss": 1.8028,
      "step": 1103
    },
    {
      "epoch": 0.024533333333333334,
      "grad_norm": 0.963882327079773,
      "learning_rate": 0.00019513669704378751,
      "loss": 1.9305,
      "step": 1104
    },
    {
      "epoch": 0.024555555555555556,
      "grad_norm": 1.1044516563415527,
      "learning_rate": 0.00019513225161146922,
      "loss": 2.3171,
      "step": 1105
    },
    {
      "epoch": 0.024577777777777778,
      "grad_norm": 0.985139012336731,
      "learning_rate": 0.00019512780617915093,
      "loss": 2.2231,
      "step": 1106
    },
    {
      "epoch": 0.0246,
      "grad_norm": 0.9848358631134033,
      "learning_rate": 0.00019512336074683264,
      "loss": 2.3816,
      "step": 1107
    },
    {
      "epoch": 0.024622222222222222,
      "grad_norm": 0.980165421962738,
      "learning_rate": 0.00019511891531451435,
      "loss": 2.2091,
      "step": 1108
    },
    {
      "epoch": 0.024644444444444445,
      "grad_norm": 1.1980235576629639,
      "learning_rate": 0.00019511446988219606,
      "loss": 2.369,
      "step": 1109
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 1.3036571741104126,
      "learning_rate": 0.00019511002444987777,
      "loss": 2.2841,
      "step": 1110
    },
    {
      "epoch": 0.02468888888888889,
      "grad_norm": 1.1008864641189575,
      "learning_rate": 0.00019510557901755945,
      "loss": 2.2994,
      "step": 1111
    },
    {
      "epoch": 0.02471111111111111,
      "grad_norm": 1.2121913433074951,
      "learning_rate": 0.0001951011335852412,
      "loss": 2.4577,
      "step": 1112
    },
    {
      "epoch": 0.024733333333333333,
      "grad_norm": 1.0463905334472656,
      "learning_rate": 0.00019509668815292287,
      "loss": 2.0624,
      "step": 1113
    },
    {
      "epoch": 0.024755555555555555,
      "grad_norm": 1.2892800569534302,
      "learning_rate": 0.00019509224272060458,
      "loss": 2.353,
      "step": 1114
    },
    {
      "epoch": 0.024777777777777777,
      "grad_norm": 1.0605815649032593,
      "learning_rate": 0.0001950877972882863,
      "loss": 2.1136,
      "step": 1115
    },
    {
      "epoch": 0.0248,
      "grad_norm": 1.5927958488464355,
      "learning_rate": 0.000195083351855968,
      "loss": 1.126,
      "step": 1116
    },
    {
      "epoch": 0.02482222222222222,
      "grad_norm": 1.2583246231079102,
      "learning_rate": 0.0001950789064236497,
      "loss": 2.3797,
      "step": 1117
    },
    {
      "epoch": 0.024844444444444443,
      "grad_norm": 1.2638978958129883,
      "learning_rate": 0.00019507446099133142,
      "loss": 2.0774,
      "step": 1118
    },
    {
      "epoch": 0.024866666666666665,
      "grad_norm": 1.0343905687332153,
      "learning_rate": 0.00019507001555901313,
      "loss": 1.9243,
      "step": 1119
    },
    {
      "epoch": 0.024888888888888887,
      "grad_norm": 1.281557321548462,
      "learning_rate": 0.00019506557012669484,
      "loss": 2.2395,
      "step": 1120
    },
    {
      "epoch": 0.02491111111111111,
      "grad_norm": 1.052554726600647,
      "learning_rate": 0.00019506112469437655,
      "loss": 2.0102,
      "step": 1121
    },
    {
      "epoch": 0.02493333333333333,
      "grad_norm": 1.2490876913070679,
      "learning_rate": 0.00019505667926205823,
      "loss": 2.4319,
      "step": 1122
    },
    {
      "epoch": 0.024955555555555557,
      "grad_norm": 1.3211621046066284,
      "learning_rate": 0.00019505223382973997,
      "loss": 2.3475,
      "step": 1123
    },
    {
      "epoch": 0.02497777777777778,
      "grad_norm": 0.9402294754981995,
      "learning_rate": 0.00019504778839742165,
      "loss": 1.7655,
      "step": 1124
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.2580010890960693,
      "learning_rate": 0.00019504334296510336,
      "loss": 2.4544,
      "step": 1125
    },
    {
      "epoch": 0.025022222222222223,
      "grad_norm": 1.1899590492248535,
      "learning_rate": 0.00019503889753278507,
      "loss": 2.1395,
      "step": 1126
    },
    {
      "epoch": 0.025044444444444446,
      "grad_norm": 1.2790266275405884,
      "learning_rate": 0.00019503445210046678,
      "loss": 2.4838,
      "step": 1127
    },
    {
      "epoch": 0.025066666666666668,
      "grad_norm": 1.245686650276184,
      "learning_rate": 0.0001950300066681485,
      "loss": 2.0529,
      "step": 1128
    },
    {
      "epoch": 0.02508888888888889,
      "grad_norm": 1.2443344593048096,
      "learning_rate": 0.0001950255612358302,
      "loss": 2.2989,
      "step": 1129
    },
    {
      "epoch": 0.025111111111111112,
      "grad_norm": 1.1254640817642212,
      "learning_rate": 0.0001950211158035119,
      "loss": 1.0433,
      "step": 1130
    },
    {
      "epoch": 0.025133333333333334,
      "grad_norm": 1.1890602111816406,
      "learning_rate": 0.0001950166703711936,
      "loss": 1.9323,
      "step": 1131
    },
    {
      "epoch": 0.025155555555555556,
      "grad_norm": 1.330928921699524,
      "learning_rate": 0.00019501222493887533,
      "loss": 2.1855,
      "step": 1132
    },
    {
      "epoch": 0.025177777777777778,
      "grad_norm": 1.2115062475204468,
      "learning_rate": 0.000195007779506557,
      "loss": 2.4286,
      "step": 1133
    },
    {
      "epoch": 0.0252,
      "grad_norm": 1.2747929096221924,
      "learning_rate": 0.00019500333407423872,
      "loss": 2.3222,
      "step": 1134
    },
    {
      "epoch": 0.025222222222222222,
      "grad_norm": 1.1796200275421143,
      "learning_rate": 0.00019499888864192043,
      "loss": 1.74,
      "step": 1135
    },
    {
      "epoch": 0.025244444444444444,
      "grad_norm": 1.188921332359314,
      "learning_rate": 0.00019499444320960214,
      "loss": 1.9163,
      "step": 1136
    },
    {
      "epoch": 0.025266666666666666,
      "grad_norm": 1.1332416534423828,
      "learning_rate": 0.00019498999777728385,
      "loss": 2.3866,
      "step": 1137
    },
    {
      "epoch": 0.02528888888888889,
      "grad_norm": 1.1673275232315063,
      "learning_rate": 0.00019498555234496556,
      "loss": 1.9911,
      "step": 1138
    },
    {
      "epoch": 0.02531111111111111,
      "grad_norm": 1.134661078453064,
      "learning_rate": 0.00019498110691264727,
      "loss": 2.1997,
      "step": 1139
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 1.2574539184570312,
      "learning_rate": 0.00019497666148032898,
      "loss": 1.9596,
      "step": 1140
    },
    {
      "epoch": 0.025355555555555555,
      "grad_norm": 1.228989601135254,
      "learning_rate": 0.0001949722160480107,
      "loss": 2.1093,
      "step": 1141
    },
    {
      "epoch": 0.025377777777777777,
      "grad_norm": 1.3804113864898682,
      "learning_rate": 0.00019496777061569237,
      "loss": 1.8141,
      "step": 1142
    },
    {
      "epoch": 0.0254,
      "grad_norm": 1.1694203615188599,
      "learning_rate": 0.0001949633251833741,
      "loss": 1.8447,
      "step": 1143
    },
    {
      "epoch": 0.02542222222222222,
      "grad_norm": 1.310980200767517,
      "learning_rate": 0.0001949588797510558,
      "loss": 1.9746,
      "step": 1144
    },
    {
      "epoch": 0.025444444444444443,
      "grad_norm": 1.3951598405838013,
      "learning_rate": 0.0001949544343187375,
      "loss": 1.2972,
      "step": 1145
    },
    {
      "epoch": 0.025466666666666665,
      "grad_norm": 1.416224718093872,
      "learning_rate": 0.0001949499888864192,
      "loss": 2.1878,
      "step": 1146
    },
    {
      "epoch": 0.025488888888888887,
      "grad_norm": 1.3105324506759644,
      "learning_rate": 0.00019494554345410092,
      "loss": 1.8619,
      "step": 1147
    },
    {
      "epoch": 0.02551111111111111,
      "grad_norm": 1.3476706743240356,
      "learning_rate": 0.00019494109802178263,
      "loss": 1.8611,
      "step": 1148
    },
    {
      "epoch": 0.025533333333333335,
      "grad_norm": 1.3699945211410522,
      "learning_rate": 0.00019493665258946434,
      "loss": 1.6287,
      "step": 1149
    },
    {
      "epoch": 0.025555555555555557,
      "grad_norm": 1.2437164783477783,
      "learning_rate": 0.00019493220715714605,
      "loss": 0.8335,
      "step": 1150
    },
    {
      "epoch": 0.02557777777777778,
      "grad_norm": 1.1608917713165283,
      "learning_rate": 0.00019492776172482773,
      "loss": 2.7488,
      "step": 1151
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.418111801147461,
      "learning_rate": 0.00019492331629250947,
      "loss": 1.6998,
      "step": 1152
    },
    {
      "epoch": 0.025622222222222223,
      "grad_norm": 1.16179621219635,
      "learning_rate": 0.00019491887086019115,
      "loss": 2.8624,
      "step": 1153
    },
    {
      "epoch": 0.025644444444444445,
      "grad_norm": 1.1213630437850952,
      "learning_rate": 0.00019491442542787286,
      "loss": 2.5019,
      "step": 1154
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.0603446960449219,
      "learning_rate": 0.00019490997999555457,
      "loss": 2.2936,
      "step": 1155
    },
    {
      "epoch": 0.02568888888888889,
      "grad_norm": 1.340588927268982,
      "learning_rate": 0.00019490553456323628,
      "loss": 2.6255,
      "step": 1156
    },
    {
      "epoch": 0.02571111111111111,
      "grad_norm": 1.236148715019226,
      "learning_rate": 0.00019490108913091802,
      "loss": 3.0501,
      "step": 1157
    },
    {
      "epoch": 0.025733333333333334,
      "grad_norm": 1.0395097732543945,
      "learning_rate": 0.0001948966436985997,
      "loss": 2.1866,
      "step": 1158
    },
    {
      "epoch": 0.025755555555555556,
      "grad_norm": 1.3539642095565796,
      "learning_rate": 0.0001948921982662814,
      "loss": 1.3182,
      "step": 1159
    },
    {
      "epoch": 0.025777777777777778,
      "grad_norm": 1.3083500862121582,
      "learning_rate": 0.00019488775283396312,
      "loss": 2.6018,
      "step": 1160
    },
    {
      "epoch": 0.0258,
      "grad_norm": 1.0796172618865967,
      "learning_rate": 0.00019488330740164483,
      "loss": 2.6513,
      "step": 1161
    },
    {
      "epoch": 0.025822222222222222,
      "grad_norm": 1.2697334289550781,
      "learning_rate": 0.0001948788619693265,
      "loss": 2.2013,
      "step": 1162
    },
    {
      "epoch": 0.025844444444444444,
      "grad_norm": 1.0582184791564941,
      "learning_rate": 0.00019487441653700825,
      "loss": 2.0292,
      "step": 1163
    },
    {
      "epoch": 0.025866666666666666,
      "grad_norm": 1.3058019876480103,
      "learning_rate": 0.00019486997110468993,
      "loss": 2.8424,
      "step": 1164
    },
    {
      "epoch": 0.02588888888888889,
      "grad_norm": 1.2775273323059082,
      "learning_rate": 0.00019486552567237164,
      "loss": 2.2763,
      "step": 1165
    },
    {
      "epoch": 0.02591111111111111,
      "grad_norm": 1.0722092390060425,
      "learning_rate": 0.00019486108024005337,
      "loss": 2.1916,
      "step": 1166
    },
    {
      "epoch": 0.025933333333333333,
      "grad_norm": 1.059139609336853,
      "learning_rate": 0.00019485663480773506,
      "loss": 1.8808,
      "step": 1167
    },
    {
      "epoch": 0.025955555555555555,
      "grad_norm": 1.2093608379364014,
      "learning_rate": 0.00019485218937541677,
      "loss": 1.1219,
      "step": 1168
    },
    {
      "epoch": 0.025977777777777777,
      "grad_norm": 1.1014114618301392,
      "learning_rate": 0.00019484774394309848,
      "loss": 1.9382,
      "step": 1169
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.217060923576355,
      "learning_rate": 0.00019484329851078019,
      "loss": 1.9028,
      "step": 1170
    },
    {
      "epoch": 0.02602222222222222,
      "grad_norm": 1.2138227224349976,
      "learning_rate": 0.00019483885307846187,
      "loss": 1.6307,
      "step": 1171
    },
    {
      "epoch": 0.026044444444444443,
      "grad_norm": 1.1286808252334595,
      "learning_rate": 0.0001948344076461436,
      "loss": 2.0932,
      "step": 1172
    },
    {
      "epoch": 0.026066666666666665,
      "grad_norm": 1.077871322631836,
      "learning_rate": 0.0001948299622138253,
      "loss": 2.1862,
      "step": 1173
    },
    {
      "epoch": 0.026088888888888887,
      "grad_norm": 1.0957635641098022,
      "learning_rate": 0.000194825516781507,
      "loss": 2.355,
      "step": 1174
    },
    {
      "epoch": 0.026111111111111113,
      "grad_norm": 1.175184726715088,
      "learning_rate": 0.00019482107134918873,
      "loss": 2.2048,
      "step": 1175
    },
    {
      "epoch": 0.026133333333333335,
      "grad_norm": 1.0757033824920654,
      "learning_rate": 0.00019481662591687042,
      "loss": 1.9491,
      "step": 1176
    },
    {
      "epoch": 0.026155555555555557,
      "grad_norm": 1.245074987411499,
      "learning_rate": 0.00019481218048455215,
      "loss": 2.4058,
      "step": 1177
    },
    {
      "epoch": 0.02617777777777778,
      "grad_norm": 1.2693395614624023,
      "learning_rate": 0.00019480773505223384,
      "loss": 1.8193,
      "step": 1178
    },
    {
      "epoch": 0.0262,
      "grad_norm": 3.4802279472351074,
      "learning_rate": 0.00019480328961991555,
      "loss": 2.3058,
      "step": 1179
    },
    {
      "epoch": 0.026222222222222223,
      "grad_norm": 1.3163621425628662,
      "learning_rate": 0.00019479884418759726,
      "loss": 1.9709,
      "step": 1180
    },
    {
      "epoch": 0.026244444444444445,
      "grad_norm": 1.238189697265625,
      "learning_rate": 0.00019479439875527896,
      "loss": 2.1445,
      "step": 1181
    },
    {
      "epoch": 0.026266666666666667,
      "grad_norm": 1.2765611410140991,
      "learning_rate": 0.00019478995332296067,
      "loss": 2.4536,
      "step": 1182
    },
    {
      "epoch": 0.02628888888888889,
      "grad_norm": 1.5361064672470093,
      "learning_rate": 0.00019478550789064238,
      "loss": 2.2518,
      "step": 1183
    },
    {
      "epoch": 0.02631111111111111,
      "grad_norm": 1.3082013130187988,
      "learning_rate": 0.0001947810624583241,
      "loss": 2.1818,
      "step": 1184
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 1.2827892303466797,
      "learning_rate": 0.00019477661702600578,
      "loss": 2.4141,
      "step": 1185
    },
    {
      "epoch": 0.026355555555555556,
      "grad_norm": 1.220987319946289,
      "learning_rate": 0.0001947721715936875,
      "loss": 1.9836,
      "step": 1186
    },
    {
      "epoch": 0.026377777777777778,
      "grad_norm": 1.1629095077514648,
      "learning_rate": 0.0001947677261613692,
      "loss": 1.8445,
      "step": 1187
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.3694647550582886,
      "learning_rate": 0.0001947632807290509,
      "loss": 2.7007,
      "step": 1188
    },
    {
      "epoch": 0.026422222222222222,
      "grad_norm": 1.1854382753372192,
      "learning_rate": 0.00019475883529673261,
      "loss": 1.6938,
      "step": 1189
    },
    {
      "epoch": 0.026444444444444444,
      "grad_norm": 1.101824402809143,
      "learning_rate": 0.00019475438986441432,
      "loss": 1.7714,
      "step": 1190
    },
    {
      "epoch": 0.026466666666666666,
      "grad_norm": 1.2787611484527588,
      "learning_rate": 0.00019474994443209603,
      "loss": 2.2184,
      "step": 1191
    },
    {
      "epoch": 0.026488888888888888,
      "grad_norm": 1.3073357343673706,
      "learning_rate": 0.00019474549899977774,
      "loss": 1.6379,
      "step": 1192
    },
    {
      "epoch": 0.02651111111111111,
      "grad_norm": 1.2038830518722534,
      "learning_rate": 0.00019474105356745945,
      "loss": 1.8835,
      "step": 1193
    },
    {
      "epoch": 0.026533333333333332,
      "grad_norm": 1.2815767526626587,
      "learning_rate": 0.00019473660813514114,
      "loss": 1.9622,
      "step": 1194
    },
    {
      "epoch": 0.026555555555555554,
      "grad_norm": 1.0407130718231201,
      "learning_rate": 0.00019473216270282287,
      "loss": 1.5951,
      "step": 1195
    },
    {
      "epoch": 0.026577777777777777,
      "grad_norm": 1.453759789466858,
      "learning_rate": 0.00019472771727050455,
      "loss": 1.038,
      "step": 1196
    },
    {
      "epoch": 0.0266,
      "grad_norm": 1.2668274641036987,
      "learning_rate": 0.0001947232718381863,
      "loss": 1.9063,
      "step": 1197
    },
    {
      "epoch": 0.02662222222222222,
      "grad_norm": 1.4073950052261353,
      "learning_rate": 0.00019471882640586797,
      "loss": 2.1085,
      "step": 1198
    },
    {
      "epoch": 0.026644444444444443,
      "grad_norm": 1.3361334800720215,
      "learning_rate": 0.00019471438097354968,
      "loss": 1.3393,
      "step": 1199
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.722981333732605,
      "learning_rate": 0.0001947099355412314,
      "loss": 0.0912,
      "step": 1200
    },
    {
      "epoch": 0.02668888888888889,
      "grad_norm": 0.9477525949478149,
      "learning_rate": 0.0001947054901089131,
      "loss": 2.5653,
      "step": 1201
    },
    {
      "epoch": 0.026711111111111113,
      "grad_norm": 1.0072487592697144,
      "learning_rate": 0.0001947010446765948,
      "loss": 2.4661,
      "step": 1202
    },
    {
      "epoch": 0.026733333333333335,
      "grad_norm": 1.0508699417114258,
      "learning_rate": 0.00019469659924427652,
      "loss": 1.3733,
      "step": 1203
    },
    {
      "epoch": 0.026755555555555557,
      "grad_norm": 1.0274931192398071,
      "learning_rate": 0.00019469215381195823,
      "loss": 2.2663,
      "step": 1204
    },
    {
      "epoch": 0.02677777777777778,
      "grad_norm": 0.8572414517402649,
      "learning_rate": 0.00019468770837963991,
      "loss": 2.1395,
      "step": 1205
    },
    {
      "epoch": 0.0268,
      "grad_norm": 1.1803396940231323,
      "learning_rate": 0.00019468326294732165,
      "loss": 2.0215,
      "step": 1206
    },
    {
      "epoch": 0.026822222222222223,
      "grad_norm": 1.150394082069397,
      "learning_rate": 0.00019467881751500333,
      "loss": 2.0467,
      "step": 1207
    },
    {
      "epoch": 0.026844444444444445,
      "grad_norm": 1.0651057958602905,
      "learning_rate": 0.00019467437208268504,
      "loss": 2.5328,
      "step": 1208
    },
    {
      "epoch": 0.026866666666666667,
      "grad_norm": 1.0690408945083618,
      "learning_rate": 0.00019466992665036675,
      "loss": 2.4902,
      "step": 1209
    },
    {
      "epoch": 0.02688888888888889,
      "grad_norm": 1.0403834581375122,
      "learning_rate": 0.00019466548121804846,
      "loss": 2.024,
      "step": 1210
    },
    {
      "epoch": 0.02691111111111111,
      "grad_norm": 1.1264804601669312,
      "learning_rate": 0.00019466103578573017,
      "loss": 2.1916,
      "step": 1211
    },
    {
      "epoch": 0.026933333333333333,
      "grad_norm": 1.1276426315307617,
      "learning_rate": 0.00019465659035341188,
      "loss": 1.9421,
      "step": 1212
    },
    {
      "epoch": 0.026955555555555556,
      "grad_norm": 1.0314738750457764,
      "learning_rate": 0.0001946521449210936,
      "loss": 2.1186,
      "step": 1213
    },
    {
      "epoch": 0.026977777777777778,
      "grad_norm": 1.1098157167434692,
      "learning_rate": 0.0001946476994887753,
      "loss": 2.3507,
      "step": 1214
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.0965838432312012,
      "learning_rate": 0.000194643254056457,
      "loss": 2.2288,
      "step": 1215
    },
    {
      "epoch": 0.027022222222222222,
      "grad_norm": 1.1094284057617188,
      "learning_rate": 0.0001946388086241387,
      "loss": 1.9247,
      "step": 1216
    },
    {
      "epoch": 0.027044444444444444,
      "grad_norm": 1.1005126237869263,
      "learning_rate": 0.00019463436319182043,
      "loss": 2.0896,
      "step": 1217
    },
    {
      "epoch": 0.027066666666666666,
      "grad_norm": 1.2850568294525146,
      "learning_rate": 0.0001946299177595021,
      "loss": 2.2682,
      "step": 1218
    },
    {
      "epoch": 0.027088888888888888,
      "grad_norm": 1.1261446475982666,
      "learning_rate": 0.00019462547232718382,
      "loss": 2.4721,
      "step": 1219
    },
    {
      "epoch": 0.02711111111111111,
      "grad_norm": 1.5027034282684326,
      "learning_rate": 0.00019462102689486553,
      "loss": 2.1297,
      "step": 1220
    },
    {
      "epoch": 0.027133333333333332,
      "grad_norm": 1.2198916673660278,
      "learning_rate": 0.00019461658146254724,
      "loss": 2.3307,
      "step": 1221
    },
    {
      "epoch": 0.027155555555555554,
      "grad_norm": 1.075852394104004,
      "learning_rate": 0.00019461213603022895,
      "loss": 2.0701,
      "step": 1222
    },
    {
      "epoch": 0.027177777777777776,
      "grad_norm": 1.1298670768737793,
      "learning_rate": 0.00019460769059791066,
      "loss": 1.991,
      "step": 1223
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.411704421043396,
      "learning_rate": 0.00019460324516559237,
      "loss": 2.2112,
      "step": 1224
    },
    {
      "epoch": 0.02722222222222222,
      "grad_norm": 1.1783915758132935,
      "learning_rate": 0.00019459879973327405,
      "loss": 2.4095,
      "step": 1225
    },
    {
      "epoch": 0.027244444444444446,
      "grad_norm": 1.1365594863891602,
      "learning_rate": 0.0001945943543009558,
      "loss": 2.2751,
      "step": 1226
    },
    {
      "epoch": 0.027266666666666668,
      "grad_norm": 1.2395154237747192,
      "learning_rate": 0.00019458990886863747,
      "loss": 2.1341,
      "step": 1227
    },
    {
      "epoch": 0.02728888888888889,
      "grad_norm": 1.252860188484192,
      "learning_rate": 0.00019458546343631918,
      "loss": 2.3777,
      "step": 1228
    },
    {
      "epoch": 0.027311111111111112,
      "grad_norm": 1.1773203611373901,
      "learning_rate": 0.0001945810180040009,
      "loss": 2.0601,
      "step": 1229
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 1.3787094354629517,
      "learning_rate": 0.0001945765725716826,
      "loss": 2.1147,
      "step": 1230
    },
    {
      "epoch": 0.027355555555555557,
      "grad_norm": 1.217552900314331,
      "learning_rate": 0.0001945721271393643,
      "loss": 2.2812,
      "step": 1231
    },
    {
      "epoch": 0.02737777777777778,
      "grad_norm": 1.1576565504074097,
      "learning_rate": 0.00019456768170704602,
      "loss": 2.1256,
      "step": 1232
    },
    {
      "epoch": 0.0274,
      "grad_norm": 1.292887806892395,
      "learning_rate": 0.00019456323627472773,
      "loss": 0.8771,
      "step": 1233
    },
    {
      "epoch": 0.027422222222222223,
      "grad_norm": 1.1745291948318481,
      "learning_rate": 0.00019455879084240944,
      "loss": 2.2621,
      "step": 1234
    },
    {
      "epoch": 0.027444444444444445,
      "grad_norm": 1.247001051902771,
      "learning_rate": 0.00019455434541009115,
      "loss": 2.1468,
      "step": 1235
    },
    {
      "epoch": 0.027466666666666667,
      "grad_norm": 1.190625786781311,
      "learning_rate": 0.00019454989997777283,
      "loss": 2.0587,
      "step": 1236
    },
    {
      "epoch": 0.02748888888888889,
      "grad_norm": 1.2214797735214233,
      "learning_rate": 0.00019454545454545457,
      "loss": 1.781,
      "step": 1237
    },
    {
      "epoch": 0.02751111111111111,
      "grad_norm": 1.5960838794708252,
      "learning_rate": 0.00019454100911313625,
      "loss": 1.8179,
      "step": 1238
    },
    {
      "epoch": 0.027533333333333333,
      "grad_norm": 1.4947317838668823,
      "learning_rate": 0.00019453656368081796,
      "loss": 2.188,
      "step": 1239
    },
    {
      "epoch": 0.027555555555555555,
      "grad_norm": 1.273147702217102,
      "learning_rate": 0.0001945321182484997,
      "loss": 2.0963,
      "step": 1240
    },
    {
      "epoch": 0.027577777777777777,
      "grad_norm": 1.2269686460494995,
      "learning_rate": 0.00019452767281618138,
      "loss": 1.8463,
      "step": 1241
    },
    {
      "epoch": 0.0276,
      "grad_norm": 1.2647767066955566,
      "learning_rate": 0.0001945232273838631,
      "loss": 1.8809,
      "step": 1242
    },
    {
      "epoch": 0.02762222222222222,
      "grad_norm": 1.1288484334945679,
      "learning_rate": 0.0001945187819515448,
      "loss": 1.906,
      "step": 1243
    },
    {
      "epoch": 0.027644444444444444,
      "grad_norm": 1.302137017250061,
      "learning_rate": 0.0001945143365192265,
      "loss": 2.0066,
      "step": 1244
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 1.2215266227722168,
      "learning_rate": 0.0001945098910869082,
      "loss": 1.9374,
      "step": 1245
    },
    {
      "epoch": 0.027688888888888888,
      "grad_norm": 1.2269611358642578,
      "learning_rate": 0.00019450544565458993,
      "loss": 2.0781,
      "step": 1246
    },
    {
      "epoch": 0.02771111111111111,
      "grad_norm": 1.2925721406936646,
      "learning_rate": 0.0001945010002222716,
      "loss": 1.8259,
      "step": 1247
    },
    {
      "epoch": 0.027733333333333332,
      "grad_norm": 1.4025661945343018,
      "learning_rate": 0.00019449655478995332,
      "loss": 2.0066,
      "step": 1248
    },
    {
      "epoch": 0.027755555555555554,
      "grad_norm": 1.3912101984024048,
      "learning_rate": 0.00019449210935763506,
      "loss": 1.9679,
      "step": 1249
    },
    {
      "epoch": 0.027777777777777776,
      "grad_norm": 1.420652985572815,
      "learning_rate": 0.00019448766392531674,
      "loss": 1.7046,
      "step": 1250
    },
    {
      "epoch": 0.0278,
      "grad_norm": 0.873573362827301,
      "learning_rate": 0.00019448321849299845,
      "loss": 2.1924,
      "step": 1251
    },
    {
      "epoch": 0.027822222222222224,
      "grad_norm": 1.0372943878173828,
      "learning_rate": 0.00019447877306068016,
      "loss": 2.2954,
      "step": 1252
    },
    {
      "epoch": 0.027844444444444446,
      "grad_norm": 1.1162431240081787,
      "learning_rate": 0.00019447432762836187,
      "loss": 2.8007,
      "step": 1253
    },
    {
      "epoch": 0.027866666666666668,
      "grad_norm": 0.9934016466140747,
      "learning_rate": 0.00019446988219604358,
      "loss": 2.2842,
      "step": 1254
    },
    {
      "epoch": 0.02788888888888889,
      "grad_norm": 1.0474344491958618,
      "learning_rate": 0.0001944654367637253,
      "loss": 2.2648,
      "step": 1255
    },
    {
      "epoch": 0.027911111111111112,
      "grad_norm": 0.996784508228302,
      "learning_rate": 0.000194460991331407,
      "loss": 2.2121,
      "step": 1256
    },
    {
      "epoch": 0.027933333333333334,
      "grad_norm": 1.0645532608032227,
      "learning_rate": 0.0001944565458990887,
      "loss": 2.2929,
      "step": 1257
    },
    {
      "epoch": 0.027955555555555556,
      "grad_norm": 0.9318027496337891,
      "learning_rate": 0.00019445210046677042,
      "loss": 1.7996,
      "step": 1258
    },
    {
      "epoch": 0.02797777777777778,
      "grad_norm": 1.061118483543396,
      "learning_rate": 0.0001944476550344521,
      "loss": 2.3344,
      "step": 1259
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.9383622407913208,
      "learning_rate": 0.00019444320960213383,
      "loss": 2.1927,
      "step": 1260
    },
    {
      "epoch": 0.028022222222222223,
      "grad_norm": 1.0568608045578003,
      "learning_rate": 0.00019443876416981552,
      "loss": 2.3142,
      "step": 1261
    },
    {
      "epoch": 0.028044444444444445,
      "grad_norm": 1.0255627632141113,
      "learning_rate": 0.00019443431873749723,
      "loss": 2.3116,
      "step": 1262
    },
    {
      "epoch": 0.028066666666666667,
      "grad_norm": 1.041566014289856,
      "learning_rate": 0.00019442987330517894,
      "loss": 2.3714,
      "step": 1263
    },
    {
      "epoch": 0.02808888888888889,
      "grad_norm": 0.9897044897079468,
      "learning_rate": 0.00019442542787286065,
      "loss": 1.7907,
      "step": 1264
    },
    {
      "epoch": 0.02811111111111111,
      "grad_norm": 1.1739486455917358,
      "learning_rate": 0.00019442098244054236,
      "loss": 2.2275,
      "step": 1265
    },
    {
      "epoch": 0.028133333333333333,
      "grad_norm": 1.1079760789871216,
      "learning_rate": 0.00019441653700822407,
      "loss": 1.8037,
      "step": 1266
    },
    {
      "epoch": 0.028155555555555555,
      "grad_norm": 1.1482577323913574,
      "learning_rate": 0.00019441209157590578,
      "loss": 2.6314,
      "step": 1267
    },
    {
      "epoch": 0.028177777777777777,
      "grad_norm": 1.2702312469482422,
      "learning_rate": 0.00019440764614358746,
      "loss": 2.4174,
      "step": 1268
    },
    {
      "epoch": 0.0282,
      "grad_norm": 1.071201205253601,
      "learning_rate": 0.0001944032007112692,
      "loss": 2.1592,
      "step": 1269
    },
    {
      "epoch": 0.02822222222222222,
      "grad_norm": 1.2168118953704834,
      "learning_rate": 0.00019439875527895088,
      "loss": 1.3144,
      "step": 1270
    },
    {
      "epoch": 0.028244444444444444,
      "grad_norm": 0.9309527277946472,
      "learning_rate": 0.00019439430984663261,
      "loss": 0.9456,
      "step": 1271
    },
    {
      "epoch": 0.028266666666666666,
      "grad_norm": 1.0577387809753418,
      "learning_rate": 0.0001943898644143143,
      "loss": 1.7066,
      "step": 1272
    },
    {
      "epoch": 0.028288888888888888,
      "grad_norm": 1.4418216943740845,
      "learning_rate": 0.000194385418981996,
      "loss": 1.0888,
      "step": 1273
    },
    {
      "epoch": 0.02831111111111111,
      "grad_norm": 1.1914469003677368,
      "learning_rate": 0.00019438097354967772,
      "loss": 2.3328,
      "step": 1274
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 1.2854276895523071,
      "learning_rate": 0.00019437652811735942,
      "loss": 2.004,
      "step": 1275
    },
    {
      "epoch": 0.028355555555555554,
      "grad_norm": 1.3212635517120361,
      "learning_rate": 0.00019437208268504113,
      "loss": 2.2386,
      "step": 1276
    },
    {
      "epoch": 0.028377777777777776,
      "grad_norm": 1.329047441482544,
      "learning_rate": 0.00019436763725272284,
      "loss": 2.1721,
      "step": 1277
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.1866283416748047,
      "learning_rate": 0.00019436319182040455,
      "loss": 1.9114,
      "step": 1278
    },
    {
      "epoch": 0.028422222222222224,
      "grad_norm": 1.1386148929595947,
      "learning_rate": 0.00019435874638808624,
      "loss": 2.1556,
      "step": 1279
    },
    {
      "epoch": 0.028444444444444446,
      "grad_norm": 1.3197382688522339,
      "learning_rate": 0.00019435430095576797,
      "loss": 2.1826,
      "step": 1280
    },
    {
      "epoch": 0.028466666666666668,
      "grad_norm": 1.2695705890655518,
      "learning_rate": 0.00019434985552344966,
      "loss": 2.3299,
      "step": 1281
    },
    {
      "epoch": 0.02848888888888889,
      "grad_norm": 1.1248879432678223,
      "learning_rate": 0.00019434541009113137,
      "loss": 1.991,
      "step": 1282
    },
    {
      "epoch": 0.028511111111111112,
      "grad_norm": 1.207562804222107,
      "learning_rate": 0.00019434096465881307,
      "loss": 1.9923,
      "step": 1283
    },
    {
      "epoch": 0.028533333333333334,
      "grad_norm": 1.2124333381652832,
      "learning_rate": 0.00019433651922649478,
      "loss": 1.8989,
      "step": 1284
    },
    {
      "epoch": 0.028555555555555556,
      "grad_norm": 1.1476439237594604,
      "learning_rate": 0.0001943320737941765,
      "loss": 2.1744,
      "step": 1285
    },
    {
      "epoch": 0.02857777777777778,
      "grad_norm": 1.2253168821334839,
      "learning_rate": 0.0001943276283618582,
      "loss": 1.6782,
      "step": 1286
    },
    {
      "epoch": 0.0286,
      "grad_norm": 1.1378833055496216,
      "learning_rate": 0.0001943231829295399,
      "loss": 1.8959,
      "step": 1287
    },
    {
      "epoch": 0.028622222222222223,
      "grad_norm": 1.2446284294128418,
      "learning_rate": 0.0001943187374972216,
      "loss": 1.6362,
      "step": 1288
    },
    {
      "epoch": 0.028644444444444445,
      "grad_norm": 1.1923396587371826,
      "learning_rate": 0.00019431429206490333,
      "loss": 1.9344,
      "step": 1289
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 1.3250138759613037,
      "learning_rate": 0.00019430984663258502,
      "loss": 2.1485,
      "step": 1290
    },
    {
      "epoch": 0.02868888888888889,
      "grad_norm": 1.3882908821105957,
      "learning_rate": 0.00019430540120026675,
      "loss": 2.0631,
      "step": 1291
    },
    {
      "epoch": 0.02871111111111111,
      "grad_norm": 1.109960675239563,
      "learning_rate": 0.00019430095576794843,
      "loss": 1.7864,
      "step": 1292
    },
    {
      "epoch": 0.028733333333333333,
      "grad_norm": 1.1570818424224854,
      "learning_rate": 0.00019429651033563014,
      "loss": 1.874,
      "step": 1293
    },
    {
      "epoch": 0.028755555555555555,
      "grad_norm": 1.2383424043655396,
      "learning_rate": 0.00019429206490331185,
      "loss": 1.7137,
      "step": 1294
    },
    {
      "epoch": 0.028777777777777777,
      "grad_norm": 1.4392592906951904,
      "learning_rate": 0.00019428761947099356,
      "loss": 2.069,
      "step": 1295
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.1795039176940918,
      "learning_rate": 0.00019428317403867527,
      "loss": 1.9236,
      "step": 1296
    },
    {
      "epoch": 0.02882222222222222,
      "grad_norm": 1.4787060022354126,
      "learning_rate": 0.00019427872860635698,
      "loss": 1.7577,
      "step": 1297
    },
    {
      "epoch": 0.028844444444444443,
      "grad_norm": 1.6893764734268188,
      "learning_rate": 0.0001942742831740387,
      "loss": 1.1434,
      "step": 1298
    },
    {
      "epoch": 0.028866666666666665,
      "grad_norm": 1.3988735675811768,
      "learning_rate": 0.00019426983774172037,
      "loss": 2.3227,
      "step": 1299
    },
    {
      "epoch": 0.028888888888888888,
      "grad_norm": 1.283385992050171,
      "learning_rate": 0.0001942653923094021,
      "loss": 1.8439,
      "step": 1300
    },
    {
      "epoch": 0.02891111111111111,
      "grad_norm": 1.0307422876358032,
      "learning_rate": 0.0001942609468770838,
      "loss": 2.5915,
      "step": 1301
    },
    {
      "epoch": 0.028933333333333332,
      "grad_norm": 0.9281454086303711,
      "learning_rate": 0.0001942565014447655,
      "loss": 2.0899,
      "step": 1302
    },
    {
      "epoch": 0.028955555555555554,
      "grad_norm": 1.477432370185852,
      "learning_rate": 0.0001942520560124472,
      "loss": 1.8982,
      "step": 1303
    },
    {
      "epoch": 0.02897777777777778,
      "grad_norm": 1.2103277444839478,
      "learning_rate": 0.00019424761058012892,
      "loss": 2.3121,
      "step": 1304
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.067357063293457,
      "learning_rate": 0.00019424316514781063,
      "loss": 2.3956,
      "step": 1305
    },
    {
      "epoch": 0.029022222222222224,
      "grad_norm": 1.192233681678772,
      "learning_rate": 0.00019423871971549234,
      "loss": 2.455,
      "step": 1306
    },
    {
      "epoch": 0.029044444444444446,
      "grad_norm": 0.9351183176040649,
      "learning_rate": 0.00019423427428317405,
      "loss": 2.0264,
      "step": 1307
    },
    {
      "epoch": 0.029066666666666668,
      "grad_norm": 1.0555620193481445,
      "learning_rate": 0.00019422982885085573,
      "loss": 2.33,
      "step": 1308
    },
    {
      "epoch": 0.02908888888888889,
      "grad_norm": 1.138730764389038,
      "learning_rate": 0.00019422538341853747,
      "loss": 2.3118,
      "step": 1309
    },
    {
      "epoch": 0.029111111111111112,
      "grad_norm": 1.0002659559249878,
      "learning_rate": 0.00019422093798621915,
      "loss": 2.0643,
      "step": 1310
    },
    {
      "epoch": 0.029133333333333334,
      "grad_norm": 1.4970694780349731,
      "learning_rate": 0.0001942164925539009,
      "loss": 2.5997,
      "step": 1311
    },
    {
      "epoch": 0.029155555555555556,
      "grad_norm": 1.0206420421600342,
      "learning_rate": 0.00019421204712158257,
      "loss": 1.9943,
      "step": 1312
    },
    {
      "epoch": 0.029177777777777778,
      "grad_norm": 1.2522320747375488,
      "learning_rate": 0.00019420760168926428,
      "loss": 1.8723,
      "step": 1313
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.070694088935852,
      "learning_rate": 0.00019420315625694602,
      "loss": 1.824,
      "step": 1314
    },
    {
      "epoch": 0.029222222222222222,
      "grad_norm": 1.1262892484664917,
      "learning_rate": 0.0001941987108246277,
      "loss": 2.2919,
      "step": 1315
    },
    {
      "epoch": 0.029244444444444444,
      "grad_norm": 1.1852346658706665,
      "learning_rate": 0.0001941942653923094,
      "loss": 2.0717,
      "step": 1316
    },
    {
      "epoch": 0.029266666666666667,
      "grad_norm": 1.2012149095535278,
      "learning_rate": 0.00019418981995999112,
      "loss": 1.5736,
      "step": 1317
    },
    {
      "epoch": 0.02928888888888889,
      "grad_norm": 1.2120734453201294,
      "learning_rate": 0.00019418537452767283,
      "loss": 2.1194,
      "step": 1318
    },
    {
      "epoch": 0.02931111111111111,
      "grad_norm": 1.255656123161316,
      "learning_rate": 0.0001941809290953545,
      "loss": 1.9347,
      "step": 1319
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 1.1959623098373413,
      "learning_rate": 0.00019417648366303625,
      "loss": 1.9494,
      "step": 1320
    },
    {
      "epoch": 0.029355555555555555,
      "grad_norm": 1.16342031955719,
      "learning_rate": 0.00019417203823071793,
      "loss": 1.9815,
      "step": 1321
    },
    {
      "epoch": 0.029377777777777777,
      "grad_norm": 1.1828595399856567,
      "learning_rate": 0.00019416759279839964,
      "loss": 2.1597,
      "step": 1322
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.2549855709075928,
      "learning_rate": 0.00019416314736608138,
      "loss": 1.7943,
      "step": 1323
    },
    {
      "epoch": 0.02942222222222222,
      "grad_norm": 1.229993224143982,
      "learning_rate": 0.00019415870193376306,
      "loss": 2.6202,
      "step": 1324
    },
    {
      "epoch": 0.029444444444444443,
      "grad_norm": 1.1661776304244995,
      "learning_rate": 0.00019415425650144477,
      "loss": 1.9805,
      "step": 1325
    },
    {
      "epoch": 0.029466666666666665,
      "grad_norm": 1.3411319255828857,
      "learning_rate": 0.00019414981106912648,
      "loss": 2.3422,
      "step": 1326
    },
    {
      "epoch": 0.029488888888888887,
      "grad_norm": 1.3102893829345703,
      "learning_rate": 0.0001941453656368082,
      "loss": 2.0509,
      "step": 1327
    },
    {
      "epoch": 0.02951111111111111,
      "grad_norm": 1.2834891080856323,
      "learning_rate": 0.0001941409202044899,
      "loss": 2.0528,
      "step": 1328
    },
    {
      "epoch": 0.029533333333333335,
      "grad_norm": 1.2266889810562134,
      "learning_rate": 0.0001941364747721716,
      "loss": 1.7905,
      "step": 1329
    },
    {
      "epoch": 0.029555555555555557,
      "grad_norm": 1.1042407751083374,
      "learning_rate": 0.00019413202933985332,
      "loss": 2.0377,
      "step": 1330
    },
    {
      "epoch": 0.02957777777777778,
      "grad_norm": 1.2236758470535278,
      "learning_rate": 0.00019412758390753503,
      "loss": 1.6366,
      "step": 1331
    },
    {
      "epoch": 0.0296,
      "grad_norm": 1.1336673498153687,
      "learning_rate": 0.00019412313847521674,
      "loss": 1.9529,
      "step": 1332
    },
    {
      "epoch": 0.029622222222222223,
      "grad_norm": 1.3581266403198242,
      "learning_rate": 0.00019411869304289842,
      "loss": 1.6828,
      "step": 1333
    },
    {
      "epoch": 0.029644444444444445,
      "grad_norm": 1.4858201742172241,
      "learning_rate": 0.00019411424761058016,
      "loss": 2.3644,
      "step": 1334
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 1.1644988059997559,
      "learning_rate": 0.00019410980217826184,
      "loss": 1.9407,
      "step": 1335
    },
    {
      "epoch": 0.02968888888888889,
      "grad_norm": 1.2442271709442139,
      "learning_rate": 0.00019410535674594355,
      "loss": 1.9879,
      "step": 1336
    },
    {
      "epoch": 0.029711111111111112,
      "grad_norm": 1.237561821937561,
      "learning_rate": 0.00019410091131362526,
      "loss": 1.9786,
      "step": 1337
    },
    {
      "epoch": 0.029733333333333334,
      "grad_norm": 1.1545387506484985,
      "learning_rate": 0.00019409646588130697,
      "loss": 2.0242,
      "step": 1338
    },
    {
      "epoch": 0.029755555555555556,
      "grad_norm": 1.2471667528152466,
      "learning_rate": 0.00019409202044898868,
      "loss": 2.0459,
      "step": 1339
    },
    {
      "epoch": 0.029777777777777778,
      "grad_norm": 1.1206274032592773,
      "learning_rate": 0.0001940875750166704,
      "loss": 1.5895,
      "step": 1340
    },
    {
      "epoch": 0.0298,
      "grad_norm": 1.1637393236160278,
      "learning_rate": 0.0001940831295843521,
      "loss": 1.8555,
      "step": 1341
    },
    {
      "epoch": 0.029822222222222222,
      "grad_norm": 1.1165112257003784,
      "learning_rate": 0.00019407868415203378,
      "loss": 1.8365,
      "step": 1342
    },
    {
      "epoch": 0.029844444444444444,
      "grad_norm": 1.1864840984344482,
      "learning_rate": 0.00019407423871971552,
      "loss": 1.9016,
      "step": 1343
    },
    {
      "epoch": 0.029866666666666666,
      "grad_norm": 1.2702369689941406,
      "learning_rate": 0.0001940697932873972,
      "loss": 2.1275,
      "step": 1344
    },
    {
      "epoch": 0.02988888888888889,
      "grad_norm": 1.359662413597107,
      "learning_rate": 0.0001940653478550789,
      "loss": 1.8477,
      "step": 1345
    },
    {
      "epoch": 0.02991111111111111,
      "grad_norm": 1.097072720527649,
      "learning_rate": 0.00019406090242276062,
      "loss": 1.0999,
      "step": 1346
    },
    {
      "epoch": 0.029933333333333333,
      "grad_norm": 1.7537930011749268,
      "learning_rate": 0.00019405645699044233,
      "loss": 1.8284,
      "step": 1347
    },
    {
      "epoch": 0.029955555555555555,
      "grad_norm": 1.150568962097168,
      "learning_rate": 0.00019405201155812404,
      "loss": 1.2282,
      "step": 1348
    },
    {
      "epoch": 0.029977777777777777,
      "grad_norm": 1.365552544593811,
      "learning_rate": 0.00019404756612580575,
      "loss": 1.7724,
      "step": 1349
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4891812801361084,
      "learning_rate": 0.00019404312069348746,
      "loss": 1.3562,
      "step": 1350
    },
    {
      "epoch": 0.03002222222222222,
      "grad_norm": 1.115997552871704,
      "learning_rate": 0.00019403867526116917,
      "loss": 2.498,
      "step": 1351
    },
    {
      "epoch": 0.030044444444444443,
      "grad_norm": 1.1016743183135986,
      "learning_rate": 0.00019403422982885088,
      "loss": 2.6421,
      "step": 1352
    },
    {
      "epoch": 0.030066666666666665,
      "grad_norm": 0.9888730645179749,
      "learning_rate": 0.00019402978439653256,
      "loss": 2.4058,
      "step": 1353
    },
    {
      "epoch": 0.030088888888888887,
      "grad_norm": 1.0507988929748535,
      "learning_rate": 0.0001940253389642143,
      "loss": 2.3708,
      "step": 1354
    },
    {
      "epoch": 0.030111111111111113,
      "grad_norm": 1.081277847290039,
      "learning_rate": 0.00019402089353189598,
      "loss": 2.4283,
      "step": 1355
    },
    {
      "epoch": 0.030133333333333335,
      "grad_norm": 1.2856868505477905,
      "learning_rate": 0.0001940164480995777,
      "loss": 1.3402,
      "step": 1356
    },
    {
      "epoch": 0.030155555555555557,
      "grad_norm": 1.392534613609314,
      "learning_rate": 0.0001940120026672594,
      "loss": 2.6431,
      "step": 1357
    },
    {
      "epoch": 0.03017777777777778,
      "grad_norm": 1.1537054777145386,
      "learning_rate": 0.0001940075572349411,
      "loss": 2.6096,
      "step": 1358
    },
    {
      "epoch": 0.0302,
      "grad_norm": 1.141494631767273,
      "learning_rate": 0.00019400311180262282,
      "loss": 2.3316,
      "step": 1359
    },
    {
      "epoch": 0.030222222222222223,
      "grad_norm": 1.0294886827468872,
      "learning_rate": 0.00019399866637030453,
      "loss": 2.3628,
      "step": 1360
    },
    {
      "epoch": 0.030244444444444445,
      "grad_norm": 1.2637041807174683,
      "learning_rate": 0.00019399422093798624,
      "loss": 2.7852,
      "step": 1361
    },
    {
      "epoch": 0.030266666666666667,
      "grad_norm": 1.108982801437378,
      "learning_rate": 0.00019398977550566792,
      "loss": 2.4429,
      "step": 1362
    },
    {
      "epoch": 0.03028888888888889,
      "grad_norm": 1.092390537261963,
      "learning_rate": 0.00019398533007334965,
      "loss": 2.3518,
      "step": 1363
    },
    {
      "epoch": 0.03031111111111111,
      "grad_norm": 1.0303348302841187,
      "learning_rate": 0.00019398088464103134,
      "loss": 2.0581,
      "step": 1364
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 1.130509376525879,
      "learning_rate": 0.00019397643920871305,
      "loss": 2.103,
      "step": 1365
    },
    {
      "epoch": 0.030355555555555556,
      "grad_norm": 1.0822972059249878,
      "learning_rate": 0.00019397199377639476,
      "loss": 2.2136,
      "step": 1366
    },
    {
      "epoch": 0.030377777777777778,
      "grad_norm": 1.0611470937728882,
      "learning_rate": 0.00019396754834407647,
      "loss": 1.9926,
      "step": 1367
    },
    {
      "epoch": 0.0304,
      "grad_norm": 1.2307448387145996,
      "learning_rate": 0.00019396310291175818,
      "loss": 2.3068,
      "step": 1368
    },
    {
      "epoch": 0.030422222222222222,
      "grad_norm": 1.085154414176941,
      "learning_rate": 0.00019395865747943989,
      "loss": 2.1078,
      "step": 1369
    },
    {
      "epoch": 0.030444444444444444,
      "grad_norm": 1.1920729875564575,
      "learning_rate": 0.0001939542120471216,
      "loss": 2.3139,
      "step": 1370
    },
    {
      "epoch": 0.030466666666666666,
      "grad_norm": 1.1662993431091309,
      "learning_rate": 0.0001939497666148033,
      "loss": 1.7898,
      "step": 1371
    },
    {
      "epoch": 0.03048888888888889,
      "grad_norm": 1.177247166633606,
      "learning_rate": 0.00019394532118248501,
      "loss": 2.6138,
      "step": 1372
    },
    {
      "epoch": 0.03051111111111111,
      "grad_norm": 1.038445234298706,
      "learning_rate": 0.0001939408757501667,
      "loss": 1.9209,
      "step": 1373
    },
    {
      "epoch": 0.030533333333333332,
      "grad_norm": 1.1034603118896484,
      "learning_rate": 0.00019393643031784843,
      "loss": 1.927,
      "step": 1374
    },
    {
      "epoch": 0.030555555555555555,
      "grad_norm": 1.2844098806381226,
      "learning_rate": 0.00019393198488553012,
      "loss": 2.6916,
      "step": 1375
    },
    {
      "epoch": 0.030577777777777777,
      "grad_norm": 1.2443362474441528,
      "learning_rate": 0.00019392753945321183,
      "loss": 1.9068,
      "step": 1376
    },
    {
      "epoch": 0.0306,
      "grad_norm": 1.121250867843628,
      "learning_rate": 0.00019392309402089354,
      "loss": 2.5058,
      "step": 1377
    },
    {
      "epoch": 0.03062222222222222,
      "grad_norm": 1.1697667837142944,
      "learning_rate": 0.00019391864858857524,
      "loss": 2.2245,
      "step": 1378
    },
    {
      "epoch": 0.030644444444444443,
      "grad_norm": 1.1083139181137085,
      "learning_rate": 0.00019391420315625695,
      "loss": 1.7106,
      "step": 1379
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 1.138747215270996,
      "learning_rate": 0.00019390975772393866,
      "loss": 2.186,
      "step": 1380
    },
    {
      "epoch": 0.03068888888888889,
      "grad_norm": 1.1454265117645264,
      "learning_rate": 0.00019390531229162037,
      "loss": 1.867,
      "step": 1381
    },
    {
      "epoch": 0.030711111111111113,
      "grad_norm": 1.1329401731491089,
      "learning_rate": 0.00019390086685930206,
      "loss": 2.0394,
      "step": 1382
    },
    {
      "epoch": 0.030733333333333335,
      "grad_norm": 1.2314701080322266,
      "learning_rate": 0.0001938964214269838,
      "loss": 2.3292,
      "step": 1383
    },
    {
      "epoch": 0.030755555555555557,
      "grad_norm": 1.2723467350006104,
      "learning_rate": 0.00019389197599466548,
      "loss": 1.9802,
      "step": 1384
    },
    {
      "epoch": 0.03077777777777778,
      "grad_norm": 1.1512049436569214,
      "learning_rate": 0.0001938875305623472,
      "loss": 1.9535,
      "step": 1385
    },
    {
      "epoch": 0.0308,
      "grad_norm": 1.3449974060058594,
      "learning_rate": 0.0001938830851300289,
      "loss": 2.2411,
      "step": 1386
    },
    {
      "epoch": 0.030822222222222223,
      "grad_norm": 1.0658458471298218,
      "learning_rate": 0.0001938786396977106,
      "loss": 1.4589,
      "step": 1387
    },
    {
      "epoch": 0.030844444444444445,
      "grad_norm": 1.0926259756088257,
      "learning_rate": 0.00019387419426539234,
      "loss": 1.9042,
      "step": 1388
    },
    {
      "epoch": 0.030866666666666667,
      "grad_norm": 1.460528016090393,
      "learning_rate": 0.00019386974883307402,
      "loss": 1.1386,
      "step": 1389
    },
    {
      "epoch": 0.03088888888888889,
      "grad_norm": 1.5868712663650513,
      "learning_rate": 0.00019386530340075573,
      "loss": 1.9883,
      "step": 1390
    },
    {
      "epoch": 0.03091111111111111,
      "grad_norm": 1.166711449623108,
      "learning_rate": 0.00019386085796843744,
      "loss": 2.0818,
      "step": 1391
    },
    {
      "epoch": 0.030933333333333334,
      "grad_norm": 1.1120319366455078,
      "learning_rate": 0.00019385641253611915,
      "loss": 1.7654,
      "step": 1392
    },
    {
      "epoch": 0.030955555555555556,
      "grad_norm": 1.1007729768753052,
      "learning_rate": 0.00019385196710380083,
      "loss": 1.6074,
      "step": 1393
    },
    {
      "epoch": 0.030977777777777778,
      "grad_norm": 1.2273107767105103,
      "learning_rate": 0.00019384752167148257,
      "loss": 1.9269,
      "step": 1394
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.3116095066070557,
      "learning_rate": 0.00019384307623916425,
      "loss": 2.1523,
      "step": 1395
    },
    {
      "epoch": 0.031022222222222222,
      "grad_norm": 1.1881606578826904,
      "learning_rate": 0.00019383863080684596,
      "loss": 1.8844,
      "step": 1396
    },
    {
      "epoch": 0.031044444444444444,
      "grad_norm": 1.218817949295044,
      "learning_rate": 0.0001938341853745277,
      "loss": 2.0528,
      "step": 1397
    },
    {
      "epoch": 0.031066666666666666,
      "grad_norm": 1.0829542875289917,
      "learning_rate": 0.00019382973994220938,
      "loss": 1.2301,
      "step": 1398
    },
    {
      "epoch": 0.031088888888888888,
      "grad_norm": 1.4752472639083862,
      "learning_rate": 0.0001938252945098911,
      "loss": 1.9669,
      "step": 1399
    },
    {
      "epoch": 0.03111111111111111,
      "grad_norm": 1.309036374092102,
      "learning_rate": 0.0001938208490775728,
      "loss": 0.9291,
      "step": 1400
    },
    {
      "epoch": 0.031133333333333332,
      "grad_norm": 0.9288570284843445,
      "learning_rate": 0.0001938164036452545,
      "loss": 2.4301,
      "step": 1401
    },
    {
      "epoch": 0.031155555555555554,
      "grad_norm": 0.9948990941047668,
      "learning_rate": 0.0001938119582129362,
      "loss": 2.225,
      "step": 1402
    },
    {
      "epoch": 0.031177777777777776,
      "grad_norm": 1.0610835552215576,
      "learning_rate": 0.00019380751278061793,
      "loss": 2.353,
      "step": 1403
    },
    {
      "epoch": 0.0312,
      "grad_norm": 1.1045212745666504,
      "learning_rate": 0.00019380306734829964,
      "loss": 2.1797,
      "step": 1404
    },
    {
      "epoch": 0.03122222222222222,
      "grad_norm": 1.0123965740203857,
      "learning_rate": 0.00019379862191598135,
      "loss": 2.4179,
      "step": 1405
    },
    {
      "epoch": 0.031244444444444443,
      "grad_norm": 1.0992077589035034,
      "learning_rate": 0.00019379417648366306,
      "loss": 1.9835,
      "step": 1406
    },
    {
      "epoch": 0.031266666666666665,
      "grad_norm": 1.0057796239852905,
      "learning_rate": 0.00019378973105134474,
      "loss": 2.2193,
      "step": 1407
    },
    {
      "epoch": 0.03128888888888889,
      "grad_norm": 1.2860620021820068,
      "learning_rate": 0.00019378528561902648,
      "loss": 2.4437,
      "step": 1408
    },
    {
      "epoch": 0.03131111111111111,
      "grad_norm": 1.0945990085601807,
      "learning_rate": 0.00019378084018670816,
      "loss": 2.4477,
      "step": 1409
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 1.1119942665100098,
      "learning_rate": 0.00019377639475438987,
      "loss": 2.1461,
      "step": 1410
    },
    {
      "epoch": 0.03135555555555555,
      "grad_norm": 1.1026381254196167,
      "learning_rate": 0.00019377194932207158,
      "loss": 1.9971,
      "step": 1411
    },
    {
      "epoch": 0.031377777777777775,
      "grad_norm": 1.1910585165023804,
      "learning_rate": 0.0001937675038897533,
      "loss": 2.3534,
      "step": 1412
    },
    {
      "epoch": 0.0314,
      "grad_norm": 1.024163842201233,
      "learning_rate": 0.000193763058457435,
      "loss": 2.3734,
      "step": 1413
    },
    {
      "epoch": 0.03142222222222222,
      "grad_norm": 0.9941502809524536,
      "learning_rate": 0.0001937586130251167,
      "loss": 1.7481,
      "step": 1414
    },
    {
      "epoch": 0.03144444444444444,
      "grad_norm": 1.148531198501587,
      "learning_rate": 0.00019375416759279842,
      "loss": 1.6367,
      "step": 1415
    },
    {
      "epoch": 0.031466666666666664,
      "grad_norm": 1.237642765045166,
      "learning_rate": 0.0001937497221604801,
      "loss": 2.3194,
      "step": 1416
    },
    {
      "epoch": 0.031488888888888886,
      "grad_norm": 1.2430555820465088,
      "learning_rate": 0.00019374527672816184,
      "loss": 1.971,
      "step": 1417
    },
    {
      "epoch": 0.03151111111111111,
      "grad_norm": 1.136256217956543,
      "learning_rate": 0.00019374083129584352,
      "loss": 2.3264,
      "step": 1418
    },
    {
      "epoch": 0.03153333333333333,
      "grad_norm": 0.9798897504806519,
      "learning_rate": 0.00019373638586352523,
      "loss": 2.0142,
      "step": 1419
    },
    {
      "epoch": 0.03155555555555556,
      "grad_norm": 1.3951666355133057,
      "learning_rate": 0.00019373194043120694,
      "loss": 2.2698,
      "step": 1420
    },
    {
      "epoch": 0.03157777777777778,
      "grad_norm": 1.1984292268753052,
      "learning_rate": 0.00019372749499888865,
      "loss": 2.006,
      "step": 1421
    },
    {
      "epoch": 0.0316,
      "grad_norm": 1.3106690645217896,
      "learning_rate": 0.00019372304956657036,
      "loss": 2.2945,
      "step": 1422
    },
    {
      "epoch": 0.031622222222222225,
      "grad_norm": 1.1117517948150635,
      "learning_rate": 0.00019371860413425207,
      "loss": 2.339,
      "step": 1423
    },
    {
      "epoch": 0.03164444444444445,
      "grad_norm": 1.4951661825180054,
      "learning_rate": 0.00019371415870193378,
      "loss": 2.4683,
      "step": 1424
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 1.1204643249511719,
      "learning_rate": 0.0001937097132696155,
      "loss": 2.1377,
      "step": 1425
    },
    {
      "epoch": 0.03168888888888889,
      "grad_norm": 1.2401949167251587,
      "learning_rate": 0.0001937052678372972,
      "loss": 2.2256,
      "step": 1426
    },
    {
      "epoch": 0.031711111111111114,
      "grad_norm": 1.2930660247802734,
      "learning_rate": 0.00019370082240497888,
      "loss": 2.0662,
      "step": 1427
    },
    {
      "epoch": 0.031733333333333336,
      "grad_norm": 1.1530430316925049,
      "learning_rate": 0.00019369637697266062,
      "loss": 2.1822,
      "step": 1428
    },
    {
      "epoch": 0.03175555555555556,
      "grad_norm": 1.1248830556869507,
      "learning_rate": 0.0001936919315403423,
      "loss": 2.0148,
      "step": 1429
    },
    {
      "epoch": 0.03177777777777778,
      "grad_norm": 1.1415965557098389,
      "learning_rate": 0.000193687486108024,
      "loss": 2.0016,
      "step": 1430
    },
    {
      "epoch": 0.0318,
      "grad_norm": 1.3775123357772827,
      "learning_rate": 0.00019368304067570572,
      "loss": 1.6689,
      "step": 1431
    },
    {
      "epoch": 0.031822222222222224,
      "grad_norm": 1.552697777748108,
      "learning_rate": 0.00019367859524338743,
      "loss": 1.9926,
      "step": 1432
    },
    {
      "epoch": 0.031844444444444446,
      "grad_norm": 1.0702333450317383,
      "learning_rate": 0.00019367414981106914,
      "loss": 1.8475,
      "step": 1433
    },
    {
      "epoch": 0.03186666666666667,
      "grad_norm": 1.1794770956039429,
      "learning_rate": 0.00019366970437875085,
      "loss": 1.7853,
      "step": 1434
    },
    {
      "epoch": 0.03188888888888889,
      "grad_norm": 1.177176833152771,
      "learning_rate": 0.00019366525894643256,
      "loss": 2.0982,
      "step": 1435
    },
    {
      "epoch": 0.03191111111111111,
      "grad_norm": 1.3725336790084839,
      "learning_rate": 0.00019366081351411424,
      "loss": 1.9322,
      "step": 1436
    },
    {
      "epoch": 0.031933333333333334,
      "grad_norm": 1.2420969009399414,
      "learning_rate": 0.00019365636808179598,
      "loss": 2.3835,
      "step": 1437
    },
    {
      "epoch": 0.031955555555555556,
      "grad_norm": 1.4265022277832031,
      "learning_rate": 0.00019365192264947766,
      "loss": 2.0316,
      "step": 1438
    },
    {
      "epoch": 0.03197777777777778,
      "grad_norm": 1.5354745388031006,
      "learning_rate": 0.00019364747721715937,
      "loss": 2.4962,
      "step": 1439
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.0933946371078491,
      "learning_rate": 0.00019364303178484108,
      "loss": 1.9257,
      "step": 1440
    },
    {
      "epoch": 0.03202222222222222,
      "grad_norm": 1.3205199241638184,
      "learning_rate": 0.0001936385863525228,
      "loss": 2.2061,
      "step": 1441
    },
    {
      "epoch": 0.032044444444444445,
      "grad_norm": 1.2373632192611694,
      "learning_rate": 0.0001936341409202045,
      "loss": 1.8192,
      "step": 1442
    },
    {
      "epoch": 0.03206666666666667,
      "grad_norm": 1.3396754264831543,
      "learning_rate": 0.0001936296954878862,
      "loss": 2.4715,
      "step": 1443
    },
    {
      "epoch": 0.03208888888888889,
      "grad_norm": 1.1843315362930298,
      "learning_rate": 0.00019362525005556792,
      "loss": 1.766,
      "step": 1444
    },
    {
      "epoch": 0.03211111111111111,
      "grad_norm": 1.294612169265747,
      "learning_rate": 0.00019362080462324963,
      "loss": 2.2529,
      "step": 1445
    },
    {
      "epoch": 0.03213333333333333,
      "grad_norm": 1.3959919214248657,
      "learning_rate": 0.00019361635919093134,
      "loss": 1.8962,
      "step": 1446
    },
    {
      "epoch": 0.032155555555555555,
      "grad_norm": 1.978702425956726,
      "learning_rate": 0.00019361191375861302,
      "loss": 2.4322,
      "step": 1447
    },
    {
      "epoch": 0.03217777777777778,
      "grad_norm": 1.40666663646698,
      "learning_rate": 0.00019360746832629476,
      "loss": 0.5895,
      "step": 1448
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.2353925704956055,
      "learning_rate": 0.00019360302289397644,
      "loss": 1.4339,
      "step": 1449
    },
    {
      "epoch": 0.03222222222222222,
      "grad_norm": 1.3274462223052979,
      "learning_rate": 0.00019359857746165815,
      "loss": 1.5845,
      "step": 1450
    },
    {
      "epoch": 0.032244444444444444,
      "grad_norm": 0.9648881554603577,
      "learning_rate": 0.00019359413202933986,
      "loss": 2.3616,
      "step": 1451
    },
    {
      "epoch": 0.032266666666666666,
      "grad_norm": 1.0016754865646362,
      "learning_rate": 0.00019358968659702157,
      "loss": 2.5862,
      "step": 1452
    },
    {
      "epoch": 0.03228888888888889,
      "grad_norm": 0.9271038174629211,
      "learning_rate": 0.00019358524116470328,
      "loss": 2.4142,
      "step": 1453
    },
    {
      "epoch": 0.03231111111111111,
      "grad_norm": 1.5624194145202637,
      "learning_rate": 0.00019358079573238499,
      "loss": 1.2929,
      "step": 1454
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 1.1376678943634033,
      "learning_rate": 0.0001935763503000667,
      "loss": 2.502,
      "step": 1455
    },
    {
      "epoch": 0.032355555555555554,
      "grad_norm": 1.0469105243682861,
      "learning_rate": 0.00019357190486774838,
      "loss": 2.0188,
      "step": 1456
    },
    {
      "epoch": 0.032377777777777776,
      "grad_norm": 1.0091444253921509,
      "learning_rate": 0.00019356745943543011,
      "loss": 2.0905,
      "step": 1457
    },
    {
      "epoch": 0.0324,
      "grad_norm": 1.0449639558792114,
      "learning_rate": 0.0001935630140031118,
      "loss": 2.3309,
      "step": 1458
    },
    {
      "epoch": 0.03242222222222222,
      "grad_norm": 1.1234618425369263,
      "learning_rate": 0.0001935585685707935,
      "loss": 1.258,
      "step": 1459
    },
    {
      "epoch": 0.03244444444444444,
      "grad_norm": 1.0038764476776123,
      "learning_rate": 0.00019355412313847522,
      "loss": 1.9646,
      "step": 1460
    },
    {
      "epoch": 0.032466666666666665,
      "grad_norm": 1.1340619325637817,
      "learning_rate": 0.00019354967770615693,
      "loss": 2.0642,
      "step": 1461
    },
    {
      "epoch": 0.03248888888888889,
      "grad_norm": 1.312368392944336,
      "learning_rate": 0.00019354523227383866,
      "loss": 1.9686,
      "step": 1462
    },
    {
      "epoch": 0.03251111111111111,
      "grad_norm": 1.3528220653533936,
      "learning_rate": 0.00019354078684152035,
      "loss": 2.5536,
      "step": 1463
    },
    {
      "epoch": 0.03253333333333333,
      "grad_norm": 1.0594779253005981,
      "learning_rate": 0.00019353634140920206,
      "loss": 2.1737,
      "step": 1464
    },
    {
      "epoch": 0.03255555555555555,
      "grad_norm": 1.3068666458129883,
      "learning_rate": 0.00019353189597688376,
      "loss": 2.0797,
      "step": 1465
    },
    {
      "epoch": 0.032577777777777775,
      "grad_norm": 1.1094759702682495,
      "learning_rate": 0.00019352745054456547,
      "loss": 2.083,
      "step": 1466
    },
    {
      "epoch": 0.0326,
      "grad_norm": 1.749818205833435,
      "learning_rate": 0.00019352300511224716,
      "loss": 1.4231,
      "step": 1467
    },
    {
      "epoch": 0.03262222222222222,
      "grad_norm": 1.2045254707336426,
      "learning_rate": 0.0001935185596799289,
      "loss": 2.2931,
      "step": 1468
    },
    {
      "epoch": 0.03264444444444444,
      "grad_norm": 1.0714808702468872,
      "learning_rate": 0.00019351411424761058,
      "loss": 2.4447,
      "step": 1469
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 1.3730173110961914,
      "learning_rate": 0.00019350966881529229,
      "loss": 2.2009,
      "step": 1470
    },
    {
      "epoch": 0.03268888888888889,
      "grad_norm": 1.2142409086227417,
      "learning_rate": 0.00019350522338297402,
      "loss": 2.1613,
      "step": 1471
    },
    {
      "epoch": 0.032711111111111114,
      "grad_norm": 1.6318351030349731,
      "learning_rate": 0.0001935007779506557,
      "loss": 2.2736,
      "step": 1472
    },
    {
      "epoch": 0.032733333333333337,
      "grad_norm": 1.0275932550430298,
      "learning_rate": 0.00019349633251833741,
      "loss": 2.1899,
      "step": 1473
    },
    {
      "epoch": 0.03275555555555556,
      "grad_norm": 1.305526614189148,
      "learning_rate": 0.00019349188708601912,
      "loss": 1.884,
      "step": 1474
    },
    {
      "epoch": 0.03277777777777778,
      "grad_norm": 1.0775156021118164,
      "learning_rate": 0.00019348744165370083,
      "loss": 2.0182,
      "step": 1475
    },
    {
      "epoch": 0.0328,
      "grad_norm": 1.2992222309112549,
      "learning_rate": 0.00019348299622138252,
      "loss": 2.5619,
      "step": 1476
    },
    {
      "epoch": 0.032822222222222225,
      "grad_norm": 1.20382559299469,
      "learning_rate": 0.00019347855078906425,
      "loss": 1.8367,
      "step": 1477
    },
    {
      "epoch": 0.03284444444444445,
      "grad_norm": 1.132842779159546,
      "learning_rate": 0.00019347410535674596,
      "loss": 2.2789,
      "step": 1478
    },
    {
      "epoch": 0.03286666666666667,
      "grad_norm": 1.4192887544631958,
      "learning_rate": 0.00019346965992442767,
      "loss": 2.5217,
      "step": 1479
    },
    {
      "epoch": 0.03288888888888889,
      "grad_norm": 1.5791467428207397,
      "learning_rate": 0.00019346521449210938,
      "loss": 2.2756,
      "step": 1480
    },
    {
      "epoch": 0.03291111111111111,
      "grad_norm": 1.1871541738510132,
      "learning_rate": 0.00019346076905979106,
      "loss": 2.155,
      "step": 1481
    },
    {
      "epoch": 0.032933333333333335,
      "grad_norm": 1.2759143114089966,
      "learning_rate": 0.0001934563236274728,
      "loss": 1.3168,
      "step": 1482
    },
    {
      "epoch": 0.03295555555555556,
      "grad_norm": 0.9883295893669128,
      "learning_rate": 0.00019345187819515448,
      "loss": 1.0488,
      "step": 1483
    },
    {
      "epoch": 0.03297777777777778,
      "grad_norm": 1.1437863111495972,
      "learning_rate": 0.0001934474327628362,
      "loss": 1.8904,
      "step": 1484
    },
    {
      "epoch": 0.033,
      "grad_norm": 1.1389312744140625,
      "learning_rate": 0.0001934429873305179,
      "loss": 2.086,
      "step": 1485
    },
    {
      "epoch": 0.033022222222222224,
      "grad_norm": 1.2822202444076538,
      "learning_rate": 0.0001934385418981996,
      "loss": 2.2587,
      "step": 1486
    },
    {
      "epoch": 0.033044444444444446,
      "grad_norm": 1.0431591272354126,
      "learning_rate": 0.00019343409646588132,
      "loss": 1.8495,
      "step": 1487
    },
    {
      "epoch": 0.03306666666666667,
      "grad_norm": 1.1726051568984985,
      "learning_rate": 0.00019342965103356303,
      "loss": 2.138,
      "step": 1488
    },
    {
      "epoch": 0.03308888888888889,
      "grad_norm": 1.3496167659759521,
      "learning_rate": 0.00019342520560124474,
      "loss": 1.9932,
      "step": 1489
    },
    {
      "epoch": 0.03311111111111111,
      "grad_norm": 1.2583036422729492,
      "learning_rate": 0.00019342076016892642,
      "loss": 2.1386,
      "step": 1490
    },
    {
      "epoch": 0.033133333333333334,
      "grad_norm": 1.4691636562347412,
      "learning_rate": 0.00019341631473660816,
      "loss": 1.3703,
      "step": 1491
    },
    {
      "epoch": 0.033155555555555556,
      "grad_norm": 1.1774368286132812,
      "learning_rate": 0.00019341186930428984,
      "loss": 2.0667,
      "step": 1492
    },
    {
      "epoch": 0.03317777777777778,
      "grad_norm": 1.3176870346069336,
      "learning_rate": 0.00019340742387197155,
      "loss": 1.7939,
      "step": 1493
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.200920820236206,
      "learning_rate": 0.00019340297843965326,
      "loss": 1.8218,
      "step": 1494
    },
    {
      "epoch": 0.03322222222222222,
      "grad_norm": 1.1005281209945679,
      "learning_rate": 0.00019339853300733497,
      "loss": 1.7146,
      "step": 1495
    },
    {
      "epoch": 0.033244444444444445,
      "grad_norm": 1.296162486076355,
      "learning_rate": 0.00019339408757501668,
      "loss": 1.7528,
      "step": 1496
    },
    {
      "epoch": 0.03326666666666667,
      "grad_norm": 1.3360410928726196,
      "learning_rate": 0.0001933896421426984,
      "loss": 2.0615,
      "step": 1497
    },
    {
      "epoch": 0.03328888888888889,
      "grad_norm": 1.6123567819595337,
      "learning_rate": 0.0001933851967103801,
      "loss": 2.2322,
      "step": 1498
    },
    {
      "epoch": 0.03331111111111111,
      "grad_norm": 1.3130148649215698,
      "learning_rate": 0.0001933807512780618,
      "loss": 1.9794,
      "step": 1499
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 1.3729859590530396,
      "learning_rate": 0.00019337630584574352,
      "loss": 1.2751,
      "step": 1500
    },
    {
      "epoch": 0.033355555555555555,
      "grad_norm": 1.1282742023468018,
      "learning_rate": 0.0001933718604134252,
      "loss": 1.2849,
      "step": 1501
    },
    {
      "epoch": 0.03337777777777778,
      "grad_norm": 1.0388362407684326,
      "learning_rate": 0.00019336741498110694,
      "loss": 2.2858,
      "step": 1502
    },
    {
      "epoch": 0.0334,
      "grad_norm": 1.169311285018921,
      "learning_rate": 0.00019336296954878862,
      "loss": 2.5737,
      "step": 1503
    },
    {
      "epoch": 0.03342222222222222,
      "grad_norm": 1.2016757726669312,
      "learning_rate": 0.00019335852411647033,
      "loss": 2.4111,
      "step": 1504
    },
    {
      "epoch": 0.03344444444444444,
      "grad_norm": 0.9759643077850342,
      "learning_rate": 0.00019335407868415204,
      "loss": 2.2419,
      "step": 1505
    },
    {
      "epoch": 0.033466666666666665,
      "grad_norm": 0.9662378430366516,
      "learning_rate": 0.00019334963325183375,
      "loss": 2.0838,
      "step": 1506
    },
    {
      "epoch": 0.03348888888888889,
      "grad_norm": 1.0994617938995361,
      "learning_rate": 0.00019334518781951546,
      "loss": 2.3815,
      "step": 1507
    },
    {
      "epoch": 0.03351111111111111,
      "grad_norm": 1.055759310722351,
      "learning_rate": 0.00019334074238719717,
      "loss": 2.3268,
      "step": 1508
    },
    {
      "epoch": 0.03353333333333333,
      "grad_norm": 1.0728514194488525,
      "learning_rate": 0.00019333629695487888,
      "loss": 1.9877,
      "step": 1509
    },
    {
      "epoch": 0.033555555555555554,
      "grad_norm": 1.1055771112442017,
      "learning_rate": 0.00019333185152256056,
      "loss": 2.3137,
      "step": 1510
    },
    {
      "epoch": 0.033577777777777776,
      "grad_norm": 1.1033469438552856,
      "learning_rate": 0.0001933274060902423,
      "loss": 2.1682,
      "step": 1511
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.5016406774520874,
      "learning_rate": 0.00019332296065792398,
      "loss": 2.3402,
      "step": 1512
    },
    {
      "epoch": 0.03362222222222222,
      "grad_norm": 0.9581237435340881,
      "learning_rate": 0.0001933185152256057,
      "loss": 2.0432,
      "step": 1513
    },
    {
      "epoch": 0.03364444444444444,
      "grad_norm": 1.025452733039856,
      "learning_rate": 0.0001933140697932874,
      "loss": 1.9181,
      "step": 1514
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.1646183729171753,
      "learning_rate": 0.0001933096243609691,
      "loss": 2.5041,
      "step": 1515
    },
    {
      "epoch": 0.033688888888888886,
      "grad_norm": 1.073794960975647,
      "learning_rate": 0.00019330517892865082,
      "loss": 1.8492,
      "step": 1516
    },
    {
      "epoch": 0.03371111111111111,
      "grad_norm": 1.1617109775543213,
      "learning_rate": 0.00019330073349633253,
      "loss": 2.2649,
      "step": 1517
    },
    {
      "epoch": 0.03373333333333333,
      "grad_norm": 1.170148253440857,
      "learning_rate": 0.00019329628806401424,
      "loss": 1.948,
      "step": 1518
    },
    {
      "epoch": 0.03375555555555555,
      "grad_norm": 1.0890510082244873,
      "learning_rate": 0.00019329184263169595,
      "loss": 1.9921,
      "step": 1519
    },
    {
      "epoch": 0.033777777777777775,
      "grad_norm": 1.3151578903198242,
      "learning_rate": 0.00019328739719937766,
      "loss": 2.5887,
      "step": 1520
    },
    {
      "epoch": 0.0338,
      "grad_norm": 1.1833549737930298,
      "learning_rate": 0.00019328295176705934,
      "loss": 2.0948,
      "step": 1521
    },
    {
      "epoch": 0.03382222222222222,
      "grad_norm": 1.2709935903549194,
      "learning_rate": 0.00019327850633474108,
      "loss": 2.2601,
      "step": 1522
    },
    {
      "epoch": 0.03384444444444445,
      "grad_norm": 1.0645160675048828,
      "learning_rate": 0.00019327406090242276,
      "loss": 1.8649,
      "step": 1523
    },
    {
      "epoch": 0.03386666666666667,
      "grad_norm": 1.1719558238983154,
      "learning_rate": 0.00019326961547010447,
      "loss": 2.0675,
      "step": 1524
    },
    {
      "epoch": 0.03388888888888889,
      "grad_norm": 1.251046061515808,
      "learning_rate": 0.00019326517003778618,
      "loss": 2.2127,
      "step": 1525
    },
    {
      "epoch": 0.033911111111111114,
      "grad_norm": 1.2509682178497314,
      "learning_rate": 0.0001932607246054679,
      "loss": 2.3012,
      "step": 1526
    },
    {
      "epoch": 0.033933333333333336,
      "grad_norm": 1.164339303970337,
      "learning_rate": 0.0001932562791731496,
      "loss": 2.0108,
      "step": 1527
    },
    {
      "epoch": 0.03395555555555556,
      "grad_norm": 1.2120718955993652,
      "learning_rate": 0.0001932518337408313,
      "loss": 2.0606,
      "step": 1528
    },
    {
      "epoch": 0.03397777777777778,
      "grad_norm": 1.1924437284469604,
      "learning_rate": 0.00019324738830851302,
      "loss": 1.7896,
      "step": 1529
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.42878258228302,
      "learning_rate": 0.0001932429428761947,
      "loss": 2.4899,
      "step": 1530
    },
    {
      "epoch": 0.034022222222222225,
      "grad_norm": 1.4489352703094482,
      "learning_rate": 0.00019323849744387644,
      "loss": 2.0391,
      "step": 1531
    },
    {
      "epoch": 0.03404444444444445,
      "grad_norm": 1.1656326055526733,
      "learning_rate": 0.00019323405201155812,
      "loss": 2.0498,
      "step": 1532
    },
    {
      "epoch": 0.03406666666666667,
      "grad_norm": 1.5094213485717773,
      "learning_rate": 0.00019322960657923983,
      "loss": 2.577,
      "step": 1533
    },
    {
      "epoch": 0.03408888888888889,
      "grad_norm": 1.2051565647125244,
      "learning_rate": 0.00019322516114692154,
      "loss": 2.0995,
      "step": 1534
    },
    {
      "epoch": 0.03411111111111111,
      "grad_norm": 1.2065091133117676,
      "learning_rate": 0.00019322071571460325,
      "loss": 1.9204,
      "step": 1535
    },
    {
      "epoch": 0.034133333333333335,
      "grad_norm": 1.180587887763977,
      "learning_rate": 0.00019321627028228498,
      "loss": 1.6939,
      "step": 1536
    },
    {
      "epoch": 0.03415555555555556,
      "grad_norm": 1.3259631395339966,
      "learning_rate": 0.00019321182484996667,
      "loss": 1.8811,
      "step": 1537
    },
    {
      "epoch": 0.03417777777777778,
      "grad_norm": 1.3118047714233398,
      "learning_rate": 0.00019320737941764838,
      "loss": 2.0082,
      "step": 1538
    },
    {
      "epoch": 0.0342,
      "grad_norm": 1.3475799560546875,
      "learning_rate": 0.0001932029339853301,
      "loss": 2.048,
      "step": 1539
    },
    {
      "epoch": 0.03422222222222222,
      "grad_norm": 1.1897367238998413,
      "learning_rate": 0.0001931984885530118,
      "loss": 1.8778,
      "step": 1540
    },
    {
      "epoch": 0.034244444444444445,
      "grad_norm": 1.2741882801055908,
      "learning_rate": 0.00019319404312069348,
      "loss": 1.9792,
      "step": 1541
    },
    {
      "epoch": 0.03426666666666667,
      "grad_norm": 1.103155493736267,
      "learning_rate": 0.00019318959768837522,
      "loss": 1.8665,
      "step": 1542
    },
    {
      "epoch": 0.03428888888888889,
      "grad_norm": 1.1629788875579834,
      "learning_rate": 0.0001931851522560569,
      "loss": 1.7662,
      "step": 1543
    },
    {
      "epoch": 0.03431111111111111,
      "grad_norm": 1.2028809785842896,
      "learning_rate": 0.0001931807068237386,
      "loss": 1.7697,
      "step": 1544
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 1.0899524688720703,
      "learning_rate": 0.00019317626139142034,
      "loss": 1.5889,
      "step": 1545
    },
    {
      "epoch": 0.034355555555555556,
      "grad_norm": 2.2114458084106445,
      "learning_rate": 0.00019317181595910203,
      "loss": 1.8964,
      "step": 1546
    },
    {
      "epoch": 0.03437777777777778,
      "grad_norm": 1.3060212135314941,
      "learning_rate": 0.00019316737052678374,
      "loss": 0.9665,
      "step": 1547
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.2669345140457153,
      "learning_rate": 0.00019316292509446545,
      "loss": 1.895,
      "step": 1548
    },
    {
      "epoch": 0.03442222222222222,
      "grad_norm": 1.737618088722229,
      "learning_rate": 0.00019315847966214716,
      "loss": 2.2731,
      "step": 1549
    },
    {
      "epoch": 0.034444444444444444,
      "grad_norm": 1.082196831703186,
      "learning_rate": 0.00019315403422982884,
      "loss": 0.6085,
      "step": 1550
    },
    {
      "epoch": 0.034466666666666666,
      "grad_norm": 1.2861276865005493,
      "learning_rate": 0.00019314958879751058,
      "loss": 2.8675,
      "step": 1551
    },
    {
      "epoch": 0.03448888888888889,
      "grad_norm": 1.0323752164840698,
      "learning_rate": 0.00019314514336519228,
      "loss": 2.9297,
      "step": 1552
    },
    {
      "epoch": 0.03451111111111111,
      "grad_norm": 0.9915749430656433,
      "learning_rate": 0.00019314069793287397,
      "loss": 2.55,
      "step": 1553
    },
    {
      "epoch": 0.03453333333333333,
      "grad_norm": 1.0444973707199097,
      "learning_rate": 0.0001931362525005557,
      "loss": 2.6642,
      "step": 1554
    },
    {
      "epoch": 0.034555555555555555,
      "grad_norm": 0.9511508941650391,
      "learning_rate": 0.00019313180706823739,
      "loss": 2.0044,
      "step": 1555
    },
    {
      "epoch": 0.03457777777777778,
      "grad_norm": 1.3596376180648804,
      "learning_rate": 0.00019312736163591912,
      "loss": 1.1496,
      "step": 1556
    },
    {
      "epoch": 0.0346,
      "grad_norm": 1.0855063199996948,
      "learning_rate": 0.0001931229162036008,
      "loss": 2.3195,
      "step": 1557
    },
    {
      "epoch": 0.03462222222222222,
      "grad_norm": 1.0310297012329102,
      "learning_rate": 0.00019311847077128252,
      "loss": 2.2401,
      "step": 1558
    },
    {
      "epoch": 0.03464444444444444,
      "grad_norm": 1.2717889547348022,
      "learning_rate": 0.00019311402533896422,
      "loss": 2.5257,
      "step": 1559
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 1.0537046194076538,
      "learning_rate": 0.00019310957990664593,
      "loss": 2.0173,
      "step": 1560
    },
    {
      "epoch": 0.03468888888888889,
      "grad_norm": 1.0954219102859497,
      "learning_rate": 0.00019310513447432764,
      "loss": 2.2333,
      "step": 1561
    },
    {
      "epoch": 0.03471111111111111,
      "grad_norm": 1.106155514717102,
      "learning_rate": 0.00019310068904200935,
      "loss": 1.7137,
      "step": 1562
    },
    {
      "epoch": 0.03473333333333333,
      "grad_norm": 1.042556643486023,
      "learning_rate": 0.00019309624360969106,
      "loss": 1.7789,
      "step": 1563
    },
    {
      "epoch": 0.03475555555555555,
      "grad_norm": 1.250775933265686,
      "learning_rate": 0.00019309179817737275,
      "loss": 2.2798,
      "step": 1564
    },
    {
      "epoch": 0.034777777777777776,
      "grad_norm": 1.2479610443115234,
      "learning_rate": 0.00019308735274505448,
      "loss": 2.6462,
      "step": 1565
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.0425524711608887,
      "learning_rate": 0.00019308290731273617,
      "loss": 1.8033,
      "step": 1566
    },
    {
      "epoch": 0.03482222222222222,
      "grad_norm": 1.228369116783142,
      "learning_rate": 0.00019307846188041787,
      "loss": 2.6753,
      "step": 1567
    },
    {
      "epoch": 0.03484444444444444,
      "grad_norm": 1.2939426898956299,
      "learning_rate": 0.00019307401644809958,
      "loss": 2.0066,
      "step": 1568
    },
    {
      "epoch": 0.034866666666666664,
      "grad_norm": 1.106898546218872,
      "learning_rate": 0.0001930695710157813,
      "loss": 1.9016,
      "step": 1569
    },
    {
      "epoch": 0.034888888888888886,
      "grad_norm": 1.0723423957824707,
      "learning_rate": 0.000193065125583463,
      "loss": 1.8617,
      "step": 1570
    },
    {
      "epoch": 0.03491111111111111,
      "grad_norm": 1.1328529119491577,
      "learning_rate": 0.0001930606801511447,
      "loss": 2.1399,
      "step": 1571
    },
    {
      "epoch": 0.03493333333333333,
      "grad_norm": 1.014874815940857,
      "learning_rate": 0.00019305623471882642,
      "loss": 1.8384,
      "step": 1572
    },
    {
      "epoch": 0.03495555555555555,
      "grad_norm": 1.1854385137557983,
      "learning_rate": 0.0001930517892865081,
      "loss": 2.1582,
      "step": 1573
    },
    {
      "epoch": 0.03497777777777778,
      "grad_norm": 1.204401969909668,
      "learning_rate": 0.00019304734385418984,
      "loss": 2.0826,
      "step": 1574
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.547637701034546,
      "learning_rate": 0.00019304289842187152,
      "loss": 2.0409,
      "step": 1575
    },
    {
      "epoch": 0.035022222222222225,
      "grad_norm": 1.2782498598098755,
      "learning_rate": 0.00019303845298955326,
      "loss": 1.5767,
      "step": 1576
    },
    {
      "epoch": 0.03504444444444445,
      "grad_norm": 1.264570951461792,
      "learning_rate": 0.00019303400755723494,
      "loss": 1.5904,
      "step": 1577
    },
    {
      "epoch": 0.03506666666666667,
      "grad_norm": 1.0112229585647583,
      "learning_rate": 0.00019302956212491665,
      "loss": 1.1745,
      "step": 1578
    },
    {
      "epoch": 0.03508888888888889,
      "grad_norm": 1.4174708127975464,
      "learning_rate": 0.00019302511669259836,
      "loss": 2.8066,
      "step": 1579
    },
    {
      "epoch": 0.035111111111111114,
      "grad_norm": 1.2562214136123657,
      "learning_rate": 0.00019302067126028007,
      "loss": 1.7302,
      "step": 1580
    },
    {
      "epoch": 0.035133333333333336,
      "grad_norm": 1.2634434700012207,
      "learning_rate": 0.00019301622582796178,
      "loss": 1.9925,
      "step": 1581
    },
    {
      "epoch": 0.03515555555555556,
      "grad_norm": 1.2283315658569336,
      "learning_rate": 0.0001930117803956435,
      "loss": 2.2805,
      "step": 1582
    },
    {
      "epoch": 0.03517777777777778,
      "grad_norm": 1.3432462215423584,
      "learning_rate": 0.0001930073349633252,
      "loss": 2.1874,
      "step": 1583
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.4123488664627075,
      "learning_rate": 0.00019300288953100688,
      "loss": 2.3004,
      "step": 1584
    },
    {
      "epoch": 0.035222222222222224,
      "grad_norm": 1.1645655632019043,
      "learning_rate": 0.00019299844409868862,
      "loss": 2.0793,
      "step": 1585
    },
    {
      "epoch": 0.035244444444444446,
      "grad_norm": 1.1561622619628906,
      "learning_rate": 0.0001929939986663703,
      "loss": 2.1651,
      "step": 1586
    },
    {
      "epoch": 0.03526666666666667,
      "grad_norm": 1.447200894355774,
      "learning_rate": 0.000192989553234052,
      "loss": 2.3525,
      "step": 1587
    },
    {
      "epoch": 0.03528888888888889,
      "grad_norm": 1.1419998407363892,
      "learning_rate": 0.00019298510780173372,
      "loss": 1.901,
      "step": 1588
    },
    {
      "epoch": 0.03531111111111111,
      "grad_norm": 1.2339032888412476,
      "learning_rate": 0.00019298066236941543,
      "loss": 2.1305,
      "step": 1589
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 1.2740687131881714,
      "learning_rate": 0.00019297621693709714,
      "loss": 1.9447,
      "step": 1590
    },
    {
      "epoch": 0.03535555555555556,
      "grad_norm": 1.2346866130828857,
      "learning_rate": 0.00019297177150477885,
      "loss": 1.8371,
      "step": 1591
    },
    {
      "epoch": 0.03537777777777778,
      "grad_norm": 1.367735505104065,
      "learning_rate": 0.00019296732607246056,
      "loss": 2.483,
      "step": 1592
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.1464039087295532,
      "learning_rate": 0.00019296288064014227,
      "loss": 1.8843,
      "step": 1593
    },
    {
      "epoch": 0.03542222222222222,
      "grad_norm": 1.0014337301254272,
      "learning_rate": 0.00019295843520782398,
      "loss": 1.6699,
      "step": 1594
    },
    {
      "epoch": 0.035444444444444445,
      "grad_norm": 1.1374380588531494,
      "learning_rate": 0.00019295398977550566,
      "loss": 1.6318,
      "step": 1595
    },
    {
      "epoch": 0.03546666666666667,
      "grad_norm": 1.027539849281311,
      "learning_rate": 0.0001929495443431874,
      "loss": 1.3634,
      "step": 1596
    },
    {
      "epoch": 0.03548888888888889,
      "grad_norm": 1.2553808689117432,
      "learning_rate": 0.00019294509891086908,
      "loss": 1.92,
      "step": 1597
    },
    {
      "epoch": 0.03551111111111111,
      "grad_norm": 1.5323386192321777,
      "learning_rate": 0.0001929406534785508,
      "loss": 2.0675,
      "step": 1598
    },
    {
      "epoch": 0.03553333333333333,
      "grad_norm": 1.322381854057312,
      "learning_rate": 0.0001929362080462325,
      "loss": 1.8776,
      "step": 1599
    },
    {
      "epoch": 0.035555555555555556,
      "grad_norm": 1.1956552267074585,
      "learning_rate": 0.0001929317626139142,
      "loss": 1.535,
      "step": 1600
    },
    {
      "epoch": 0.03557777777777778,
      "grad_norm": 1.0654809474945068,
      "learning_rate": 0.00019292731718159592,
      "loss": 2.5483,
      "step": 1601
    },
    {
      "epoch": 0.0356,
      "grad_norm": 0.9427987933158875,
      "learning_rate": 0.00019292287174927763,
      "loss": 2.3314,
      "step": 1602
    },
    {
      "epoch": 0.03562222222222222,
      "grad_norm": 1.0185790061950684,
      "learning_rate": 0.00019291842631695934,
      "loss": 2.2234,
      "step": 1603
    },
    {
      "epoch": 0.035644444444444444,
      "grad_norm": 1.0985407829284668,
      "learning_rate": 0.00019291398088464102,
      "loss": 2.1942,
      "step": 1604
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 1.17117178440094,
      "learning_rate": 0.00019290953545232276,
      "loss": 2.5517,
      "step": 1605
    },
    {
      "epoch": 0.03568888888888889,
      "grad_norm": 1.4354678392410278,
      "learning_rate": 0.00019290509002000444,
      "loss": 2.3936,
      "step": 1606
    },
    {
      "epoch": 0.03571111111111111,
      "grad_norm": 0.9360921382904053,
      "learning_rate": 0.00019290064458768615,
      "loss": 1.985,
      "step": 1607
    },
    {
      "epoch": 0.03573333333333333,
      "grad_norm": 1.102998971939087,
      "learning_rate": 0.00019289619915536786,
      "loss": 2.1309,
      "step": 1608
    },
    {
      "epoch": 0.035755555555555554,
      "grad_norm": 1.000748872756958,
      "learning_rate": 0.00019289175372304957,
      "loss": 2.1232,
      "step": 1609
    },
    {
      "epoch": 0.035777777777777776,
      "grad_norm": 1.1651393175125122,
      "learning_rate": 0.00019288730829073128,
      "loss": 1.6339,
      "step": 1610
    },
    {
      "epoch": 0.0358,
      "grad_norm": 1.0569050312042236,
      "learning_rate": 0.000192882862858413,
      "loss": 2.2817,
      "step": 1611
    },
    {
      "epoch": 0.03582222222222222,
      "grad_norm": 1.1219130754470825,
      "learning_rate": 0.0001928784174260947,
      "loss": 2.1398,
      "step": 1612
    },
    {
      "epoch": 0.03584444444444444,
      "grad_norm": 1.4168156385421753,
      "learning_rate": 0.0001928739719937764,
      "loss": 1.6243,
      "step": 1613
    },
    {
      "epoch": 0.035866666666666665,
      "grad_norm": 1.0991692543029785,
      "learning_rate": 0.00019286952656145812,
      "loss": 2.3464,
      "step": 1614
    },
    {
      "epoch": 0.03588888888888889,
      "grad_norm": 1.196455717086792,
      "learning_rate": 0.0001928650811291398,
      "loss": 2.1513,
      "step": 1615
    },
    {
      "epoch": 0.03591111111111111,
      "grad_norm": 1.131048321723938,
      "learning_rate": 0.00019286063569682154,
      "loss": 2.2837,
      "step": 1616
    },
    {
      "epoch": 0.03593333333333333,
      "grad_norm": 1.0808967351913452,
      "learning_rate": 0.00019285619026450322,
      "loss": 2.1656,
      "step": 1617
    },
    {
      "epoch": 0.03595555555555555,
      "grad_norm": 1.131663203239441,
      "learning_rate": 0.00019285174483218493,
      "loss": 2.2383,
      "step": 1618
    },
    {
      "epoch": 0.035977777777777775,
      "grad_norm": 1.8503128290176392,
      "learning_rate": 0.00019284729939986667,
      "loss": 1.199,
      "step": 1619
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.1101024150848389,
      "learning_rate": 0.00019284285396754835,
      "loss": 1.9646,
      "step": 1620
    },
    {
      "epoch": 0.03602222222222222,
      "grad_norm": 1.0288583040237427,
      "learning_rate": 0.00019283840853523006,
      "loss": 1.9303,
      "step": 1621
    },
    {
      "epoch": 0.03604444444444444,
      "grad_norm": 1.068770408630371,
      "learning_rate": 0.00019283396310291177,
      "loss": 2.1843,
      "step": 1622
    },
    {
      "epoch": 0.036066666666666664,
      "grad_norm": 1.0957071781158447,
      "learning_rate": 0.00019282951767059348,
      "loss": 1.9444,
      "step": 1623
    },
    {
      "epoch": 0.036088888888888886,
      "grad_norm": 1.1025582551956177,
      "learning_rate": 0.00019282507223827516,
      "loss": 1.8602,
      "step": 1624
    },
    {
      "epoch": 0.03611111111111111,
      "grad_norm": 1.0950126647949219,
      "learning_rate": 0.0001928206268059569,
      "loss": 2.1894,
      "step": 1625
    },
    {
      "epoch": 0.03613333333333334,
      "grad_norm": 1.1343626976013184,
      "learning_rate": 0.0001928161813736386,
      "loss": 1.9778,
      "step": 1626
    },
    {
      "epoch": 0.03615555555555556,
      "grad_norm": 1.1559494733810425,
      "learning_rate": 0.0001928117359413203,
      "loss": 1.6899,
      "step": 1627
    },
    {
      "epoch": 0.03617777777777778,
      "grad_norm": 1.2241156101226807,
      "learning_rate": 0.00019280729050900203,
      "loss": 2.0864,
      "step": 1628
    },
    {
      "epoch": 0.0362,
      "grad_norm": 0.7917470932006836,
      "learning_rate": 0.0001928028450766837,
      "loss": 0.9533,
      "step": 1629
    },
    {
      "epoch": 0.036222222222222225,
      "grad_norm": 1.103376030921936,
      "learning_rate": 0.00019279839964436542,
      "loss": 1.8007,
      "step": 1630
    },
    {
      "epoch": 0.03624444444444445,
      "grad_norm": 1.1854441165924072,
      "learning_rate": 0.00019279395421204713,
      "loss": 1.9496,
      "step": 1631
    },
    {
      "epoch": 0.03626666666666667,
      "grad_norm": 1.283071756362915,
      "learning_rate": 0.00019278950877972884,
      "loss": 2.0651,
      "step": 1632
    },
    {
      "epoch": 0.03628888888888889,
      "grad_norm": 1.3536968231201172,
      "learning_rate": 0.00019278506334741055,
      "loss": 2.3606,
      "step": 1633
    },
    {
      "epoch": 0.03631111111111111,
      "grad_norm": 1.1884193420410156,
      "learning_rate": 0.00019278061791509226,
      "loss": 1.6877,
      "step": 1634
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 1.1790130138397217,
      "learning_rate": 0.00019277617248277397,
      "loss": 1.7944,
      "step": 1635
    },
    {
      "epoch": 0.03635555555555556,
      "grad_norm": 1.4631588459014893,
      "learning_rate": 0.00019277172705045568,
      "loss": 2.0584,
      "step": 1636
    },
    {
      "epoch": 0.03637777777777778,
      "grad_norm": 1.1450132131576538,
      "learning_rate": 0.00019276728161813739,
      "loss": 1.9185,
      "step": 1637
    },
    {
      "epoch": 0.0364,
      "grad_norm": 1.4707188606262207,
      "learning_rate": 0.00019276283618581907,
      "loss": 2.3511,
      "step": 1638
    },
    {
      "epoch": 0.036422222222222224,
      "grad_norm": 1.3113077878952026,
      "learning_rate": 0.0001927583907535008,
      "loss": 2.3162,
      "step": 1639
    },
    {
      "epoch": 0.036444444444444446,
      "grad_norm": 1.2973928451538086,
      "learning_rate": 0.0001927539453211825,
      "loss": 1.9532,
      "step": 1640
    },
    {
      "epoch": 0.03646666666666667,
      "grad_norm": 1.091458797454834,
      "learning_rate": 0.0001927494998888642,
      "loss": 1.8042,
      "step": 1641
    },
    {
      "epoch": 0.03648888888888889,
      "grad_norm": 1.2639678716659546,
      "learning_rate": 0.0001927450544565459,
      "loss": 1.9437,
      "step": 1642
    },
    {
      "epoch": 0.03651111111111111,
      "grad_norm": 1.384123682975769,
      "learning_rate": 0.00019274060902422762,
      "loss": 2.0447,
      "step": 1643
    },
    {
      "epoch": 0.036533333333333334,
      "grad_norm": 1.5155600309371948,
      "learning_rate": 0.00019273616359190933,
      "loss": 2.1028,
      "step": 1644
    },
    {
      "epoch": 0.036555555555555556,
      "grad_norm": 1.74246084690094,
      "learning_rate": 0.00019273171815959104,
      "loss": 2.019,
      "step": 1645
    },
    {
      "epoch": 0.03657777777777778,
      "grad_norm": 1.4755514860153198,
      "learning_rate": 0.00019272727272727274,
      "loss": 2.1065,
      "step": 1646
    },
    {
      "epoch": 0.0366,
      "grad_norm": 0.9459998607635498,
      "learning_rate": 0.00019272282729495443,
      "loss": 0.8836,
      "step": 1647
    },
    {
      "epoch": 0.03662222222222222,
      "grad_norm": 1.3147807121276855,
      "learning_rate": 0.00019271838186263616,
      "loss": 1.893,
      "step": 1648
    },
    {
      "epoch": 0.036644444444444445,
      "grad_norm": 1.478476643562317,
      "learning_rate": 0.00019271393643031785,
      "loss": 1.5637,
      "step": 1649
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 1.6118906736373901,
      "learning_rate": 0.00019270949099799958,
      "loss": 1.5086,
      "step": 1650
    },
    {
      "epoch": 0.03668888888888889,
      "grad_norm": 0.8905341625213623,
      "learning_rate": 0.00019270504556568127,
      "loss": 2.4148,
      "step": 1651
    },
    {
      "epoch": 0.03671111111111111,
      "grad_norm": 0.8563937544822693,
      "learning_rate": 0.00019270060013336298,
      "loss": 2.2786,
      "step": 1652
    },
    {
      "epoch": 0.03673333333333333,
      "grad_norm": 0.9282917380332947,
      "learning_rate": 0.00019269615470104469,
      "loss": 2.3942,
      "step": 1653
    },
    {
      "epoch": 0.036755555555555555,
      "grad_norm": 1.0072396993637085,
      "learning_rate": 0.0001926917092687264,
      "loss": 1.3516,
      "step": 1654
    },
    {
      "epoch": 0.03677777777777778,
      "grad_norm": 0.6960182189941406,
      "learning_rate": 0.0001926872638364081,
      "loss": 1.0296,
      "step": 1655
    },
    {
      "epoch": 0.0368,
      "grad_norm": 1.1755566596984863,
      "learning_rate": 0.00019268281840408981,
      "loss": 3.0354,
      "step": 1656
    },
    {
      "epoch": 0.03682222222222222,
      "grad_norm": 1.2352008819580078,
      "learning_rate": 0.00019267837297177152,
      "loss": 2.5728,
      "step": 1657
    },
    {
      "epoch": 0.036844444444444444,
      "grad_norm": 1.0424734354019165,
      "learning_rate": 0.0001926739275394532,
      "loss": 2.1906,
      "step": 1658
    },
    {
      "epoch": 0.036866666666666666,
      "grad_norm": 0.9990553855895996,
      "learning_rate": 0.00019266948210713494,
      "loss": 2.3221,
      "step": 1659
    },
    {
      "epoch": 0.03688888888888889,
      "grad_norm": 1.0603668689727783,
      "learning_rate": 0.00019266503667481663,
      "loss": 2.3523,
      "step": 1660
    },
    {
      "epoch": 0.03691111111111111,
      "grad_norm": 1.1015915870666504,
      "learning_rate": 0.00019266059124249833,
      "loss": 2.4637,
      "step": 1661
    },
    {
      "epoch": 0.03693333333333333,
      "grad_norm": 1.0183284282684326,
      "learning_rate": 0.00019265614581018004,
      "loss": 2.1596,
      "step": 1662
    },
    {
      "epoch": 0.036955555555555554,
      "grad_norm": 1.097563624382019,
      "learning_rate": 0.00019265170037786175,
      "loss": 2.3855,
      "step": 1663
    },
    {
      "epoch": 0.036977777777777776,
      "grad_norm": 1.0424779653549194,
      "learning_rate": 0.00019264725494554346,
      "loss": 2.1794,
      "step": 1664
    },
    {
      "epoch": 0.037,
      "grad_norm": 1.0053038597106934,
      "learning_rate": 0.00019264280951322517,
      "loss": 2.0104,
      "step": 1665
    },
    {
      "epoch": 0.03702222222222222,
      "grad_norm": 1.2662198543548584,
      "learning_rate": 0.00019263836408090688,
      "loss": 2.3109,
      "step": 1666
    },
    {
      "epoch": 0.03704444444444444,
      "grad_norm": 1.0046722888946533,
      "learning_rate": 0.00019263391864858857,
      "loss": 2.3037,
      "step": 1667
    },
    {
      "epoch": 0.037066666666666664,
      "grad_norm": 1.1860179901123047,
      "learning_rate": 0.0001926294732162703,
      "loss": 2.537,
      "step": 1668
    },
    {
      "epoch": 0.037088888888888887,
      "grad_norm": 1.0056655406951904,
      "learning_rate": 0.00019262502778395198,
      "loss": 1.9345,
      "step": 1669
    },
    {
      "epoch": 0.03711111111111111,
      "grad_norm": 1.1387861967086792,
      "learning_rate": 0.00019262058235163372,
      "loss": 1.224,
      "step": 1670
    },
    {
      "epoch": 0.03713333333333333,
      "grad_norm": 1.0878708362579346,
      "learning_rate": 0.0001926161369193154,
      "loss": 2.1147,
      "step": 1671
    },
    {
      "epoch": 0.03715555555555555,
      "grad_norm": 1.1541792154312134,
      "learning_rate": 0.00019261169148699711,
      "loss": 2.3138,
      "step": 1672
    },
    {
      "epoch": 0.037177777777777775,
      "grad_norm": 1.2388761043548584,
      "learning_rate": 0.00019260724605467882,
      "loss": 2.0522,
      "step": 1673
    },
    {
      "epoch": 0.0372,
      "grad_norm": 1.0342973470687866,
      "learning_rate": 0.00019260280062236053,
      "loss": 1.9513,
      "step": 1674
    },
    {
      "epoch": 0.03722222222222222,
      "grad_norm": 1.2679888010025024,
      "learning_rate": 0.00019259835519004224,
      "loss": 1.982,
      "step": 1675
    },
    {
      "epoch": 0.03724444444444444,
      "grad_norm": 1.2131075859069824,
      "learning_rate": 0.00019259390975772395,
      "loss": 2.1498,
      "step": 1676
    },
    {
      "epoch": 0.03726666666666666,
      "grad_norm": 0.9604787230491638,
      "learning_rate": 0.00019258946432540566,
      "loss": 1.5668,
      "step": 1677
    },
    {
      "epoch": 0.03728888888888889,
      "grad_norm": 1.054021954536438,
      "learning_rate": 0.00019258501889308734,
      "loss": 1.8568,
      "step": 1678
    },
    {
      "epoch": 0.037311111111111114,
      "grad_norm": 1.190492868423462,
      "learning_rate": 0.00019258057346076908,
      "loss": 0.9899,
      "step": 1679
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 1.5572409629821777,
      "learning_rate": 0.00019257612802845076,
      "loss": 2.3164,
      "step": 1680
    },
    {
      "epoch": 0.03735555555555556,
      "grad_norm": 1.1587527990341187,
      "learning_rate": 0.00019257168259613247,
      "loss": 2.1015,
      "step": 1681
    },
    {
      "epoch": 0.03737777777777778,
      "grad_norm": 1.2043633460998535,
      "learning_rate": 0.00019256723716381418,
      "loss": 1.9227,
      "step": 1682
    },
    {
      "epoch": 0.0374,
      "grad_norm": 1.2729018926620483,
      "learning_rate": 0.0001925627917314959,
      "loss": 2.0728,
      "step": 1683
    },
    {
      "epoch": 0.037422222222222225,
      "grad_norm": 1.287742018699646,
      "learning_rate": 0.0001925583462991776,
      "loss": 2.4982,
      "step": 1684
    },
    {
      "epoch": 0.03744444444444445,
      "grad_norm": 1.3554203510284424,
      "learning_rate": 0.0001925539008668593,
      "loss": 2.3082,
      "step": 1685
    },
    {
      "epoch": 0.03746666666666667,
      "grad_norm": 1.2895474433898926,
      "learning_rate": 0.00019254945543454102,
      "loss": 2.2616,
      "step": 1686
    },
    {
      "epoch": 0.03748888888888889,
      "grad_norm": 1.2018258571624756,
      "learning_rate": 0.0001925450100022227,
      "loss": 1.9035,
      "step": 1687
    },
    {
      "epoch": 0.03751111111111111,
      "grad_norm": 1.336531639099121,
      "learning_rate": 0.00019254056456990444,
      "loss": 2.2862,
      "step": 1688
    },
    {
      "epoch": 0.037533333333333335,
      "grad_norm": 1.0696642398834229,
      "learning_rate": 0.00019253611913758612,
      "loss": 0.9648,
      "step": 1689
    },
    {
      "epoch": 0.03755555555555556,
      "grad_norm": 1.5599923133850098,
      "learning_rate": 0.00019253167370526786,
      "loss": 1.6956,
      "step": 1690
    },
    {
      "epoch": 0.03757777777777778,
      "grad_norm": 1.049018144607544,
      "learning_rate": 0.00019252722827294957,
      "loss": 1.6086,
      "step": 1691
    },
    {
      "epoch": 0.0376,
      "grad_norm": 1.2631961107254028,
      "learning_rate": 0.00019252278284063125,
      "loss": 1.5529,
      "step": 1692
    },
    {
      "epoch": 0.037622222222222224,
      "grad_norm": 1.404136300086975,
      "learning_rate": 0.000192518337408313,
      "loss": 2.0185,
      "step": 1693
    },
    {
      "epoch": 0.037644444444444446,
      "grad_norm": 1.5357671976089478,
      "learning_rate": 0.00019251389197599467,
      "loss": 2.2575,
      "step": 1694
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 1.2799744606018066,
      "learning_rate": 0.00019250944654367638,
      "loss": 1.8321,
      "step": 1695
    },
    {
      "epoch": 0.03768888888888889,
      "grad_norm": 1.5406770706176758,
      "learning_rate": 0.0001925050011113581,
      "loss": 2.0424,
      "step": 1696
    },
    {
      "epoch": 0.03771111111111111,
      "grad_norm": 1.5023655891418457,
      "learning_rate": 0.0001925005556790398,
      "loss": 2.0837,
      "step": 1697
    },
    {
      "epoch": 0.037733333333333334,
      "grad_norm": 1.220178484916687,
      "learning_rate": 0.00019249611024672148,
      "loss": 1.6124,
      "step": 1698
    },
    {
      "epoch": 0.037755555555555556,
      "grad_norm": 2.6782243251800537,
      "learning_rate": 0.00019249166481440322,
      "loss": 0.1081,
      "step": 1699
    },
    {
      "epoch": 0.03777777777777778,
      "grad_norm": 0.9028381705284119,
      "learning_rate": 0.00019248721938208493,
      "loss": 0.5841,
      "step": 1700
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.136002779006958,
      "learning_rate": 0.0001924827739497666,
      "loss": 2.7293,
      "step": 1701
    },
    {
      "epoch": 0.03782222222222222,
      "grad_norm": 1.3147175312042236,
      "learning_rate": 0.00019247832851744835,
      "loss": 2.8613,
      "step": 1702
    },
    {
      "epoch": 0.037844444444444444,
      "grad_norm": 1.1160030364990234,
      "learning_rate": 0.00019247388308513003,
      "loss": 2.5977,
      "step": 1703
    },
    {
      "epoch": 0.037866666666666667,
      "grad_norm": 1.2921942472457886,
      "learning_rate": 0.00019246943765281174,
      "loss": 2.3137,
      "step": 1704
    },
    {
      "epoch": 0.03788888888888889,
      "grad_norm": 0.9941746592521667,
      "learning_rate": 0.00019246499222049345,
      "loss": 1.8767,
      "step": 1705
    },
    {
      "epoch": 0.03791111111111111,
      "grad_norm": 1.2339857816696167,
      "learning_rate": 0.00019246054678817516,
      "loss": 2.1385,
      "step": 1706
    },
    {
      "epoch": 0.03793333333333333,
      "grad_norm": 1.158557415008545,
      "learning_rate": 0.00019245610135585687,
      "loss": 1.5991,
      "step": 1707
    },
    {
      "epoch": 0.037955555555555555,
      "grad_norm": 1.146208643913269,
      "learning_rate": 0.00019245165592353858,
      "loss": 2.2618,
      "step": 1708
    },
    {
      "epoch": 0.03797777777777778,
      "grad_norm": 1.0277339220046997,
      "learning_rate": 0.0001924472104912203,
      "loss": 2.3643,
      "step": 1709
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.0269960165023804,
      "learning_rate": 0.000192442765058902,
      "loss": 2.0639,
      "step": 1710
    },
    {
      "epoch": 0.03802222222222222,
      "grad_norm": 1.0692329406738281,
      "learning_rate": 0.0001924383196265837,
      "loss": 1.7411,
      "step": 1711
    },
    {
      "epoch": 0.03804444444444444,
      "grad_norm": 1.3326133489608765,
      "learning_rate": 0.0001924338741942654,
      "loss": 2.2134,
      "step": 1712
    },
    {
      "epoch": 0.038066666666666665,
      "grad_norm": 0.9918487668037415,
      "learning_rate": 0.00019242942876194713,
      "loss": 1.4232,
      "step": 1713
    },
    {
      "epoch": 0.03808888888888889,
      "grad_norm": 1.0250266790390015,
      "learning_rate": 0.0001924249833296288,
      "loss": 1.9448,
      "step": 1714
    },
    {
      "epoch": 0.03811111111111111,
      "grad_norm": 1.34917414188385,
      "learning_rate": 0.00019242053789731052,
      "loss": 2.4693,
      "step": 1715
    },
    {
      "epoch": 0.03813333333333333,
      "grad_norm": 1.2300838232040405,
      "learning_rate": 0.00019241609246499223,
      "loss": 2.1846,
      "step": 1716
    },
    {
      "epoch": 0.038155555555555554,
      "grad_norm": 0.9363498091697693,
      "learning_rate": 0.00019241164703267394,
      "loss": 1.0052,
      "step": 1717
    },
    {
      "epoch": 0.038177777777777776,
      "grad_norm": 1.1219052076339722,
      "learning_rate": 0.00019240720160035565,
      "loss": 1.9205,
      "step": 1718
    },
    {
      "epoch": 0.0382,
      "grad_norm": 1.4701693058013916,
      "learning_rate": 0.00019240275616803736,
      "loss": 1.9902,
      "step": 1719
    },
    {
      "epoch": 0.03822222222222222,
      "grad_norm": 1.2562336921691895,
      "learning_rate": 0.00019239831073571907,
      "loss": 2.4119,
      "step": 1720
    },
    {
      "epoch": 0.03824444444444444,
      "grad_norm": 1.2237027883529663,
      "learning_rate": 0.00019239386530340075,
      "loss": 1.7287,
      "step": 1721
    },
    {
      "epoch": 0.038266666666666664,
      "grad_norm": 1.2052242755889893,
      "learning_rate": 0.00019238941987108249,
      "loss": 2.5344,
      "step": 1722
    },
    {
      "epoch": 0.038288888888888886,
      "grad_norm": 0.9924613237380981,
      "learning_rate": 0.00019238497443876417,
      "loss": 1.7375,
      "step": 1723
    },
    {
      "epoch": 0.03831111111111111,
      "grad_norm": 1.08962082862854,
      "learning_rate": 0.00019238052900644588,
      "loss": 2.1573,
      "step": 1724
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 1.3142993450164795,
      "learning_rate": 0.0001923760835741276,
      "loss": 2.4923,
      "step": 1725
    },
    {
      "epoch": 0.03835555555555555,
      "grad_norm": 1.0707851648330688,
      "learning_rate": 0.0001923716381418093,
      "loss": 1.9195,
      "step": 1726
    },
    {
      "epoch": 0.038377777777777775,
      "grad_norm": 1.232883334159851,
      "learning_rate": 0.000192367192709491,
      "loss": 2.4728,
      "step": 1727
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.2929331064224243,
      "learning_rate": 0.00019236274727717272,
      "loss": 2.4331,
      "step": 1728
    },
    {
      "epoch": 0.038422222222222226,
      "grad_norm": 1.191250205039978,
      "learning_rate": 0.00019235830184485443,
      "loss": 2.2616,
      "step": 1729
    },
    {
      "epoch": 0.03844444444444445,
      "grad_norm": 1.129345417022705,
      "learning_rate": 0.00019235385641253614,
      "loss": 2.0167,
      "step": 1730
    },
    {
      "epoch": 0.03846666666666667,
      "grad_norm": 1.148284912109375,
      "learning_rate": 0.00019234941098021785,
      "loss": 2.053,
      "step": 1731
    },
    {
      "epoch": 0.03848888888888889,
      "grad_norm": 1.1987674236297607,
      "learning_rate": 0.00019234496554789953,
      "loss": 1.875,
      "step": 1732
    },
    {
      "epoch": 0.038511111111111114,
      "grad_norm": 0.9068574905395508,
      "learning_rate": 0.00019234052011558126,
      "loss": 0.7785,
      "step": 1733
    },
    {
      "epoch": 0.038533333333333336,
      "grad_norm": 1.0912137031555176,
      "learning_rate": 0.00019233607468326295,
      "loss": 1.7885,
      "step": 1734
    },
    {
      "epoch": 0.03855555555555556,
      "grad_norm": 1.255879521369934,
      "learning_rate": 0.00019233162925094466,
      "loss": 2.1068,
      "step": 1735
    },
    {
      "epoch": 0.03857777777777778,
      "grad_norm": 1.1832062005996704,
      "learning_rate": 0.00019232718381862637,
      "loss": 2.2488,
      "step": 1736
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.4971884489059448,
      "learning_rate": 0.00019232273838630808,
      "loss": 2.012,
      "step": 1737
    },
    {
      "epoch": 0.038622222222222224,
      "grad_norm": 1.253125548362732,
      "learning_rate": 0.00019231829295398979,
      "loss": 1.9059,
      "step": 1738
    },
    {
      "epoch": 0.03864444444444445,
      "grad_norm": 1.2260684967041016,
      "learning_rate": 0.0001923138475216715,
      "loss": 1.7284,
      "step": 1739
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 1.1737374067306519,
      "learning_rate": 0.0001923094020893532,
      "loss": 2.164,
      "step": 1740
    },
    {
      "epoch": 0.03868888888888889,
      "grad_norm": 1.16877019405365,
      "learning_rate": 0.0001923049566570349,
      "loss": 2.0229,
      "step": 1741
    },
    {
      "epoch": 0.03871111111111111,
      "grad_norm": 0.9355736374855042,
      "learning_rate": 0.00019230051122471662,
      "loss": 1.0844,
      "step": 1742
    },
    {
      "epoch": 0.038733333333333335,
      "grad_norm": 1.0740021467208862,
      "learning_rate": 0.0001922960657923983,
      "loss": 1.4236,
      "step": 1743
    },
    {
      "epoch": 0.03875555555555556,
      "grad_norm": 1.2170355319976807,
      "learning_rate": 0.00019229162036008002,
      "loss": 1.845,
      "step": 1744
    },
    {
      "epoch": 0.03877777777777778,
      "grad_norm": 1.4682364463806152,
      "learning_rate": 0.00019228717492776173,
      "loss": 2.192,
      "step": 1745
    },
    {
      "epoch": 0.0388,
      "grad_norm": 1.6630189418792725,
      "learning_rate": 0.00019228272949544344,
      "loss": 2.353,
      "step": 1746
    },
    {
      "epoch": 0.03882222222222222,
      "grad_norm": 1.3849523067474365,
      "learning_rate": 0.00019227828406312515,
      "loss": 2.1318,
      "step": 1747
    },
    {
      "epoch": 0.038844444444444445,
      "grad_norm": 1.407485008239746,
      "learning_rate": 0.00019227383863080685,
      "loss": 1.7946,
      "step": 1748
    },
    {
      "epoch": 0.03886666666666667,
      "grad_norm": 1.2454653978347778,
      "learning_rate": 0.00019226939319848856,
      "loss": 1.8537,
      "step": 1749
    },
    {
      "epoch": 0.03888888888888889,
      "grad_norm": 1.2907649278640747,
      "learning_rate": 0.00019226494776617027,
      "loss": 1.8048,
      "step": 1750
    },
    {
      "epoch": 0.03891111111111111,
      "grad_norm": 0.984199047088623,
      "learning_rate": 0.00019226050233385198,
      "loss": 2.1876,
      "step": 1751
    },
    {
      "epoch": 0.038933333333333334,
      "grad_norm": 1.2915271520614624,
      "learning_rate": 0.00019225605690153367,
      "loss": 2.7688,
      "step": 1752
    },
    {
      "epoch": 0.038955555555555556,
      "grad_norm": 1.1002089977264404,
      "learning_rate": 0.0001922516114692154,
      "loss": 2.7393,
      "step": 1753
    },
    {
      "epoch": 0.03897777777777778,
      "grad_norm": 0.9147074222564697,
      "learning_rate": 0.00019224716603689709,
      "loss": 1.3076,
      "step": 1754
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.9948516488075256,
      "learning_rate": 0.0001922427206045788,
      "loss": 2.1483,
      "step": 1755
    },
    {
      "epoch": 0.03902222222222222,
      "grad_norm": 1.1838185787200928,
      "learning_rate": 0.0001922382751722605,
      "loss": 2.004,
      "step": 1756
    },
    {
      "epoch": 0.039044444444444444,
      "grad_norm": 0.9836131930351257,
      "learning_rate": 0.00019223382973994221,
      "loss": 2.2423,
      "step": 1757
    },
    {
      "epoch": 0.039066666666666666,
      "grad_norm": 1.2149583101272583,
      "learning_rate": 0.00019222938430762392,
      "loss": 1.126,
      "step": 1758
    },
    {
      "epoch": 0.03908888888888889,
      "grad_norm": 1.1118990182876587,
      "learning_rate": 0.00019222493887530563,
      "loss": 2.6146,
      "step": 1759
    },
    {
      "epoch": 0.03911111111111111,
      "grad_norm": 0.9626356363296509,
      "learning_rate": 0.00019222049344298734,
      "loss": 1.8598,
      "step": 1760
    },
    {
      "epoch": 0.03913333333333333,
      "grad_norm": 1.1309908628463745,
      "learning_rate": 0.00019221604801066903,
      "loss": 2.3963,
      "step": 1761
    },
    {
      "epoch": 0.039155555555555555,
      "grad_norm": 1.1834784746170044,
      "learning_rate": 0.00019221160257835076,
      "loss": 2.0128,
      "step": 1762
    },
    {
      "epoch": 0.03917777777777778,
      "grad_norm": 1.1508394479751587,
      "learning_rate": 0.00019220715714603245,
      "loss": 2.3134,
      "step": 1763
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.193302869796753,
      "learning_rate": 0.00019220271171371418,
      "loss": 2.5307,
      "step": 1764
    },
    {
      "epoch": 0.03922222222222222,
      "grad_norm": 1.186457872390747,
      "learning_rate": 0.0001921982662813959,
      "loss": 2.4956,
      "step": 1765
    },
    {
      "epoch": 0.03924444444444444,
      "grad_norm": 1.466609239578247,
      "learning_rate": 0.00019219382084907757,
      "loss": 3.0103,
      "step": 1766
    },
    {
      "epoch": 0.039266666666666665,
      "grad_norm": 1.1625009775161743,
      "learning_rate": 0.0001921893754167593,
      "loss": 2.1725,
      "step": 1767
    },
    {
      "epoch": 0.03928888888888889,
      "grad_norm": 1.0614113807678223,
      "learning_rate": 0.000192184929984441,
      "loss": 1.9708,
      "step": 1768
    },
    {
      "epoch": 0.03931111111111111,
      "grad_norm": 1.2324970960617065,
      "learning_rate": 0.0001921804845521227,
      "loss": 2.3021,
      "step": 1769
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 1.1604976654052734,
      "learning_rate": 0.0001921760391198044,
      "loss": 1.9542,
      "step": 1770
    },
    {
      "epoch": 0.03935555555555555,
      "grad_norm": 1.2036832571029663,
      "learning_rate": 0.00019217159368748612,
      "loss": 1.793,
      "step": 1771
    },
    {
      "epoch": 0.039377777777777775,
      "grad_norm": 1.0490174293518066,
      "learning_rate": 0.0001921671482551678,
      "loss": 1.8467,
      "step": 1772
    },
    {
      "epoch": 0.0394,
      "grad_norm": 1.2819703817367554,
      "learning_rate": 0.00019216270282284954,
      "loss": 2.285,
      "step": 1773
    },
    {
      "epoch": 0.03942222222222222,
      "grad_norm": 1.321698784828186,
      "learning_rate": 0.00019215825739053125,
      "loss": 1.8766,
      "step": 1774
    },
    {
      "epoch": 0.03944444444444444,
      "grad_norm": 1.1334456205368042,
      "learning_rate": 0.00019215381195821293,
      "loss": 1.9917,
      "step": 1775
    },
    {
      "epoch": 0.039466666666666664,
      "grad_norm": 1.4410911798477173,
      "learning_rate": 0.00019214936652589467,
      "loss": 2.2526,
      "step": 1776
    },
    {
      "epoch": 0.039488888888888886,
      "grad_norm": 1.0513566732406616,
      "learning_rate": 0.00019214492109357635,
      "loss": 1.7513,
      "step": 1777
    },
    {
      "epoch": 0.03951111111111111,
      "grad_norm": 1.254146933555603,
      "learning_rate": 0.00019214047566125806,
      "loss": 2.009,
      "step": 1778
    },
    {
      "epoch": 0.03953333333333333,
      "grad_norm": 1.2576804161071777,
      "learning_rate": 0.00019213603022893977,
      "loss": 1.9602,
      "step": 1779
    },
    {
      "epoch": 0.03955555555555555,
      "grad_norm": 1.8374196290969849,
      "learning_rate": 0.00019213158479662148,
      "loss": 2.0253,
      "step": 1780
    },
    {
      "epoch": 0.03957777777777778,
      "grad_norm": 1.1337549686431885,
      "learning_rate": 0.00019212713936430316,
      "loss": 2.1113,
      "step": 1781
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.330061912536621,
      "learning_rate": 0.0001921226939319849,
      "loss": 2.01,
      "step": 1782
    },
    {
      "epoch": 0.039622222222222225,
      "grad_norm": 2.5931622982025146,
      "learning_rate": 0.0001921182484996666,
      "loss": 0.7704,
      "step": 1783
    },
    {
      "epoch": 0.03964444444444445,
      "grad_norm": 1.2280597686767578,
      "learning_rate": 0.00019211380306734832,
      "loss": 2.1062,
      "step": 1784
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 1.3232183456420898,
      "learning_rate": 0.00019210935763503003,
      "loss": 1.9899,
      "step": 1785
    },
    {
      "epoch": 0.03968888888888889,
      "grad_norm": 1.3776732683181763,
      "learning_rate": 0.0001921049122027117,
      "loss": 2.0363,
      "step": 1786
    },
    {
      "epoch": 0.039711111111111114,
      "grad_norm": 1.3296781778335571,
      "learning_rate": 0.00019210046677039345,
      "loss": 1.9252,
      "step": 1787
    },
    {
      "epoch": 0.039733333333333336,
      "grad_norm": 1.2858179807662964,
      "learning_rate": 0.00019209602133807513,
      "loss": 2.1333,
      "step": 1788
    },
    {
      "epoch": 0.03975555555555556,
      "grad_norm": 1.5770024061203003,
      "learning_rate": 0.00019209157590575684,
      "loss": 1.9526,
      "step": 1789
    },
    {
      "epoch": 0.03977777777777778,
      "grad_norm": 1.169321060180664,
      "learning_rate": 0.00019208713047343855,
      "loss": 1.5478,
      "step": 1790
    },
    {
      "epoch": 0.0398,
      "grad_norm": 1.3757535219192505,
      "learning_rate": 0.00019208268504112026,
      "loss": 1.8472,
      "step": 1791
    },
    {
      "epoch": 0.039822222222222224,
      "grad_norm": 1.3419402837753296,
      "learning_rate": 0.00019207823960880197,
      "loss": 1.7444,
      "step": 1792
    },
    {
      "epoch": 0.039844444444444446,
      "grad_norm": 1.5073256492614746,
      "learning_rate": 0.00019207379417648368,
      "loss": 2.0931,
      "step": 1793
    },
    {
      "epoch": 0.03986666666666667,
      "grad_norm": 1.3753446340560913,
      "learning_rate": 0.0001920693487441654,
      "loss": 1.6753,
      "step": 1794
    },
    {
      "epoch": 0.03988888888888889,
      "grad_norm": 1.4067362546920776,
      "learning_rate": 0.00019206490331184707,
      "loss": 1.6566,
      "step": 1795
    },
    {
      "epoch": 0.03991111111111111,
      "grad_norm": 1.3025190830230713,
      "learning_rate": 0.0001920604578795288,
      "loss": 1.8397,
      "step": 1796
    },
    {
      "epoch": 0.039933333333333335,
      "grad_norm": 1.521903157234192,
      "learning_rate": 0.0001920560124472105,
      "loss": 1.9017,
      "step": 1797
    },
    {
      "epoch": 0.03995555555555556,
      "grad_norm": 1.7126338481903076,
      "learning_rate": 0.0001920515670148922,
      "loss": 2.2629,
      "step": 1798
    },
    {
      "epoch": 0.03997777777777778,
      "grad_norm": 1.5529956817626953,
      "learning_rate": 0.0001920471215825739,
      "loss": 1.6043,
      "step": 1799
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7723318338394165,
      "learning_rate": 0.00019204267615025562,
      "loss": 2.2176,
      "step": 1800
    },
    {
      "epoch": 0.04002222222222222,
      "grad_norm": 1.1991795301437378,
      "learning_rate": 0.00019203823071793733,
      "loss": 3.281,
      "step": 1801
    },
    {
      "epoch": 0.040044444444444445,
      "grad_norm": 1.3677946329116821,
      "learning_rate": 0.00019203378528561904,
      "loss": 2.1734,
      "step": 1802
    },
    {
      "epoch": 0.04006666666666667,
      "grad_norm": 1.0866068601608276,
      "learning_rate": 0.00019202933985330075,
      "loss": 2.5766,
      "step": 1803
    },
    {
      "epoch": 0.04008888888888889,
      "grad_norm": 1.1193768978118896,
      "learning_rate": 0.00019202489442098246,
      "loss": 2.478,
      "step": 1804
    },
    {
      "epoch": 0.04011111111111111,
      "grad_norm": 1.3724201917648315,
      "learning_rate": 0.00019202044898866417,
      "loss": 2.5114,
      "step": 1805
    },
    {
      "epoch": 0.04013333333333333,
      "grad_norm": 0.9693953394889832,
      "learning_rate": 0.00019201600355634585,
      "loss": 2.2679,
      "step": 1806
    },
    {
      "epoch": 0.040155555555555555,
      "grad_norm": 1.1534337997436523,
      "learning_rate": 0.0001920115581240276,
      "loss": 2.1458,
      "step": 1807
    },
    {
      "epoch": 0.04017777777777778,
      "grad_norm": 1.200800895690918,
      "learning_rate": 0.00019200711269170927,
      "loss": 2.363,
      "step": 1808
    },
    {
      "epoch": 0.0402,
      "grad_norm": 1.1132547855377197,
      "learning_rate": 0.00019200266725939098,
      "loss": 2.1045,
      "step": 1809
    },
    {
      "epoch": 0.04022222222222222,
      "grad_norm": 1.2257728576660156,
      "learning_rate": 0.0001919982218270727,
      "loss": 2.6259,
      "step": 1810
    },
    {
      "epoch": 0.040244444444444444,
      "grad_norm": 0.910944938659668,
      "learning_rate": 0.0001919937763947544,
      "loss": 1.8674,
      "step": 1811
    },
    {
      "epoch": 0.040266666666666666,
      "grad_norm": 1.0394186973571777,
      "learning_rate": 0.0001919893309624361,
      "loss": 2.0576,
      "step": 1812
    },
    {
      "epoch": 0.04028888888888889,
      "grad_norm": 1.2120990753173828,
      "learning_rate": 0.00019198488553011782,
      "loss": 2.1069,
      "step": 1813
    },
    {
      "epoch": 0.04031111111111111,
      "grad_norm": 1.1127886772155762,
      "learning_rate": 0.00019198044009779953,
      "loss": 1.666,
      "step": 1814
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 1.0183290243148804,
      "learning_rate": 0.0001919759946654812,
      "loss": 1.9361,
      "step": 1815
    },
    {
      "epoch": 0.040355555555555554,
      "grad_norm": 1.260033130645752,
      "learning_rate": 0.00019197154923316295,
      "loss": 2.1165,
      "step": 1816
    },
    {
      "epoch": 0.040377777777777776,
      "grad_norm": 1.2956593036651611,
      "learning_rate": 0.00019196710380084463,
      "loss": 2.3572,
      "step": 1817
    },
    {
      "epoch": 0.0404,
      "grad_norm": 1.1641860008239746,
      "learning_rate": 0.00019196265836852634,
      "loss": 1.2891,
      "step": 1818
    },
    {
      "epoch": 0.04042222222222222,
      "grad_norm": 1.1531250476837158,
      "learning_rate": 0.00019195821293620805,
      "loss": 1.7384,
      "step": 1819
    },
    {
      "epoch": 0.04044444444444444,
      "grad_norm": 1.1654103994369507,
      "learning_rate": 0.00019195376750388976,
      "loss": 2.0527,
      "step": 1820
    },
    {
      "epoch": 0.040466666666666665,
      "grad_norm": 1.1668634414672852,
      "learning_rate": 0.00019194932207157147,
      "loss": 2.3365,
      "step": 1821
    },
    {
      "epoch": 0.04048888888888889,
      "grad_norm": 1.055076003074646,
      "learning_rate": 0.00019194487663925318,
      "loss": 1.9914,
      "step": 1822
    },
    {
      "epoch": 0.04051111111111111,
      "grad_norm": 1.306888222694397,
      "learning_rate": 0.0001919404312069349,
      "loss": 2.3354,
      "step": 1823
    },
    {
      "epoch": 0.04053333333333333,
      "grad_norm": 1.0843337774276733,
      "learning_rate": 0.0001919359857746166,
      "loss": 2.1434,
      "step": 1824
    },
    {
      "epoch": 0.04055555555555555,
      "grad_norm": 1.167205810546875,
      "learning_rate": 0.0001919315403422983,
      "loss": 1.9047,
      "step": 1825
    },
    {
      "epoch": 0.040577777777777775,
      "grad_norm": 1.0783348083496094,
      "learning_rate": 0.00019192709490998,
      "loss": 2.0416,
      "step": 1826
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.4117889404296875,
      "learning_rate": 0.00019192264947766173,
      "loss": 2.6675,
      "step": 1827
    },
    {
      "epoch": 0.04062222222222222,
      "grad_norm": 1.2423501014709473,
      "learning_rate": 0.0001919182040453434,
      "loss": 1.9645,
      "step": 1828
    },
    {
      "epoch": 0.04064444444444444,
      "grad_norm": 1.4264363050460815,
      "learning_rate": 0.00019191375861302512,
      "loss": 2.4745,
      "step": 1829
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 1.229703426361084,
      "learning_rate": 0.00019190931318070683,
      "loss": 2.2294,
      "step": 1830
    },
    {
      "epoch": 0.040688888888888886,
      "grad_norm": 1.2256559133529663,
      "learning_rate": 0.00019190486774838854,
      "loss": 2.0544,
      "step": 1831
    },
    {
      "epoch": 0.040711111111111115,
      "grad_norm": 1.4052708148956299,
      "learning_rate": 0.00019190042231607025,
      "loss": 2.5493,
      "step": 1832
    },
    {
      "epoch": 0.04073333333333334,
      "grad_norm": 1.0882868766784668,
      "learning_rate": 0.00019189597688375196,
      "loss": 1.7074,
      "step": 1833
    },
    {
      "epoch": 0.04075555555555556,
      "grad_norm": 1.136404037475586,
      "learning_rate": 0.00019189153145143367,
      "loss": 1.7895,
      "step": 1834
    },
    {
      "epoch": 0.04077777777777778,
      "grad_norm": 1.478893756866455,
      "learning_rate": 0.00019188708601911535,
      "loss": 2.1396,
      "step": 1835
    },
    {
      "epoch": 0.0408,
      "grad_norm": 1.1789064407348633,
      "learning_rate": 0.00019188264058679708,
      "loss": 1.9921,
      "step": 1836
    },
    {
      "epoch": 0.040822222222222225,
      "grad_norm": 1.2615991830825806,
      "learning_rate": 0.00019187819515447877,
      "loss": 1.9984,
      "step": 1837
    },
    {
      "epoch": 0.04084444444444445,
      "grad_norm": 1.2081987857818604,
      "learning_rate": 0.00019187374972216048,
      "loss": 1.7769,
      "step": 1838
    },
    {
      "epoch": 0.04086666666666667,
      "grad_norm": 2.0135223865509033,
      "learning_rate": 0.0001918693042898422,
      "loss": 2.5425,
      "step": 1839
    },
    {
      "epoch": 0.04088888888888889,
      "grad_norm": 1.2716548442840576,
      "learning_rate": 0.0001918648588575239,
      "loss": 1.8521,
      "step": 1840
    },
    {
      "epoch": 0.04091111111111111,
      "grad_norm": 1.3172060251235962,
      "learning_rate": 0.00019186041342520563,
      "loss": 1.8708,
      "step": 1841
    },
    {
      "epoch": 0.040933333333333335,
      "grad_norm": 1.390977144241333,
      "learning_rate": 0.00019185596799288732,
      "loss": 2.1785,
      "step": 1842
    },
    {
      "epoch": 0.04095555555555556,
      "grad_norm": 1.1495133638381958,
      "learning_rate": 0.00019185152256056902,
      "loss": 1.8629,
      "step": 1843
    },
    {
      "epoch": 0.04097777777777778,
      "grad_norm": 1.3957880735397339,
      "learning_rate": 0.00019184707712825073,
      "loss": 1.938,
      "step": 1844
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.5530160665512085,
      "learning_rate": 0.00019184263169593244,
      "loss": 2.178,
      "step": 1845
    },
    {
      "epoch": 0.041022222222222224,
      "grad_norm": 1.5242080688476562,
      "learning_rate": 0.00019183818626361413,
      "loss": 2.2788,
      "step": 1846
    },
    {
      "epoch": 0.041044444444444446,
      "grad_norm": 1.5541326999664307,
      "learning_rate": 0.00019183374083129586,
      "loss": 2.0234,
      "step": 1847
    },
    {
      "epoch": 0.04106666666666667,
      "grad_norm": 1.292238712310791,
      "learning_rate": 0.00019182929539897757,
      "loss": 1.8976,
      "step": 1848
    },
    {
      "epoch": 0.04108888888888889,
      "grad_norm": 1.21194589138031,
      "learning_rate": 0.00019182484996665926,
      "loss": 1.8551,
      "step": 1849
    },
    {
      "epoch": 0.04111111111111111,
      "grad_norm": 1.2845172882080078,
      "learning_rate": 0.000191820404534341,
      "loss": 1.1576,
      "step": 1850
    },
    {
      "epoch": 0.041133333333333334,
      "grad_norm": 1.0696463584899902,
      "learning_rate": 0.00019181595910202267,
      "loss": 1.1998,
      "step": 1851
    },
    {
      "epoch": 0.041155555555555556,
      "grad_norm": 0.9326448440551758,
      "learning_rate": 0.00019181151366970438,
      "loss": 2.2532,
      "step": 1852
    },
    {
      "epoch": 0.04117777777777778,
      "grad_norm": 0.9580495953559875,
      "learning_rate": 0.0001918070682373861,
      "loss": 2.2173,
      "step": 1853
    },
    {
      "epoch": 0.0412,
      "grad_norm": 1.163463830947876,
      "learning_rate": 0.0001918026228050678,
      "loss": 2.4942,
      "step": 1854
    },
    {
      "epoch": 0.04122222222222222,
      "grad_norm": 1.0326623916625977,
      "learning_rate": 0.00019179817737274949,
      "loss": 2.2857,
      "step": 1855
    },
    {
      "epoch": 0.041244444444444445,
      "grad_norm": 1.1594367027282715,
      "learning_rate": 0.00019179373194043122,
      "loss": 2.4411,
      "step": 1856
    },
    {
      "epoch": 0.04126666666666667,
      "grad_norm": 0.9663302898406982,
      "learning_rate": 0.00019178928650811293,
      "loss": 2.3332,
      "step": 1857
    },
    {
      "epoch": 0.04128888888888889,
      "grad_norm": 1.1134085655212402,
      "learning_rate": 0.00019178484107579464,
      "loss": 2.2708,
      "step": 1858
    },
    {
      "epoch": 0.04131111111111111,
      "grad_norm": 1.1311769485473633,
      "learning_rate": 0.00019178039564347635,
      "loss": 2.0297,
      "step": 1859
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 1.1480071544647217,
      "learning_rate": 0.00019177595021115803,
      "loss": 2.255,
      "step": 1860
    },
    {
      "epoch": 0.041355555555555555,
      "grad_norm": 1.3008390665054321,
      "learning_rate": 0.00019177150477883977,
      "loss": 2.2869,
      "step": 1861
    },
    {
      "epoch": 0.04137777777777778,
      "grad_norm": 1.1569377183914185,
      "learning_rate": 0.00019176705934652145,
      "loss": 2.0248,
      "step": 1862
    },
    {
      "epoch": 0.0414,
      "grad_norm": 1.2025002241134644,
      "learning_rate": 0.00019176261391420316,
      "loss": 2.5978,
      "step": 1863
    },
    {
      "epoch": 0.04142222222222222,
      "grad_norm": 1.0956943035125732,
      "learning_rate": 0.00019175816848188487,
      "loss": 1.7053,
      "step": 1864
    },
    {
      "epoch": 0.041444444444444443,
      "grad_norm": 1.1871134042739868,
      "learning_rate": 0.00019175372304956658,
      "loss": 2.1594,
      "step": 1865
    },
    {
      "epoch": 0.041466666666666666,
      "grad_norm": 1.2127585411071777,
      "learning_rate": 0.0001917492776172483,
      "loss": 2.8572,
      "step": 1866
    },
    {
      "epoch": 0.04148888888888889,
      "grad_norm": 1.0137825012207031,
      "learning_rate": 0.00019174483218493,
      "loss": 2.019,
      "step": 1867
    },
    {
      "epoch": 0.04151111111111111,
      "grad_norm": 1.3373006582260132,
      "learning_rate": 0.0001917403867526117,
      "loss": 2.3209,
      "step": 1868
    },
    {
      "epoch": 0.04153333333333333,
      "grad_norm": 1.067268967628479,
      "learning_rate": 0.0001917359413202934,
      "loss": 2.2086,
      "step": 1869
    },
    {
      "epoch": 0.041555555555555554,
      "grad_norm": 1.0184361934661865,
      "learning_rate": 0.00019173149588797513,
      "loss": 1.8515,
      "step": 1870
    },
    {
      "epoch": 0.041577777777777776,
      "grad_norm": 1.0436663627624512,
      "learning_rate": 0.0001917270504556568,
      "loss": 1.9124,
      "step": 1871
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.1637758016586304,
      "learning_rate": 0.00019172260502333852,
      "loss": 2.2636,
      "step": 1872
    },
    {
      "epoch": 0.04162222222222222,
      "grad_norm": 1.303212285041809,
      "learning_rate": 0.00019171815959102023,
      "loss": 2.1515,
      "step": 1873
    },
    {
      "epoch": 0.04164444444444444,
      "grad_norm": 1.107704997062683,
      "learning_rate": 0.00019171371415870194,
      "loss": 1.749,
      "step": 1874
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 1.062366008758545,
      "learning_rate": 0.00019170926872638365,
      "loss": 1.793,
      "step": 1875
    },
    {
      "epoch": 0.041688888888888886,
      "grad_norm": 1.4433813095092773,
      "learning_rate": 0.00019170482329406536,
      "loss": 2.0772,
      "step": 1876
    },
    {
      "epoch": 0.04171111111111111,
      "grad_norm": 1.2462506294250488,
      "learning_rate": 0.00019170037786174707,
      "loss": 2.0799,
      "step": 1877
    },
    {
      "epoch": 0.04173333333333333,
      "grad_norm": 1.2223600149154663,
      "learning_rate": 0.00019169593242942878,
      "loss": 2.1752,
      "step": 1878
    },
    {
      "epoch": 0.04175555555555555,
      "grad_norm": 1.185003638267517,
      "learning_rate": 0.0001916914869971105,
      "loss": 2.1943,
      "step": 1879
    },
    {
      "epoch": 0.041777777777777775,
      "grad_norm": 1.332453966140747,
      "learning_rate": 0.00019168704156479217,
      "loss": 2.0462,
      "step": 1880
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.2166739702224731,
      "learning_rate": 0.0001916825961324739,
      "loss": 2.085,
      "step": 1881
    },
    {
      "epoch": 0.04182222222222222,
      "grad_norm": 1.2287523746490479,
      "learning_rate": 0.0001916781507001556,
      "loss": 2.1032,
      "step": 1882
    },
    {
      "epoch": 0.04184444444444444,
      "grad_norm": 1.4310650825500488,
      "learning_rate": 0.0001916737052678373,
      "loss": 1.8752,
      "step": 1883
    },
    {
      "epoch": 0.04186666666666667,
      "grad_norm": 1.894676923751831,
      "learning_rate": 0.000191669259835519,
      "loss": 1.5636,
      "step": 1884
    },
    {
      "epoch": 0.04188888888888889,
      "grad_norm": 1.3769009113311768,
      "learning_rate": 0.00019166481440320072,
      "loss": 2.1381,
      "step": 1885
    },
    {
      "epoch": 0.041911111111111114,
      "grad_norm": 1.2243010997772217,
      "learning_rate": 0.00019166036897088243,
      "loss": 2.2507,
      "step": 1886
    },
    {
      "epoch": 0.041933333333333336,
      "grad_norm": 1.433355689048767,
      "learning_rate": 0.00019165592353856414,
      "loss": 2.3409,
      "step": 1887
    },
    {
      "epoch": 0.04195555555555556,
      "grad_norm": 1.450310230255127,
      "learning_rate": 0.00019165147810624585,
      "loss": 2.1942,
      "step": 1888
    },
    {
      "epoch": 0.04197777777777778,
      "grad_norm": 1.0777829885482788,
      "learning_rate": 0.00019164703267392753,
      "loss": 1.0536,
      "step": 1889
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.162574052810669,
      "learning_rate": 0.00019164258724160927,
      "loss": 1.9861,
      "step": 1890
    },
    {
      "epoch": 0.042022222222222225,
      "grad_norm": 1.26123046875,
      "learning_rate": 0.00019163814180929095,
      "loss": 1.8709,
      "step": 1891
    },
    {
      "epoch": 0.04204444444444445,
      "grad_norm": 1.343668818473816,
      "learning_rate": 0.00019163369637697266,
      "loss": 2.2974,
      "step": 1892
    },
    {
      "epoch": 0.04206666666666667,
      "grad_norm": 1.3049241304397583,
      "learning_rate": 0.00019162925094465437,
      "loss": 1.8877,
      "step": 1893
    },
    {
      "epoch": 0.04208888888888889,
      "grad_norm": 1.3508896827697754,
      "learning_rate": 0.00019162480551233608,
      "loss": 1.475,
      "step": 1894
    },
    {
      "epoch": 0.04211111111111111,
      "grad_norm": 1.3263405561447144,
      "learning_rate": 0.0001916203600800178,
      "loss": 2.1018,
      "step": 1895
    },
    {
      "epoch": 0.042133333333333335,
      "grad_norm": 1.1588985919952393,
      "learning_rate": 0.0001916159146476995,
      "loss": 1.8846,
      "step": 1896
    },
    {
      "epoch": 0.04215555555555556,
      "grad_norm": 1.2116475105285645,
      "learning_rate": 0.0001916114692153812,
      "loss": 1.7266,
      "step": 1897
    },
    {
      "epoch": 0.04217777777777778,
      "grad_norm": 1.6070256233215332,
      "learning_rate": 0.00019160702378306292,
      "loss": 1.507,
      "step": 1898
    },
    {
      "epoch": 0.0422,
      "grad_norm": 1.2048518657684326,
      "learning_rate": 0.00019160257835074463,
      "loss": 1.6388,
      "step": 1899
    },
    {
      "epoch": 0.042222222222222223,
      "grad_norm": 1.258184790611267,
      "learning_rate": 0.0001915981329184263,
      "loss": 1.0054,
      "step": 1900
    },
    {
      "epoch": 0.042244444444444446,
      "grad_norm": 0.9699717164039612,
      "learning_rate": 0.00019159368748610805,
      "loss": 2.2259,
      "step": 1901
    },
    {
      "epoch": 0.04226666666666667,
      "grad_norm": 0.9850199222564697,
      "learning_rate": 0.00019158924205378973,
      "loss": 2.2399,
      "step": 1902
    },
    {
      "epoch": 0.04228888888888889,
      "grad_norm": 1.1542946100234985,
      "learning_rate": 0.00019158479662147144,
      "loss": 2.7975,
      "step": 1903
    },
    {
      "epoch": 0.04231111111111111,
      "grad_norm": 1.0074743032455444,
      "learning_rate": 0.00019158035118915315,
      "loss": 2.0686,
      "step": 1904
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 1.0204215049743652,
      "learning_rate": 0.00019157590575683486,
      "loss": 2.3164,
      "step": 1905
    },
    {
      "epoch": 0.042355555555555556,
      "grad_norm": 1.078226923942566,
      "learning_rate": 0.00019157146032451657,
      "loss": 2.4789,
      "step": 1906
    },
    {
      "epoch": 0.04237777777777778,
      "grad_norm": 1.1347357034683228,
      "learning_rate": 0.00019156701489219828,
      "loss": 2.1502,
      "step": 1907
    },
    {
      "epoch": 0.0424,
      "grad_norm": 1.0686572790145874,
      "learning_rate": 0.00019156256945988,
      "loss": 2.4498,
      "step": 1908
    },
    {
      "epoch": 0.04242222222222222,
      "grad_norm": 1.219796061515808,
      "learning_rate": 0.00019155812402756167,
      "loss": 2.1141,
      "step": 1909
    },
    {
      "epoch": 0.042444444444444444,
      "grad_norm": 1.14406156539917,
      "learning_rate": 0.0001915536785952434,
      "loss": 2.4928,
      "step": 1910
    },
    {
      "epoch": 0.042466666666666666,
      "grad_norm": 1.0536446571350098,
      "learning_rate": 0.0001915492331629251,
      "loss": 2.208,
      "step": 1911
    },
    {
      "epoch": 0.04248888888888889,
      "grad_norm": 0.9767941832542419,
      "learning_rate": 0.0001915447877306068,
      "loss": 2.286,
      "step": 1912
    },
    {
      "epoch": 0.04251111111111111,
      "grad_norm": 1.0415289402008057,
      "learning_rate": 0.00019154034229828854,
      "loss": 1.9729,
      "step": 1913
    },
    {
      "epoch": 0.04253333333333333,
      "grad_norm": 1.1619441509246826,
      "learning_rate": 0.00019153589686597022,
      "loss": 1.7091,
      "step": 1914
    },
    {
      "epoch": 0.042555555555555555,
      "grad_norm": 1.118539571762085,
      "learning_rate": 0.00019153145143365195,
      "loss": 2.1521,
      "step": 1915
    },
    {
      "epoch": 0.04257777777777778,
      "grad_norm": 1.1259968280792236,
      "learning_rate": 0.00019152700600133364,
      "loss": 2.5297,
      "step": 1916
    },
    {
      "epoch": 0.0426,
      "grad_norm": 1.3698863983154297,
      "learning_rate": 0.00019152256056901535,
      "loss": 1.892,
      "step": 1917
    },
    {
      "epoch": 0.04262222222222222,
      "grad_norm": 1.1201448440551758,
      "learning_rate": 0.00019151811513669706,
      "loss": 2.1697,
      "step": 1918
    },
    {
      "epoch": 0.04264444444444444,
      "grad_norm": 1.2097538709640503,
      "learning_rate": 0.00019151366970437877,
      "loss": 2.183,
      "step": 1919
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 1.2014886140823364,
      "learning_rate": 0.00019150922427206045,
      "loss": 2.2489,
      "step": 1920
    },
    {
      "epoch": 0.04268888888888889,
      "grad_norm": 1.113774061203003,
      "learning_rate": 0.00019150477883974219,
      "loss": 2.1225,
      "step": 1921
    },
    {
      "epoch": 0.04271111111111111,
      "grad_norm": 1.1442086696624756,
      "learning_rate": 0.0001915003334074239,
      "loss": 1.9999,
      "step": 1922
    },
    {
      "epoch": 0.04273333333333333,
      "grad_norm": 1.0915108919143677,
      "learning_rate": 0.00019149588797510558,
      "loss": 2.1103,
      "step": 1923
    },
    {
      "epoch": 0.042755555555555554,
      "grad_norm": 1.295320749282837,
      "learning_rate": 0.00019149144254278731,
      "loss": 2.3109,
      "step": 1924
    },
    {
      "epoch": 0.042777777777777776,
      "grad_norm": 1.1278232336044312,
      "learning_rate": 0.000191486997110469,
      "loss": 1.6493,
      "step": 1925
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.3750613927841187,
      "learning_rate": 0.0001914825516781507,
      "loss": 2.5288,
      "step": 1926
    },
    {
      "epoch": 0.04282222222222222,
      "grad_norm": 1.1537458896636963,
      "learning_rate": 0.00019147810624583242,
      "loss": 1.7565,
      "step": 1927
    },
    {
      "epoch": 0.04284444444444444,
      "grad_norm": 1.107997179031372,
      "learning_rate": 0.00019147366081351413,
      "loss": 2.2038,
      "step": 1928
    },
    {
      "epoch": 0.042866666666666664,
      "grad_norm": 2.357999086380005,
      "learning_rate": 0.0001914692153811958,
      "loss": 2.1204,
      "step": 1929
    },
    {
      "epoch": 0.042888888888888886,
      "grad_norm": 1.1876354217529297,
      "learning_rate": 0.00019146476994887754,
      "loss": 2.0501,
      "step": 1930
    },
    {
      "epoch": 0.04291111111111111,
      "grad_norm": 1.4727190732955933,
      "learning_rate": 0.00019146032451655925,
      "loss": 2.4526,
      "step": 1931
    },
    {
      "epoch": 0.04293333333333333,
      "grad_norm": 1.2574357986450195,
      "learning_rate": 0.00019145587908424094,
      "loss": 2.4175,
      "step": 1932
    },
    {
      "epoch": 0.04295555555555555,
      "grad_norm": 1.3092460632324219,
      "learning_rate": 0.00019145143365192267,
      "loss": 1.9369,
      "step": 1933
    },
    {
      "epoch": 0.042977777777777774,
      "grad_norm": 0.7002347111701965,
      "learning_rate": 0.00019144698821960436,
      "loss": 0.8446,
      "step": 1934
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.3503941297531128,
      "learning_rate": 0.0001914425427872861,
      "loss": 2.1603,
      "step": 1935
    },
    {
      "epoch": 0.043022222222222226,
      "grad_norm": 1.2673624753952026,
      "learning_rate": 0.00019143809735496778,
      "loss": 2.2836,
      "step": 1936
    },
    {
      "epoch": 0.04304444444444445,
      "grad_norm": 1.2485898733139038,
      "learning_rate": 0.00019143365192264949,
      "loss": 1.973,
      "step": 1937
    },
    {
      "epoch": 0.04306666666666667,
      "grad_norm": 1.2386231422424316,
      "learning_rate": 0.0001914292064903312,
      "loss": 2.2743,
      "step": 1938
    },
    {
      "epoch": 0.04308888888888889,
      "grad_norm": 1.2765767574310303,
      "learning_rate": 0.0001914247610580129,
      "loss": 1.9542,
      "step": 1939
    },
    {
      "epoch": 0.043111111111111114,
      "grad_norm": 1.3189082145690918,
      "learning_rate": 0.00019142031562569461,
      "loss": 2.005,
      "step": 1940
    },
    {
      "epoch": 0.043133333333333336,
      "grad_norm": 1.1719998121261597,
      "learning_rate": 0.00019141587019337632,
      "loss": 1.6759,
      "step": 1941
    },
    {
      "epoch": 0.04315555555555556,
      "grad_norm": 1.3698196411132812,
      "learning_rate": 0.00019141142476105803,
      "loss": 2.3095,
      "step": 1942
    },
    {
      "epoch": 0.04317777777777778,
      "grad_norm": 1.6985986232757568,
      "learning_rate": 0.00019140697932873972,
      "loss": 1.8207,
      "step": 1943
    },
    {
      "epoch": 0.0432,
      "grad_norm": 1.4392225742340088,
      "learning_rate": 0.00019140253389642145,
      "loss": 2.0524,
      "step": 1944
    },
    {
      "epoch": 0.043222222222222224,
      "grad_norm": 1.4467380046844482,
      "learning_rate": 0.00019139808846410313,
      "loss": 2.2741,
      "step": 1945
    },
    {
      "epoch": 0.043244444444444446,
      "grad_norm": 1.2616316080093384,
      "learning_rate": 0.00019139364303178484,
      "loss": 2.1121,
      "step": 1946
    },
    {
      "epoch": 0.04326666666666667,
      "grad_norm": 1.4060750007629395,
      "learning_rate": 0.00019138919759946655,
      "loss": 1.3509,
      "step": 1947
    },
    {
      "epoch": 0.04328888888888889,
      "grad_norm": 1.632578730583191,
      "learning_rate": 0.00019138475216714826,
      "loss": 1.7544,
      "step": 1948
    },
    {
      "epoch": 0.04331111111111111,
      "grad_norm": 1.547832727432251,
      "learning_rate": 0.00019138030673482997,
      "loss": 1.671,
      "step": 1949
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 1.5339981317520142,
      "learning_rate": 0.00019137586130251168,
      "loss": 0.7453,
      "step": 1950
    },
    {
      "epoch": 0.04335555555555556,
      "grad_norm": 1.1269524097442627,
      "learning_rate": 0.0001913714158701934,
      "loss": 2.4914,
      "step": 1951
    },
    {
      "epoch": 0.04337777777777778,
      "grad_norm": 0.9670594334602356,
      "learning_rate": 0.00019136697043787508,
      "loss": 2.0237,
      "step": 1952
    },
    {
      "epoch": 0.0434,
      "grad_norm": 1.0013749599456787,
      "learning_rate": 0.0001913625250055568,
      "loss": 2.1902,
      "step": 1953
    },
    {
      "epoch": 0.04342222222222222,
      "grad_norm": 0.9302488565444946,
      "learning_rate": 0.0001913580795732385,
      "loss": 0.0561,
      "step": 1954
    },
    {
      "epoch": 0.043444444444444445,
      "grad_norm": 1.3020941019058228,
      "learning_rate": 0.00019135363414092023,
      "loss": 2.0093,
      "step": 1955
    },
    {
      "epoch": 0.04346666666666667,
      "grad_norm": 1.2969642877578735,
      "learning_rate": 0.00019134918870860191,
      "loss": 2.6568,
      "step": 1956
    },
    {
      "epoch": 0.04348888888888889,
      "grad_norm": 1.1942919492721558,
      "learning_rate": 0.00019134474327628362,
      "loss": 2.7805,
      "step": 1957
    },
    {
      "epoch": 0.04351111111111111,
      "grad_norm": 1.395605206489563,
      "learning_rate": 0.00019134029784396533,
      "loss": 2.2032,
      "step": 1958
    },
    {
      "epoch": 0.043533333333333334,
      "grad_norm": 1.089299201965332,
      "learning_rate": 0.00019133585241164704,
      "loss": 2.3004,
      "step": 1959
    },
    {
      "epoch": 0.043555555555555556,
      "grad_norm": 1.1255239248275757,
      "learning_rate": 0.00019133140697932875,
      "loss": 1.267,
      "step": 1960
    },
    {
      "epoch": 0.04357777777777778,
      "grad_norm": 1.1029146909713745,
      "learning_rate": 0.00019132696154701046,
      "loss": 1.8903,
      "step": 1961
    },
    {
      "epoch": 0.0436,
      "grad_norm": 1.4411638975143433,
      "learning_rate": 0.00019132251611469217,
      "loss": 2.3138,
      "step": 1962
    },
    {
      "epoch": 0.04362222222222222,
      "grad_norm": 1.036385416984558,
      "learning_rate": 0.00019131807068237385,
      "loss": 2.1527,
      "step": 1963
    },
    {
      "epoch": 0.043644444444444444,
      "grad_norm": 1.1047844886779785,
      "learning_rate": 0.0001913136252500556,
      "loss": 2.4258,
      "step": 1964
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 1.3916735649108887,
      "learning_rate": 0.00019130917981773727,
      "loss": 1.8861,
      "step": 1965
    },
    {
      "epoch": 0.04368888888888889,
      "grad_norm": 1.0504308938980103,
      "learning_rate": 0.00019130473438541898,
      "loss": 1.9441,
      "step": 1966
    },
    {
      "epoch": 0.04371111111111111,
      "grad_norm": 1.0184171199798584,
      "learning_rate": 0.0001913002889531007,
      "loss": 1.4679,
      "step": 1967
    },
    {
      "epoch": 0.04373333333333333,
      "grad_norm": 1.156490683555603,
      "learning_rate": 0.0001912958435207824,
      "loss": 1.7375,
      "step": 1968
    },
    {
      "epoch": 0.043755555555555554,
      "grad_norm": 1.1118831634521484,
      "learning_rate": 0.0001912913980884641,
      "loss": 2.0988,
      "step": 1969
    },
    {
      "epoch": 0.04377777777777778,
      "grad_norm": 1.3156795501708984,
      "learning_rate": 0.00019128695265614582,
      "loss": 2.2782,
      "step": 1970
    },
    {
      "epoch": 0.0438,
      "grad_norm": 1.2438026666641235,
      "learning_rate": 0.00019128250722382753,
      "loss": 2.2393,
      "step": 1971
    },
    {
      "epoch": 0.04382222222222222,
      "grad_norm": 1.1352112293243408,
      "learning_rate": 0.00019127806179150924,
      "loss": 1.9712,
      "step": 1972
    },
    {
      "epoch": 0.04384444444444444,
      "grad_norm": 1.2578608989715576,
      "learning_rate": 0.00019127361635919095,
      "loss": 1.9257,
      "step": 1973
    },
    {
      "epoch": 0.043866666666666665,
      "grad_norm": 1.28665292263031,
      "learning_rate": 0.00019126917092687263,
      "loss": 2.2718,
      "step": 1974
    },
    {
      "epoch": 0.04388888888888889,
      "grad_norm": 1.2211873531341553,
      "learning_rate": 0.00019126472549455437,
      "loss": 1.4196,
      "step": 1975
    },
    {
      "epoch": 0.04391111111111111,
      "grad_norm": 0.8537003993988037,
      "learning_rate": 0.00019126028006223605,
      "loss": 1.1943,
      "step": 1976
    },
    {
      "epoch": 0.04393333333333333,
      "grad_norm": 1.29036283493042,
      "learning_rate": 0.00019125583462991776,
      "loss": 2.3325,
      "step": 1977
    },
    {
      "epoch": 0.04395555555555555,
      "grad_norm": 1.3858702182769775,
      "learning_rate": 0.00019125138919759947,
      "loss": 2.1372,
      "step": 1978
    },
    {
      "epoch": 0.043977777777777775,
      "grad_norm": 1.198378324508667,
      "learning_rate": 0.00019124694376528118,
      "loss": 1.8914,
      "step": 1979
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.4767128229141235,
      "learning_rate": 0.0001912424983329629,
      "loss": 2.2288,
      "step": 1980
    },
    {
      "epoch": 0.04402222222222222,
      "grad_norm": 1.3688275814056396,
      "learning_rate": 0.0001912380529006446,
      "loss": 2.3921,
      "step": 1981
    },
    {
      "epoch": 0.04404444444444444,
      "grad_norm": 1.4493945837020874,
      "learning_rate": 0.0001912336074683263,
      "loss": 2.1145,
      "step": 1982
    },
    {
      "epoch": 0.044066666666666664,
      "grad_norm": 1.1819411516189575,
      "learning_rate": 0.000191229162036008,
      "loss": 2.0534,
      "step": 1983
    },
    {
      "epoch": 0.044088888888888886,
      "grad_norm": 1.3783243894577026,
      "learning_rate": 0.00019122471660368973,
      "loss": 2.0948,
      "step": 1984
    },
    {
      "epoch": 0.04411111111111111,
      "grad_norm": 1.2227838039398193,
      "learning_rate": 0.0001912202711713714,
      "loss": 1.8041,
      "step": 1985
    },
    {
      "epoch": 0.04413333333333333,
      "grad_norm": 1.240958571434021,
      "learning_rate": 0.00019121582573905312,
      "loss": 2.1281,
      "step": 1986
    },
    {
      "epoch": 0.04415555555555556,
      "grad_norm": 1.241132378578186,
      "learning_rate": 0.00019121138030673486,
      "loss": 1.5316,
      "step": 1987
    },
    {
      "epoch": 0.04417777777777778,
      "grad_norm": 1.322931170463562,
      "learning_rate": 0.00019120693487441654,
      "loss": 1.7657,
      "step": 1988
    },
    {
      "epoch": 0.0442,
      "grad_norm": 1.4412667751312256,
      "learning_rate": 0.00019120248944209825,
      "loss": 1.9451,
      "step": 1989
    },
    {
      "epoch": 0.044222222222222225,
      "grad_norm": 1.4083698987960815,
      "learning_rate": 0.00019119804400977996,
      "loss": 2.0041,
      "step": 1990
    },
    {
      "epoch": 0.04424444444444445,
      "grad_norm": 1.2746927738189697,
      "learning_rate": 0.00019119359857746167,
      "loss": 1.8777,
      "step": 1991
    },
    {
      "epoch": 0.04426666666666667,
      "grad_norm": 1.3022764921188354,
      "learning_rate": 0.00019118915314514338,
      "loss": 1.8062,
      "step": 1992
    },
    {
      "epoch": 0.04428888888888889,
      "grad_norm": 1.1984270811080933,
      "learning_rate": 0.0001911847077128251,
      "loss": 1.7355,
      "step": 1993
    },
    {
      "epoch": 0.044311111111111114,
      "grad_norm": 1.4208557605743408,
      "learning_rate": 0.00019118026228050677,
      "loss": 1.7095,
      "step": 1994
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 1.6517865657806396,
      "learning_rate": 0.0001911758168481885,
      "loss": 1.9629,
      "step": 1995
    },
    {
      "epoch": 0.04435555555555556,
      "grad_norm": 1.5286154747009277,
      "learning_rate": 0.00019117137141587022,
      "loss": 2.1979,
      "step": 1996
    },
    {
      "epoch": 0.04437777777777778,
      "grad_norm": 1.7356926202774048,
      "learning_rate": 0.0001911669259835519,
      "loss": 0.1054,
      "step": 1997
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.2469139099121094,
      "learning_rate": 0.00019116248055123364,
      "loss": 1.1958,
      "step": 1998
    },
    {
      "epoch": 0.044422222222222224,
      "grad_norm": 1.6873579025268555,
      "learning_rate": 0.00019115803511891532,
      "loss": 1.839,
      "step": 1999
    },
    {
      "epoch": 0.044444444444444446,
      "grad_norm": 1.4254117012023926,
      "learning_rate": 0.00019115358968659703,
      "loss": 1.5337,
      "step": 2000
    },
    {
      "epoch": 0.04446666666666667,
      "grad_norm": 1.0838704109191895,
      "learning_rate": 0.00019114914425427874,
      "loss": 1.106,
      "step": 2001
    },
    {
      "epoch": 0.04448888888888889,
      "grad_norm": 0.7966216206550598,
      "learning_rate": 0.00019114469882196045,
      "loss": 1.2112,
      "step": 2002
    },
    {
      "epoch": 0.04451111111111111,
      "grad_norm": 1.0265352725982666,
      "learning_rate": 0.00019114025338964213,
      "loss": 2.415,
      "step": 2003
    },
    {
      "epoch": 0.044533333333333334,
      "grad_norm": 1.2135584354400635,
      "learning_rate": 0.00019113580795732387,
      "loss": 2.7277,
      "step": 2004
    },
    {
      "epoch": 0.04455555555555556,
      "grad_norm": 1.117538332939148,
      "learning_rate": 0.00019113136252500558,
      "loss": 2.5271,
      "step": 2005
    },
    {
      "epoch": 0.04457777777777778,
      "grad_norm": 1.1192454099655151,
      "learning_rate": 0.00019112691709268726,
      "loss": 2.2969,
      "step": 2006
    },
    {
      "epoch": 0.0446,
      "grad_norm": 1.1067897081375122,
      "learning_rate": 0.000191122471660369,
      "loss": 2.2771,
      "step": 2007
    },
    {
      "epoch": 0.04462222222222222,
      "grad_norm": 1.0281237363815308,
      "learning_rate": 0.00019111802622805068,
      "loss": 2.0571,
      "step": 2008
    },
    {
      "epoch": 0.044644444444444445,
      "grad_norm": 1.2204391956329346,
      "learning_rate": 0.0001911135807957324,
      "loss": 2.255,
      "step": 2009
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 1.030470609664917,
      "learning_rate": 0.0001911091353634141,
      "loss": 1.4896,
      "step": 2010
    },
    {
      "epoch": 0.04468888888888889,
      "grad_norm": 1.093339204788208,
      "learning_rate": 0.0001911046899310958,
      "loss": 1.9308,
      "step": 2011
    },
    {
      "epoch": 0.04471111111111111,
      "grad_norm": 1.2781885862350464,
      "learning_rate": 0.00019110024449877752,
      "loss": 2.6854,
      "step": 2012
    },
    {
      "epoch": 0.04473333333333333,
      "grad_norm": 1.1154255867004395,
      "learning_rate": 0.00019109579906645923,
      "loss": 1.9294,
      "step": 2013
    },
    {
      "epoch": 0.044755555555555555,
      "grad_norm": 1.0550360679626465,
      "learning_rate": 0.00019109135363414094,
      "loss": 1.9543,
      "step": 2014
    },
    {
      "epoch": 0.04477777777777778,
      "grad_norm": 1.0893977880477905,
      "learning_rate": 0.00019108690820182265,
      "loss": 1.8128,
      "step": 2015
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.181086540222168,
      "learning_rate": 0.00019108246276950436,
      "loss": 1.7576,
      "step": 2016
    },
    {
      "epoch": 0.04482222222222222,
      "grad_norm": 1.1394709348678589,
      "learning_rate": 0.00019107801733718604,
      "loss": 2.2219,
      "step": 2017
    },
    {
      "epoch": 0.044844444444444444,
      "grad_norm": 1.3633637428283691,
      "learning_rate": 0.00019107357190486777,
      "loss": 0.7607,
      "step": 2018
    },
    {
      "epoch": 0.044866666666666666,
      "grad_norm": 1.1842632293701172,
      "learning_rate": 0.00019106912647254946,
      "loss": 2.5356,
      "step": 2019
    },
    {
      "epoch": 0.04488888888888889,
      "grad_norm": 1.2533390522003174,
      "learning_rate": 0.00019106468104023117,
      "loss": 1.867,
      "step": 2020
    },
    {
      "epoch": 0.04491111111111111,
      "grad_norm": 1.0170044898986816,
      "learning_rate": 0.00019106023560791288,
      "loss": 1.7942,
      "step": 2021
    },
    {
      "epoch": 0.04493333333333333,
      "grad_norm": 1.183278203010559,
      "learning_rate": 0.00019105579017559459,
      "loss": 2.045,
      "step": 2022
    },
    {
      "epoch": 0.044955555555555554,
      "grad_norm": 1.187788963317871,
      "learning_rate": 0.0001910513447432763,
      "loss": 1.8856,
      "step": 2023
    },
    {
      "epoch": 0.044977777777777776,
      "grad_norm": 1.1496013402938843,
      "learning_rate": 0.000191046899310958,
      "loss": 2.0814,
      "step": 2024
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.2607262134552002,
      "learning_rate": 0.00019104245387863971,
      "loss": 2.246,
      "step": 2025
    },
    {
      "epoch": 0.04502222222222222,
      "grad_norm": 1.063953161239624,
      "learning_rate": 0.0001910380084463214,
      "loss": 1.874,
      "step": 2026
    },
    {
      "epoch": 0.04504444444444444,
      "grad_norm": 1.1491808891296387,
      "learning_rate": 0.00019103356301400313,
      "loss": 2.1215,
      "step": 2027
    },
    {
      "epoch": 0.045066666666666665,
      "grad_norm": 1.3369731903076172,
      "learning_rate": 0.00019102911758168482,
      "loss": 2.0328,
      "step": 2028
    },
    {
      "epoch": 0.04508888888888889,
      "grad_norm": 1.2467083930969238,
      "learning_rate": 0.00019102467214936655,
      "loss": 1.9431,
      "step": 2029
    },
    {
      "epoch": 0.04511111111111111,
      "grad_norm": 1.3760888576507568,
      "learning_rate": 0.00019102022671704824,
      "loss": 2.2211,
      "step": 2030
    },
    {
      "epoch": 0.04513333333333333,
      "grad_norm": 1.152650237083435,
      "learning_rate": 0.00019101578128472995,
      "loss": 2.0473,
      "step": 2031
    },
    {
      "epoch": 0.04515555555555555,
      "grad_norm": 1.8000417947769165,
      "learning_rate": 0.00019101133585241165,
      "loss": 1.0655,
      "step": 2032
    },
    {
      "epoch": 0.045177777777777775,
      "grad_norm": 1.390941858291626,
      "learning_rate": 0.00019100689042009336,
      "loss": 2.0624,
      "step": 2033
    },
    {
      "epoch": 0.0452,
      "grad_norm": 1.2860257625579834,
      "learning_rate": 0.00019100244498777507,
      "loss": 2.0774,
      "step": 2034
    },
    {
      "epoch": 0.04522222222222222,
      "grad_norm": 1.1774852275848389,
      "learning_rate": 0.00019099799955545678,
      "loss": 1.8678,
      "step": 2035
    },
    {
      "epoch": 0.04524444444444444,
      "grad_norm": 1.122209906578064,
      "learning_rate": 0.0001909935541231385,
      "loss": 1.7027,
      "step": 2036
    },
    {
      "epoch": 0.04526666666666666,
      "grad_norm": 1.410127878189087,
      "learning_rate": 0.00019098910869082018,
      "loss": 1.893,
      "step": 2037
    },
    {
      "epoch": 0.045288888888888885,
      "grad_norm": 1.2421706914901733,
      "learning_rate": 0.0001909846632585019,
      "loss": 1.9216,
      "step": 2038
    },
    {
      "epoch": 0.045311111111111115,
      "grad_norm": 1.2033071517944336,
      "learning_rate": 0.0001909802178261836,
      "loss": 1.7059,
      "step": 2039
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 1.1801608800888062,
      "learning_rate": 0.0001909757723938653,
      "loss": 1.8569,
      "step": 2040
    },
    {
      "epoch": 0.04535555555555556,
      "grad_norm": 1.1812193393707275,
      "learning_rate": 0.00019097132696154701,
      "loss": 1.6449,
      "step": 2041
    },
    {
      "epoch": 0.04537777777777778,
      "grad_norm": 1.3143105506896973,
      "learning_rate": 0.00019096688152922872,
      "loss": 2.0052,
      "step": 2042
    },
    {
      "epoch": 0.0454,
      "grad_norm": 1.5356136560440063,
      "learning_rate": 0.00019096243609691043,
      "loss": 1.9767,
      "step": 2043
    },
    {
      "epoch": 0.045422222222222225,
      "grad_norm": 1.32579505443573,
      "learning_rate": 0.00019095799066459214,
      "loss": 2.267,
      "step": 2044
    },
    {
      "epoch": 0.04544444444444445,
      "grad_norm": 1.5171310901641846,
      "learning_rate": 0.00019095354523227385,
      "loss": 2.0841,
      "step": 2045
    },
    {
      "epoch": 0.04546666666666667,
      "grad_norm": 1.3797420263290405,
      "learning_rate": 0.00019094909979995554,
      "loss": 2.0436,
      "step": 2046
    },
    {
      "epoch": 0.04548888888888889,
      "grad_norm": 1.2719680070877075,
      "learning_rate": 0.00019094465436763727,
      "loss": 2.1284,
      "step": 2047
    },
    {
      "epoch": 0.04551111111111111,
      "grad_norm": 1.4168221950531006,
      "learning_rate": 0.00019094020893531895,
      "loss": 2.1104,
      "step": 2048
    },
    {
      "epoch": 0.045533333333333335,
      "grad_norm": 1.7456079721450806,
      "learning_rate": 0.0001909357635030007,
      "loss": 2.0084,
      "step": 2049
    },
    {
      "epoch": 0.04555555555555556,
      "grad_norm": 1.3407574892044067,
      "learning_rate": 0.00019093131807068237,
      "loss": 1.985,
      "step": 2050
    },
    {
      "epoch": 0.04557777777777778,
      "grad_norm": 1.072956919670105,
      "learning_rate": 0.00019092687263836408,
      "loss": 2.4159,
      "step": 2051
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.1648443937301636,
      "learning_rate": 0.0001909224272060458,
      "loss": 2.5451,
      "step": 2052
    },
    {
      "epoch": 0.045622222222222224,
      "grad_norm": 1.623420238494873,
      "learning_rate": 0.0001909179817737275,
      "loss": 0.0626,
      "step": 2053
    },
    {
      "epoch": 0.045644444444444446,
      "grad_norm": 0.9642564654350281,
      "learning_rate": 0.0001909135363414092,
      "loss": 2.3418,
      "step": 2054
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.9753633737564087,
      "learning_rate": 0.00019090909090909092,
      "loss": 2.2821,
      "step": 2055
    },
    {
      "epoch": 0.04568888888888889,
      "grad_norm": 0.9865321516990662,
      "learning_rate": 0.00019090464547677263,
      "loss": 2.3462,
      "step": 2056
    },
    {
      "epoch": 0.04571111111111111,
      "grad_norm": 1.3280198574066162,
      "learning_rate": 0.00019090020004445431,
      "loss": 2.3088,
      "step": 2057
    },
    {
      "epoch": 0.045733333333333334,
      "grad_norm": 1.1947888135910034,
      "learning_rate": 0.00019089575461213605,
      "loss": 2.1233,
      "step": 2058
    },
    {
      "epoch": 0.045755555555555556,
      "grad_norm": 1.1185452938079834,
      "learning_rate": 0.00019089130917981773,
      "loss": 2.2391,
      "step": 2059
    },
    {
      "epoch": 0.04577777777777778,
      "grad_norm": 1.1187952756881714,
      "learning_rate": 0.00019088686374749944,
      "loss": 2.3674,
      "step": 2060
    },
    {
      "epoch": 0.0458,
      "grad_norm": 1.0084055662155151,
      "learning_rate": 0.00019088241831518118,
      "loss": 1.6806,
      "step": 2061
    },
    {
      "epoch": 0.04582222222222222,
      "grad_norm": 1.1166616678237915,
      "learning_rate": 0.00019087797288286286,
      "loss": 1.7277,
      "step": 2062
    },
    {
      "epoch": 0.045844444444444445,
      "grad_norm": 1.1746793985366821,
      "learning_rate": 0.00019087352745054457,
      "loss": 2.3354,
      "step": 2063
    },
    {
      "epoch": 0.04586666666666667,
      "grad_norm": 1.0783172845840454,
      "learning_rate": 0.00019086908201822628,
      "loss": 2.0111,
      "step": 2064
    },
    {
      "epoch": 0.04588888888888889,
      "grad_norm": 1.250605583190918,
      "learning_rate": 0.000190864636585908,
      "loss": 2.3621,
      "step": 2065
    },
    {
      "epoch": 0.04591111111111111,
      "grad_norm": 1.1433264017105103,
      "learning_rate": 0.00019086019115358967,
      "loss": 2.1009,
      "step": 2066
    },
    {
      "epoch": 0.04593333333333333,
      "grad_norm": 1.0566843748092651,
      "learning_rate": 0.0001908557457212714,
      "loss": 1.4429,
      "step": 2067
    },
    {
      "epoch": 0.045955555555555555,
      "grad_norm": 1.267156720161438,
      "learning_rate": 0.0001908513002889531,
      "loss": 2.0563,
      "step": 2068
    },
    {
      "epoch": 0.04597777777777778,
      "grad_norm": 1.165600299835205,
      "learning_rate": 0.00019084685485663483,
      "loss": 2.003,
      "step": 2069
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.1861345767974854,
      "learning_rate": 0.00019084240942431654,
      "loss": 1.8116,
      "step": 2070
    },
    {
      "epoch": 0.04602222222222222,
      "grad_norm": 1.1564280986785889,
      "learning_rate": 0.00019083796399199822,
      "loss": 2.3152,
      "step": 2071
    },
    {
      "epoch": 0.04604444444444444,
      "grad_norm": 1.4923527240753174,
      "learning_rate": 0.00019083351855967996,
      "loss": 1.2269,
      "step": 2072
    },
    {
      "epoch": 0.046066666666666665,
      "grad_norm": 1.4147422313690186,
      "learning_rate": 0.00019082907312736164,
      "loss": 2.9776,
      "step": 2073
    },
    {
      "epoch": 0.04608888888888889,
      "grad_norm": 1.1333788633346558,
      "learning_rate": 0.00019082462769504335,
      "loss": 1.9991,
      "step": 2074
    },
    {
      "epoch": 0.04611111111111111,
      "grad_norm": 1.23317289352417,
      "learning_rate": 0.00019082018226272506,
      "loss": 2.314,
      "step": 2075
    },
    {
      "epoch": 0.04613333333333333,
      "grad_norm": 1.3660361766815186,
      "learning_rate": 0.00019081573683040677,
      "loss": 2.0035,
      "step": 2076
    },
    {
      "epoch": 0.046155555555555554,
      "grad_norm": 1.224594235420227,
      "learning_rate": 0.00019081129139808845,
      "loss": 2.8309,
      "step": 2077
    },
    {
      "epoch": 0.046177777777777776,
      "grad_norm": 1.1179392337799072,
      "learning_rate": 0.0001908068459657702,
      "loss": 2.2855,
      "step": 2078
    },
    {
      "epoch": 0.0462,
      "grad_norm": 1.2921150922775269,
      "learning_rate": 0.0001908024005334519,
      "loss": 2.5331,
      "step": 2079
    },
    {
      "epoch": 0.04622222222222222,
      "grad_norm": 1.1048730611801147,
      "learning_rate": 0.00019079795510113358,
      "loss": 1.9631,
      "step": 2080
    },
    {
      "epoch": 0.04624444444444444,
      "grad_norm": 1.2944539785385132,
      "learning_rate": 0.00019079350966881532,
      "loss": 2.3925,
      "step": 2081
    },
    {
      "epoch": 0.046266666666666664,
      "grad_norm": 1.1384243965148926,
      "learning_rate": 0.000190789064236497,
      "loss": 1.9401,
      "step": 2082
    },
    {
      "epoch": 0.046288888888888886,
      "grad_norm": 1.2576638460159302,
      "learning_rate": 0.0001907846188041787,
      "loss": 2.0843,
      "step": 2083
    },
    {
      "epoch": 0.04631111111111111,
      "grad_norm": 1.1739925146102905,
      "learning_rate": 0.00019078017337186042,
      "loss": 1.9975,
      "step": 2084
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 1.2365814447402954,
      "learning_rate": 0.00019077572793954213,
      "loss": 1.7943,
      "step": 2085
    },
    {
      "epoch": 0.04635555555555555,
      "grad_norm": 1.1880892515182495,
      "learning_rate": 0.00019077128250722384,
      "loss": 1.9764,
      "step": 2086
    },
    {
      "epoch": 0.046377777777777775,
      "grad_norm": 1.3355467319488525,
      "learning_rate": 0.00019076683707490555,
      "loss": 1.8566,
      "step": 2087
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.2710083723068237,
      "learning_rate": 0.00019076239164258726,
      "loss": 2.1024,
      "step": 2088
    },
    {
      "epoch": 0.04642222222222222,
      "grad_norm": 1.2641454935073853,
      "learning_rate": 0.00019075794621026897,
      "loss": 2.1059,
      "step": 2089
    },
    {
      "epoch": 0.04644444444444444,
      "grad_norm": 0.8848752975463867,
      "learning_rate": 0.00019075350077795068,
      "loss": 0.0567,
      "step": 2090
    },
    {
      "epoch": 0.04646666666666667,
      "grad_norm": 1.2439645528793335,
      "learning_rate": 0.00019074905534563236,
      "loss": 2.1156,
      "step": 2091
    },
    {
      "epoch": 0.04648888888888889,
      "grad_norm": 1.2400275468826294,
      "learning_rate": 0.0001907446099133141,
      "loss": 1.8364,
      "step": 2092
    },
    {
      "epoch": 0.046511111111111114,
      "grad_norm": 1.0821958780288696,
      "learning_rate": 0.00019074016448099578,
      "loss": 1.1447,
      "step": 2093
    },
    {
      "epoch": 0.046533333333333336,
      "grad_norm": 1.4247181415557861,
      "learning_rate": 0.0001907357190486775,
      "loss": 2.2779,
      "step": 2094
    },
    {
      "epoch": 0.04655555555555556,
      "grad_norm": 1.7097673416137695,
      "learning_rate": 0.0001907312736163592,
      "loss": 2.0062,
      "step": 2095
    },
    {
      "epoch": 0.04657777777777778,
      "grad_norm": 1.294437050819397,
      "learning_rate": 0.0001907268281840409,
      "loss": 2.075,
      "step": 2096
    },
    {
      "epoch": 0.0466,
      "grad_norm": 1.3077166080474854,
      "learning_rate": 0.00019072238275172262,
      "loss": 2.0455,
      "step": 2097
    },
    {
      "epoch": 0.046622222222222225,
      "grad_norm": 1.5202935934066772,
      "learning_rate": 0.00019071793731940433,
      "loss": 2.1239,
      "step": 2098
    },
    {
      "epoch": 0.04664444444444445,
      "grad_norm": 1.3648747205734253,
      "learning_rate": 0.00019071349188708604,
      "loss": 1.9094,
      "step": 2099
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 1.1727713346481323,
      "learning_rate": 0.00019070904645476772,
      "loss": 0.6035,
      "step": 2100
    },
    {
      "epoch": 0.04668888888888889,
      "grad_norm": 1.0592330694198608,
      "learning_rate": 0.00019070460102244946,
      "loss": 2.3043,
      "step": 2101
    },
    {
      "epoch": 0.04671111111111111,
      "grad_norm": 1.4692808389663696,
      "learning_rate": 0.00019070015559013114,
      "loss": 0.0774,
      "step": 2102
    },
    {
      "epoch": 0.046733333333333335,
      "grad_norm": 1.0427197217941284,
      "learning_rate": 0.00019069571015781285,
      "loss": 2.4598,
      "step": 2103
    },
    {
      "epoch": 0.04675555555555556,
      "grad_norm": 0.9507056474685669,
      "learning_rate": 0.00019069126472549456,
      "loss": 2.253,
      "step": 2104
    },
    {
      "epoch": 0.04677777777777778,
      "grad_norm": 1.0771783590316772,
      "learning_rate": 0.00019068681929317627,
      "loss": 2.4605,
      "step": 2105
    },
    {
      "epoch": 0.0468,
      "grad_norm": 1.118393898010254,
      "learning_rate": 0.00019068237386085798,
      "loss": 2.2336,
      "step": 2106
    },
    {
      "epoch": 0.04682222222222222,
      "grad_norm": 1.0407181978225708,
      "learning_rate": 0.0001906779284285397,
      "loss": 2.7806,
      "step": 2107
    },
    {
      "epoch": 0.046844444444444445,
      "grad_norm": 1.0747175216674805,
      "learning_rate": 0.0001906734829962214,
      "loss": 2.3764,
      "step": 2108
    },
    {
      "epoch": 0.04686666666666667,
      "grad_norm": 1.0551825761795044,
      "learning_rate": 0.0001906690375639031,
      "loss": 2.3002,
      "step": 2109
    },
    {
      "epoch": 0.04688888888888889,
      "grad_norm": 0.9646710157394409,
      "learning_rate": 0.00019066459213158482,
      "loss": 0.9172,
      "step": 2110
    },
    {
      "epoch": 0.04691111111111111,
      "grad_norm": 1.11587393283844,
      "learning_rate": 0.0001906601466992665,
      "loss": 2.1653,
      "step": 2111
    },
    {
      "epoch": 0.046933333333333334,
      "grad_norm": 1.0653938055038452,
      "learning_rate": 0.00019065570126694823,
      "loss": 2.3112,
      "step": 2112
    },
    {
      "epoch": 0.046955555555555556,
      "grad_norm": 1.295440912246704,
      "learning_rate": 0.00019065125583462992,
      "loss": 2.3961,
      "step": 2113
    },
    {
      "epoch": 0.04697777777777778,
      "grad_norm": 1.1522328853607178,
      "learning_rate": 0.00019064681040231163,
      "loss": 2.315,
      "step": 2114
    },
    {
      "epoch": 0.047,
      "grad_norm": 1.2604814767837524,
      "learning_rate": 0.00019064236496999334,
      "loss": 2.3902,
      "step": 2115
    },
    {
      "epoch": 0.04702222222222222,
      "grad_norm": 1.2390669584274292,
      "learning_rate": 0.00019063791953767505,
      "loss": 2.076,
      "step": 2116
    },
    {
      "epoch": 0.047044444444444444,
      "grad_norm": 1.0419986248016357,
      "learning_rate": 0.00019063347410535676,
      "loss": 2.1553,
      "step": 2117
    },
    {
      "epoch": 0.047066666666666666,
      "grad_norm": 1.4347931146621704,
      "learning_rate": 0.00019062902867303847,
      "loss": 2.3195,
      "step": 2118
    },
    {
      "epoch": 0.04708888888888889,
      "grad_norm": 0.8490489721298218,
      "learning_rate": 0.00019062458324072017,
      "loss": 0.7223,
      "step": 2119
    },
    {
      "epoch": 0.04711111111111111,
      "grad_norm": 1.05935537815094,
      "learning_rate": 0.00019062013780840186,
      "loss": 1.9971,
      "step": 2120
    },
    {
      "epoch": 0.04713333333333333,
      "grad_norm": 1.193286657333374,
      "learning_rate": 0.0001906156923760836,
      "loss": 2.0918,
      "step": 2121
    },
    {
      "epoch": 0.047155555555555555,
      "grad_norm": 1.3203314542770386,
      "learning_rate": 0.00019061124694376528,
      "loss": 2.3659,
      "step": 2122
    },
    {
      "epoch": 0.04717777777777778,
      "grad_norm": 1.1700646877288818,
      "learning_rate": 0.00019060680151144699,
      "loss": 1.9754,
      "step": 2123
    },
    {
      "epoch": 0.0472,
      "grad_norm": 1.1315226554870605,
      "learning_rate": 0.0001906023560791287,
      "loss": 2.2132,
      "step": 2124
    },
    {
      "epoch": 0.04722222222222222,
      "grad_norm": 1.391614317893982,
      "learning_rate": 0.0001905979106468104,
      "loss": 2.4032,
      "step": 2125
    },
    {
      "epoch": 0.04724444444444444,
      "grad_norm": 1.2647062540054321,
      "learning_rate": 0.00019059346521449212,
      "loss": 2.3213,
      "step": 2126
    },
    {
      "epoch": 0.047266666666666665,
      "grad_norm": 1.7268121242523193,
      "learning_rate": 0.00019058901978217382,
      "loss": 2.4066,
      "step": 2127
    },
    {
      "epoch": 0.04728888888888889,
      "grad_norm": 1.2878731489181519,
      "learning_rate": 0.00019058457434985553,
      "loss": 2.2262,
      "step": 2128
    },
    {
      "epoch": 0.04731111111111111,
      "grad_norm": 1.2903292179107666,
      "learning_rate": 0.00019058012891753724,
      "loss": 1.6896,
      "step": 2129
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 1.0576634407043457,
      "learning_rate": 0.00019057568348521895,
      "loss": 1.1286,
      "step": 2130
    },
    {
      "epoch": 0.047355555555555554,
      "grad_norm": 1.6381458044052124,
      "learning_rate": 0.00019057123805290064,
      "loss": 1.8195,
      "step": 2131
    },
    {
      "epoch": 0.047377777777777776,
      "grad_norm": 1.3932732343673706,
      "learning_rate": 0.00019056679262058237,
      "loss": 2.1326,
      "step": 2132
    },
    {
      "epoch": 0.0474,
      "grad_norm": 1.4780395030975342,
      "learning_rate": 0.00019056234718826406,
      "loss": 1.8217,
      "step": 2133
    },
    {
      "epoch": 0.04742222222222222,
      "grad_norm": 1.263351559638977,
      "learning_rate": 0.00019055790175594576,
      "loss": 1.9574,
      "step": 2134
    },
    {
      "epoch": 0.04744444444444444,
      "grad_norm": 1.241752028465271,
      "learning_rate": 0.0001905534563236275,
      "loss": 1.987,
      "step": 2135
    },
    {
      "epoch": 0.047466666666666664,
      "grad_norm": 1.1108345985412598,
      "learning_rate": 0.00019054901089130918,
      "loss": 1.7884,
      "step": 2136
    },
    {
      "epoch": 0.047488888888888886,
      "grad_norm": 1.3020201921463013,
      "learning_rate": 0.0001905445654589909,
      "loss": 1.625,
      "step": 2137
    },
    {
      "epoch": 0.04751111111111111,
      "grad_norm": 1.0572000741958618,
      "learning_rate": 0.0001905401200266726,
      "loss": 1.5847,
      "step": 2138
    },
    {
      "epoch": 0.04753333333333333,
      "grad_norm": 1.4975395202636719,
      "learning_rate": 0.0001905356745943543,
      "loss": 2.4322,
      "step": 2139
    },
    {
      "epoch": 0.04755555555555555,
      "grad_norm": 1.4509907960891724,
      "learning_rate": 0.000190531229162036,
      "loss": 2.0507,
      "step": 2140
    },
    {
      "epoch": 0.047577777777777774,
      "grad_norm": 1.9150265455245972,
      "learning_rate": 0.00019052678372971773,
      "loss": 1.9737,
      "step": 2141
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.4166738986968994,
      "learning_rate": 0.00019052233829739941,
      "loss": 1.8219,
      "step": 2142
    },
    {
      "epoch": 0.047622222222222226,
      "grad_norm": 1.3880231380462646,
      "learning_rate": 0.00019051789286508115,
      "loss": 1.8047,
      "step": 2143
    },
    {
      "epoch": 0.04764444444444445,
      "grad_norm": 1.6355503797531128,
      "learning_rate": 0.00019051344743276286,
      "loss": 2.1546,
      "step": 2144
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 1.199230670928955,
      "learning_rate": 0.00019050900200044454,
      "loss": 1.6743,
      "step": 2145
    },
    {
      "epoch": 0.04768888888888889,
      "grad_norm": 1.1767323017120361,
      "learning_rate": 0.00019050455656812628,
      "loss": 1.5314,
      "step": 2146
    },
    {
      "epoch": 0.047711111111111114,
      "grad_norm": 1.4286943674087524,
      "learning_rate": 0.00019050011113580796,
      "loss": 2.0015,
      "step": 2147
    },
    {
      "epoch": 0.047733333333333336,
      "grad_norm": 1.2978568077087402,
      "learning_rate": 0.00019049566570348967,
      "loss": 1.8082,
      "step": 2148
    },
    {
      "epoch": 0.04775555555555556,
      "grad_norm": 1.5738790035247803,
      "learning_rate": 0.00019049122027117138,
      "loss": 1.7127,
      "step": 2149
    },
    {
      "epoch": 0.04777777777777778,
      "grad_norm": 1.3680119514465332,
      "learning_rate": 0.0001904867748388531,
      "loss": 1.7397,
      "step": 2150
    },
    {
      "epoch": 0.0478,
      "grad_norm": 0.9539645910263062,
      "learning_rate": 0.00019048232940653477,
      "loss": 2.3155,
      "step": 2151
    },
    {
      "epoch": 0.047822222222222224,
      "grad_norm": 1.417159914970398,
      "learning_rate": 0.0001904778839742165,
      "loss": 1.0597,
      "step": 2152
    },
    {
      "epoch": 0.047844444444444446,
      "grad_norm": 0.9663378596305847,
      "learning_rate": 0.00019047343854189822,
      "loss": 2.2059,
      "step": 2153
    },
    {
      "epoch": 0.04786666666666667,
      "grad_norm": 1.683668851852417,
      "learning_rate": 0.0001904689931095799,
      "loss": 1.9764,
      "step": 2154
    },
    {
      "epoch": 0.04788888888888889,
      "grad_norm": 1.0001846551895142,
      "learning_rate": 0.00019046454767726164,
      "loss": 2.107,
      "step": 2155
    },
    {
      "epoch": 0.04791111111111111,
      "grad_norm": 1.2340439558029175,
      "learning_rate": 0.00019046010224494332,
      "loss": 2.2413,
      "step": 2156
    },
    {
      "epoch": 0.047933333333333335,
      "grad_norm": 1.0808637142181396,
      "learning_rate": 0.00019045565681262503,
      "loss": 1.9932,
      "step": 2157
    },
    {
      "epoch": 0.04795555555555556,
      "grad_norm": 1.0250990390777588,
      "learning_rate": 0.00019045121138030674,
      "loss": 2.1214,
      "step": 2158
    },
    {
      "epoch": 0.04797777777777778,
      "grad_norm": 1.1706652641296387,
      "learning_rate": 0.00019044676594798845,
      "loss": 1.9382,
      "step": 2159
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.2695238590240479,
      "learning_rate": 0.00019044232051567013,
      "loss": 2.2234,
      "step": 2160
    },
    {
      "epoch": 0.04802222222222222,
      "grad_norm": 1.4212697744369507,
      "learning_rate": 0.00019043787508335187,
      "loss": 1.8555,
      "step": 2161
    },
    {
      "epoch": 0.048044444444444445,
      "grad_norm": 1.1343293190002441,
      "learning_rate": 0.00019043342965103358,
      "loss": 2.1405,
      "step": 2162
    },
    {
      "epoch": 0.04806666666666667,
      "grad_norm": 1.3218437433242798,
      "learning_rate": 0.0001904289842187153,
      "loss": 2.6169,
      "step": 2163
    },
    {
      "epoch": 0.04808888888888889,
      "grad_norm": 1.0020099878311157,
      "learning_rate": 0.000190424538786397,
      "loss": 2.0023,
      "step": 2164
    },
    {
      "epoch": 0.04811111111111111,
      "grad_norm": 1.350276231765747,
      "learning_rate": 0.00019042009335407868,
      "loss": 2.6103,
      "step": 2165
    },
    {
      "epoch": 0.048133333333333334,
      "grad_norm": 1.2699103355407715,
      "learning_rate": 0.00019041564792176042,
      "loss": 1.8697,
      "step": 2166
    },
    {
      "epoch": 0.048155555555555556,
      "grad_norm": 1.1885381937026978,
      "learning_rate": 0.0001904112024894421,
      "loss": 2.2919,
      "step": 2167
    },
    {
      "epoch": 0.04817777777777778,
      "grad_norm": 1.2810090780258179,
      "learning_rate": 0.0001904067570571238,
      "loss": 2.0597,
      "step": 2168
    },
    {
      "epoch": 0.0482,
      "grad_norm": 2.396024227142334,
      "learning_rate": 0.00019040231162480552,
      "loss": 1.4093,
      "step": 2169
    },
    {
      "epoch": 0.04822222222222222,
      "grad_norm": 1.027547001838684,
      "learning_rate": 0.00019039786619248723,
      "loss": 1.8365,
      "step": 2170
    },
    {
      "epoch": 0.048244444444444444,
      "grad_norm": 1.0564228296279907,
      "learning_rate": 0.00019039342076016894,
      "loss": 1.9258,
      "step": 2171
    },
    {
      "epoch": 0.048266666666666666,
      "grad_norm": 1.2358144521713257,
      "learning_rate": 0.00019038897532785065,
      "loss": 2.2448,
      "step": 2172
    },
    {
      "epoch": 0.04828888888888889,
      "grad_norm": 1.2327159643173218,
      "learning_rate": 0.00019038452989553236,
      "loss": 2.3958,
      "step": 2173
    },
    {
      "epoch": 0.04831111111111111,
      "grad_norm": 1.0633187294006348,
      "learning_rate": 0.00019038008446321404,
      "loss": 1.9441,
      "step": 2174
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 1.302017092704773,
      "learning_rate": 0.00019037563903089578,
      "loss": 1.6284,
      "step": 2175
    },
    {
      "epoch": 0.048355555555555554,
      "grad_norm": 1.05088472366333,
      "learning_rate": 0.00019037119359857746,
      "loss": 1.5891,
      "step": 2176
    },
    {
      "epoch": 0.048377777777777776,
      "grad_norm": 1.2050260305404663,
      "learning_rate": 0.00019036674816625917,
      "loss": 1.5844,
      "step": 2177
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.3763909339904785,
      "learning_rate": 0.00019036230273394088,
      "loss": 2.0295,
      "step": 2178
    },
    {
      "epoch": 0.04842222222222222,
      "grad_norm": 1.5020549297332764,
      "learning_rate": 0.0001903578573016226,
      "loss": 1.8206,
      "step": 2179
    },
    {
      "epoch": 0.04844444444444444,
      "grad_norm": 1.5366060733795166,
      "learning_rate": 0.0001903534118693043,
      "loss": 1.9703,
      "step": 2180
    },
    {
      "epoch": 0.048466666666666665,
      "grad_norm": 1.2061278820037842,
      "learning_rate": 0.000190348966436986,
      "loss": 1.9894,
      "step": 2181
    },
    {
      "epoch": 0.04848888888888889,
      "grad_norm": 1.2145047187805176,
      "learning_rate": 0.00019034452100466772,
      "loss": 1.8444,
      "step": 2182
    },
    {
      "epoch": 0.04851111111111111,
      "grad_norm": 1.2839096784591675,
      "learning_rate": 0.00019034007557234943,
      "loss": 1.9565,
      "step": 2183
    },
    {
      "epoch": 0.04853333333333333,
      "grad_norm": 1.1375908851623535,
      "learning_rate": 0.00019033563014003114,
      "loss": 1.9852,
      "step": 2184
    },
    {
      "epoch": 0.04855555555555555,
      "grad_norm": 1.331023097038269,
      "learning_rate": 0.00019033118470771282,
      "loss": 1.876,
      "step": 2185
    },
    {
      "epoch": 0.048577777777777775,
      "grad_norm": 1.1749649047851562,
      "learning_rate": 0.00019032673927539456,
      "loss": 0.9166,
      "step": 2186
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.216256856918335,
      "learning_rate": 0.00019032229384307624,
      "loss": 1.8611,
      "step": 2187
    },
    {
      "epoch": 0.04862222222222222,
      "grad_norm": 1.2460013628005981,
      "learning_rate": 0.00019031784841075795,
      "loss": 1.7576,
      "step": 2188
    },
    {
      "epoch": 0.04864444444444444,
      "grad_norm": 1.45947265625,
      "learning_rate": 0.00019031340297843966,
      "loss": 2.3157,
      "step": 2189
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 1.2837003469467163,
      "learning_rate": 0.00019030895754612137,
      "loss": 2.1593,
      "step": 2190
    },
    {
      "epoch": 0.048688888888888886,
      "grad_norm": 1.4052823781967163,
      "learning_rate": 0.00019030451211380308,
      "loss": 2.1313,
      "step": 2191
    },
    {
      "epoch": 0.04871111111111111,
      "grad_norm": 1.762028694152832,
      "learning_rate": 0.0001903000666814848,
      "loss": 2.0798,
      "step": 2192
    },
    {
      "epoch": 0.04873333333333333,
      "grad_norm": 1.1744486093521118,
      "learning_rate": 0.0001902956212491665,
      "loss": 1.8133,
      "step": 2193
    },
    {
      "epoch": 0.04875555555555556,
      "grad_norm": 1.1974390745162964,
      "learning_rate": 0.00019029117581684818,
      "loss": 2.1615,
      "step": 2194
    },
    {
      "epoch": 0.04877777777777778,
      "grad_norm": 1.6326253414154053,
      "learning_rate": 0.00019028673038452992,
      "loss": 1.8916,
      "step": 2195
    },
    {
      "epoch": 0.0488,
      "grad_norm": 2.239137887954712,
      "learning_rate": 0.0001902822849522116,
      "loss": 1.1461,
      "step": 2196
    },
    {
      "epoch": 0.048822222222222225,
      "grad_norm": 0.8935621380805969,
      "learning_rate": 0.0001902778395198933,
      "loss": 0.7864,
      "step": 2197
    },
    {
      "epoch": 0.04884444444444445,
      "grad_norm": 1.669737458229065,
      "learning_rate": 0.00019027339408757502,
      "loss": 2.1494,
      "step": 2198
    },
    {
      "epoch": 0.04886666666666667,
      "grad_norm": 1.5537737607955933,
      "learning_rate": 0.00019026894865525673,
      "loss": 1.9874,
      "step": 2199
    },
    {
      "epoch": 0.04888888888888889,
      "grad_norm": 1.5555442571640015,
      "learning_rate": 0.00019026450322293844,
      "loss": 1.4338,
      "step": 2200
    },
    {
      "epoch": 0.048911111111111114,
      "grad_norm": 1.1961041688919067,
      "learning_rate": 0.00019026005779062015,
      "loss": 2.144,
      "step": 2201
    },
    {
      "epoch": 0.048933333333333336,
      "grad_norm": 1.071886658668518,
      "learning_rate": 0.00019025561235830186,
      "loss": 2.2126,
      "step": 2202
    },
    {
      "epoch": 0.04895555555555556,
      "grad_norm": 1.0875595808029175,
      "learning_rate": 0.00019025116692598357,
      "loss": 2.3797,
      "step": 2203
    },
    {
      "epoch": 0.04897777777777778,
      "grad_norm": 1.0179904699325562,
      "learning_rate": 0.00019024672149366528,
      "loss": 1.3905,
      "step": 2204
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.1108838319778442,
      "learning_rate": 0.00019024227606134696,
      "loss": 2.5139,
      "step": 2205
    },
    {
      "epoch": 0.049022222222222224,
      "grad_norm": 1.3807833194732666,
      "learning_rate": 0.0001902378306290287,
      "loss": 2.2536,
      "step": 2206
    },
    {
      "epoch": 0.049044444444444446,
      "grad_norm": 0.9900107383728027,
      "learning_rate": 0.00019023338519671038,
      "loss": 1.9655,
      "step": 2207
    },
    {
      "epoch": 0.04906666666666667,
      "grad_norm": 1.012878179550171,
      "learning_rate": 0.0001902289397643921,
      "loss": 1.8911,
      "step": 2208
    },
    {
      "epoch": 0.04908888888888889,
      "grad_norm": 1.0251420736312866,
      "learning_rate": 0.00019022449433207382,
      "loss": 2.1765,
      "step": 2209
    },
    {
      "epoch": 0.04911111111111111,
      "grad_norm": 1.1455473899841309,
      "learning_rate": 0.0001902200488997555,
      "loss": 2.4118,
      "step": 2210
    },
    {
      "epoch": 0.049133333333333334,
      "grad_norm": 1.1235398054122925,
      "learning_rate": 0.00019021560346743722,
      "loss": 2.2401,
      "step": 2211
    },
    {
      "epoch": 0.049155555555555557,
      "grad_norm": 1.4231849908828735,
      "learning_rate": 0.00019021115803511893,
      "loss": 2.1533,
      "step": 2212
    },
    {
      "epoch": 0.04917777777777778,
      "grad_norm": 1.2946346998214722,
      "learning_rate": 0.00019020671260280064,
      "loss": 2.3782,
      "step": 2213
    },
    {
      "epoch": 0.0492,
      "grad_norm": 1.089881181716919,
      "learning_rate": 0.00019020226717048232,
      "loss": 1.8458,
      "step": 2214
    },
    {
      "epoch": 0.04922222222222222,
      "grad_norm": 1.3264265060424805,
      "learning_rate": 0.00019019782173816405,
      "loss": 2.1016,
      "step": 2215
    },
    {
      "epoch": 0.049244444444444445,
      "grad_norm": 1.1876800060272217,
      "learning_rate": 0.00019019337630584574,
      "loss": 1.9285,
      "step": 2216
    },
    {
      "epoch": 0.04926666666666667,
      "grad_norm": 1.311055302619934,
      "learning_rate": 0.00019018893087352745,
      "loss": 2.1146,
      "step": 2217
    },
    {
      "epoch": 0.04928888888888889,
      "grad_norm": 0.4364464581012726,
      "learning_rate": 0.00019018448544120918,
      "loss": 0.0333,
      "step": 2218
    },
    {
      "epoch": 0.04931111111111111,
      "grad_norm": 1.1805363893508911,
      "learning_rate": 0.00019018004000889087,
      "loss": 2.3977,
      "step": 2219
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.148947834968567,
      "learning_rate": 0.0001901755945765726,
      "loss": 1.8525,
      "step": 2220
    },
    {
      "epoch": 0.049355555555555555,
      "grad_norm": 1.3265146017074585,
      "learning_rate": 0.00019017114914425428,
      "loss": 2.0379,
      "step": 2221
    },
    {
      "epoch": 0.04937777777777778,
      "grad_norm": 1.1382170915603638,
      "learning_rate": 0.000190166703711936,
      "loss": 2.1619,
      "step": 2222
    },
    {
      "epoch": 0.0494,
      "grad_norm": 1.3868470191955566,
      "learning_rate": 0.0001901622582796177,
      "loss": 2.0016,
      "step": 2223
    },
    {
      "epoch": 0.04942222222222222,
      "grad_norm": 1.4530396461486816,
      "learning_rate": 0.00019015781284729941,
      "loss": 2.335,
      "step": 2224
    },
    {
      "epoch": 0.049444444444444444,
      "grad_norm": 1.0688259601593018,
      "learning_rate": 0.0001901533674149811,
      "loss": 1.9109,
      "step": 2225
    },
    {
      "epoch": 0.049466666666666666,
      "grad_norm": 1.3365429639816284,
      "learning_rate": 0.00019014892198266283,
      "loss": 2.3869,
      "step": 2226
    },
    {
      "epoch": 0.04948888888888889,
      "grad_norm": 1.1728482246398926,
      "learning_rate": 0.00019014447655034454,
      "loss": 2.1609,
      "step": 2227
    },
    {
      "epoch": 0.04951111111111111,
      "grad_norm": 1.1781708002090454,
      "learning_rate": 0.00019014003111802623,
      "loss": 2.1051,
      "step": 2228
    },
    {
      "epoch": 0.04953333333333333,
      "grad_norm": 1.1372687816619873,
      "learning_rate": 0.00019013558568570796,
      "loss": 1.5913,
      "step": 2229
    },
    {
      "epoch": 0.049555555555555554,
      "grad_norm": 1.1523760557174683,
      "learning_rate": 0.00019013114025338964,
      "loss": 2.1097,
      "step": 2230
    },
    {
      "epoch": 0.049577777777777776,
      "grad_norm": 1.2923730611801147,
      "learning_rate": 0.00019012669482107135,
      "loss": 1.8981,
      "step": 2231
    },
    {
      "epoch": 0.0496,
      "grad_norm": 1.347650170326233,
      "learning_rate": 0.00019012224938875306,
      "loss": 2.0159,
      "step": 2232
    },
    {
      "epoch": 0.04962222222222222,
      "grad_norm": 1.1617511510849,
      "learning_rate": 0.00019011780395643477,
      "loss": 1.7733,
      "step": 2233
    },
    {
      "epoch": 0.04964444444444444,
      "grad_norm": 1.1228108406066895,
      "learning_rate": 0.00019011335852411648,
      "loss": 1.8163,
      "step": 2234
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 1.2512744665145874,
      "learning_rate": 0.0001901089130917982,
      "loss": 2.153,
      "step": 2235
    },
    {
      "epoch": 0.04968888888888889,
      "grad_norm": 1.3398948907852173,
      "learning_rate": 0.0001901044676594799,
      "loss": 2.3011,
      "step": 2236
    },
    {
      "epoch": 0.04971111111111111,
      "grad_norm": 1.2189030647277832,
      "learning_rate": 0.0001901000222271616,
      "loss": 1.8891,
      "step": 2237
    },
    {
      "epoch": 0.04973333333333333,
      "grad_norm": 1.3764220476150513,
      "learning_rate": 0.00019009557679484332,
      "loss": 2.114,
      "step": 2238
    },
    {
      "epoch": 0.04975555555555555,
      "grad_norm": 1.0513441562652588,
      "learning_rate": 0.000190091131362525,
      "loss": 1.5712,
      "step": 2239
    },
    {
      "epoch": 0.049777777777777775,
      "grad_norm": 1.280617117881775,
      "learning_rate": 0.00019008668593020674,
      "loss": 2.1301,
      "step": 2240
    },
    {
      "epoch": 0.0498,
      "grad_norm": 1.305253028869629,
      "learning_rate": 0.00019008224049788842,
      "loss": 1.5889,
      "step": 2241
    },
    {
      "epoch": 0.04982222222222222,
      "grad_norm": 1.6078585386276245,
      "learning_rate": 0.00019007779506557013,
      "loss": 2.0905,
      "step": 2242
    },
    {
      "epoch": 0.04984444444444444,
      "grad_norm": 1.3110101222991943,
      "learning_rate": 0.00019007334963325184,
      "loss": 2.0125,
      "step": 2243
    },
    {
      "epoch": 0.04986666666666666,
      "grad_norm": 1.2234842777252197,
      "learning_rate": 0.00019006890420093355,
      "loss": 1.8807,
      "step": 2244
    },
    {
      "epoch": 0.04988888888888889,
      "grad_norm": 1.4274346828460693,
      "learning_rate": 0.00019006445876861526,
      "loss": 1.6449,
      "step": 2245
    },
    {
      "epoch": 0.049911111111111114,
      "grad_norm": 1.4516068696975708,
      "learning_rate": 0.00019006001333629697,
      "loss": 2.474,
      "step": 2246
    },
    {
      "epoch": 0.049933333333333337,
      "grad_norm": 1.3782916069030762,
      "learning_rate": 0.00019005556790397868,
      "loss": 1.211,
      "step": 2247
    },
    {
      "epoch": 0.04995555555555556,
      "grad_norm": 1.2721515893936157,
      "learning_rate": 0.00019005112247166036,
      "loss": 1.8499,
      "step": 2248
    },
    {
      "epoch": 0.04997777777777778,
      "grad_norm": 1.2720251083374023,
      "learning_rate": 0.0001900466770393421,
      "loss": 1.4365,
      "step": 2249
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4843260049819946,
      "learning_rate": 0.00019004223160702378,
      "loss": 1.24,
      "step": 2250
    },
    {
      "epoch": 0.050022222222222225,
      "grad_norm": 1.1406223773956299,
      "learning_rate": 0.0001900377861747055,
      "loss": 2.8505,
      "step": 2251
    },
    {
      "epoch": 0.05004444444444445,
      "grad_norm": 1.1631907224655151,
      "learning_rate": 0.0001900333407423872,
      "loss": 2.967,
      "step": 2252
    },
    {
      "epoch": 0.05006666666666667,
      "grad_norm": 0.9673673510551453,
      "learning_rate": 0.0001900288953100689,
      "loss": 2.215,
      "step": 2253
    },
    {
      "epoch": 0.05008888888888889,
      "grad_norm": 1.1196608543395996,
      "learning_rate": 0.00019002444987775062,
      "loss": 2.296,
      "step": 2254
    },
    {
      "epoch": 0.05011111111111111,
      "grad_norm": 1.0573066473007202,
      "learning_rate": 0.00019002000444543233,
      "loss": 2.808,
      "step": 2255
    },
    {
      "epoch": 0.050133333333333335,
      "grad_norm": 0.9258370399475098,
      "learning_rate": 0.00019001555901311404,
      "loss": 2.0213,
      "step": 2256
    },
    {
      "epoch": 0.05015555555555556,
      "grad_norm": 1.032148838043213,
      "learning_rate": 0.00019001111358079575,
      "loss": 2.4364,
      "step": 2257
    },
    {
      "epoch": 0.05017777777777778,
      "grad_norm": 1.0564199686050415,
      "learning_rate": 0.00019000666814847746,
      "loss": 2.0706,
      "step": 2258
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.120741605758667,
      "learning_rate": 0.00019000222271615914,
      "loss": 2.0469,
      "step": 2259
    },
    {
      "epoch": 0.050222222222222224,
      "grad_norm": 1.114100694656372,
      "learning_rate": 0.00018999777728384088,
      "loss": 2.2511,
      "step": 2260
    },
    {
      "epoch": 0.050244444444444446,
      "grad_norm": 1.1014926433563232,
      "learning_rate": 0.00018999333185152256,
      "loss": 2.1234,
      "step": 2261
    },
    {
      "epoch": 0.05026666666666667,
      "grad_norm": 1.182754635810852,
      "learning_rate": 0.00018998888641920427,
      "loss": 2.2326,
      "step": 2262
    },
    {
      "epoch": 0.05028888888888889,
      "grad_norm": 1.2462025880813599,
      "learning_rate": 0.00018998444098688598,
      "loss": 2.5571,
      "step": 2263
    },
    {
      "epoch": 0.05031111111111111,
      "grad_norm": 1.003087043762207,
      "learning_rate": 0.0001899799955545677,
      "loss": 1.7838,
      "step": 2264
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 1.1985787153244019,
      "learning_rate": 0.0001899755501222494,
      "loss": 2.373,
      "step": 2265
    },
    {
      "epoch": 0.050355555555555556,
      "grad_norm": 1.1282902956008911,
      "learning_rate": 0.0001899711046899311,
      "loss": 2.3078,
      "step": 2266
    },
    {
      "epoch": 0.05037777777777778,
      "grad_norm": 1.0998181104660034,
      "learning_rate": 0.00018996665925761282,
      "loss": 1.9219,
      "step": 2267
    },
    {
      "epoch": 0.0504,
      "grad_norm": 1.2063664197921753,
      "learning_rate": 0.0001899622138252945,
      "loss": 2.4054,
      "step": 2268
    },
    {
      "epoch": 0.05042222222222222,
      "grad_norm": 1.4806365966796875,
      "learning_rate": 0.00018995776839297624,
      "loss": 2.2313,
      "step": 2269
    },
    {
      "epoch": 0.050444444444444445,
      "grad_norm": 1.0827125310897827,
      "learning_rate": 0.00018995332296065792,
      "loss": 1.6185,
      "step": 2270
    },
    {
      "epoch": 0.05046666666666667,
      "grad_norm": 1.2718685865402222,
      "learning_rate": 0.00018994887752833963,
      "loss": 2.1157,
      "step": 2271
    },
    {
      "epoch": 0.05048888888888889,
      "grad_norm": 1.129123330116272,
      "learning_rate": 0.00018994443209602134,
      "loss": 2.0411,
      "step": 2272
    },
    {
      "epoch": 0.05051111111111111,
      "grad_norm": 1.2838066816329956,
      "learning_rate": 0.00018993998666370305,
      "loss": 2.0199,
      "step": 2273
    },
    {
      "epoch": 0.05053333333333333,
      "grad_norm": 1.083335280418396,
      "learning_rate": 0.00018993554123138476,
      "loss": 1.6263,
      "step": 2274
    },
    {
      "epoch": 0.050555555555555555,
      "grad_norm": 1.3512511253356934,
      "learning_rate": 0.00018993109579906647,
      "loss": 2.0137,
      "step": 2275
    },
    {
      "epoch": 0.05057777777777778,
      "grad_norm": 1.3298662900924683,
      "learning_rate": 0.00018992665036674818,
      "loss": 2.0815,
      "step": 2276
    },
    {
      "epoch": 0.0506,
      "grad_norm": 1.516985297203064,
      "learning_rate": 0.0001899222049344299,
      "loss": 2.3133,
      "step": 2277
    },
    {
      "epoch": 0.05062222222222222,
      "grad_norm": 1.2454760074615479,
      "learning_rate": 0.0001899177595021116,
      "loss": 2.0556,
      "step": 2278
    },
    {
      "epoch": 0.05064444444444444,
      "grad_norm": 1.2082703113555908,
      "learning_rate": 0.00018991331406979328,
      "loss": 1.9505,
      "step": 2279
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.983023464679718,
      "learning_rate": 0.00018990886863747502,
      "loss": 1.2615,
      "step": 2280
    },
    {
      "epoch": 0.05068888888888889,
      "grad_norm": 1.316780686378479,
      "learning_rate": 0.0001899044232051567,
      "loss": 1.9937,
      "step": 2281
    },
    {
      "epoch": 0.05071111111111111,
      "grad_norm": 1.427194356918335,
      "learning_rate": 0.0001898999777728384,
      "loss": 2.2436,
      "step": 2282
    },
    {
      "epoch": 0.05073333333333333,
      "grad_norm": 1.6661731004714966,
      "learning_rate": 0.00018989553234052015,
      "loss": 0.0851,
      "step": 2283
    },
    {
      "epoch": 0.050755555555555554,
      "grad_norm": 1.2097456455230713,
      "learning_rate": 0.00018989108690820183,
      "loss": 1.6042,
      "step": 2284
    },
    {
      "epoch": 0.050777777777777776,
      "grad_norm": 1.269895315170288,
      "learning_rate": 0.00018988664147588354,
      "loss": 1.9546,
      "step": 2285
    },
    {
      "epoch": 0.0508,
      "grad_norm": 1.3030612468719482,
      "learning_rate": 0.00018988219604356525,
      "loss": 2.1369,
      "step": 2286
    },
    {
      "epoch": 0.05082222222222222,
      "grad_norm": 1.2111833095550537,
      "learning_rate": 0.00018987775061124696,
      "loss": 1.9118,
      "step": 2287
    },
    {
      "epoch": 0.05084444444444444,
      "grad_norm": 1.5516785383224487,
      "learning_rate": 0.00018987330517892864,
      "loss": 1.7997,
      "step": 2288
    },
    {
      "epoch": 0.050866666666666664,
      "grad_norm": 1.3370234966278076,
      "learning_rate": 0.00018986885974661038,
      "loss": 1.9019,
      "step": 2289
    },
    {
      "epoch": 0.050888888888888886,
      "grad_norm": 1.9784932136535645,
      "learning_rate": 0.00018986441431429206,
      "loss": 2.3373,
      "step": 2290
    },
    {
      "epoch": 0.05091111111111111,
      "grad_norm": 1.2709294557571411,
      "learning_rate": 0.00018985996888197377,
      "loss": 2.1115,
      "step": 2291
    },
    {
      "epoch": 0.05093333333333333,
      "grad_norm": 1.4198848009109497,
      "learning_rate": 0.0001898555234496555,
      "loss": 1.852,
      "step": 2292
    },
    {
      "epoch": 0.05095555555555555,
      "grad_norm": 1.337188959121704,
      "learning_rate": 0.0001898510780173372,
      "loss": 2.3314,
      "step": 2293
    },
    {
      "epoch": 0.050977777777777775,
      "grad_norm": 1.2728619575500488,
      "learning_rate": 0.00018984663258501892,
      "loss": 1.8133,
      "step": 2294
    },
    {
      "epoch": 0.051,
      "grad_norm": 1.3903908729553223,
      "learning_rate": 0.0001898421871527006,
      "loss": 2.3299,
      "step": 2295
    },
    {
      "epoch": 0.05102222222222222,
      "grad_norm": 1.030693769454956,
      "learning_rate": 0.00018983774172038232,
      "loss": 0.7797,
      "step": 2296
    },
    {
      "epoch": 0.05104444444444445,
      "grad_norm": 1.488663673400879,
      "learning_rate": 0.00018983329628806403,
      "loss": 1.9355,
      "step": 2297
    },
    {
      "epoch": 0.05106666666666667,
      "grad_norm": 1.2341729402542114,
      "learning_rate": 0.00018982885085574574,
      "loss": 1.9369,
      "step": 2298
    },
    {
      "epoch": 0.05108888888888889,
      "grad_norm": 2.313055992126465,
      "learning_rate": 0.00018982440542342742,
      "loss": 0.8939,
      "step": 2299
    },
    {
      "epoch": 0.051111111111111114,
      "grad_norm": 1.303525447845459,
      "learning_rate": 0.00018981995999110916,
      "loss": 1.1322,
      "step": 2300
    },
    {
      "epoch": 0.051133333333333336,
      "grad_norm": 0.9481244683265686,
      "learning_rate": 0.00018981551455879086,
      "loss": 2.4678,
      "step": 2301
    },
    {
      "epoch": 0.05115555555555556,
      "grad_norm": 1.2568217515945435,
      "learning_rate": 0.00018981106912647255,
      "loss": 2.2967,
      "step": 2302
    },
    {
      "epoch": 0.05117777777777778,
      "grad_norm": 1.009139895439148,
      "learning_rate": 0.00018980662369415428,
      "loss": 2.2559,
      "step": 2303
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.9287073016166687,
      "learning_rate": 0.00018980217826183597,
      "loss": 2.3218,
      "step": 2304
    },
    {
      "epoch": 0.051222222222222225,
      "grad_norm": 1.0955108404159546,
      "learning_rate": 0.00018979773282951768,
      "loss": 2.3199,
      "step": 2305
    },
    {
      "epoch": 0.05124444444444445,
      "grad_norm": 1.0093859434127808,
      "learning_rate": 0.00018979328739719939,
      "loss": 2.2353,
      "step": 2306
    },
    {
      "epoch": 0.05126666666666667,
      "grad_norm": 0.9418924450874329,
      "learning_rate": 0.0001897888419648811,
      "loss": 1.6572,
      "step": 2307
    },
    {
      "epoch": 0.05128888888888889,
      "grad_norm": 1.0343866348266602,
      "learning_rate": 0.0001897843965325628,
      "loss": 2.2157,
      "step": 2308
    },
    {
      "epoch": 0.05131111111111111,
      "grad_norm": 1.1496596336364746,
      "learning_rate": 0.00018977995110024451,
      "loss": 2.3266,
      "step": 2309
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.9841002821922302,
      "learning_rate": 0.00018977550566792622,
      "loss": 2.0782,
      "step": 2310
    },
    {
      "epoch": 0.05135555555555556,
      "grad_norm": 1.158416509628296,
      "learning_rate": 0.0001897710602356079,
      "loss": 2.4363,
      "step": 2311
    },
    {
      "epoch": 0.05137777777777778,
      "grad_norm": 1.21837317943573,
      "learning_rate": 0.00018976661480328964,
      "loss": 2.6334,
      "step": 2312
    },
    {
      "epoch": 0.0514,
      "grad_norm": 1.5002174377441406,
      "learning_rate": 0.00018976216937097133,
      "loss": 2.1274,
      "step": 2313
    },
    {
      "epoch": 0.05142222222222222,
      "grad_norm": 1.1424044370651245,
      "learning_rate": 0.00018975772393865306,
      "loss": 2.4683,
      "step": 2314
    },
    {
      "epoch": 0.051444444444444445,
      "grad_norm": 0.9944825768470764,
      "learning_rate": 0.00018975327850633475,
      "loss": 1.8226,
      "step": 2315
    },
    {
      "epoch": 0.05146666666666667,
      "grad_norm": 1.1477516889572144,
      "learning_rate": 0.00018974883307401645,
      "loss": 2.1133,
      "step": 2316
    },
    {
      "epoch": 0.05148888888888889,
      "grad_norm": 1.0240275859832764,
      "learning_rate": 0.00018974438764169816,
      "loss": 1.7058,
      "step": 2317
    },
    {
      "epoch": 0.05151111111111111,
      "grad_norm": 1.2768690586090088,
      "learning_rate": 0.00018973994220937987,
      "loss": 2.6642,
      "step": 2318
    },
    {
      "epoch": 0.051533333333333334,
      "grad_norm": 1.1745579242706299,
      "learning_rate": 0.00018973549677706158,
      "loss": 2.4401,
      "step": 2319
    },
    {
      "epoch": 0.051555555555555556,
      "grad_norm": 1.1885981559753418,
      "learning_rate": 0.0001897310513447433,
      "loss": 1.8775,
      "step": 2320
    },
    {
      "epoch": 0.05157777777777778,
      "grad_norm": 1.4170076847076416,
      "learning_rate": 0.000189726605912425,
      "loss": 2.3107,
      "step": 2321
    },
    {
      "epoch": 0.0516,
      "grad_norm": 1.2378846406936646,
      "learning_rate": 0.00018972216048010669,
      "loss": 2.1506,
      "step": 2322
    },
    {
      "epoch": 0.05162222222222222,
      "grad_norm": 1.1762984991073608,
      "learning_rate": 0.00018971771504778842,
      "loss": 1.9022,
      "step": 2323
    },
    {
      "epoch": 0.051644444444444444,
      "grad_norm": 1.5881881713867188,
      "learning_rate": 0.0001897132696154701,
      "loss": 2.3016,
      "step": 2324
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 1.3380208015441895,
      "learning_rate": 0.00018970882418315181,
      "loss": 2.0756,
      "step": 2325
    },
    {
      "epoch": 0.05168888888888889,
      "grad_norm": 1.231576919555664,
      "learning_rate": 0.00018970437875083352,
      "loss": 2.102,
      "step": 2326
    },
    {
      "epoch": 0.05171111111111111,
      "grad_norm": 1.0062800645828247,
      "learning_rate": 0.00018969993331851523,
      "loss": 1.7528,
      "step": 2327
    },
    {
      "epoch": 0.05173333333333333,
      "grad_norm": 1.196985125541687,
      "learning_rate": 0.00018969548788619694,
      "loss": 2.1386,
      "step": 2328
    },
    {
      "epoch": 0.051755555555555555,
      "grad_norm": 1.203781008720398,
      "learning_rate": 0.00018969104245387865,
      "loss": 1.6447,
      "step": 2329
    },
    {
      "epoch": 0.05177777777777778,
      "grad_norm": 1.3276416063308716,
      "learning_rate": 0.00018968659702156036,
      "loss": 2.3762,
      "step": 2330
    },
    {
      "epoch": 0.0518,
      "grad_norm": 1.246086835861206,
      "learning_rate": 0.00018968215158924204,
      "loss": 1.9903,
      "step": 2331
    },
    {
      "epoch": 0.05182222222222222,
      "grad_norm": 1.1679178476333618,
      "learning_rate": 0.00018967770615692378,
      "loss": 1.6781,
      "step": 2332
    },
    {
      "epoch": 0.05184444444444444,
      "grad_norm": 1.2968538999557495,
      "learning_rate": 0.00018967326072460546,
      "loss": 2.1941,
      "step": 2333
    },
    {
      "epoch": 0.051866666666666665,
      "grad_norm": 1.2440041303634644,
      "learning_rate": 0.0001896688152922872,
      "loss": 1.5251,
      "step": 2334
    },
    {
      "epoch": 0.05188888888888889,
      "grad_norm": 1.2177753448486328,
      "learning_rate": 0.00018966436985996888,
      "loss": 1.9533,
      "step": 2335
    },
    {
      "epoch": 0.05191111111111111,
      "grad_norm": 1.5729150772094727,
      "learning_rate": 0.0001896599244276506,
      "loss": 2.2132,
      "step": 2336
    },
    {
      "epoch": 0.05193333333333333,
      "grad_norm": 1.2729722261428833,
      "learning_rate": 0.0001896554789953323,
      "loss": 1.9398,
      "step": 2337
    },
    {
      "epoch": 0.05195555555555555,
      "grad_norm": 1.475525140762329,
      "learning_rate": 0.000189651033563014,
      "loss": 2.2079,
      "step": 2338
    },
    {
      "epoch": 0.051977777777777776,
      "grad_norm": 1.564623475074768,
      "learning_rate": 0.00018964658813069572,
      "loss": 2.2597,
      "step": 2339
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.4291465282440186,
      "learning_rate": 0.00018964214269837743,
      "loss": 2.5056,
      "step": 2340
    },
    {
      "epoch": 0.05202222222222222,
      "grad_norm": 1.27070152759552,
      "learning_rate": 0.00018963769726605914,
      "loss": 1.6326,
      "step": 2341
    },
    {
      "epoch": 0.05204444444444444,
      "grad_norm": 1.1755186319351196,
      "learning_rate": 0.00018963325183374082,
      "loss": 1.6277,
      "step": 2342
    },
    {
      "epoch": 0.052066666666666664,
      "grad_norm": 1.3973621129989624,
      "learning_rate": 0.00018962880640142256,
      "loss": 2.0718,
      "step": 2343
    },
    {
      "epoch": 0.052088888888888886,
      "grad_norm": 1.537056803703308,
      "learning_rate": 0.00018962436096910424,
      "loss": 1.8861,
      "step": 2344
    },
    {
      "epoch": 0.05211111111111111,
      "grad_norm": 1.6013939380645752,
      "learning_rate": 0.00018961991553678595,
      "loss": 2.0865,
      "step": 2345
    },
    {
      "epoch": 0.05213333333333333,
      "grad_norm": 1.6155565977096558,
      "learning_rate": 0.00018961547010446766,
      "loss": 1.9949,
      "step": 2346
    },
    {
      "epoch": 0.05215555555555555,
      "grad_norm": 1.3884861469268799,
      "learning_rate": 0.00018961102467214937,
      "loss": 2.253,
      "step": 2347
    },
    {
      "epoch": 0.052177777777777774,
      "grad_norm": 1.1273061037063599,
      "learning_rate": 0.00018960657923983108,
      "loss": 0.8344,
      "step": 2348
    },
    {
      "epoch": 0.0522,
      "grad_norm": 1.4665790796279907,
      "learning_rate": 0.0001896021338075128,
      "loss": 1.8642,
      "step": 2349
    },
    {
      "epoch": 0.052222222222222225,
      "grad_norm": 1.0834414958953857,
      "learning_rate": 0.0001895976883751945,
      "loss": 0.921,
      "step": 2350
    },
    {
      "epoch": 0.05224444444444445,
      "grad_norm": 1.3091169595718384,
      "learning_rate": 0.0001895932429428762,
      "loss": 2.7127,
      "step": 2351
    },
    {
      "epoch": 0.05226666666666667,
      "grad_norm": 1.173563003540039,
      "learning_rate": 0.00018958879751055792,
      "loss": 2.8469,
      "step": 2352
    },
    {
      "epoch": 0.05228888888888889,
      "grad_norm": 1.0140055418014526,
      "learning_rate": 0.0001895843520782396,
      "loss": 1.4903,
      "step": 2353
    },
    {
      "epoch": 0.052311111111111114,
      "grad_norm": 0.9908082485198975,
      "learning_rate": 0.00018957990664592134,
      "loss": 2.0947,
      "step": 2354
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 1.8170055150985718,
      "learning_rate": 0.00018957546121360302,
      "loss": 2.7524,
      "step": 2355
    },
    {
      "epoch": 0.05235555555555556,
      "grad_norm": 1.0227460861206055,
      "learning_rate": 0.00018957101578128473,
      "loss": 2.2746,
      "step": 2356
    },
    {
      "epoch": 0.05237777777777778,
      "grad_norm": 0.9263565540313721,
      "learning_rate": 0.00018956657034896647,
      "loss": 1.7847,
      "step": 2357
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.2337859869003296,
      "learning_rate": 0.00018956212491664815,
      "loss": 2.4752,
      "step": 2358
    },
    {
      "epoch": 0.052422222222222224,
      "grad_norm": 1.171648383140564,
      "learning_rate": 0.00018955767948432986,
      "loss": 2.4235,
      "step": 2359
    },
    {
      "epoch": 0.052444444444444446,
      "grad_norm": 0.9819696545600891,
      "learning_rate": 0.00018955323405201157,
      "loss": 1.115,
      "step": 2360
    },
    {
      "epoch": 0.05246666666666667,
      "grad_norm": 1.077548861503601,
      "learning_rate": 0.00018954878861969328,
      "loss": 1.7721,
      "step": 2361
    },
    {
      "epoch": 0.05248888888888889,
      "grad_norm": 1.0623936653137207,
      "learning_rate": 0.00018954434318737496,
      "loss": 2.3041,
      "step": 2362
    },
    {
      "epoch": 0.05251111111111111,
      "grad_norm": 1.0431392192840576,
      "learning_rate": 0.0001895398977550567,
      "loss": 1.928,
      "step": 2363
    },
    {
      "epoch": 0.052533333333333335,
      "grad_norm": 1.1533517837524414,
      "learning_rate": 0.00018953545232273838,
      "loss": 2.0593,
      "step": 2364
    },
    {
      "epoch": 0.05255555555555556,
      "grad_norm": 1.4033219814300537,
      "learning_rate": 0.0001895310068904201,
      "loss": 2.4855,
      "step": 2365
    },
    {
      "epoch": 0.05257777777777778,
      "grad_norm": 0.9098128080368042,
      "learning_rate": 0.00018952656145810183,
      "loss": 1.464,
      "step": 2366
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.2354823350906372,
      "learning_rate": 0.0001895221160257835,
      "loss": 2.6515,
      "step": 2367
    },
    {
      "epoch": 0.05262222222222222,
      "grad_norm": 1.0878663063049316,
      "learning_rate": 0.00018951767059346522,
      "loss": 2.0154,
      "step": 2368
    },
    {
      "epoch": 0.052644444444444445,
      "grad_norm": 1.2616039514541626,
      "learning_rate": 0.00018951322516114693,
      "loss": 2.1318,
      "step": 2369
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 1.3192627429962158,
      "learning_rate": 0.00018950877972882864,
      "loss": 2.0905,
      "step": 2370
    },
    {
      "epoch": 0.05268888888888889,
      "grad_norm": 1.243998646736145,
      "learning_rate": 0.00018950433429651035,
      "loss": 2.0889,
      "step": 2371
    },
    {
      "epoch": 0.05271111111111111,
      "grad_norm": 1.3276753425598145,
      "learning_rate": 0.00018949988886419206,
      "loss": 2.0204,
      "step": 2372
    },
    {
      "epoch": 0.05273333333333333,
      "grad_norm": 1.1520330905914307,
      "learning_rate": 0.00018949544343187374,
      "loss": 1.8058,
      "step": 2373
    },
    {
      "epoch": 0.052755555555555556,
      "grad_norm": 1.5755805969238281,
      "learning_rate": 0.00018949099799955548,
      "loss": 2.2712,
      "step": 2374
    },
    {
      "epoch": 0.05277777777777778,
      "grad_norm": 1.265557050704956,
      "learning_rate": 0.0001894865525672372,
      "loss": 1.8071,
      "step": 2375
    },
    {
      "epoch": 0.0528,
      "grad_norm": 1.1964306831359863,
      "learning_rate": 0.00018948210713491887,
      "loss": 2.0829,
      "step": 2376
    },
    {
      "epoch": 0.05282222222222222,
      "grad_norm": 1.7723175287246704,
      "learning_rate": 0.0001894776617026006,
      "loss": 2.4585,
      "step": 2377
    },
    {
      "epoch": 0.052844444444444444,
      "grad_norm": 1.2948371171951294,
      "learning_rate": 0.0001894732162702823,
      "loss": 1.7931,
      "step": 2378
    },
    {
      "epoch": 0.052866666666666666,
      "grad_norm": 1.6545947790145874,
      "learning_rate": 0.000189468770837964,
      "loss": 2.627,
      "step": 2379
    },
    {
      "epoch": 0.05288888888888889,
      "grad_norm": 1.1918590068817139,
      "learning_rate": 0.0001894643254056457,
      "loss": 2.4832,
      "step": 2380
    },
    {
      "epoch": 0.05291111111111111,
      "grad_norm": 1.3209351301193237,
      "learning_rate": 0.00018945987997332742,
      "loss": 2.0956,
      "step": 2381
    },
    {
      "epoch": 0.05293333333333333,
      "grad_norm": 1.279868483543396,
      "learning_rate": 0.00018945543454100913,
      "loss": 1.9356,
      "step": 2382
    },
    {
      "epoch": 0.052955555555555554,
      "grad_norm": 1.2751002311706543,
      "learning_rate": 0.00018945098910869084,
      "loss": 1.7475,
      "step": 2383
    },
    {
      "epoch": 0.052977777777777776,
      "grad_norm": 1.2927143573760986,
      "learning_rate": 0.00018944654367637255,
      "loss": 2.2396,
      "step": 2384
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.314698338508606,
      "learning_rate": 0.00018944209824405423,
      "loss": 1.7448,
      "step": 2385
    },
    {
      "epoch": 0.05302222222222222,
      "grad_norm": 1.3616132736206055,
      "learning_rate": 0.00018943765281173597,
      "loss": 2.1451,
      "step": 2386
    },
    {
      "epoch": 0.05304444444444444,
      "grad_norm": 1.2678908109664917,
      "learning_rate": 0.00018943320737941765,
      "loss": 2.2548,
      "step": 2387
    },
    {
      "epoch": 0.053066666666666665,
      "grad_norm": 1.2714632749557495,
      "learning_rate": 0.00018942876194709936,
      "loss": 1.8186,
      "step": 2388
    },
    {
      "epoch": 0.05308888888888889,
      "grad_norm": 1.1509929895401,
      "learning_rate": 0.00018942431651478107,
      "loss": 1.5296,
      "step": 2389
    },
    {
      "epoch": 0.05311111111111111,
      "grad_norm": 1.3871374130249023,
      "learning_rate": 0.00018941987108246278,
      "loss": 1.701,
      "step": 2390
    },
    {
      "epoch": 0.05313333333333333,
      "grad_norm": 1.2524795532226562,
      "learning_rate": 0.0001894154256501445,
      "loss": 2.0234,
      "step": 2391
    },
    {
      "epoch": 0.05315555555555555,
      "grad_norm": 1.1746879816055298,
      "learning_rate": 0.0001894109802178262,
      "loss": 1.6097,
      "step": 2392
    },
    {
      "epoch": 0.053177777777777775,
      "grad_norm": 1.928781509399414,
      "learning_rate": 0.0001894065347855079,
      "loss": 1.6618,
      "step": 2393
    },
    {
      "epoch": 0.0532,
      "grad_norm": 1.4668447971343994,
      "learning_rate": 0.00018940208935318962,
      "loss": 1.9964,
      "step": 2394
    },
    {
      "epoch": 0.05322222222222222,
      "grad_norm": 1.4051446914672852,
      "learning_rate": 0.00018939764392087133,
      "loss": 2.0399,
      "step": 2395
    },
    {
      "epoch": 0.05324444444444444,
      "grad_norm": 1.2799900770187378,
      "learning_rate": 0.000189393198488553,
      "loss": 1.769,
      "step": 2396
    },
    {
      "epoch": 0.053266666666666664,
      "grad_norm": 1.543502926826477,
      "learning_rate": 0.00018938875305623474,
      "loss": 1.965,
      "step": 2397
    },
    {
      "epoch": 0.053288888888888886,
      "grad_norm": 2.0054454803466797,
      "learning_rate": 0.00018938430762391643,
      "loss": 2.0078,
      "step": 2398
    },
    {
      "epoch": 0.05331111111111111,
      "grad_norm": 1.122998595237732,
      "learning_rate": 0.00018937986219159814,
      "loss": 0.6365,
      "step": 2399
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 1.3832374811172485,
      "learning_rate": 0.00018937541675927985,
      "loss": 1.4609,
      "step": 2400
    },
    {
      "epoch": 0.05335555555555556,
      "grad_norm": 1.0088211297988892,
      "learning_rate": 0.00018937097132696156,
      "loss": 2.3437,
      "step": 2401
    },
    {
      "epoch": 0.05337777777777778,
      "grad_norm": 1.1041789054870605,
      "learning_rate": 0.00018936652589464327,
      "loss": 2.8084,
      "step": 2402
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.1989312171936035,
      "learning_rate": 0.00018936208046232497,
      "loss": 2.8785,
      "step": 2403
    },
    {
      "epoch": 0.053422222222222225,
      "grad_norm": 0.70741868019104,
      "learning_rate": 0.00018935763503000668,
      "loss": 0.8932,
      "step": 2404
    },
    {
      "epoch": 0.05344444444444445,
      "grad_norm": 0.9797938466072083,
      "learning_rate": 0.00018935318959768837,
      "loss": 2.1857,
      "step": 2405
    },
    {
      "epoch": 0.05346666666666667,
      "grad_norm": 1.1413230895996094,
      "learning_rate": 0.0001893487441653701,
      "loss": 2.2059,
      "step": 2406
    },
    {
      "epoch": 0.05348888888888889,
      "grad_norm": 0.9932123422622681,
      "learning_rate": 0.00018934429873305179,
      "loss": 2.5113,
      "step": 2407
    },
    {
      "epoch": 0.05351111111111111,
      "grad_norm": 1.2092759609222412,
      "learning_rate": 0.00018933985330073352,
      "loss": 1.8474,
      "step": 2408
    },
    {
      "epoch": 0.053533333333333336,
      "grad_norm": 1.3358006477355957,
      "learning_rate": 0.0001893354078684152,
      "loss": 2.5141,
      "step": 2409
    },
    {
      "epoch": 0.05355555555555556,
      "grad_norm": 1.2211167812347412,
      "learning_rate": 0.00018933096243609692,
      "loss": 2.0904,
      "step": 2410
    },
    {
      "epoch": 0.05357777777777778,
      "grad_norm": 1.1042029857635498,
      "learning_rate": 0.00018932651700377862,
      "loss": 2.2942,
      "step": 2411
    },
    {
      "epoch": 0.0536,
      "grad_norm": 1.422839641571045,
      "learning_rate": 0.00018932207157146033,
      "loss": 2.3406,
      "step": 2412
    },
    {
      "epoch": 0.053622222222222224,
      "grad_norm": 1.5759137868881226,
      "learning_rate": 0.00018931762613914204,
      "loss": 2.7206,
      "step": 2413
    },
    {
      "epoch": 0.053644444444444446,
      "grad_norm": 1.405296802520752,
      "learning_rate": 0.00018931318070682375,
      "loss": 2.7824,
      "step": 2414
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 1.0691838264465332,
      "learning_rate": 0.00018930873527450546,
      "loss": 1.8771,
      "step": 2415
    },
    {
      "epoch": 0.05368888888888889,
      "grad_norm": 1.08065927028656,
      "learning_rate": 0.00018930428984218715,
      "loss": 1.8229,
      "step": 2416
    },
    {
      "epoch": 0.05371111111111111,
      "grad_norm": 1.0633454322814941,
      "learning_rate": 0.00018929984440986888,
      "loss": 1.9051,
      "step": 2417
    },
    {
      "epoch": 0.053733333333333334,
      "grad_norm": 1.177459716796875,
      "learning_rate": 0.00018929539897755056,
      "loss": 1.9052,
      "step": 2418
    },
    {
      "epoch": 0.053755555555555556,
      "grad_norm": 1.132089376449585,
      "learning_rate": 0.00018929095354523227,
      "loss": 2.1315,
      "step": 2419
    },
    {
      "epoch": 0.05377777777777778,
      "grad_norm": 1.1427791118621826,
      "learning_rate": 0.00018928650811291398,
      "loss": 2.0587,
      "step": 2420
    },
    {
      "epoch": 0.0538,
      "grad_norm": 1.231881022453308,
      "learning_rate": 0.0001892820626805957,
      "loss": 2.3537,
      "step": 2421
    },
    {
      "epoch": 0.05382222222222222,
      "grad_norm": 1.288120150566101,
      "learning_rate": 0.0001892776172482774,
      "loss": 2.3701,
      "step": 2422
    },
    {
      "epoch": 0.053844444444444445,
      "grad_norm": 1.191667914390564,
      "learning_rate": 0.0001892731718159591,
      "loss": 2.3219,
      "step": 2423
    },
    {
      "epoch": 0.05386666666666667,
      "grad_norm": 1.1937075853347778,
      "learning_rate": 0.00018926872638364082,
      "loss": 2.1728,
      "step": 2424
    },
    {
      "epoch": 0.05388888888888889,
      "grad_norm": 1.0441638231277466,
      "learning_rate": 0.0001892642809513225,
      "loss": 1.4542,
      "step": 2425
    },
    {
      "epoch": 0.05391111111111111,
      "grad_norm": 1.3653444051742554,
      "learning_rate": 0.00018925983551900424,
      "loss": 2.1975,
      "step": 2426
    },
    {
      "epoch": 0.05393333333333333,
      "grad_norm": 1.2391129732131958,
      "learning_rate": 0.00018925539008668592,
      "loss": 2.2715,
      "step": 2427
    },
    {
      "epoch": 0.053955555555555555,
      "grad_norm": 1.4954770803451538,
      "learning_rate": 0.00018925094465436766,
      "loss": 1.6288,
      "step": 2428
    },
    {
      "epoch": 0.05397777777777778,
      "grad_norm": 1.317981481552124,
      "learning_rate": 0.00018924649922204934,
      "loss": 2.3077,
      "step": 2429
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.3335977792739868,
      "learning_rate": 0.00018924205378973105,
      "loss": 1.9617,
      "step": 2430
    },
    {
      "epoch": 0.05402222222222222,
      "grad_norm": 1.132349967956543,
      "learning_rate": 0.0001892376083574128,
      "loss": 2.0535,
      "step": 2431
    },
    {
      "epoch": 0.054044444444444444,
      "grad_norm": 1.3031768798828125,
      "learning_rate": 0.00018923316292509447,
      "loss": 2.2856,
      "step": 2432
    },
    {
      "epoch": 0.054066666666666666,
      "grad_norm": 1.1036758422851562,
      "learning_rate": 0.00018922871749277618,
      "loss": 1.6712,
      "step": 2433
    },
    {
      "epoch": 0.05408888888888889,
      "grad_norm": 1.314907193183899,
      "learning_rate": 0.0001892242720604579,
      "loss": 1.6712,
      "step": 2434
    },
    {
      "epoch": 0.05411111111111111,
      "grad_norm": 1.287028431892395,
      "learning_rate": 0.0001892198266281396,
      "loss": 2.1933,
      "step": 2435
    },
    {
      "epoch": 0.05413333333333333,
      "grad_norm": 1.4043248891830444,
      "learning_rate": 0.00018921538119582128,
      "loss": 2.0347,
      "step": 2436
    },
    {
      "epoch": 0.054155555555555554,
      "grad_norm": 1.3338160514831543,
      "learning_rate": 0.00018921093576350302,
      "loss": 1.5641,
      "step": 2437
    },
    {
      "epoch": 0.054177777777777776,
      "grad_norm": 1.1076841354370117,
      "learning_rate": 0.0001892064903311847,
      "loss": 1.9741,
      "step": 2438
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.3298640251159668,
      "learning_rate": 0.0001892020448988664,
      "loss": 1.8845,
      "step": 2439
    },
    {
      "epoch": 0.05422222222222222,
      "grad_norm": 1.237134337425232,
      "learning_rate": 0.00018919759946654815,
      "loss": 2.0562,
      "step": 2440
    },
    {
      "epoch": 0.05424444444444444,
      "grad_norm": 1.533353328704834,
      "learning_rate": 0.00018919315403422983,
      "loss": 2.2939,
      "step": 2441
    },
    {
      "epoch": 0.054266666666666664,
      "grad_norm": 1.239883303642273,
      "learning_rate": 0.00018918870860191154,
      "loss": 1.865,
      "step": 2442
    },
    {
      "epoch": 0.054288888888888887,
      "grad_norm": 1.0204641819000244,
      "learning_rate": 0.00018918426316959325,
      "loss": 1.0265,
      "step": 2443
    },
    {
      "epoch": 0.05431111111111111,
      "grad_norm": 1.455061435699463,
      "learning_rate": 0.00018917981773727496,
      "loss": 2.3005,
      "step": 2444
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 1.2822335958480835,
      "learning_rate": 0.00018917537230495664,
      "loss": 2.352,
      "step": 2445
    },
    {
      "epoch": 0.05435555555555555,
      "grad_norm": 1.1937792301177979,
      "learning_rate": 0.00018917092687263838,
      "loss": 1.9667,
      "step": 2446
    },
    {
      "epoch": 0.054377777777777775,
      "grad_norm": 1.2129205465316772,
      "learning_rate": 0.00018916648144032006,
      "loss": 1.5441,
      "step": 2447
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.2139372825622559,
      "learning_rate": 0.0001891620360080018,
      "loss": 1.5881,
      "step": 2448
    },
    {
      "epoch": 0.05442222222222222,
      "grad_norm": 1.614974856376648,
      "learning_rate": 0.0001891575905756835,
      "loss": 1.9697,
      "step": 2449
    },
    {
      "epoch": 0.05444444444444444,
      "grad_norm": 1.494932770729065,
      "learning_rate": 0.0001891531451433652,
      "loss": 1.5232,
      "step": 2450
    },
    {
      "epoch": 0.05446666666666666,
      "grad_norm": 1.0456159114837646,
      "learning_rate": 0.00018914869971104693,
      "loss": 2.0489,
      "step": 2451
    },
    {
      "epoch": 0.05448888888888889,
      "grad_norm": 0.24582913517951965,
      "learning_rate": 0.0001891442542787286,
      "loss": 0.0238,
      "step": 2452
    },
    {
      "epoch": 0.054511111111111114,
      "grad_norm": 1.1495356559753418,
      "learning_rate": 0.00018913980884641032,
      "loss": 2.7597,
      "step": 2453
    },
    {
      "epoch": 0.054533333333333336,
      "grad_norm": 1.0543262958526611,
      "learning_rate": 0.00018913536341409203,
      "loss": 2.2041,
      "step": 2454
    },
    {
      "epoch": 0.05455555555555556,
      "grad_norm": 1.4828373193740845,
      "learning_rate": 0.00018913091798177374,
      "loss": 2.629,
      "step": 2455
    },
    {
      "epoch": 0.05457777777777778,
      "grad_norm": 1.1645830869674683,
      "learning_rate": 0.00018912647254945545,
      "loss": 2.3529,
      "step": 2456
    },
    {
      "epoch": 0.0546,
      "grad_norm": 1.1288797855377197,
      "learning_rate": 0.00018912202711713716,
      "loss": 1.9734,
      "step": 2457
    },
    {
      "epoch": 0.054622222222222225,
      "grad_norm": 1.039430022239685,
      "learning_rate": 0.00018911758168481887,
      "loss": 2.4457,
      "step": 2458
    },
    {
      "epoch": 0.05464444444444445,
      "grad_norm": 0.9661824703216553,
      "learning_rate": 0.00018911313625250055,
      "loss": 2.0711,
      "step": 2459
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 1.3233098983764648,
      "learning_rate": 0.0001891086908201823,
      "loss": 2.3527,
      "step": 2460
    },
    {
      "epoch": 0.05468888888888889,
      "grad_norm": 1.210202932357788,
      "learning_rate": 0.00018910424538786397,
      "loss": 2.3941,
      "step": 2461
    },
    {
      "epoch": 0.05471111111111111,
      "grad_norm": 1.165424108505249,
      "learning_rate": 0.00018909979995554568,
      "loss": 2.2124,
      "step": 2462
    },
    {
      "epoch": 0.054733333333333335,
      "grad_norm": 1.0688230991363525,
      "learning_rate": 0.0001890953545232274,
      "loss": 2.1726,
      "step": 2463
    },
    {
      "epoch": 0.05475555555555556,
      "grad_norm": 1.1547540426254272,
      "learning_rate": 0.0001890909090909091,
      "loss": 2.0078,
      "step": 2464
    },
    {
      "epoch": 0.05477777777777778,
      "grad_norm": 1.1661717891693115,
      "learning_rate": 0.0001890864636585908,
      "loss": 1.8699,
      "step": 2465
    },
    {
      "epoch": 0.0548,
      "grad_norm": 1.0058127641677856,
      "learning_rate": 0.00018908201822627252,
      "loss": 2.1049,
      "step": 2466
    },
    {
      "epoch": 0.054822222222222224,
      "grad_norm": 1.408481478691101,
      "learning_rate": 0.00018907757279395423,
      "loss": 1.9875,
      "step": 2467
    },
    {
      "epoch": 0.054844444444444446,
      "grad_norm": 1.2111340761184692,
      "learning_rate": 0.00018907312736163594,
      "loss": 2.6125,
      "step": 2468
    },
    {
      "epoch": 0.05486666666666667,
      "grad_norm": 1.196250319480896,
      "learning_rate": 0.00018906868192931765,
      "loss": 2.1727,
      "step": 2469
    },
    {
      "epoch": 0.05488888888888889,
      "grad_norm": 1.0017157793045044,
      "learning_rate": 0.00018906423649699933,
      "loss": 2.0192,
      "step": 2470
    },
    {
      "epoch": 0.05491111111111111,
      "grad_norm": 1.1697108745574951,
      "learning_rate": 0.00018905979106468107,
      "loss": 2.2805,
      "step": 2471
    },
    {
      "epoch": 0.054933333333333334,
      "grad_norm": 1.292067527770996,
      "learning_rate": 0.00018905534563236275,
      "loss": 2.3587,
      "step": 2472
    },
    {
      "epoch": 0.054955555555555556,
      "grad_norm": 1.3392435312271118,
      "learning_rate": 0.00018905090020004446,
      "loss": 2.1746,
      "step": 2473
    },
    {
      "epoch": 0.05497777777777778,
      "grad_norm": 1.0832107067108154,
      "learning_rate": 0.00018904645476772617,
      "loss": 1.9875,
      "step": 2474
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.2673426866531372,
      "learning_rate": 0.00018904200933540788,
      "loss": 2.2346,
      "step": 2475
    },
    {
      "epoch": 0.05502222222222222,
      "grad_norm": 1.0961675643920898,
      "learning_rate": 0.0001890375639030896,
      "loss": 1.9001,
      "step": 2476
    },
    {
      "epoch": 0.055044444444444444,
      "grad_norm": 1.5389955043792725,
      "learning_rate": 0.0001890331184707713,
      "loss": 2.1704,
      "step": 2477
    },
    {
      "epoch": 0.05506666666666667,
      "grad_norm": 1.1380915641784668,
      "learning_rate": 0.000189028673038453,
      "loss": 1.5925,
      "step": 2478
    },
    {
      "epoch": 0.05508888888888889,
      "grad_norm": 1.1954318284988403,
      "learning_rate": 0.0001890242276061347,
      "loss": 1.8853,
      "step": 2479
    },
    {
      "epoch": 0.05511111111111111,
      "grad_norm": 1.4532486200332642,
      "learning_rate": 0.00018901978217381643,
      "loss": 2.3578,
      "step": 2480
    },
    {
      "epoch": 0.05513333333333333,
      "grad_norm": 1.2123574018478394,
      "learning_rate": 0.0001890153367414981,
      "loss": 2.0524,
      "step": 2481
    },
    {
      "epoch": 0.055155555555555555,
      "grad_norm": 1.3489240407943726,
      "learning_rate": 0.00018901089130917982,
      "loss": 1.9921,
      "step": 2482
    },
    {
      "epoch": 0.05517777777777778,
      "grad_norm": 1.2275818586349487,
      "learning_rate": 0.00018900644587686153,
      "loss": 1.0391,
      "step": 2483
    },
    {
      "epoch": 0.0552,
      "grad_norm": 1.301775574684143,
      "learning_rate": 0.00018900200044454324,
      "loss": 2.1361,
      "step": 2484
    },
    {
      "epoch": 0.05522222222222222,
      "grad_norm": 1.177973747253418,
      "learning_rate": 0.00018899755501222495,
      "loss": 1.7752,
      "step": 2485
    },
    {
      "epoch": 0.05524444444444444,
      "grad_norm": 1.614419937133789,
      "learning_rate": 0.00018899310957990666,
      "loss": 2.0485,
      "step": 2486
    },
    {
      "epoch": 0.055266666666666665,
      "grad_norm": 1.4591861963272095,
      "learning_rate": 0.00018898866414758837,
      "loss": 2.6826,
      "step": 2487
    },
    {
      "epoch": 0.05528888888888889,
      "grad_norm": 1.234574317932129,
      "learning_rate": 0.00018898421871527008,
      "loss": 1.8722,
      "step": 2488
    },
    {
      "epoch": 0.05531111111111111,
      "grad_norm": 1.2190479040145874,
      "learning_rate": 0.00018897977328295179,
      "loss": 1.6645,
      "step": 2489
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 1.2094649076461792,
      "learning_rate": 0.00018897532785063347,
      "loss": 1.7016,
      "step": 2490
    },
    {
      "epoch": 0.055355555555555554,
      "grad_norm": 1.2158609628677368,
      "learning_rate": 0.0001889708824183152,
      "loss": 1.6962,
      "step": 2491
    },
    {
      "epoch": 0.055377777777777776,
      "grad_norm": 1.3388298749923706,
      "learning_rate": 0.0001889664369859969,
      "loss": 1.8867,
      "step": 2492
    },
    {
      "epoch": 0.0554,
      "grad_norm": 1.4496742486953735,
      "learning_rate": 0.0001889619915536786,
      "loss": 2.1865,
      "step": 2493
    },
    {
      "epoch": 0.05542222222222222,
      "grad_norm": 1.4807302951812744,
      "learning_rate": 0.0001889575461213603,
      "loss": 1.861,
      "step": 2494
    },
    {
      "epoch": 0.05544444444444444,
      "grad_norm": 1.8118335008621216,
      "learning_rate": 0.00018895310068904202,
      "loss": 1.6623,
      "step": 2495
    },
    {
      "epoch": 0.055466666666666664,
      "grad_norm": 1.4286296367645264,
      "learning_rate": 0.00018894865525672373,
      "loss": 2.0063,
      "step": 2496
    },
    {
      "epoch": 0.055488888888888886,
      "grad_norm": 1.2867096662521362,
      "learning_rate": 0.00018894420982440544,
      "loss": 1.6976,
      "step": 2497
    },
    {
      "epoch": 0.05551111111111111,
      "grad_norm": 1.3115135431289673,
      "learning_rate": 0.00018893976439208714,
      "loss": 1.7672,
      "step": 2498
    },
    {
      "epoch": 0.05553333333333333,
      "grad_norm": 1.1507395505905151,
      "learning_rate": 0.00018893531895976883,
      "loss": 0.9649,
      "step": 2499
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 1.5662176609039307,
      "learning_rate": 0.00018893087352745056,
      "loss": 1.1995,
      "step": 2500
    },
    {
      "epoch": 0.055577777777777775,
      "grad_norm": 1.036569595336914,
      "learning_rate": 0.00018892642809513225,
      "loss": 2.6401,
      "step": 2501
    },
    {
      "epoch": 0.0556,
      "grad_norm": 1.2533944845199585,
      "learning_rate": 0.00018892198266281396,
      "loss": 1.2099,
      "step": 2502
    },
    {
      "epoch": 0.055622222222222226,
      "grad_norm": 0.9114360809326172,
      "learning_rate": 0.00018891753723049567,
      "loss": 2.2516,
      "step": 2503
    },
    {
      "epoch": 0.05564444444444445,
      "grad_norm": 0.8984512090682983,
      "learning_rate": 0.00018891309179817738,
      "loss": 2.0534,
      "step": 2504
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 0.8923514485359192,
      "learning_rate": 0.0001889086463658591,
      "loss": 1.7531,
      "step": 2505
    },
    {
      "epoch": 0.05568888888888889,
      "grad_norm": 1.4881649017333984,
      "learning_rate": 0.0001889042009335408,
      "loss": 2.4426,
      "step": 2506
    },
    {
      "epoch": 0.055711111111111114,
      "grad_norm": 1.2478203773498535,
      "learning_rate": 0.0001888997555012225,
      "loss": 2.4129,
      "step": 2507
    },
    {
      "epoch": 0.055733333333333336,
      "grad_norm": 1.231635570526123,
      "learning_rate": 0.00018889531006890421,
      "loss": 1.8812,
      "step": 2508
    },
    {
      "epoch": 0.05575555555555556,
      "grad_norm": 1.1915603876113892,
      "learning_rate": 0.00018889086463658592,
      "loss": 2.1337,
      "step": 2509
    },
    {
      "epoch": 0.05577777777777778,
      "grad_norm": 1.236119270324707,
      "learning_rate": 0.0001888864192042676,
      "loss": 2.4318,
      "step": 2510
    },
    {
      "epoch": 0.0558,
      "grad_norm": 1.2447643280029297,
      "learning_rate": 0.00018888197377194934,
      "loss": 2.0202,
      "step": 2511
    },
    {
      "epoch": 0.055822222222222224,
      "grad_norm": 1.2412337064743042,
      "learning_rate": 0.00018887752833963103,
      "loss": 1.8919,
      "step": 2512
    },
    {
      "epoch": 0.05584444444444445,
      "grad_norm": 1.2132288217544556,
      "learning_rate": 0.00018887308290731273,
      "loss": 1.6845,
      "step": 2513
    },
    {
      "epoch": 0.05586666666666667,
      "grad_norm": 0.9563615918159485,
      "learning_rate": 0.00018886863747499447,
      "loss": 1.2756,
      "step": 2514
    },
    {
      "epoch": 0.05588888888888889,
      "grad_norm": 1.4900014400482178,
      "learning_rate": 0.00018886419204267615,
      "loss": 2.0221,
      "step": 2515
    },
    {
      "epoch": 0.05591111111111111,
      "grad_norm": 1.4225016832351685,
      "learning_rate": 0.00018885974661035786,
      "loss": 2.4016,
      "step": 2516
    },
    {
      "epoch": 0.055933333333333335,
      "grad_norm": 1.2294126749038696,
      "learning_rate": 0.00018885530117803957,
      "loss": 2.046,
      "step": 2517
    },
    {
      "epoch": 0.05595555555555556,
      "grad_norm": 0.9636179804801941,
      "learning_rate": 0.00018885085574572128,
      "loss": 1.3756,
      "step": 2518
    },
    {
      "epoch": 0.05597777777777778,
      "grad_norm": 1.2330832481384277,
      "learning_rate": 0.00018884641031340297,
      "loss": 1.9757,
      "step": 2519
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.3391579389572144,
      "learning_rate": 0.0001888419648810847,
      "loss": 1.9916,
      "step": 2520
    },
    {
      "epoch": 0.05602222222222222,
      "grad_norm": 1.2452796697616577,
      "learning_rate": 0.00018883751944876638,
      "loss": 2.2848,
      "step": 2521
    },
    {
      "epoch": 0.056044444444444445,
      "grad_norm": 1.3527039289474487,
      "learning_rate": 0.00018883307401644812,
      "loss": 2.2526,
      "step": 2522
    },
    {
      "epoch": 0.05606666666666667,
      "grad_norm": 1.3589142560958862,
      "learning_rate": 0.00018882862858412983,
      "loss": 2.0975,
      "step": 2523
    },
    {
      "epoch": 0.05608888888888889,
      "grad_norm": 1.259299397468567,
      "learning_rate": 0.0001888241831518115,
      "loss": 2.0097,
      "step": 2524
    },
    {
      "epoch": 0.05611111111111111,
      "grad_norm": 1.4315937757492065,
      "learning_rate": 0.00018881973771949325,
      "loss": 1.7777,
      "step": 2525
    },
    {
      "epoch": 0.056133333333333334,
      "grad_norm": 1.1376361846923828,
      "learning_rate": 0.00018881529228717493,
      "loss": 2.2056,
      "step": 2526
    },
    {
      "epoch": 0.056155555555555556,
      "grad_norm": 0.8034170269966125,
      "learning_rate": 0.00018881084685485664,
      "loss": 0.7347,
      "step": 2527
    },
    {
      "epoch": 0.05617777777777778,
      "grad_norm": 1.4560273885726929,
      "learning_rate": 0.00018880640142253835,
      "loss": 2.2216,
      "step": 2528
    },
    {
      "epoch": 0.0562,
      "grad_norm": 1.181087613105774,
      "learning_rate": 0.00018880195599022006,
      "loss": 1.8212,
      "step": 2529
    },
    {
      "epoch": 0.05622222222222222,
      "grad_norm": 0.8451790809631348,
      "learning_rate": 0.00018879751055790177,
      "loss": 0.7923,
      "step": 2530
    },
    {
      "epoch": 0.056244444444444444,
      "grad_norm": 1.3709419965744019,
      "learning_rate": 0.00018879306512558348,
      "loss": 2.2324,
      "step": 2531
    },
    {
      "epoch": 0.056266666666666666,
      "grad_norm": 1.372127890586853,
      "learning_rate": 0.0001887886196932652,
      "loss": 2.0432,
      "step": 2532
    },
    {
      "epoch": 0.05628888888888889,
      "grad_norm": 1.4520469903945923,
      "learning_rate": 0.00018878417426094687,
      "loss": 2.358,
      "step": 2533
    },
    {
      "epoch": 0.05631111111111111,
      "grad_norm": 1.3024083375930786,
      "learning_rate": 0.0001887797288286286,
      "loss": 2.4057,
      "step": 2534
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 1.2385015487670898,
      "learning_rate": 0.0001887752833963103,
      "loss": 1.9186,
      "step": 2535
    },
    {
      "epoch": 0.056355555555555555,
      "grad_norm": 1.5507334470748901,
      "learning_rate": 0.000188770837963992,
      "loss": 2.2698,
      "step": 2536
    },
    {
      "epoch": 0.05637777777777778,
      "grad_norm": 1.4196962118148804,
      "learning_rate": 0.0001887663925316737,
      "loss": 1.8153,
      "step": 2537
    },
    {
      "epoch": 0.0564,
      "grad_norm": 1.2866084575653076,
      "learning_rate": 0.00018876194709935542,
      "loss": 2.0998,
      "step": 2538
    },
    {
      "epoch": 0.05642222222222222,
      "grad_norm": 1.331620454788208,
      "learning_rate": 0.00018875750166703713,
      "loss": 1.8027,
      "step": 2539
    },
    {
      "epoch": 0.05644444444444444,
      "grad_norm": 1.1863762140274048,
      "learning_rate": 0.00018875305623471884,
      "loss": 1.8618,
      "step": 2540
    },
    {
      "epoch": 0.056466666666666665,
      "grad_norm": 1.1917874813079834,
      "learning_rate": 0.00018874861080240055,
      "loss": 1.776,
      "step": 2541
    },
    {
      "epoch": 0.05648888888888889,
      "grad_norm": 1.3376266956329346,
      "learning_rate": 0.00018874416537008226,
      "loss": 2.1375,
      "step": 2542
    },
    {
      "epoch": 0.05651111111111111,
      "grad_norm": 1.483438491821289,
      "learning_rate": 0.00018873971993776397,
      "loss": 2.0117,
      "step": 2543
    },
    {
      "epoch": 0.05653333333333333,
      "grad_norm": 1.204397439956665,
      "learning_rate": 0.00018873527450544565,
      "loss": 1.9788,
      "step": 2544
    },
    {
      "epoch": 0.05655555555555555,
      "grad_norm": 1.2496213912963867,
      "learning_rate": 0.0001887308290731274,
      "loss": 1.6697,
      "step": 2545
    },
    {
      "epoch": 0.056577777777777775,
      "grad_norm": 1.2381025552749634,
      "learning_rate": 0.00018872638364080907,
      "loss": 1.9932,
      "step": 2546
    },
    {
      "epoch": 0.0566,
      "grad_norm": 0.9621703624725342,
      "learning_rate": 0.00018872193820849078,
      "loss": 1.0976,
      "step": 2547
    },
    {
      "epoch": 0.05662222222222222,
      "grad_norm": 1.4206795692443848,
      "learning_rate": 0.0001887174927761725,
      "loss": 2.4123,
      "step": 2548
    },
    {
      "epoch": 0.05664444444444444,
      "grad_norm": 1.7977161407470703,
      "learning_rate": 0.0001887130473438542,
      "loss": 2.0407,
      "step": 2549
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 1.200404167175293,
      "learning_rate": 0.0001887086019115359,
      "loss": 0.7282,
      "step": 2550
    },
    {
      "epoch": 0.056688888888888886,
      "grad_norm": 1.2886850833892822,
      "learning_rate": 0.00018870415647921762,
      "loss": 2.8743,
      "step": 2551
    },
    {
      "epoch": 0.05671111111111111,
      "grad_norm": 1.3046247959136963,
      "learning_rate": 0.00018869971104689933,
      "loss": 2.721,
      "step": 2552
    },
    {
      "epoch": 0.05673333333333333,
      "grad_norm": 0.9942330718040466,
      "learning_rate": 0.000188695265614581,
      "loss": 2.8455,
      "step": 2553
    },
    {
      "epoch": 0.05675555555555555,
      "grad_norm": 1.0440577268600464,
      "learning_rate": 0.00018869082018226275,
      "loss": 2.2894,
      "step": 2554
    },
    {
      "epoch": 0.05677777777777778,
      "grad_norm": 1.0470658540725708,
      "learning_rate": 0.00018868637474994443,
      "loss": 2.5528,
      "step": 2555
    },
    {
      "epoch": 0.0568,
      "grad_norm": 1.0190290212631226,
      "learning_rate": 0.00018868192931762614,
      "loss": 2.4568,
      "step": 2556
    },
    {
      "epoch": 0.056822222222222225,
      "grad_norm": 1.4050205945968628,
      "learning_rate": 0.00018867748388530785,
      "loss": 2.1209,
      "step": 2557
    },
    {
      "epoch": 0.05684444444444445,
      "grad_norm": 1.1558541059494019,
      "learning_rate": 0.00018867303845298956,
      "loss": 2.3952,
      "step": 2558
    },
    {
      "epoch": 0.05686666666666667,
      "grad_norm": 1.1200963258743286,
      "learning_rate": 0.00018866859302067127,
      "loss": 2.0985,
      "step": 2559
    },
    {
      "epoch": 0.05688888888888889,
      "grad_norm": 1.091135025024414,
      "learning_rate": 0.00018866414758835298,
      "loss": 1.8624,
      "step": 2560
    },
    {
      "epoch": 0.056911111111111114,
      "grad_norm": 1.581621527671814,
      "learning_rate": 0.0001886597021560347,
      "loss": 3.2137,
      "step": 2561
    },
    {
      "epoch": 0.056933333333333336,
      "grad_norm": 1.1373692750930786,
      "learning_rate": 0.0001886552567237164,
      "loss": 1.992,
      "step": 2562
    },
    {
      "epoch": 0.05695555555555556,
      "grad_norm": 1.4724087715148926,
      "learning_rate": 0.0001886508112913981,
      "loss": 2.0838,
      "step": 2563
    },
    {
      "epoch": 0.05697777777777778,
      "grad_norm": 1.3630752563476562,
      "learning_rate": 0.0001886463658590798,
      "loss": 1.7094,
      "step": 2564
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.2479501962661743,
      "learning_rate": 0.00018864192042676153,
      "loss": 2.1034,
      "step": 2565
    },
    {
      "epoch": 0.057022222222222224,
      "grad_norm": 1.1085615158081055,
      "learning_rate": 0.0001886374749944432,
      "loss": 1.8555,
      "step": 2566
    },
    {
      "epoch": 0.057044444444444446,
      "grad_norm": 1.1923258304595947,
      "learning_rate": 0.00018863302956212492,
      "loss": 1.9177,
      "step": 2567
    },
    {
      "epoch": 0.05706666666666667,
      "grad_norm": 1.0570402145385742,
      "learning_rate": 0.00018862858412980663,
      "loss": 1.6675,
      "step": 2568
    },
    {
      "epoch": 0.05708888888888889,
      "grad_norm": 1.3930308818817139,
      "learning_rate": 0.00018862413869748834,
      "loss": 2.0568,
      "step": 2569
    },
    {
      "epoch": 0.05711111111111111,
      "grad_norm": 1.2459723949432373,
      "learning_rate": 0.00018861969326517005,
      "loss": 2.5248,
      "step": 2570
    },
    {
      "epoch": 0.057133333333333335,
      "grad_norm": 1.4689371585845947,
      "learning_rate": 0.00018861524783285176,
      "loss": 1.9445,
      "step": 2571
    },
    {
      "epoch": 0.05715555555555556,
      "grad_norm": 1.2268513441085815,
      "learning_rate": 0.00018861080240053347,
      "loss": 2.1856,
      "step": 2572
    },
    {
      "epoch": 0.05717777777777778,
      "grad_norm": 1.2996394634246826,
      "learning_rate": 0.00018860635696821515,
      "loss": 2.4146,
      "step": 2573
    },
    {
      "epoch": 0.0572,
      "grad_norm": 1.3084443807601929,
      "learning_rate": 0.00018860191153589689,
      "loss": 2.2153,
      "step": 2574
    },
    {
      "epoch": 0.05722222222222222,
      "grad_norm": 1.2762608528137207,
      "learning_rate": 0.00018859746610357857,
      "loss": 2.0201,
      "step": 2575
    },
    {
      "epoch": 0.057244444444444445,
      "grad_norm": 1.3511669635772705,
      "learning_rate": 0.00018859302067126028,
      "loss": 1.9618,
      "step": 2576
    },
    {
      "epoch": 0.05726666666666667,
      "grad_norm": 1.2813236713409424,
      "learning_rate": 0.000188588575238942,
      "loss": 1.7119,
      "step": 2577
    },
    {
      "epoch": 0.05728888888888889,
      "grad_norm": 1.080528736114502,
      "learning_rate": 0.0001885841298066237,
      "loss": 1.4051,
      "step": 2578
    },
    {
      "epoch": 0.05731111111111111,
      "grad_norm": 1.3457008600234985,
      "learning_rate": 0.00018857968437430543,
      "loss": 1.9014,
      "step": 2579
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 1.1213107109069824,
      "learning_rate": 0.00018857523894198712,
      "loss": 1.9722,
      "step": 2580
    },
    {
      "epoch": 0.057355555555555555,
      "grad_norm": 1.2997187376022339,
      "learning_rate": 0.00018857079350966883,
      "loss": 2.1289,
      "step": 2581
    },
    {
      "epoch": 0.05737777777777778,
      "grad_norm": 1.1378041505813599,
      "learning_rate": 0.00018856634807735054,
      "loss": 1.8117,
      "step": 2582
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.3709129095077515,
      "learning_rate": 0.00018856190264503225,
      "loss": 2.0827,
      "step": 2583
    },
    {
      "epoch": 0.05742222222222222,
      "grad_norm": 1.2919036149978638,
      "learning_rate": 0.00018855745721271393,
      "loss": 2.0347,
      "step": 2584
    },
    {
      "epoch": 0.057444444444444444,
      "grad_norm": 1.0655790567398071,
      "learning_rate": 0.00018855301178039566,
      "loss": 1.7323,
      "step": 2585
    },
    {
      "epoch": 0.057466666666666666,
      "grad_norm": 1.2686959505081177,
      "learning_rate": 0.00018854856634807735,
      "loss": 1.7882,
      "step": 2586
    },
    {
      "epoch": 0.05748888888888889,
      "grad_norm": 1.206129789352417,
      "learning_rate": 0.00018854412091575906,
      "loss": 1.6563,
      "step": 2587
    },
    {
      "epoch": 0.05751111111111111,
      "grad_norm": 1.3334760665893555,
      "learning_rate": 0.0001885396754834408,
      "loss": 1.8783,
      "step": 2588
    },
    {
      "epoch": 0.05753333333333333,
      "grad_norm": 1.4101591110229492,
      "learning_rate": 0.00018853523005112248,
      "loss": 1.9708,
      "step": 2589
    },
    {
      "epoch": 0.057555555555555554,
      "grad_norm": 1.1265485286712646,
      "learning_rate": 0.00018853078461880419,
      "loss": 1.5324,
      "step": 2590
    },
    {
      "epoch": 0.057577777777777776,
      "grad_norm": 1.4062831401824951,
      "learning_rate": 0.0001885263391864859,
      "loss": 1.9158,
      "step": 2591
    },
    {
      "epoch": 0.0576,
      "grad_norm": 1.3258615732192993,
      "learning_rate": 0.0001885218937541676,
      "loss": 1.8876,
      "step": 2592
    },
    {
      "epoch": 0.05762222222222222,
      "grad_norm": 1.366902470588684,
      "learning_rate": 0.0001885174483218493,
      "loss": 2.2955,
      "step": 2593
    },
    {
      "epoch": 0.05764444444444444,
      "grad_norm": 1.2706516981124878,
      "learning_rate": 0.00018851300288953102,
      "loss": 1.6714,
      "step": 2594
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 1.4717543125152588,
      "learning_rate": 0.0001885085574572127,
      "loss": 1.9276,
      "step": 2595
    },
    {
      "epoch": 0.05768888888888889,
      "grad_norm": 1.4014904499053955,
      "learning_rate": 0.00018850411202489442,
      "loss": 1.5478,
      "step": 2596
    },
    {
      "epoch": 0.05771111111111111,
      "grad_norm": 1.5884499549865723,
      "learning_rate": 0.00018849966659257615,
      "loss": 2.1932,
      "step": 2597
    },
    {
      "epoch": 0.05773333333333333,
      "grad_norm": 1.4640851020812988,
      "learning_rate": 0.00018849522116025784,
      "loss": 2.0769,
      "step": 2598
    },
    {
      "epoch": 0.05775555555555555,
      "grad_norm": 1.5820749998092651,
      "learning_rate": 0.00018849077572793957,
      "loss": 1.3225,
      "step": 2599
    },
    {
      "epoch": 0.057777777777777775,
      "grad_norm": 1.4387468099594116,
      "learning_rate": 0.00018848633029562125,
      "loss": 1.466,
      "step": 2600
    },
    {
      "epoch": 0.0578,
      "grad_norm": 1.301875352859497,
      "learning_rate": 0.00018848188486330296,
      "loss": 1.2375,
      "step": 2601
    },
    {
      "epoch": 0.05782222222222222,
      "grad_norm": 0.9710614681243896,
      "learning_rate": 0.00018847743943098467,
      "loss": 2.1691,
      "step": 2602
    },
    {
      "epoch": 0.05784444444444444,
      "grad_norm": 1.0692071914672852,
      "learning_rate": 0.00018847299399866638,
      "loss": 2.5301,
      "step": 2603
    },
    {
      "epoch": 0.057866666666666663,
      "grad_norm": 1.162587285041809,
      "learning_rate": 0.0001884685485663481,
      "loss": 2.226,
      "step": 2604
    },
    {
      "epoch": 0.057888888888888886,
      "grad_norm": 1.0870006084442139,
      "learning_rate": 0.0001884641031340298,
      "loss": 2.213,
      "step": 2605
    },
    {
      "epoch": 0.05791111111111111,
      "grad_norm": 1.3487595319747925,
      "learning_rate": 0.0001884596577017115,
      "loss": 2.5889,
      "step": 2606
    },
    {
      "epoch": 0.05793333333333334,
      "grad_norm": 1.0310118198394775,
      "learning_rate": 0.0001884552122693932,
      "loss": 2.2075,
      "step": 2607
    },
    {
      "epoch": 0.05795555555555556,
      "grad_norm": 1.3258577585220337,
      "learning_rate": 0.00018845076683707493,
      "loss": 2.1978,
      "step": 2608
    },
    {
      "epoch": 0.05797777777777778,
      "grad_norm": 1.0879091024398804,
      "learning_rate": 0.00018844632140475661,
      "loss": 2.3445,
      "step": 2609
    },
    {
      "epoch": 0.058,
      "grad_norm": 1.086910367012024,
      "learning_rate": 0.00018844187597243832,
      "loss": 2.0279,
      "step": 2610
    },
    {
      "epoch": 0.058022222222222225,
      "grad_norm": 1.0693237781524658,
      "learning_rate": 0.00018843743054012003,
      "loss": 2.1559,
      "step": 2611
    },
    {
      "epoch": 0.05804444444444445,
      "grad_norm": 1.2452982664108276,
      "learning_rate": 0.00018843298510780174,
      "loss": 2.185,
      "step": 2612
    },
    {
      "epoch": 0.05806666666666667,
      "grad_norm": 1.248547911643982,
      "learning_rate": 0.00018842853967548345,
      "loss": 2.489,
      "step": 2613
    },
    {
      "epoch": 0.05808888888888889,
      "grad_norm": 1.2178386449813843,
      "learning_rate": 0.00018842409424316516,
      "loss": 1.9774,
      "step": 2614
    },
    {
      "epoch": 0.05811111111111111,
      "grad_norm": 1.3870599269866943,
      "learning_rate": 0.00018841964881084687,
      "loss": 2.0721,
      "step": 2615
    },
    {
      "epoch": 0.058133333333333335,
      "grad_norm": 1.3151402473449707,
      "learning_rate": 0.00018841520337852858,
      "loss": 1.9932,
      "step": 2616
    },
    {
      "epoch": 0.05815555555555556,
      "grad_norm": 1.1721808910369873,
      "learning_rate": 0.0001884107579462103,
      "loss": 1.9445,
      "step": 2617
    },
    {
      "epoch": 0.05817777777777778,
      "grad_norm": 1.2163183689117432,
      "learning_rate": 0.00018840631251389197,
      "loss": 2.0455,
      "step": 2618
    },
    {
      "epoch": 0.0582,
      "grad_norm": 1.1210755109786987,
      "learning_rate": 0.0001884018670815737,
      "loss": 2.0786,
      "step": 2619
    },
    {
      "epoch": 0.058222222222222224,
      "grad_norm": 1.2193481922149658,
      "learning_rate": 0.0001883974216492554,
      "loss": 2.1058,
      "step": 2620
    },
    {
      "epoch": 0.058244444444444446,
      "grad_norm": 1.35350501537323,
      "learning_rate": 0.0001883929762169371,
      "loss": 2.4217,
      "step": 2621
    },
    {
      "epoch": 0.05826666666666667,
      "grad_norm": 1.2459526062011719,
      "learning_rate": 0.0001883885307846188,
      "loss": 1.9837,
      "step": 2622
    },
    {
      "epoch": 0.05828888888888889,
      "grad_norm": 1.4048715829849243,
      "learning_rate": 0.00018838408535230052,
      "loss": 2.0499,
      "step": 2623
    },
    {
      "epoch": 0.05831111111111111,
      "grad_norm": 1.2909272909164429,
      "learning_rate": 0.00018837963991998223,
      "loss": 2.4974,
      "step": 2624
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 1.3306478261947632,
      "learning_rate": 0.00018837519448766394,
      "loss": 2.0874,
      "step": 2625
    },
    {
      "epoch": 0.058355555555555556,
      "grad_norm": 1.4970335960388184,
      "learning_rate": 0.00018837074905534565,
      "loss": 2.4613,
      "step": 2626
    },
    {
      "epoch": 0.05837777777777778,
      "grad_norm": 1.0698506832122803,
      "learning_rate": 0.00018836630362302733,
      "loss": 0.9444,
      "step": 2627
    },
    {
      "epoch": 0.0584,
      "grad_norm": 0.9456402659416199,
      "learning_rate": 0.00018836185819070907,
      "loss": 0.8056,
      "step": 2628
    },
    {
      "epoch": 0.05842222222222222,
      "grad_norm": 1.119666576385498,
      "learning_rate": 0.00018835741275839075,
      "loss": 1.778,
      "step": 2629
    },
    {
      "epoch": 0.058444444444444445,
      "grad_norm": 1.1170711517333984,
      "learning_rate": 0.00018835296732607246,
      "loss": 1.6577,
      "step": 2630
    },
    {
      "epoch": 0.05846666666666667,
      "grad_norm": 1.4737907648086548,
      "learning_rate": 0.00018834852189375417,
      "loss": 2.0255,
      "step": 2631
    },
    {
      "epoch": 0.05848888888888889,
      "grad_norm": 0.8024235367774963,
      "learning_rate": 0.00018834407646143588,
      "loss": 0.042,
      "step": 2632
    },
    {
      "epoch": 0.05851111111111111,
      "grad_norm": 0.9196134209632874,
      "learning_rate": 0.0001883396310291176,
      "loss": 1.1848,
      "step": 2633
    },
    {
      "epoch": 0.05853333333333333,
      "grad_norm": 1.2150448560714722,
      "learning_rate": 0.0001883351855967993,
      "loss": 2.0621,
      "step": 2634
    },
    {
      "epoch": 0.058555555555555555,
      "grad_norm": 1.2711851596832275,
      "learning_rate": 0.000188330740164481,
      "loss": 2.3663,
      "step": 2635
    },
    {
      "epoch": 0.05857777777777778,
      "grad_norm": 1.1945533752441406,
      "learning_rate": 0.00018832629473216272,
      "loss": 1.9482,
      "step": 2636
    },
    {
      "epoch": 0.0586,
      "grad_norm": 1.3538880348205566,
      "learning_rate": 0.00018832184929984443,
      "loss": 2.0037,
      "step": 2637
    },
    {
      "epoch": 0.05862222222222222,
      "grad_norm": 1.2996848821640015,
      "learning_rate": 0.0001883174038675261,
      "loss": 1.845,
      "step": 2638
    },
    {
      "epoch": 0.058644444444444443,
      "grad_norm": 1.2119286060333252,
      "learning_rate": 0.00018831295843520785,
      "loss": 1.9236,
      "step": 2639
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 1.4044220447540283,
      "learning_rate": 0.00018830851300288953,
      "loss": 1.7563,
      "step": 2640
    },
    {
      "epoch": 0.05868888888888889,
      "grad_norm": 1.4642359018325806,
      "learning_rate": 0.00018830406757057124,
      "loss": 2.1331,
      "step": 2641
    },
    {
      "epoch": 0.05871111111111111,
      "grad_norm": 1.6892962455749512,
      "learning_rate": 0.00018829962213825295,
      "loss": 2.2671,
      "step": 2642
    },
    {
      "epoch": 0.05873333333333333,
      "grad_norm": 1.24393630027771,
      "learning_rate": 0.00018829517670593466,
      "loss": 2.1696,
      "step": 2643
    },
    {
      "epoch": 0.058755555555555554,
      "grad_norm": 1.2664800882339478,
      "learning_rate": 0.00018829073127361637,
      "loss": 1.893,
      "step": 2644
    },
    {
      "epoch": 0.058777777777777776,
      "grad_norm": 1.2955024242401123,
      "learning_rate": 0.00018828628584129808,
      "loss": 1.7497,
      "step": 2645
    },
    {
      "epoch": 0.0588,
      "grad_norm": 1.2515419721603394,
      "learning_rate": 0.0001882818404089798,
      "loss": 1.8957,
      "step": 2646
    },
    {
      "epoch": 0.05882222222222222,
      "grad_norm": 1.1638329029083252,
      "learning_rate": 0.00018827739497666147,
      "loss": 1.8699,
      "step": 2647
    },
    {
      "epoch": 0.05884444444444444,
      "grad_norm": 1.2965670824050903,
      "learning_rate": 0.0001882729495443432,
      "loss": 1.9793,
      "step": 2648
    },
    {
      "epoch": 0.058866666666666664,
      "grad_norm": 1.412473201751709,
      "learning_rate": 0.0001882685041120249,
      "loss": 1.4989,
      "step": 2649
    },
    {
      "epoch": 0.058888888888888886,
      "grad_norm": 1.6263394355773926,
      "learning_rate": 0.0001882640586797066,
      "loss": 1.9482,
      "step": 2650
    },
    {
      "epoch": 0.05891111111111111,
      "grad_norm": 0.9874531030654907,
      "learning_rate": 0.0001882596132473883,
      "loss": 1.5364,
      "step": 2651
    },
    {
      "epoch": 0.05893333333333333,
      "grad_norm": 1.2294578552246094,
      "learning_rate": 0.00018825516781507002,
      "loss": 2.4627,
      "step": 2652
    },
    {
      "epoch": 0.05895555555555555,
      "grad_norm": 1.0111150741577148,
      "learning_rate": 0.00018825072238275173,
      "loss": 2.3569,
      "step": 2653
    },
    {
      "epoch": 0.058977777777777775,
      "grad_norm": 0.9751931428909302,
      "learning_rate": 0.00018824627695043344,
      "loss": 2.2913,
      "step": 2654
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.8416575193405151,
      "learning_rate": 0.00018824183151811515,
      "loss": 1.6153,
      "step": 2655
    },
    {
      "epoch": 0.05902222222222222,
      "grad_norm": 0.7639715075492859,
      "learning_rate": 0.00018823738608579686,
      "loss": 1.125,
      "step": 2656
    },
    {
      "epoch": 0.05904444444444444,
      "grad_norm": 1.108520746231079,
      "learning_rate": 0.00018823294065347857,
      "loss": 2.386,
      "step": 2657
    },
    {
      "epoch": 0.05906666666666667,
      "grad_norm": 1.0963854789733887,
      "learning_rate": 0.00018822849522116025,
      "loss": 2.1329,
      "step": 2658
    },
    {
      "epoch": 0.05908888888888889,
      "grad_norm": 1.2453919649124146,
      "learning_rate": 0.000188224049788842,
      "loss": 2.0869,
      "step": 2659
    },
    {
      "epoch": 0.059111111111111114,
      "grad_norm": 1.2493356466293335,
      "learning_rate": 0.00018821960435652367,
      "loss": 2.2241,
      "step": 2660
    },
    {
      "epoch": 0.059133333333333336,
      "grad_norm": 1.305132269859314,
      "learning_rate": 0.00018821515892420538,
      "loss": 2.146,
      "step": 2661
    },
    {
      "epoch": 0.05915555555555556,
      "grad_norm": 1.0485801696777344,
      "learning_rate": 0.00018821071349188712,
      "loss": 2.2145,
      "step": 2662
    },
    {
      "epoch": 0.05917777777777778,
      "grad_norm": 1.009095549583435,
      "learning_rate": 0.0001882062680595688,
      "loss": 2.0429,
      "step": 2663
    },
    {
      "epoch": 0.0592,
      "grad_norm": 1.1831285953521729,
      "learning_rate": 0.0001882018226272505,
      "loss": 2.0539,
      "step": 2664
    },
    {
      "epoch": 0.059222222222222225,
      "grad_norm": 1.1024904251098633,
      "learning_rate": 0.00018819737719493222,
      "loss": 1.4612,
      "step": 2665
    },
    {
      "epoch": 0.05924444444444445,
      "grad_norm": 1.5028462409973145,
      "learning_rate": 0.00018819293176261393,
      "loss": 2.0494,
      "step": 2666
    },
    {
      "epoch": 0.05926666666666667,
      "grad_norm": 1.0544180870056152,
      "learning_rate": 0.0001881884863302956,
      "loss": 1.8696,
      "step": 2667
    },
    {
      "epoch": 0.05928888888888889,
      "grad_norm": 1.3514580726623535,
      "learning_rate": 0.00018818404089797735,
      "loss": 2.3341,
      "step": 2668
    },
    {
      "epoch": 0.05931111111111111,
      "grad_norm": 1.277117371559143,
      "learning_rate": 0.00018817959546565903,
      "loss": 2.0593,
      "step": 2669
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 1.2876468896865845,
      "learning_rate": 0.00018817515003334074,
      "loss": 1.8874,
      "step": 2670
    },
    {
      "epoch": 0.05935555555555556,
      "grad_norm": 1.3006914854049683,
      "learning_rate": 0.00018817070460102248,
      "loss": 2.2106,
      "step": 2671
    },
    {
      "epoch": 0.05937777777777778,
      "grad_norm": 1.1542984247207642,
      "learning_rate": 0.00018816625916870416,
      "loss": 2.1074,
      "step": 2672
    },
    {
      "epoch": 0.0594,
      "grad_norm": 1.2653757333755493,
      "learning_rate": 0.0001881618137363859,
      "loss": 2.1737,
      "step": 2673
    },
    {
      "epoch": 0.059422222222222223,
      "grad_norm": 1.3577500581741333,
      "learning_rate": 0.00018815736830406758,
      "loss": 2.1686,
      "step": 2674
    },
    {
      "epoch": 0.059444444444444446,
      "grad_norm": 1.3510795831680298,
      "learning_rate": 0.0001881529228717493,
      "loss": 1.8249,
      "step": 2675
    },
    {
      "epoch": 0.05946666666666667,
      "grad_norm": 1.200465202331543,
      "learning_rate": 0.000188148477439431,
      "loss": 2.2109,
      "step": 2676
    },
    {
      "epoch": 0.05948888888888889,
      "grad_norm": 1.402846336364746,
      "learning_rate": 0.0001881440320071127,
      "loss": 2.086,
      "step": 2677
    },
    {
      "epoch": 0.05951111111111111,
      "grad_norm": 1.175559639930725,
      "learning_rate": 0.00018813958657479442,
      "loss": 2.0767,
      "step": 2678
    },
    {
      "epoch": 0.059533333333333334,
      "grad_norm": 1.5343458652496338,
      "learning_rate": 0.00018813514114247612,
      "loss": 2.2539,
      "step": 2679
    },
    {
      "epoch": 0.059555555555555556,
      "grad_norm": 1.3648189306259155,
      "learning_rate": 0.00018813069571015783,
      "loss": 1.8885,
      "step": 2680
    },
    {
      "epoch": 0.05957777777777778,
      "grad_norm": 1.2665992975234985,
      "learning_rate": 0.00018812625027783952,
      "loss": 1.9425,
      "step": 2681
    },
    {
      "epoch": 0.0596,
      "grad_norm": 1.395418643951416,
      "learning_rate": 0.00018812180484552125,
      "loss": 2.1067,
      "step": 2682
    },
    {
      "epoch": 0.05962222222222222,
      "grad_norm": 1.5796053409576416,
      "learning_rate": 0.00018811735941320294,
      "loss": 2.3931,
      "step": 2683
    },
    {
      "epoch": 0.059644444444444444,
      "grad_norm": 1.4654911756515503,
      "learning_rate": 0.00018811291398088465,
      "loss": 1.7199,
      "step": 2684
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 1.3232920169830322,
      "learning_rate": 0.00018810846854856636,
      "loss": 1.835,
      "step": 2685
    },
    {
      "epoch": 0.05968888888888889,
      "grad_norm": 1.433729648590088,
      "learning_rate": 0.00018810402311624807,
      "loss": 1.8563,
      "step": 2686
    },
    {
      "epoch": 0.05971111111111111,
      "grad_norm": 1.12021005153656,
      "learning_rate": 0.00018809957768392977,
      "loss": 1.7091,
      "step": 2687
    },
    {
      "epoch": 0.05973333333333333,
      "grad_norm": 1.5535043478012085,
      "learning_rate": 0.00018809513225161148,
      "loss": 1.6059,
      "step": 2688
    },
    {
      "epoch": 0.059755555555555555,
      "grad_norm": 1.2253813743591309,
      "learning_rate": 0.0001880906868192932,
      "loss": 1.7265,
      "step": 2689
    },
    {
      "epoch": 0.05977777777777778,
      "grad_norm": 1.642404317855835,
      "learning_rate": 0.00018808624138697488,
      "loss": 1.9222,
      "step": 2690
    },
    {
      "epoch": 0.0598,
      "grad_norm": 1.5431791543960571,
      "learning_rate": 0.0001880817959546566,
      "loss": 2.1426,
      "step": 2691
    },
    {
      "epoch": 0.05982222222222222,
      "grad_norm": 1.9136180877685547,
      "learning_rate": 0.0001880773505223383,
      "loss": 1.9685,
      "step": 2692
    },
    {
      "epoch": 0.05984444444444444,
      "grad_norm": 1.5058226585388184,
      "learning_rate": 0.00018807290509002003,
      "loss": 2.2879,
      "step": 2693
    },
    {
      "epoch": 0.059866666666666665,
      "grad_norm": 1.3893123865127563,
      "learning_rate": 0.00018806845965770172,
      "loss": 1.5688,
      "step": 2694
    },
    {
      "epoch": 0.05988888888888889,
      "grad_norm": 1.2570210695266724,
      "learning_rate": 0.00018806401422538342,
      "loss": 1.6843,
      "step": 2695
    },
    {
      "epoch": 0.05991111111111111,
      "grad_norm": 1.3790135383605957,
      "learning_rate": 0.00018805956879306513,
      "loss": 1.9682,
      "step": 2696
    },
    {
      "epoch": 0.05993333333333333,
      "grad_norm": 1.2676455974578857,
      "learning_rate": 0.00018805512336074684,
      "loss": 1.82,
      "step": 2697
    },
    {
      "epoch": 0.059955555555555554,
      "grad_norm": 1.3469589948654175,
      "learning_rate": 0.00018805067792842855,
      "loss": 1.9467,
      "step": 2698
    },
    {
      "epoch": 0.059977777777777776,
      "grad_norm": 1.5633183717727661,
      "learning_rate": 0.00018804623249611026,
      "loss": 1.7995,
      "step": 2699
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.041155219078064,
      "learning_rate": 0.00018804178706379197,
      "loss": 0.8966,
      "step": 2700
    },
    {
      "epoch": 0.06002222222222222,
      "grad_norm": 1.1135330200195312,
      "learning_rate": 0.00018803734163147366,
      "loss": 3.031,
      "step": 2701
    },
    {
      "epoch": 0.06004444444444444,
      "grad_norm": 1.0869230031967163,
      "learning_rate": 0.0001880328961991554,
      "loss": 2.6311,
      "step": 2702
    },
    {
      "epoch": 0.060066666666666664,
      "grad_norm": 1.550600290298462,
      "learning_rate": 0.00018802845076683707,
      "loss": 0.0537,
      "step": 2703
    },
    {
      "epoch": 0.060088888888888886,
      "grad_norm": 1.0058884620666504,
      "learning_rate": 0.00018802400533451878,
      "loss": 2.2598,
      "step": 2704
    },
    {
      "epoch": 0.06011111111111111,
      "grad_norm": 1.100688099861145,
      "learning_rate": 0.0001880195599022005,
      "loss": 2.4148,
      "step": 2705
    },
    {
      "epoch": 0.06013333333333333,
      "grad_norm": 1.2154396772384644,
      "learning_rate": 0.0001880151144698822,
      "loss": 2.0538,
      "step": 2706
    },
    {
      "epoch": 0.06015555555555555,
      "grad_norm": 1.4567221403121948,
      "learning_rate": 0.0001880106690375639,
      "loss": 2.2234,
      "step": 2707
    },
    {
      "epoch": 0.060177777777777774,
      "grad_norm": 1.0870659351348877,
      "learning_rate": 0.00018800622360524562,
      "loss": 2.2513,
      "step": 2708
    },
    {
      "epoch": 0.0602,
      "grad_norm": 1.1207247972488403,
      "learning_rate": 0.00018800177817292733,
      "loss": 2.1935,
      "step": 2709
    },
    {
      "epoch": 0.060222222222222226,
      "grad_norm": 1.1757601499557495,
      "learning_rate": 0.00018799733274060901,
      "loss": 2.0448,
      "step": 2710
    },
    {
      "epoch": 0.06024444444444445,
      "grad_norm": 1.1902306079864502,
      "learning_rate": 0.00018799288730829075,
      "loss": 2.0958,
      "step": 2711
    },
    {
      "epoch": 0.06026666666666667,
      "grad_norm": 1.323156476020813,
      "learning_rate": 0.00018798844187597243,
      "loss": 2.2326,
      "step": 2712
    },
    {
      "epoch": 0.06028888888888889,
      "grad_norm": 1.3958797454833984,
      "learning_rate": 0.00018798399644365417,
      "loss": 2.3245,
      "step": 2713
    },
    {
      "epoch": 0.060311111111111114,
      "grad_norm": 1.2544927597045898,
      "learning_rate": 0.00018797955101133585,
      "loss": 2.0751,
      "step": 2714
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 1.2878230810165405,
      "learning_rate": 0.00018797510557901756,
      "loss": 2.1235,
      "step": 2715
    },
    {
      "epoch": 0.06035555555555556,
      "grad_norm": 1.384193778038025,
      "learning_rate": 0.00018797066014669927,
      "loss": 2.3822,
      "step": 2716
    },
    {
      "epoch": 0.06037777777777778,
      "grad_norm": 1.3507394790649414,
      "learning_rate": 0.00018796621471438098,
      "loss": 2.4194,
      "step": 2717
    },
    {
      "epoch": 0.0604,
      "grad_norm": 1.3843426704406738,
      "learning_rate": 0.0001879617692820627,
      "loss": 2.7205,
      "step": 2718
    },
    {
      "epoch": 0.060422222222222224,
      "grad_norm": 1.4611835479736328,
      "learning_rate": 0.0001879573238497444,
      "loss": 2.2083,
      "step": 2719
    },
    {
      "epoch": 0.060444444444444446,
      "grad_norm": 1.0997921228408813,
      "learning_rate": 0.0001879528784174261,
      "loss": 1.6927,
      "step": 2720
    },
    {
      "epoch": 0.06046666666666667,
      "grad_norm": 1.1961749792099,
      "learning_rate": 0.0001879484329851078,
      "loss": 1.6353,
      "step": 2721
    },
    {
      "epoch": 0.06048888888888889,
      "grad_norm": 1.074511170387268,
      "learning_rate": 0.00018794398755278953,
      "loss": 2.0993,
      "step": 2722
    },
    {
      "epoch": 0.06051111111111111,
      "grad_norm": 1.551523208618164,
      "learning_rate": 0.0001879395421204712,
      "loss": 1.8092,
      "step": 2723
    },
    {
      "epoch": 0.060533333333333335,
      "grad_norm": 1.3680505752563477,
      "learning_rate": 0.00018793509668815292,
      "loss": 1.9093,
      "step": 2724
    },
    {
      "epoch": 0.06055555555555556,
      "grad_norm": 1.3623892068862915,
      "learning_rate": 0.00018793065125583463,
      "loss": 2.1595,
      "step": 2725
    },
    {
      "epoch": 0.06057777777777778,
      "grad_norm": 1.5234910249710083,
      "learning_rate": 0.00018792620582351634,
      "loss": 2.2459,
      "step": 2726
    },
    {
      "epoch": 0.0606,
      "grad_norm": 1.1238843202590942,
      "learning_rate": 0.00018792176039119805,
      "loss": 1.7761,
      "step": 2727
    },
    {
      "epoch": 0.06062222222222222,
      "grad_norm": 1.1749337911605835,
      "learning_rate": 0.00018791731495887976,
      "loss": 2.0432,
      "step": 2728
    },
    {
      "epoch": 0.060644444444444445,
      "grad_norm": 1.3248710632324219,
      "learning_rate": 0.00018791286952656147,
      "loss": 2.196,
      "step": 2729
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 1.2294011116027832,
      "learning_rate": 0.00018790842409424318,
      "loss": 2.0522,
      "step": 2730
    },
    {
      "epoch": 0.06068888888888889,
      "grad_norm": 1.3807874917984009,
      "learning_rate": 0.0001879039786619249,
      "loss": 2.4806,
      "step": 2731
    },
    {
      "epoch": 0.06071111111111111,
      "grad_norm": 1.2333709001541138,
      "learning_rate": 0.00018789953322960657,
      "loss": 2.2595,
      "step": 2732
    },
    {
      "epoch": 0.060733333333333334,
      "grad_norm": 1.2325271368026733,
      "learning_rate": 0.0001878950877972883,
      "loss": 2.0989,
      "step": 2733
    },
    {
      "epoch": 0.060755555555555556,
      "grad_norm": 1.327795147895813,
      "learning_rate": 0.00018789064236497,
      "loss": 1.5228,
      "step": 2734
    },
    {
      "epoch": 0.06077777777777778,
      "grad_norm": 1.1936326026916504,
      "learning_rate": 0.0001878861969326517,
      "loss": 2.1216,
      "step": 2735
    },
    {
      "epoch": 0.0608,
      "grad_norm": 1.2500593662261963,
      "learning_rate": 0.00018788175150033344,
      "loss": 1.952,
      "step": 2736
    },
    {
      "epoch": 0.06082222222222222,
      "grad_norm": 1.244486927986145,
      "learning_rate": 0.00018787730606801512,
      "loss": 2.3637,
      "step": 2737
    },
    {
      "epoch": 0.060844444444444444,
      "grad_norm": 1.229892373085022,
      "learning_rate": 0.00018787286063569683,
      "loss": 1.8447,
      "step": 2738
    },
    {
      "epoch": 0.060866666666666666,
      "grad_norm": 1.2490308284759521,
      "learning_rate": 0.00018786841520337854,
      "loss": 2.2677,
      "step": 2739
    },
    {
      "epoch": 0.06088888888888889,
      "grad_norm": 1.5612094402313232,
      "learning_rate": 0.00018786396977106025,
      "loss": 2.5267,
      "step": 2740
    },
    {
      "epoch": 0.06091111111111111,
      "grad_norm": 1.1999012231826782,
      "learning_rate": 0.00018785952433874193,
      "loss": 1.9312,
      "step": 2741
    },
    {
      "epoch": 0.06093333333333333,
      "grad_norm": 1.425302505493164,
      "learning_rate": 0.00018785507890642367,
      "loss": 2.3815,
      "step": 2742
    },
    {
      "epoch": 0.060955555555555554,
      "grad_norm": 1.2308077812194824,
      "learning_rate": 0.00018785063347410535,
      "loss": 1.955,
      "step": 2743
    },
    {
      "epoch": 0.06097777777777778,
      "grad_norm": 1.270875096321106,
      "learning_rate": 0.00018784618804178706,
      "loss": 1.5138,
      "step": 2744
    },
    {
      "epoch": 0.061,
      "grad_norm": 1.3588433265686035,
      "learning_rate": 0.0001878417426094688,
      "loss": 2.1025,
      "step": 2745
    },
    {
      "epoch": 0.06102222222222222,
      "grad_norm": 1.3648747205734253,
      "learning_rate": 0.00018783729717715048,
      "loss": 1.4719,
      "step": 2746
    },
    {
      "epoch": 0.06104444444444444,
      "grad_norm": 1.8942270278930664,
      "learning_rate": 0.0001878328517448322,
      "loss": 1.798,
      "step": 2747
    },
    {
      "epoch": 0.061066666666666665,
      "grad_norm": 1.2607039213180542,
      "learning_rate": 0.0001878284063125139,
      "loss": 1.6084,
      "step": 2748
    },
    {
      "epoch": 0.06108888888888889,
      "grad_norm": 1.2803078889846802,
      "learning_rate": 0.0001878239608801956,
      "loss": 1.4297,
      "step": 2749
    },
    {
      "epoch": 0.06111111111111111,
      "grad_norm": 1.1481022834777832,
      "learning_rate": 0.00018781951544787732,
      "loss": 1.3985,
      "step": 2750
    },
    {
      "epoch": 0.06113333333333333,
      "grad_norm": 1.6368448734283447,
      "learning_rate": 0.00018781507001555903,
      "loss": 0.1033,
      "step": 2751
    },
    {
      "epoch": 0.06115555555555555,
      "grad_norm": 1.005434274673462,
      "learning_rate": 0.00018781062458324074,
      "loss": 2.004,
      "step": 2752
    },
    {
      "epoch": 0.061177777777777775,
      "grad_norm": 1.2184756994247437,
      "learning_rate": 0.00018780617915092245,
      "loss": 2.3302,
      "step": 2753
    },
    {
      "epoch": 0.0612,
      "grad_norm": 1.206376314163208,
      "learning_rate": 0.00018780173371860416,
      "loss": 2.659,
      "step": 2754
    },
    {
      "epoch": 0.06122222222222222,
      "grad_norm": 1.170143961906433,
      "learning_rate": 0.00018779728828628584,
      "loss": 2.304,
      "step": 2755
    },
    {
      "epoch": 0.06124444444444444,
      "grad_norm": 1.1334527730941772,
      "learning_rate": 0.00018779284285396758,
      "loss": 2.2875,
      "step": 2756
    },
    {
      "epoch": 0.061266666666666664,
      "grad_norm": 1.1614525318145752,
      "learning_rate": 0.00018778839742164926,
      "loss": 2.3509,
      "step": 2757
    },
    {
      "epoch": 0.061288888888888886,
      "grad_norm": 1.0268628597259521,
      "learning_rate": 0.00018778395198933097,
      "loss": 1.679,
      "step": 2758
    },
    {
      "epoch": 0.06131111111111111,
      "grad_norm": 1.2325562238693237,
      "learning_rate": 0.00018777950655701268,
      "loss": 2.335,
      "step": 2759
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 1.2036250829696655,
      "learning_rate": 0.0001877750611246944,
      "loss": 2.6135,
      "step": 2760
    },
    {
      "epoch": 0.06135555555555556,
      "grad_norm": 1.0553152561187744,
      "learning_rate": 0.0001877706156923761,
      "loss": 2.2641,
      "step": 2761
    },
    {
      "epoch": 0.06137777777777778,
      "grad_norm": 1.1645313501358032,
      "learning_rate": 0.0001877661702600578,
      "loss": 2.5595,
      "step": 2762
    },
    {
      "epoch": 0.0614,
      "grad_norm": 1.290037989616394,
      "learning_rate": 0.00018776172482773952,
      "loss": 2.081,
      "step": 2763
    },
    {
      "epoch": 0.061422222222222225,
      "grad_norm": 1.2892948389053345,
      "learning_rate": 0.0001877572793954212,
      "loss": 2.6998,
      "step": 2764
    },
    {
      "epoch": 0.06144444444444445,
      "grad_norm": 0.9605525135993958,
      "learning_rate": 0.00018775283396310294,
      "loss": 1.1398,
      "step": 2765
    },
    {
      "epoch": 0.06146666666666667,
      "grad_norm": 0.8386362195014954,
      "learning_rate": 0.00018774838853078462,
      "loss": 0.9248,
      "step": 2766
    },
    {
      "epoch": 0.06148888888888889,
      "grad_norm": 1.2595109939575195,
      "learning_rate": 0.00018774394309846633,
      "loss": 2.1991,
      "step": 2767
    },
    {
      "epoch": 0.061511111111111114,
      "grad_norm": 1.2148172855377197,
      "learning_rate": 0.00018773949766614804,
      "loss": 1.8452,
      "step": 2768
    },
    {
      "epoch": 0.061533333333333336,
      "grad_norm": 1.225450873374939,
      "learning_rate": 0.00018773505223382975,
      "loss": 2.3072,
      "step": 2769
    },
    {
      "epoch": 0.06155555555555556,
      "grad_norm": 0.9813886880874634,
      "learning_rate": 0.00018773060680151146,
      "loss": 1.7563,
      "step": 2770
    },
    {
      "epoch": 0.06157777777777778,
      "grad_norm": 1.2824733257293701,
      "learning_rate": 0.00018772616136919317,
      "loss": 2.5918,
      "step": 2771
    },
    {
      "epoch": 0.0616,
      "grad_norm": 1.4012054204940796,
      "learning_rate": 0.00018772171593687488,
      "loss": 1.8665,
      "step": 2772
    },
    {
      "epoch": 0.061622222222222224,
      "grad_norm": 1.5517586469650269,
      "learning_rate": 0.00018771727050455659,
      "loss": 2.2188,
      "step": 2773
    },
    {
      "epoch": 0.061644444444444446,
      "grad_norm": 1.2170881032943726,
      "learning_rate": 0.0001877128250722383,
      "loss": 2.013,
      "step": 2774
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 1.2392975091934204,
      "learning_rate": 0.00018770837963991998,
      "loss": 1.8115,
      "step": 2775
    },
    {
      "epoch": 0.06168888888888889,
      "grad_norm": 1.1665241718292236,
      "learning_rate": 0.00018770393420760171,
      "loss": 1.975,
      "step": 2776
    },
    {
      "epoch": 0.06171111111111111,
      "grad_norm": 1.4797453880310059,
      "learning_rate": 0.0001876994887752834,
      "loss": 1.9079,
      "step": 2777
    },
    {
      "epoch": 0.061733333333333335,
      "grad_norm": 1.7685197591781616,
      "learning_rate": 0.0001876950433429651,
      "loss": 2.7826,
      "step": 2778
    },
    {
      "epoch": 0.06175555555555556,
      "grad_norm": 1.423384189605713,
      "learning_rate": 0.00018769059791064682,
      "loss": 2.3721,
      "step": 2779
    },
    {
      "epoch": 0.06177777777777778,
      "grad_norm": 1.2108656167984009,
      "learning_rate": 0.00018768615247832853,
      "loss": 2.2184,
      "step": 2780
    },
    {
      "epoch": 0.0618,
      "grad_norm": 1.3421804904937744,
      "learning_rate": 0.00018768170704601024,
      "loss": 2.1258,
      "step": 2781
    },
    {
      "epoch": 0.06182222222222222,
      "grad_norm": 1.1913560628890991,
      "learning_rate": 0.00018767726161369194,
      "loss": 1.6139,
      "step": 2782
    },
    {
      "epoch": 0.061844444444444445,
      "grad_norm": 1.3481956720352173,
      "learning_rate": 0.00018767281618137365,
      "loss": 2.3179,
      "step": 2783
    },
    {
      "epoch": 0.06186666666666667,
      "grad_norm": 1.3821300268173218,
      "learning_rate": 0.00018766837074905534,
      "loss": 2.3901,
      "step": 2784
    },
    {
      "epoch": 0.06188888888888889,
      "grad_norm": 1.388374924659729,
      "learning_rate": 0.00018766392531673707,
      "loss": 1.9882,
      "step": 2785
    },
    {
      "epoch": 0.06191111111111111,
      "grad_norm": 1.2671271562576294,
      "learning_rate": 0.00018765947988441876,
      "loss": 1.65,
      "step": 2786
    },
    {
      "epoch": 0.06193333333333333,
      "grad_norm": 1.394394874572754,
      "learning_rate": 0.0001876550344521005,
      "loss": 1.7084,
      "step": 2787
    },
    {
      "epoch": 0.061955555555555555,
      "grad_norm": 1.286948323249817,
      "learning_rate": 0.00018765058901978218,
      "loss": 2.0987,
      "step": 2788
    },
    {
      "epoch": 0.06197777777777778,
      "grad_norm": 1.3643842935562134,
      "learning_rate": 0.00018764614358746388,
      "loss": 2.1491,
      "step": 2789
    },
    {
      "epoch": 0.062,
      "grad_norm": 1.3351410627365112,
      "learning_rate": 0.0001876416981551456,
      "loss": 2.0937,
      "step": 2790
    },
    {
      "epoch": 0.06202222222222222,
      "grad_norm": 1.4634209871292114,
      "learning_rate": 0.0001876372527228273,
      "loss": 1.7482,
      "step": 2791
    },
    {
      "epoch": 0.062044444444444444,
      "grad_norm": 1.1727733612060547,
      "learning_rate": 0.00018763280729050901,
      "loss": 1.5837,
      "step": 2792
    },
    {
      "epoch": 0.062066666666666666,
      "grad_norm": 1.1772867441177368,
      "learning_rate": 0.00018762836185819072,
      "loss": 1.4568,
      "step": 2793
    },
    {
      "epoch": 0.06208888888888889,
      "grad_norm": 1.4134163856506348,
      "learning_rate": 0.00018762391642587243,
      "loss": 2.112,
      "step": 2794
    },
    {
      "epoch": 0.06211111111111111,
      "grad_norm": 1.1861469745635986,
      "learning_rate": 0.00018761947099355412,
      "loss": 1.8895,
      "step": 2795
    },
    {
      "epoch": 0.06213333333333333,
      "grad_norm": 1.4194509983062744,
      "learning_rate": 0.00018761502556123585,
      "loss": 2.0256,
      "step": 2796
    },
    {
      "epoch": 0.062155555555555554,
      "grad_norm": 1.5349948406219482,
      "learning_rate": 0.00018761058012891753,
      "loss": 2.2892,
      "step": 2797
    },
    {
      "epoch": 0.062177777777777776,
      "grad_norm": 1.7592523097991943,
      "learning_rate": 0.00018760613469659924,
      "loss": 2.0511,
      "step": 2798
    },
    {
      "epoch": 0.0622,
      "grad_norm": 1.3552824258804321,
      "learning_rate": 0.00018760168926428095,
      "loss": 1.7338,
      "step": 2799
    },
    {
      "epoch": 0.06222222222222222,
      "grad_norm": 1.3405883312225342,
      "learning_rate": 0.00018759724383196266,
      "loss": 1.4886,
      "step": 2800
    },
    {
      "epoch": 0.06224444444444444,
      "grad_norm": 1.2436882257461548,
      "learning_rate": 0.00018759279839964437,
      "loss": 2.8243,
      "step": 2801
    },
    {
      "epoch": 0.062266666666666665,
      "grad_norm": 1.0085952281951904,
      "learning_rate": 0.00018758835296732608,
      "loss": 2.513,
      "step": 2802
    },
    {
      "epoch": 0.06228888888888889,
      "grad_norm": 1.0170789957046509,
      "learning_rate": 0.0001875839075350078,
      "loss": 2.3906,
      "step": 2803
    },
    {
      "epoch": 0.06231111111111111,
      "grad_norm": 1.0445818901062012,
      "learning_rate": 0.00018757946210268947,
      "loss": 2.6399,
      "step": 2804
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 1.386362910270691,
      "learning_rate": 0.0001875750166703712,
      "loss": 2.7634,
      "step": 2805
    },
    {
      "epoch": 0.06235555555555555,
      "grad_norm": 1.106680989265442,
      "learning_rate": 0.0001875705712380529,
      "loss": 1.8372,
      "step": 2806
    },
    {
      "epoch": 0.062377777777777775,
      "grad_norm": 1.2204889059066772,
      "learning_rate": 0.00018756612580573463,
      "loss": 2.5184,
      "step": 2807
    },
    {
      "epoch": 0.0624,
      "grad_norm": 1.1121426820755005,
      "learning_rate": 0.0001875616803734163,
      "loss": 2.5418,
      "step": 2808
    },
    {
      "epoch": 0.06242222222222222,
      "grad_norm": 1.4679434299468994,
      "learning_rate": 0.00018755723494109802,
      "loss": 1.3454,
      "step": 2809
    },
    {
      "epoch": 0.06244444444444444,
      "grad_norm": 0.9511885046958923,
      "learning_rate": 0.00018755278950877976,
      "loss": 1.1478,
      "step": 2810
    },
    {
      "epoch": 0.06246666666666666,
      "grad_norm": 1.0716321468353271,
      "learning_rate": 0.00018754834407646144,
      "loss": 1.9095,
      "step": 2811
    },
    {
      "epoch": 0.062488888888888885,
      "grad_norm": 1.140427827835083,
      "learning_rate": 0.00018754389864414315,
      "loss": 2.4517,
      "step": 2812
    },
    {
      "epoch": 0.06251111111111111,
      "grad_norm": 1.4585435390472412,
      "learning_rate": 0.00018753945321182486,
      "loss": 2.5529,
      "step": 2813
    },
    {
      "epoch": 0.06253333333333333,
      "grad_norm": 1.23036527633667,
      "learning_rate": 0.00018753500777950657,
      "loss": 2.0753,
      "step": 2814
    },
    {
      "epoch": 0.06255555555555556,
      "grad_norm": 1.2273170948028564,
      "learning_rate": 0.00018753056234718825,
      "loss": 2.147,
      "step": 2815
    },
    {
      "epoch": 0.06257777777777777,
      "grad_norm": 1.2008864879608154,
      "learning_rate": 0.00018752611691487,
      "loss": 2.1604,
      "step": 2816
    },
    {
      "epoch": 0.0626,
      "grad_norm": 1.2139441967010498,
      "learning_rate": 0.00018752167148255167,
      "loss": 2.3451,
      "step": 2817
    },
    {
      "epoch": 0.06262222222222222,
      "grad_norm": 1.1427327394485474,
      "learning_rate": 0.00018751722605023338,
      "loss": 2.1952,
      "step": 2818
    },
    {
      "epoch": 0.06264444444444445,
      "grad_norm": 1.1389628648757935,
      "learning_rate": 0.00018751278061791512,
      "loss": 2.0855,
      "step": 2819
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 1.625450849533081,
      "learning_rate": 0.0001875083351855968,
      "loss": 2.9112,
      "step": 2820
    },
    {
      "epoch": 0.06268888888888889,
      "grad_norm": 1.1499130725860596,
      "learning_rate": 0.0001875038897532785,
      "loss": 1.9011,
      "step": 2821
    },
    {
      "epoch": 0.0627111111111111,
      "grad_norm": 1.1928070783615112,
      "learning_rate": 0.00018749944432096022,
      "loss": 1.962,
      "step": 2822
    },
    {
      "epoch": 0.06273333333333334,
      "grad_norm": 1.2368239164352417,
      "learning_rate": 0.00018749499888864193,
      "loss": 2.0371,
      "step": 2823
    },
    {
      "epoch": 0.06275555555555555,
      "grad_norm": 1.1952697038650513,
      "learning_rate": 0.0001874905534563236,
      "loss": 2.1889,
      "step": 2824
    },
    {
      "epoch": 0.06277777777777778,
      "grad_norm": 1.3594785928726196,
      "learning_rate": 0.00018748610802400535,
      "loss": 2.292,
      "step": 2825
    },
    {
      "epoch": 0.0628,
      "grad_norm": 1.1406694650650024,
      "learning_rate": 0.00018748166259168706,
      "loss": 1.6252,
      "step": 2826
    },
    {
      "epoch": 0.06282222222222222,
      "grad_norm": 1.325881004333496,
      "learning_rate": 0.00018747721715936877,
      "loss": 2.0782,
      "step": 2827
    },
    {
      "epoch": 0.06284444444444444,
      "grad_norm": 1.143120527267456,
      "learning_rate": 0.00018747277172705048,
      "loss": 2.2459,
      "step": 2828
    },
    {
      "epoch": 0.06286666666666667,
      "grad_norm": 1.4137969017028809,
      "learning_rate": 0.00018746832629473216,
      "loss": 2.407,
      "step": 2829
    },
    {
      "epoch": 0.06288888888888888,
      "grad_norm": 1.3756927251815796,
      "learning_rate": 0.0001874638808624139,
      "loss": 2.4468,
      "step": 2830
    },
    {
      "epoch": 0.06291111111111111,
      "grad_norm": 1.468861699104309,
      "learning_rate": 0.00018745943543009558,
      "loss": 1.8074,
      "step": 2831
    },
    {
      "epoch": 0.06293333333333333,
      "grad_norm": 1.2983373403549194,
      "learning_rate": 0.0001874549899977773,
      "loss": 0.8226,
      "step": 2832
    },
    {
      "epoch": 0.06295555555555556,
      "grad_norm": 1.1781848669052124,
      "learning_rate": 0.000187450544565459,
      "loss": 2.1623,
      "step": 2833
    },
    {
      "epoch": 0.06297777777777777,
      "grad_norm": 1.2764322757720947,
      "learning_rate": 0.0001874460991331407,
      "loss": 2.144,
      "step": 2834
    },
    {
      "epoch": 0.063,
      "grad_norm": 1.711207628250122,
      "learning_rate": 0.00018744165370082242,
      "loss": 1.8346,
      "step": 2835
    },
    {
      "epoch": 0.06302222222222222,
      "grad_norm": 1.279605507850647,
      "learning_rate": 0.00018743720826850413,
      "loss": 2.3286,
      "step": 2836
    },
    {
      "epoch": 0.06304444444444444,
      "grad_norm": 1.5101478099822998,
      "learning_rate": 0.00018743276283618584,
      "loss": 1.8199,
      "step": 2837
    },
    {
      "epoch": 0.06306666666666666,
      "grad_norm": 1.287416696548462,
      "learning_rate": 0.00018742831740386752,
      "loss": 2.0824,
      "step": 2838
    },
    {
      "epoch": 0.06308888888888889,
      "grad_norm": 1.3675342798233032,
      "learning_rate": 0.00018742387197154926,
      "loss": 2.1448,
      "step": 2839
    },
    {
      "epoch": 0.06311111111111112,
      "grad_norm": 1.4690383672714233,
      "learning_rate": 0.00018741942653923094,
      "loss": 2.0374,
      "step": 2840
    },
    {
      "epoch": 0.06313333333333333,
      "grad_norm": 1.097183346748352,
      "learning_rate": 0.00018741498110691265,
      "loss": 1.521,
      "step": 2841
    },
    {
      "epoch": 0.06315555555555556,
      "grad_norm": 1.5291551351547241,
      "learning_rate": 0.00018741053567459436,
      "loss": 2.2333,
      "step": 2842
    },
    {
      "epoch": 0.06317777777777778,
      "grad_norm": 1.4804224967956543,
      "learning_rate": 0.00018740609024227607,
      "loss": 2.4405,
      "step": 2843
    },
    {
      "epoch": 0.0632,
      "grad_norm": 1.5842746496200562,
      "learning_rate": 0.00018740164480995778,
      "loss": 1.8985,
      "step": 2844
    },
    {
      "epoch": 0.06322222222222222,
      "grad_norm": 1.1302268505096436,
      "learning_rate": 0.0001873971993776395,
      "loss": 1.8275,
      "step": 2845
    },
    {
      "epoch": 0.06324444444444445,
      "grad_norm": 1.2689913511276245,
      "learning_rate": 0.0001873927539453212,
      "loss": 1.718,
      "step": 2846
    },
    {
      "epoch": 0.06326666666666667,
      "grad_norm": 1.7518043518066406,
      "learning_rate": 0.0001873883085130029,
      "loss": 1.5398,
      "step": 2847
    },
    {
      "epoch": 0.0632888888888889,
      "grad_norm": 1.5163757801055908,
      "learning_rate": 0.00018738386308068462,
      "loss": 2.1679,
      "step": 2848
    },
    {
      "epoch": 0.06331111111111111,
      "grad_norm": 1.617437481880188,
      "learning_rate": 0.0001873794176483663,
      "loss": 2.0754,
      "step": 2849
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 1.4291324615478516,
      "learning_rate": 0.00018737497221604804,
      "loss": 1.8027,
      "step": 2850
    },
    {
      "epoch": 0.06335555555555555,
      "grad_norm": 1.1678494215011597,
      "learning_rate": 0.00018737052678372972,
      "loss": 2.2499,
      "step": 2851
    },
    {
      "epoch": 0.06337777777777778,
      "grad_norm": 1.0958876609802246,
      "learning_rate": 0.00018736608135141143,
      "loss": 1.8325,
      "step": 2852
    },
    {
      "epoch": 0.0634,
      "grad_norm": 1.0336941480636597,
      "learning_rate": 0.00018736163591909314,
      "loss": 2.2601,
      "step": 2853
    },
    {
      "epoch": 0.06342222222222223,
      "grad_norm": 1.4533902406692505,
      "learning_rate": 0.00018735719048677485,
      "loss": 2.7845,
      "step": 2854
    },
    {
      "epoch": 0.06344444444444444,
      "grad_norm": 1.1829084157943726,
      "learning_rate": 0.00018735274505445656,
      "loss": 2.0914,
      "step": 2855
    },
    {
      "epoch": 0.06346666666666667,
      "grad_norm": 1.1751196384429932,
      "learning_rate": 0.00018734829962213827,
      "loss": 2.3863,
      "step": 2856
    },
    {
      "epoch": 0.06348888888888889,
      "grad_norm": 1.1886322498321533,
      "learning_rate": 0.00018734385418981998,
      "loss": 2.1591,
      "step": 2857
    },
    {
      "epoch": 0.06351111111111112,
      "grad_norm": 1.1325668096542358,
      "learning_rate": 0.00018733940875750166,
      "loss": 2.0609,
      "step": 2858
    },
    {
      "epoch": 0.06353333333333333,
      "grad_norm": 1.2165454626083374,
      "learning_rate": 0.0001873349633251834,
      "loss": 1.9328,
      "step": 2859
    },
    {
      "epoch": 0.06355555555555556,
      "grad_norm": 1.6444909572601318,
      "learning_rate": 0.00018733051789286508,
      "loss": 2.1612,
      "step": 2860
    },
    {
      "epoch": 0.06357777777777777,
      "grad_norm": 1.1900150775909424,
      "learning_rate": 0.0001873260724605468,
      "loss": 2.0717,
      "step": 2861
    },
    {
      "epoch": 0.0636,
      "grad_norm": 1.4153571128845215,
      "learning_rate": 0.0001873216270282285,
      "loss": 2.2644,
      "step": 2862
    },
    {
      "epoch": 0.06362222222222222,
      "grad_norm": 1.2564882040023804,
      "learning_rate": 0.0001873171815959102,
      "loss": 2.4158,
      "step": 2863
    },
    {
      "epoch": 0.06364444444444445,
      "grad_norm": 1.398049235343933,
      "learning_rate": 0.00018731273616359192,
      "loss": 2.5145,
      "step": 2864
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 1.2139917612075806,
      "learning_rate": 0.00018730829073127363,
      "loss": 1.9035,
      "step": 2865
    },
    {
      "epoch": 0.06368888888888889,
      "grad_norm": 1.1815810203552246,
      "learning_rate": 0.00018730384529895534,
      "loss": 1.9507,
      "step": 2866
    },
    {
      "epoch": 0.06371111111111111,
      "grad_norm": 1.2247095108032227,
      "learning_rate": 0.00018729939986663705,
      "loss": 1.6939,
      "step": 2867
    },
    {
      "epoch": 0.06373333333333334,
      "grad_norm": 1.1871031522750854,
      "learning_rate": 0.00018729495443431876,
      "loss": 1.7179,
      "step": 2868
    },
    {
      "epoch": 0.06375555555555555,
      "grad_norm": 1.065414309501648,
      "learning_rate": 0.00018729050900200044,
      "loss": 1.7596,
      "step": 2869
    },
    {
      "epoch": 0.06377777777777778,
      "grad_norm": 1.3309180736541748,
      "learning_rate": 0.00018728606356968217,
      "loss": 2.2074,
      "step": 2870
    },
    {
      "epoch": 0.0638,
      "grad_norm": 1.3962008953094482,
      "learning_rate": 0.00018728161813736386,
      "loss": 2.3044,
      "step": 2871
    },
    {
      "epoch": 0.06382222222222222,
      "grad_norm": 1.196290373802185,
      "learning_rate": 0.00018727717270504557,
      "loss": 2.0767,
      "step": 2872
    },
    {
      "epoch": 0.06384444444444444,
      "grad_norm": 1.361983060836792,
      "learning_rate": 0.00018727272727272728,
      "loss": 1.5672,
      "step": 2873
    },
    {
      "epoch": 0.06386666666666667,
      "grad_norm": 1.329243779182434,
      "learning_rate": 0.00018726828184040899,
      "loss": 2.134,
      "step": 2874
    },
    {
      "epoch": 0.06388888888888888,
      "grad_norm": 1.4311535358428955,
      "learning_rate": 0.0001872638364080907,
      "loss": 1.9253,
      "step": 2875
    },
    {
      "epoch": 0.06391111111111111,
      "grad_norm": 1.2310140132904053,
      "learning_rate": 0.0001872593909757724,
      "loss": 2.399,
      "step": 2876
    },
    {
      "epoch": 0.06393333333333333,
      "grad_norm": 1.211095929145813,
      "learning_rate": 0.00018725494554345411,
      "loss": 1.9466,
      "step": 2877
    },
    {
      "epoch": 0.06395555555555556,
      "grad_norm": 1.2007399797439575,
      "learning_rate": 0.0001872505001111358,
      "loss": 0.9996,
      "step": 2878
    },
    {
      "epoch": 0.06397777777777777,
      "grad_norm": 0.9361677169799805,
      "learning_rate": 0.00018724605467881753,
      "loss": 0.7916,
      "step": 2879
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.1869984865188599,
      "learning_rate": 0.00018724160924649922,
      "loss": 1.9986,
      "step": 2880
    },
    {
      "epoch": 0.06402222222222222,
      "grad_norm": 1.2744450569152832,
      "learning_rate": 0.00018723716381418093,
      "loss": 2.0631,
      "step": 2881
    },
    {
      "epoch": 0.06404444444444445,
      "grad_norm": 1.4359490871429443,
      "learning_rate": 0.00018723271838186264,
      "loss": 2.2638,
      "step": 2882
    },
    {
      "epoch": 0.06406666666666666,
      "grad_norm": 1.4689186811447144,
      "learning_rate": 0.00018722827294954435,
      "loss": 2.24,
      "step": 2883
    },
    {
      "epoch": 0.06408888888888889,
      "grad_norm": 1.5831794738769531,
      "learning_rate": 0.00018722382751722608,
      "loss": 1.9336,
      "step": 2884
    },
    {
      "epoch": 0.0641111111111111,
      "grad_norm": 1.377138376235962,
      "learning_rate": 0.00018721938208490776,
      "loss": 1.7798,
      "step": 2885
    },
    {
      "epoch": 0.06413333333333333,
      "grad_norm": 1.2785342931747437,
      "learning_rate": 0.00018721493665258947,
      "loss": 1.6762,
      "step": 2886
    },
    {
      "epoch": 0.06415555555555555,
      "grad_norm": 1.338173270225525,
      "learning_rate": 0.00018721049122027118,
      "loss": 2.1951,
      "step": 2887
    },
    {
      "epoch": 0.06417777777777778,
      "grad_norm": 1.2330443859100342,
      "learning_rate": 0.0001872060457879529,
      "loss": 1.7759,
      "step": 2888
    },
    {
      "epoch": 0.0642,
      "grad_norm": 1.123676061630249,
      "learning_rate": 0.00018720160035563458,
      "loss": 1.7727,
      "step": 2889
    },
    {
      "epoch": 0.06422222222222222,
      "grad_norm": 1.535964846611023,
      "learning_rate": 0.0001871971549233163,
      "loss": 2.4233,
      "step": 2890
    },
    {
      "epoch": 0.06424444444444445,
      "grad_norm": 1.6187751293182373,
      "learning_rate": 0.000187192709490998,
      "loss": 2.2979,
      "step": 2891
    },
    {
      "epoch": 0.06426666666666667,
      "grad_norm": 1.4702938795089722,
      "learning_rate": 0.0001871882640586797,
      "loss": 1.7224,
      "step": 2892
    },
    {
      "epoch": 0.0642888888888889,
      "grad_norm": 1.23790442943573,
      "learning_rate": 0.00018718381862636144,
      "loss": 1.9536,
      "step": 2893
    },
    {
      "epoch": 0.06431111111111111,
      "grad_norm": 3.832672357559204,
      "learning_rate": 0.00018717937319404312,
      "loss": 1.5924,
      "step": 2894
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 1.7005996704101562,
      "learning_rate": 0.00018717492776172483,
      "loss": 2.1979,
      "step": 2895
    },
    {
      "epoch": 0.06435555555555555,
      "grad_norm": 1.3920700550079346,
      "learning_rate": 0.00018717048232940654,
      "loss": 2.0793,
      "step": 2896
    },
    {
      "epoch": 0.06437777777777778,
      "grad_norm": 1.4044344425201416,
      "learning_rate": 0.00018716603689708825,
      "loss": 2.0541,
      "step": 2897
    },
    {
      "epoch": 0.0644,
      "grad_norm": 0.8926104307174683,
      "learning_rate": 0.00018716159146476994,
      "loss": 0.068,
      "step": 2898
    },
    {
      "epoch": 0.06442222222222223,
      "grad_norm": 1.3923569917678833,
      "learning_rate": 0.00018715714603245167,
      "loss": 2.0106,
      "step": 2899
    },
    {
      "epoch": 0.06444444444444444,
      "grad_norm": 1.5569005012512207,
      "learning_rate": 0.00018715270060013338,
      "loss": 2.3801,
      "step": 2900
    },
    {
      "epoch": 0.06446666666666667,
      "grad_norm": 1.1904070377349854,
      "learning_rate": 0.0001871482551678151,
      "loss": 2.3971,
      "step": 2901
    },
    {
      "epoch": 0.06448888888888889,
      "grad_norm": 1.1103323698043823,
      "learning_rate": 0.0001871438097354968,
      "loss": 2.9624,
      "step": 2902
    },
    {
      "epoch": 0.06451111111111112,
      "grad_norm": 1.1648145914077759,
      "learning_rate": 0.00018713936430317848,
      "loss": 2.8519,
      "step": 2903
    },
    {
      "epoch": 0.06453333333333333,
      "grad_norm": 1.321471095085144,
      "learning_rate": 0.00018713491887086022,
      "loss": 2.2298,
      "step": 2904
    },
    {
      "epoch": 0.06455555555555556,
      "grad_norm": 1.0446627140045166,
      "learning_rate": 0.0001871304734385419,
      "loss": 1.8494,
      "step": 2905
    },
    {
      "epoch": 0.06457777777777778,
      "grad_norm": 1.0981947183609009,
      "learning_rate": 0.0001871260280062236,
      "loss": 2.3779,
      "step": 2906
    },
    {
      "epoch": 0.0646,
      "grad_norm": 1.2915189266204834,
      "learning_rate": 0.00018712158257390532,
      "loss": 2.555,
      "step": 2907
    },
    {
      "epoch": 0.06462222222222222,
      "grad_norm": 1.1062654256820679,
      "learning_rate": 0.00018711713714158703,
      "loss": 1.9837,
      "step": 2908
    },
    {
      "epoch": 0.06464444444444445,
      "grad_norm": 1.5189040899276733,
      "learning_rate": 0.00018711269170926874,
      "loss": 2.3476,
      "step": 2909
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.9821382761001587,
      "learning_rate": 0.00018710824627695045,
      "loss": 1.9061,
      "step": 2910
    },
    {
      "epoch": 0.06468888888888889,
      "grad_norm": 1.4676059484481812,
      "learning_rate": 0.00018710380084463216,
      "loss": 0.9321,
      "step": 2911
    },
    {
      "epoch": 0.06471111111111111,
      "grad_norm": 1.2174110412597656,
      "learning_rate": 0.00018709935541231384,
      "loss": 2.587,
      "step": 2912
    },
    {
      "epoch": 0.06473333333333334,
      "grad_norm": 1.4045873880386353,
      "learning_rate": 0.00018709490997999558,
      "loss": 2.0754,
      "step": 2913
    },
    {
      "epoch": 0.06475555555555555,
      "grad_norm": 1.3377821445465088,
      "learning_rate": 0.00018709046454767726,
      "loss": 2.4397,
      "step": 2914
    },
    {
      "epoch": 0.06477777777777778,
      "grad_norm": 1.3285831212997437,
      "learning_rate": 0.00018708601911535897,
      "loss": 2.3949,
      "step": 2915
    },
    {
      "epoch": 0.0648,
      "grad_norm": 1.1161266565322876,
      "learning_rate": 0.00018708157368304068,
      "loss": 2.1046,
      "step": 2916
    },
    {
      "epoch": 0.06482222222222223,
      "grad_norm": 1.2522786855697632,
      "learning_rate": 0.0001870771282507224,
      "loss": 2.0933,
      "step": 2917
    },
    {
      "epoch": 0.06484444444444444,
      "grad_norm": 1.0407394170761108,
      "learning_rate": 0.0001870726828184041,
      "loss": 1.5523,
      "step": 2918
    },
    {
      "epoch": 0.06486666666666667,
      "grad_norm": 1.158358097076416,
      "learning_rate": 0.0001870682373860858,
      "loss": 1.916,
      "step": 2919
    },
    {
      "epoch": 0.06488888888888888,
      "grad_norm": 1.2848894596099854,
      "learning_rate": 0.00018706379195376752,
      "loss": 2.2947,
      "step": 2920
    },
    {
      "epoch": 0.06491111111111111,
      "grad_norm": 1.0948340892791748,
      "learning_rate": 0.00018705934652144923,
      "loss": 2.0626,
      "step": 2921
    },
    {
      "epoch": 0.06493333333333333,
      "grad_norm": 1.1861344575881958,
      "learning_rate": 0.00018705490108913094,
      "loss": 1.5792,
      "step": 2922
    },
    {
      "epoch": 0.06495555555555556,
      "grad_norm": 1.1330589056015015,
      "learning_rate": 0.00018705045565681262,
      "loss": 1.4587,
      "step": 2923
    },
    {
      "epoch": 0.06497777777777777,
      "grad_norm": 1.2363415956497192,
      "learning_rate": 0.00018704601022449436,
      "loss": 1.4322,
      "step": 2924
    },
    {
      "epoch": 0.065,
      "grad_norm": 1.2434296607971191,
      "learning_rate": 0.00018704156479217604,
      "loss": 1.6379,
      "step": 2925
    },
    {
      "epoch": 0.06502222222222222,
      "grad_norm": 0.8686671853065491,
      "learning_rate": 0.00018703711935985775,
      "loss": 0.8112,
      "step": 2926
    },
    {
      "epoch": 0.06504444444444445,
      "grad_norm": 1.4256782531738281,
      "learning_rate": 0.00018703267392753946,
      "loss": 2.3366,
      "step": 2927
    },
    {
      "epoch": 0.06506666666666666,
      "grad_norm": 1.5060585737228394,
      "learning_rate": 0.00018702822849522117,
      "loss": 2.168,
      "step": 2928
    },
    {
      "epoch": 0.06508888888888889,
      "grad_norm": 1.5477279424667358,
      "learning_rate": 0.00018702378306290288,
      "loss": 2.1754,
      "step": 2929
    },
    {
      "epoch": 0.0651111111111111,
      "grad_norm": 1.215466022491455,
      "learning_rate": 0.0001870193376305846,
      "loss": 2.0217,
      "step": 2930
    },
    {
      "epoch": 0.06513333333333333,
      "grad_norm": 1.123188853263855,
      "learning_rate": 0.0001870148921982663,
      "loss": 1.8177,
      "step": 2931
    },
    {
      "epoch": 0.06515555555555555,
      "grad_norm": 1.2271870374679565,
      "learning_rate": 0.00018701044676594798,
      "loss": 1.9829,
      "step": 2932
    },
    {
      "epoch": 0.06517777777777778,
      "grad_norm": 1.3322367668151855,
      "learning_rate": 0.00018700600133362972,
      "loss": 2.1528,
      "step": 2933
    },
    {
      "epoch": 0.0652,
      "grad_norm": 1.3902933597564697,
      "learning_rate": 0.0001870015559013114,
      "loss": 1.7664,
      "step": 2934
    },
    {
      "epoch": 0.06522222222222222,
      "grad_norm": 1.5843971967697144,
      "learning_rate": 0.0001869971104689931,
      "loss": 2.1908,
      "step": 2935
    },
    {
      "epoch": 0.06524444444444444,
      "grad_norm": 1.4482966661453247,
      "learning_rate": 0.00018699266503667482,
      "loss": 1.7021,
      "step": 2936
    },
    {
      "epoch": 0.06526666666666667,
      "grad_norm": 1.2024801969528198,
      "learning_rate": 0.00018698821960435653,
      "loss": 1.6508,
      "step": 2937
    },
    {
      "epoch": 0.06528888888888888,
      "grad_norm": 2.0721898078918457,
      "learning_rate": 0.00018698377417203824,
      "loss": 2.3115,
      "step": 2938
    },
    {
      "epoch": 0.06531111111111111,
      "grad_norm": 1.3167922496795654,
      "learning_rate": 0.00018697932873971995,
      "loss": 1.9785,
      "step": 2939
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 1.2480032444000244,
      "learning_rate": 0.00018697488330740166,
      "loss": 1.8314,
      "step": 2940
    },
    {
      "epoch": 0.06535555555555556,
      "grad_norm": 1.7373868227005005,
      "learning_rate": 0.00018697043787508337,
      "loss": 1.6736,
      "step": 2941
    },
    {
      "epoch": 0.06537777777777778,
      "grad_norm": 1.5857715606689453,
      "learning_rate": 0.00018696599244276508,
      "loss": 2.1099,
      "step": 2942
    },
    {
      "epoch": 0.0654,
      "grad_norm": 1.4830741882324219,
      "learning_rate": 0.00018696154701044676,
      "loss": 2.4202,
      "step": 2943
    },
    {
      "epoch": 0.06542222222222223,
      "grad_norm": 1.744685173034668,
      "learning_rate": 0.0001869571015781285,
      "loss": 2.4221,
      "step": 2944
    },
    {
      "epoch": 0.06544444444444444,
      "grad_norm": 1.5185177326202393,
      "learning_rate": 0.00018695265614581018,
      "loss": 2.1403,
      "step": 2945
    },
    {
      "epoch": 0.06546666666666667,
      "grad_norm": 1.6151337623596191,
      "learning_rate": 0.0001869482107134919,
      "loss": 1.9364,
      "step": 2946
    },
    {
      "epoch": 0.06548888888888889,
      "grad_norm": 1.2621005773544312,
      "learning_rate": 0.0001869437652811736,
      "loss": 1.6986,
      "step": 2947
    },
    {
      "epoch": 0.06551111111111112,
      "grad_norm": 1.4591064453125,
      "learning_rate": 0.0001869393198488553,
      "loss": 1.7923,
      "step": 2948
    },
    {
      "epoch": 0.06553333333333333,
      "grad_norm": 1.4285699129104614,
      "learning_rate": 0.00018693487441653702,
      "loss": 1.8047,
      "step": 2949
    },
    {
      "epoch": 0.06555555555555556,
      "grad_norm": 1.3380799293518066,
      "learning_rate": 0.00018693042898421873,
      "loss": 0.9882,
      "step": 2950
    },
    {
      "epoch": 0.06557777777777778,
      "grad_norm": 1.093501091003418,
      "learning_rate": 0.00018692598355190044,
      "loss": 2.283,
      "step": 2951
    },
    {
      "epoch": 0.0656,
      "grad_norm": 1.0866544246673584,
      "learning_rate": 0.00018692153811958212,
      "loss": 2.5448,
      "step": 2952
    },
    {
      "epoch": 0.06562222222222222,
      "grad_norm": 1.1365560293197632,
      "learning_rate": 0.00018691709268726386,
      "loss": 1.4154,
      "step": 2953
    },
    {
      "epoch": 0.06564444444444445,
      "grad_norm": 1.0331106185913086,
      "learning_rate": 0.00018691264725494554,
      "loss": 2.2571,
      "step": 2954
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 1.2269850969314575,
      "learning_rate": 0.00018690820182262725,
      "loss": 2.5064,
      "step": 2955
    },
    {
      "epoch": 0.0656888888888889,
      "grad_norm": 1.134602665901184,
      "learning_rate": 0.00018690375639030896,
      "loss": 2.6194,
      "step": 2956
    },
    {
      "epoch": 0.06571111111111111,
      "grad_norm": 1.301027774810791,
      "learning_rate": 0.00018689931095799067,
      "loss": 2.091,
      "step": 2957
    },
    {
      "epoch": 0.06573333333333334,
      "grad_norm": 0.9488211274147034,
      "learning_rate": 0.0001868948655256724,
      "loss": 1.8559,
      "step": 2958
    },
    {
      "epoch": 0.06575555555555555,
      "grad_norm": 1.2814669609069824,
      "learning_rate": 0.00018689042009335409,
      "loss": 1.7113,
      "step": 2959
    },
    {
      "epoch": 0.06577777777777778,
      "grad_norm": 1.0940461158752441,
      "learning_rate": 0.0001868859746610358,
      "loss": 2.2205,
      "step": 2960
    },
    {
      "epoch": 0.0658,
      "grad_norm": 1.4841840267181396,
      "learning_rate": 0.0001868815292287175,
      "loss": 2.0461,
      "step": 2961
    },
    {
      "epoch": 0.06582222222222223,
      "grad_norm": 1.206834077835083,
      "learning_rate": 0.00018687708379639922,
      "loss": 2.2952,
      "step": 2962
    },
    {
      "epoch": 0.06584444444444444,
      "grad_norm": 1.6178420782089233,
      "learning_rate": 0.0001868726383640809,
      "loss": 2.5222,
      "step": 2963
    },
    {
      "epoch": 0.06586666666666667,
      "grad_norm": 1.3316757678985596,
      "learning_rate": 0.00018686819293176263,
      "loss": 2.0074,
      "step": 2964
    },
    {
      "epoch": 0.06588888888888889,
      "grad_norm": 1.2255252599716187,
      "learning_rate": 0.00018686374749944432,
      "loss": 2.1827,
      "step": 2965
    },
    {
      "epoch": 0.06591111111111111,
      "grad_norm": 1.3230050802230835,
      "learning_rate": 0.00018685930206712603,
      "loss": 2.215,
      "step": 2966
    },
    {
      "epoch": 0.06593333333333333,
      "grad_norm": 1.6141905784606934,
      "learning_rate": 0.00018685485663480776,
      "loss": 2.1713,
      "step": 2967
    },
    {
      "epoch": 0.06595555555555556,
      "grad_norm": 1.312644362449646,
      "learning_rate": 0.00018685041120248945,
      "loss": 2.3945,
      "step": 2968
    },
    {
      "epoch": 0.06597777777777777,
      "grad_norm": 1.4654008150100708,
      "learning_rate": 0.00018684596577017116,
      "loss": 1.9946,
      "step": 2969
    },
    {
      "epoch": 0.066,
      "grad_norm": 1.1366113424301147,
      "learning_rate": 0.00018684152033785287,
      "loss": 1.2741,
      "step": 2970
    },
    {
      "epoch": 0.06602222222222222,
      "grad_norm": 1.2720532417297363,
      "learning_rate": 0.00018683707490553457,
      "loss": 2.1521,
      "step": 2971
    },
    {
      "epoch": 0.06604444444444445,
      "grad_norm": 1.1944630146026611,
      "learning_rate": 0.00018683262947321626,
      "loss": 1.8751,
      "step": 2972
    },
    {
      "epoch": 0.06606666666666666,
      "grad_norm": 1.3374707698822021,
      "learning_rate": 0.000186828184040898,
      "loss": 1.915,
      "step": 2973
    },
    {
      "epoch": 0.06608888888888889,
      "grad_norm": 1.4358044862747192,
      "learning_rate": 0.0001868237386085797,
      "loss": 2.1463,
      "step": 2974
    },
    {
      "epoch": 0.0661111111111111,
      "grad_norm": 1.3154842853546143,
      "learning_rate": 0.00018681929317626139,
      "loss": 2.1661,
      "step": 2975
    },
    {
      "epoch": 0.06613333333333334,
      "grad_norm": 1.30441153049469,
      "learning_rate": 0.00018681484774394312,
      "loss": 2.2619,
      "step": 2976
    },
    {
      "epoch": 0.06615555555555555,
      "grad_norm": 1.3629746437072754,
      "learning_rate": 0.0001868104023116248,
      "loss": 2.2015,
      "step": 2977
    },
    {
      "epoch": 0.06617777777777778,
      "grad_norm": 1.2790447473526,
      "learning_rate": 0.00018680595687930654,
      "loss": 2.0242,
      "step": 2978
    },
    {
      "epoch": 0.0662,
      "grad_norm": 1.2373870611190796,
      "learning_rate": 0.00018680151144698822,
      "loss": 1.9283,
      "step": 2979
    },
    {
      "epoch": 0.06622222222222222,
      "grad_norm": 1.386643409729004,
      "learning_rate": 0.00018679706601466993,
      "loss": 2.143,
      "step": 2980
    },
    {
      "epoch": 0.06624444444444444,
      "grad_norm": 1.39663827419281,
      "learning_rate": 0.00018679262058235164,
      "loss": 1.775,
      "step": 2981
    },
    {
      "epoch": 0.06626666666666667,
      "grad_norm": 1.175649881362915,
      "learning_rate": 0.00018678817515003335,
      "loss": 1.6227,
      "step": 2982
    },
    {
      "epoch": 0.06628888888888888,
      "grad_norm": 1.2920302152633667,
      "learning_rate": 0.00018678372971771506,
      "loss": 1.9243,
      "step": 2983
    },
    {
      "epoch": 0.06631111111111111,
      "grad_norm": 1.3073742389678955,
      "learning_rate": 0.00018677928428539677,
      "loss": 1.7718,
      "step": 2984
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 1.3262230157852173,
      "learning_rate": 0.00018677483885307848,
      "loss": 2.0117,
      "step": 2985
    },
    {
      "epoch": 0.06635555555555556,
      "grad_norm": 1.3040411472320557,
      "learning_rate": 0.00018677039342076016,
      "loss": 2.2123,
      "step": 2986
    },
    {
      "epoch": 0.06637777777777777,
      "grad_norm": 1.455625295639038,
      "learning_rate": 0.0001867659479884419,
      "loss": 1.8989,
      "step": 2987
    },
    {
      "epoch": 0.0664,
      "grad_norm": 1.3047820329666138,
      "learning_rate": 0.00018676150255612358,
      "loss": 1.6882,
      "step": 2988
    },
    {
      "epoch": 0.06642222222222222,
      "grad_norm": 1.1425246000289917,
      "learning_rate": 0.0001867570571238053,
      "loss": 1.6086,
      "step": 2989
    },
    {
      "epoch": 0.06644444444444444,
      "grad_norm": 1.5826201438903809,
      "learning_rate": 0.000186752611691487,
      "loss": 2.2842,
      "step": 2990
    },
    {
      "epoch": 0.06646666666666666,
      "grad_norm": 1.4101442098617554,
      "learning_rate": 0.0001867481662591687,
      "loss": 1.8246,
      "step": 2991
    },
    {
      "epoch": 0.06648888888888889,
      "grad_norm": 1.6880214214324951,
      "learning_rate": 0.00018674372082685042,
      "loss": 2.3414,
      "step": 2992
    },
    {
      "epoch": 0.0665111111111111,
      "grad_norm": 1.3211586475372314,
      "learning_rate": 0.00018673927539453213,
      "loss": 1.5972,
      "step": 2993
    },
    {
      "epoch": 0.06653333333333333,
      "grad_norm": 1.5031882524490356,
      "learning_rate": 0.00018673482996221384,
      "loss": 1.8175,
      "step": 2994
    },
    {
      "epoch": 0.06655555555555556,
      "grad_norm": 1.3425596952438354,
      "learning_rate": 0.00018673038452989555,
      "loss": 2.01,
      "step": 2995
    },
    {
      "epoch": 0.06657777777777778,
      "grad_norm": 1.378546953201294,
      "learning_rate": 0.00018672593909757726,
      "loss": 1.8262,
      "step": 2996
    },
    {
      "epoch": 0.0666,
      "grad_norm": 1.2477855682373047,
      "learning_rate": 0.00018672149366525894,
      "loss": 1.0512,
      "step": 2997
    },
    {
      "epoch": 0.06662222222222222,
      "grad_norm": 1.329624891281128,
      "learning_rate": 0.00018671704823294068,
      "loss": 1.7874,
      "step": 2998
    },
    {
      "epoch": 0.06664444444444445,
      "grad_norm": 1.3171143531799316,
      "learning_rate": 0.00018671260280062236,
      "loss": 1.4029,
      "step": 2999
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 1.3119182586669922,
      "learning_rate": 0.00018670815736830407,
      "loss": 1.1867,
      "step": 3000
    },
    {
      "epoch": 0.0666888888888889,
      "grad_norm": 1.1418683528900146,
      "learning_rate": 0.00018670371193598578,
      "loss": 1.4056,
      "step": 3001
    },
    {
      "epoch": 0.06671111111111111,
      "grad_norm": 0.7446819543838501,
      "learning_rate": 0.0001866992665036675,
      "loss": 1.2558,
      "step": 3002
    },
    {
      "epoch": 0.06673333333333334,
      "grad_norm": 1.2388083934783936,
      "learning_rate": 0.0001866948210713492,
      "loss": 2.4907,
      "step": 3003
    },
    {
      "epoch": 0.06675555555555555,
      "grad_norm": 1.4944300651550293,
      "learning_rate": 0.0001866903756390309,
      "loss": 0.5905,
      "step": 3004
    },
    {
      "epoch": 0.06677777777777778,
      "grad_norm": 1.0793980360031128,
      "learning_rate": 0.00018668593020671262,
      "loss": 2.2229,
      "step": 3005
    },
    {
      "epoch": 0.0668,
      "grad_norm": 1.066013216972351,
      "learning_rate": 0.0001866814847743943,
      "loss": 2.1372,
      "step": 3006
    },
    {
      "epoch": 0.06682222222222223,
      "grad_norm": 1.2131024599075317,
      "learning_rate": 0.00018667703934207604,
      "loss": 2.618,
      "step": 3007
    },
    {
      "epoch": 0.06684444444444444,
      "grad_norm": 1.1012964248657227,
      "learning_rate": 0.00018667259390975772,
      "loss": 1.9943,
      "step": 3008
    },
    {
      "epoch": 0.06686666666666667,
      "grad_norm": 1.2611958980560303,
      "learning_rate": 0.00018666814847743943,
      "loss": 2.9643,
      "step": 3009
    },
    {
      "epoch": 0.06688888888888889,
      "grad_norm": 1.0779814720153809,
      "learning_rate": 0.00018666370304512114,
      "loss": 2.4533,
      "step": 3010
    },
    {
      "epoch": 0.06691111111111112,
      "grad_norm": 1.0852347612380981,
      "learning_rate": 0.00018665925761280285,
      "loss": 2.168,
      "step": 3011
    },
    {
      "epoch": 0.06693333333333333,
      "grad_norm": 1.242493748664856,
      "learning_rate": 0.00018665481218048456,
      "loss": 2.2027,
      "step": 3012
    },
    {
      "epoch": 0.06695555555555556,
      "grad_norm": 1.1750240325927734,
      "learning_rate": 0.00018665036674816627,
      "loss": 2.008,
      "step": 3013
    },
    {
      "epoch": 0.06697777777777777,
      "grad_norm": 1.033508539199829,
      "learning_rate": 0.00018664592131584798,
      "loss": 1.9661,
      "step": 3014
    },
    {
      "epoch": 0.067,
      "grad_norm": 1.4327009916305542,
      "learning_rate": 0.0001866414758835297,
      "loss": 2.6899,
      "step": 3015
    },
    {
      "epoch": 0.06702222222222222,
      "grad_norm": 1.4444184303283691,
      "learning_rate": 0.0001866370304512114,
      "loss": 2.1263,
      "step": 3016
    },
    {
      "epoch": 0.06704444444444445,
      "grad_norm": 1.3516345024108887,
      "learning_rate": 0.00018663258501889308,
      "loss": 2.1334,
      "step": 3017
    },
    {
      "epoch": 0.06706666666666666,
      "grad_norm": 1.1286693811416626,
      "learning_rate": 0.00018662813958657482,
      "loss": 1.9396,
      "step": 3018
    },
    {
      "epoch": 0.06708888888888889,
      "grad_norm": 1.0525747537612915,
      "learning_rate": 0.0001866236941542565,
      "loss": 2.0104,
      "step": 3019
    },
    {
      "epoch": 0.06711111111111111,
      "grad_norm": 1.2158340215682983,
      "learning_rate": 0.0001866192487219382,
      "loss": 2.2476,
      "step": 3020
    },
    {
      "epoch": 0.06713333333333334,
      "grad_norm": 2.0288302898406982,
      "learning_rate": 0.00018661480328961992,
      "loss": 0.9421,
      "step": 3021
    },
    {
      "epoch": 0.06715555555555555,
      "grad_norm": 1.3440532684326172,
      "learning_rate": 0.00018661035785730163,
      "loss": 2.0325,
      "step": 3022
    },
    {
      "epoch": 0.06717777777777778,
      "grad_norm": 1.0971245765686035,
      "learning_rate": 0.00018660591242498334,
      "loss": 1.845,
      "step": 3023
    },
    {
      "epoch": 0.0672,
      "grad_norm": 1.400359034538269,
      "learning_rate": 0.00018660146699266505,
      "loss": 2.2704,
      "step": 3024
    },
    {
      "epoch": 0.06722222222222222,
      "grad_norm": 1.3983571529388428,
      "learning_rate": 0.00018659702156034676,
      "loss": 1.9317,
      "step": 3025
    },
    {
      "epoch": 0.06724444444444444,
      "grad_norm": 1.3775551319122314,
      "learning_rate": 0.00018659257612802844,
      "loss": 2.1884,
      "step": 3026
    },
    {
      "epoch": 0.06726666666666667,
      "grad_norm": 1.1605805158615112,
      "learning_rate": 0.00018658813069571018,
      "loss": 1.9882,
      "step": 3027
    },
    {
      "epoch": 0.06728888888888888,
      "grad_norm": 1.212649941444397,
      "learning_rate": 0.00018658368526339186,
      "loss": 2.1658,
      "step": 3028
    },
    {
      "epoch": 0.06731111111111111,
      "grad_norm": 1.1757985353469849,
      "learning_rate": 0.00018657923983107357,
      "loss": 2.0947,
      "step": 3029
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 1.36328125,
      "learning_rate": 0.00018657479439875528,
      "loss": 2.043,
      "step": 3030
    },
    {
      "epoch": 0.06735555555555556,
      "grad_norm": 1.6213213205337524,
      "learning_rate": 0.000186570348966437,
      "loss": 2.0704,
      "step": 3031
    },
    {
      "epoch": 0.06737777777777777,
      "grad_norm": 1.1763414144515991,
      "learning_rate": 0.0001865659035341187,
      "loss": 1.8164,
      "step": 3032
    },
    {
      "epoch": 0.0674,
      "grad_norm": 1.5299826860427856,
      "learning_rate": 0.0001865614581018004,
      "loss": 1.1157,
      "step": 3033
    },
    {
      "epoch": 0.06742222222222222,
      "grad_norm": 1.3983116149902344,
      "learning_rate": 0.00018655701266948212,
      "loss": 2.1105,
      "step": 3034
    },
    {
      "epoch": 0.06744444444444445,
      "grad_norm": 1.37330162525177,
      "learning_rate": 0.00018655256723716383,
      "loss": 2.2656,
      "step": 3035
    },
    {
      "epoch": 0.06746666666666666,
      "grad_norm": 1.310173749923706,
      "learning_rate": 0.00018654812180484554,
      "loss": 1.8935,
      "step": 3036
    },
    {
      "epoch": 0.06748888888888889,
      "grad_norm": 1.4299370050430298,
      "learning_rate": 0.00018654367637252722,
      "loss": 1.7469,
      "step": 3037
    },
    {
      "epoch": 0.0675111111111111,
      "grad_norm": 1.5664149522781372,
      "learning_rate": 0.00018653923094020896,
      "loss": 1.2068,
      "step": 3038
    },
    {
      "epoch": 0.06753333333333333,
      "grad_norm": 1.337867259979248,
      "learning_rate": 0.00018653478550789064,
      "loss": 2.2552,
      "step": 3039
    },
    {
      "epoch": 0.06755555555555555,
      "grad_norm": 1.4328793287277222,
      "learning_rate": 0.00018653034007557235,
      "loss": 2.0573,
      "step": 3040
    },
    {
      "epoch": 0.06757777777777778,
      "grad_norm": 1.305863380432129,
      "learning_rate": 0.00018652589464325409,
      "loss": 2.099,
      "step": 3041
    },
    {
      "epoch": 0.0676,
      "grad_norm": 1.2517766952514648,
      "learning_rate": 0.00018652144921093577,
      "loss": 1.9474,
      "step": 3042
    },
    {
      "epoch": 0.06762222222222222,
      "grad_norm": 1.4265320301055908,
      "learning_rate": 0.00018651700377861748,
      "loss": 2.1624,
      "step": 3043
    },
    {
      "epoch": 0.06764444444444444,
      "grad_norm": 1.4899251461029053,
      "learning_rate": 0.0001865125583462992,
      "loss": 1.9703,
      "step": 3044
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 1.5499143600463867,
      "learning_rate": 0.0001865081129139809,
      "loss": 1.6343,
      "step": 3045
    },
    {
      "epoch": 0.0676888888888889,
      "grad_norm": 1.2661762237548828,
      "learning_rate": 0.00018650366748166258,
      "loss": 1.8185,
      "step": 3046
    },
    {
      "epoch": 0.06771111111111111,
      "grad_norm": 1.5745210647583008,
      "learning_rate": 0.00018649922204934432,
      "loss": 2.1845,
      "step": 3047
    },
    {
      "epoch": 0.06773333333333334,
      "grad_norm": 1.808465838432312,
      "learning_rate": 0.00018649477661702603,
      "loss": 2.3673,
      "step": 3048
    },
    {
      "epoch": 0.06775555555555555,
      "grad_norm": 1.4940499067306519,
      "learning_rate": 0.0001864903311847077,
      "loss": 1.6193,
      "step": 3049
    },
    {
      "epoch": 0.06777777777777778,
      "grad_norm": 1.7693639993667603,
      "learning_rate": 0.00018648588575238944,
      "loss": 1.5863,
      "step": 3050
    },
    {
      "epoch": 0.0678,
      "grad_norm": 1.020078182220459,
      "learning_rate": 0.00018648144032007113,
      "loss": 2.3726,
      "step": 3051
    },
    {
      "epoch": 0.06782222222222223,
      "grad_norm": 0.9951558113098145,
      "learning_rate": 0.00018647699488775286,
      "loss": 2.391,
      "step": 3052
    },
    {
      "epoch": 0.06784444444444444,
      "grad_norm": 1.3614338636398315,
      "learning_rate": 0.00018647254945543455,
      "loss": 2.2853,
      "step": 3053
    },
    {
      "epoch": 0.06786666666666667,
      "grad_norm": 1.1202802658081055,
      "learning_rate": 0.00018646810402311626,
      "loss": 2.4977,
      "step": 3054
    },
    {
      "epoch": 0.06788888888888889,
      "grad_norm": 1.1676385402679443,
      "learning_rate": 0.00018646365859079797,
      "loss": 2.2791,
      "step": 3055
    },
    {
      "epoch": 0.06791111111111112,
      "grad_norm": 1.3840031623840332,
      "learning_rate": 0.00018645921315847968,
      "loss": 2.3632,
      "step": 3056
    },
    {
      "epoch": 0.06793333333333333,
      "grad_norm": 1.6053420305252075,
      "learning_rate": 0.00018645476772616139,
      "loss": 2.0755,
      "step": 3057
    },
    {
      "epoch": 0.06795555555555556,
      "grad_norm": 1.1942670345306396,
      "learning_rate": 0.0001864503222938431,
      "loss": 2.4001,
      "step": 3058
    },
    {
      "epoch": 0.06797777777777778,
      "grad_norm": 1.1291829347610474,
      "learning_rate": 0.0001864458768615248,
      "loss": 2.6332,
      "step": 3059
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.2013721466064453,
      "learning_rate": 0.0001864414314292065,
      "loss": 1.0045,
      "step": 3060
    },
    {
      "epoch": 0.06802222222222222,
      "grad_norm": 1.0784189701080322,
      "learning_rate": 0.00018643698599688822,
      "loss": 1.6403,
      "step": 3061
    },
    {
      "epoch": 0.06804444444444445,
      "grad_norm": 1.1853705644607544,
      "learning_rate": 0.0001864325405645699,
      "loss": 2.3722,
      "step": 3062
    },
    {
      "epoch": 0.06806666666666666,
      "grad_norm": 1.1500760316848755,
      "learning_rate": 0.00018642809513225162,
      "loss": 2.3134,
      "step": 3063
    },
    {
      "epoch": 0.0680888888888889,
      "grad_norm": 1.1305676698684692,
      "learning_rate": 0.00018642364969993333,
      "loss": 2.2578,
      "step": 3064
    },
    {
      "epoch": 0.06811111111111111,
      "grad_norm": 1.1511883735656738,
      "learning_rate": 0.00018641920426761503,
      "loss": 1.9826,
      "step": 3065
    },
    {
      "epoch": 0.06813333333333334,
      "grad_norm": 1.2255641222000122,
      "learning_rate": 0.00018641475883529674,
      "loss": 1.7309,
      "step": 3066
    },
    {
      "epoch": 0.06815555555555555,
      "grad_norm": 1.1795870065689087,
      "learning_rate": 0.00018641031340297845,
      "loss": 2.0513,
      "step": 3067
    },
    {
      "epoch": 0.06817777777777778,
      "grad_norm": 1.4166266918182373,
      "learning_rate": 0.00018640586797066016,
      "loss": 2.2812,
      "step": 3068
    },
    {
      "epoch": 0.0682,
      "grad_norm": 1.3183900117874146,
      "learning_rate": 0.00018640142253834185,
      "loss": 1.9412,
      "step": 3069
    },
    {
      "epoch": 0.06822222222222223,
      "grad_norm": 1.2181826829910278,
      "learning_rate": 0.00018639697710602358,
      "loss": 2.3809,
      "step": 3070
    },
    {
      "epoch": 0.06824444444444444,
      "grad_norm": 1.381649374961853,
      "learning_rate": 0.00018639253167370527,
      "loss": 2.4266,
      "step": 3071
    },
    {
      "epoch": 0.06826666666666667,
      "grad_norm": 1.336442232131958,
      "learning_rate": 0.000186388086241387,
      "loss": 2.2447,
      "step": 3072
    },
    {
      "epoch": 0.06828888888888889,
      "grad_norm": 1.0556756258010864,
      "learning_rate": 0.00018638364080906868,
      "loss": 1.7687,
      "step": 3073
    },
    {
      "epoch": 0.06831111111111111,
      "grad_norm": 1.1357994079589844,
      "learning_rate": 0.0001863791953767504,
      "loss": 1.8913,
      "step": 3074
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 1.1601805686950684,
      "learning_rate": 0.0001863747499444321,
      "loss": 2.186,
      "step": 3075
    },
    {
      "epoch": 0.06835555555555556,
      "grad_norm": 1.316452980041504,
      "learning_rate": 0.00018637030451211381,
      "loss": 2.2864,
      "step": 3076
    },
    {
      "epoch": 0.06837777777777777,
      "grad_norm": 1.1213129758834839,
      "learning_rate": 0.00018636585907979552,
      "loss": 1.54,
      "step": 3077
    },
    {
      "epoch": 0.0684,
      "grad_norm": 1.4808624982833862,
      "learning_rate": 0.00018636141364747723,
      "loss": 2.5633,
      "step": 3078
    },
    {
      "epoch": 0.06842222222222222,
      "grad_norm": 1.555956244468689,
      "learning_rate": 0.00018635696821515894,
      "loss": 2.0051,
      "step": 3079
    },
    {
      "epoch": 0.06844444444444445,
      "grad_norm": 1.4880449771881104,
      "learning_rate": 0.00018635252278284063,
      "loss": 2.5767,
      "step": 3080
    },
    {
      "epoch": 0.06846666666666666,
      "grad_norm": 1.6123839616775513,
      "learning_rate": 0.00018634807735052236,
      "loss": 2.1698,
      "step": 3081
    },
    {
      "epoch": 0.06848888888888889,
      "grad_norm": 1.490860104560852,
      "learning_rate": 0.00018634363191820404,
      "loss": 2.6339,
      "step": 3082
    },
    {
      "epoch": 0.0685111111111111,
      "grad_norm": 1.5396085977554321,
      "learning_rate": 0.00018633918648588575,
      "loss": 2.54,
      "step": 3083
    },
    {
      "epoch": 0.06853333333333333,
      "grad_norm": 1.157238483428955,
      "learning_rate": 0.00018633474105356746,
      "loss": 1.9568,
      "step": 3084
    },
    {
      "epoch": 0.06855555555555555,
      "grad_norm": 1.3200165033340454,
      "learning_rate": 0.00018633029562124917,
      "loss": 2.0114,
      "step": 3085
    },
    {
      "epoch": 0.06857777777777778,
      "grad_norm": 1.2527263164520264,
      "learning_rate": 0.00018632585018893088,
      "loss": 1.9291,
      "step": 3086
    },
    {
      "epoch": 0.0686,
      "grad_norm": 1.1514992713928223,
      "learning_rate": 0.0001863214047566126,
      "loss": 1.8126,
      "step": 3087
    },
    {
      "epoch": 0.06862222222222222,
      "grad_norm": 1.322563648223877,
      "learning_rate": 0.0001863169593242943,
      "loss": 1.9282,
      "step": 3088
    },
    {
      "epoch": 0.06864444444444444,
      "grad_norm": 1.3832098245620728,
      "learning_rate": 0.00018631251389197598,
      "loss": 1.6543,
      "step": 3089
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 1.2836965322494507,
      "learning_rate": 0.00018630806845965772,
      "loss": 1.9576,
      "step": 3090
    },
    {
      "epoch": 0.06868888888888888,
      "grad_norm": 1.480849027633667,
      "learning_rate": 0.0001863036230273394,
      "loss": 2.1873,
      "step": 3091
    },
    {
      "epoch": 0.06871111111111111,
      "grad_norm": 1.444036841392517,
      "learning_rate": 0.00018629917759502114,
      "loss": 2.4291,
      "step": 3092
    },
    {
      "epoch": 0.06873333333333333,
      "grad_norm": 1.2380448579788208,
      "learning_rate": 0.00018629473216270282,
      "loss": 1.7406,
      "step": 3093
    },
    {
      "epoch": 0.06875555555555556,
      "grad_norm": 1.5346790552139282,
      "learning_rate": 0.00018629028673038453,
      "loss": 2.0464,
      "step": 3094
    },
    {
      "epoch": 0.06877777777777777,
      "grad_norm": 1.323529839515686,
      "learning_rate": 0.00018628584129806624,
      "loss": 1.6314,
      "step": 3095
    },
    {
      "epoch": 0.0688,
      "grad_norm": 1.481766700744629,
      "learning_rate": 0.00018628139586574795,
      "loss": 2.0781,
      "step": 3096
    },
    {
      "epoch": 0.06882222222222223,
      "grad_norm": 1.0874724388122559,
      "learning_rate": 0.00018627695043342966,
      "loss": 1.2723,
      "step": 3097
    },
    {
      "epoch": 0.06884444444444444,
      "grad_norm": 1.6798361539840698,
      "learning_rate": 0.00018627250500111137,
      "loss": 1.7107,
      "step": 3098
    },
    {
      "epoch": 0.06886666666666667,
      "grad_norm": 1.4015706777572632,
      "learning_rate": 0.00018626805956879308,
      "loss": 1.4299,
      "step": 3099
    },
    {
      "epoch": 0.06888888888888889,
      "grad_norm": 1.3325926065444946,
      "learning_rate": 0.00018626361413647476,
      "loss": 1.3214,
      "step": 3100
    },
    {
      "epoch": 0.06891111111111112,
      "grad_norm": 1.0045979022979736,
      "learning_rate": 0.0001862591687041565,
      "loss": 2.0906,
      "step": 3101
    },
    {
      "epoch": 0.06893333333333333,
      "grad_norm": 1.0200821161270142,
      "learning_rate": 0.00018625472327183818,
      "loss": 1.8968,
      "step": 3102
    },
    {
      "epoch": 0.06895555555555556,
      "grad_norm": 1.2551326751708984,
      "learning_rate": 0.0001862502778395199,
      "loss": 1.9392,
      "step": 3103
    },
    {
      "epoch": 0.06897777777777778,
      "grad_norm": 1.1553781032562256,
      "learning_rate": 0.0001862458324072016,
      "loss": 1.9881,
      "step": 3104
    },
    {
      "epoch": 0.069,
      "grad_norm": 1.3161534070968628,
      "learning_rate": 0.0001862413869748833,
      "loss": 2.1154,
      "step": 3105
    },
    {
      "epoch": 0.06902222222222222,
      "grad_norm": 1.1664115190505981,
      "learning_rate": 0.00018623694154256502,
      "loss": 2.5115,
      "step": 3106
    },
    {
      "epoch": 0.06904444444444445,
      "grad_norm": 1.265507698059082,
      "learning_rate": 0.00018623249611024673,
      "loss": 1.6962,
      "step": 3107
    },
    {
      "epoch": 0.06906666666666667,
      "grad_norm": 1.2219555377960205,
      "learning_rate": 0.00018622805067792844,
      "loss": 2.0094,
      "step": 3108
    },
    {
      "epoch": 0.0690888888888889,
      "grad_norm": 1.172410249710083,
      "learning_rate": 0.00018622360524561015,
      "loss": 2.032,
      "step": 3109
    },
    {
      "epoch": 0.06911111111111111,
      "grad_norm": 1.0577607154846191,
      "learning_rate": 0.00018621915981329186,
      "loss": 2.0619,
      "step": 3110
    },
    {
      "epoch": 0.06913333333333334,
      "grad_norm": 1.371067762374878,
      "learning_rate": 0.00018621471438097354,
      "loss": 1.9002,
      "step": 3111
    },
    {
      "epoch": 0.06915555555555555,
      "grad_norm": 1.2463182210922241,
      "learning_rate": 0.00018621026894865528,
      "loss": 2.2429,
      "step": 3112
    },
    {
      "epoch": 0.06917777777777778,
      "grad_norm": 1.2977174520492554,
      "learning_rate": 0.00018620582351633696,
      "loss": 1.2412,
      "step": 3113
    },
    {
      "epoch": 0.0692,
      "grad_norm": 1.1670761108398438,
      "learning_rate": 0.00018620137808401867,
      "loss": 1.84,
      "step": 3114
    },
    {
      "epoch": 0.06922222222222223,
      "grad_norm": 1.3535349369049072,
      "learning_rate": 0.0001861969326517004,
      "loss": 2.0711,
      "step": 3115
    },
    {
      "epoch": 0.06924444444444444,
      "grad_norm": 1.202639102935791,
      "learning_rate": 0.0001861924872193821,
      "loss": 1.8456,
      "step": 3116
    },
    {
      "epoch": 0.06926666666666667,
      "grad_norm": 1.3139315843582153,
      "learning_rate": 0.0001861880417870638,
      "loss": 2.2342,
      "step": 3117
    },
    {
      "epoch": 0.06928888888888889,
      "grad_norm": 1.4702835083007812,
      "learning_rate": 0.0001861835963547455,
      "loss": 2.0615,
      "step": 3118
    },
    {
      "epoch": 0.06931111111111112,
      "grad_norm": 1.2553362846374512,
      "learning_rate": 0.00018617915092242722,
      "loss": 1.5745,
      "step": 3119
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 1.3718432188034058,
      "learning_rate": 0.0001861747054901089,
      "loss": 1.7778,
      "step": 3120
    },
    {
      "epoch": 0.06935555555555556,
      "grad_norm": 1.2589430809020996,
      "learning_rate": 0.00018617026005779064,
      "loss": 1.917,
      "step": 3121
    },
    {
      "epoch": 0.06937777777777777,
      "grad_norm": 1.4061884880065918,
      "learning_rate": 0.00018616581462547235,
      "loss": 1.8717,
      "step": 3122
    },
    {
      "epoch": 0.0694,
      "grad_norm": 1.637049674987793,
      "learning_rate": 0.00018616136919315403,
      "loss": 1.8411,
      "step": 3123
    },
    {
      "epoch": 0.06942222222222222,
      "grad_norm": 1.2560381889343262,
      "learning_rate": 0.00018615692376083577,
      "loss": 1.9734,
      "step": 3124
    },
    {
      "epoch": 0.06944444444444445,
      "grad_norm": 1.384864091873169,
      "learning_rate": 0.00018615247832851745,
      "loss": 1.9053,
      "step": 3125
    },
    {
      "epoch": 0.06946666666666666,
      "grad_norm": 1.17531156539917,
      "learning_rate": 0.00018614803289619916,
      "loss": 1.7236,
      "step": 3126
    },
    {
      "epoch": 0.06948888888888889,
      "grad_norm": 1.4617774486541748,
      "learning_rate": 0.00018614358746388087,
      "loss": 2.0953,
      "step": 3127
    },
    {
      "epoch": 0.0695111111111111,
      "grad_norm": 1.4734753370285034,
      "learning_rate": 0.00018613914203156258,
      "loss": 2.2885,
      "step": 3128
    },
    {
      "epoch": 0.06953333333333334,
      "grad_norm": 1.1499420404434204,
      "learning_rate": 0.0001861346965992443,
      "loss": 1.9675,
      "step": 3129
    },
    {
      "epoch": 0.06955555555555555,
      "grad_norm": 1.016000509262085,
      "learning_rate": 0.000186130251166926,
      "loss": 0.0677,
      "step": 3130
    },
    {
      "epoch": 0.06957777777777778,
      "grad_norm": 1.397423505783081,
      "learning_rate": 0.0001861258057346077,
      "loss": 2.1454,
      "step": 3131
    },
    {
      "epoch": 0.0696,
      "grad_norm": 1.375404953956604,
      "learning_rate": 0.00018612136030228942,
      "loss": 2.1344,
      "step": 3132
    },
    {
      "epoch": 0.06962222222222222,
      "grad_norm": 1.4570456743240356,
      "learning_rate": 0.00018611691486997113,
      "loss": 1.9302,
      "step": 3133
    },
    {
      "epoch": 0.06964444444444444,
      "grad_norm": 1.3582453727722168,
      "learning_rate": 0.0001861124694376528,
      "loss": 1.9745,
      "step": 3134
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 1.440842628479004,
      "learning_rate": 0.00018610802400533455,
      "loss": 2.4853,
      "step": 3135
    },
    {
      "epoch": 0.06968888888888888,
      "grad_norm": 1.5460126399993896,
      "learning_rate": 0.00018610357857301623,
      "loss": 1.958,
      "step": 3136
    },
    {
      "epoch": 0.06971111111111111,
      "grad_norm": 1.3783636093139648,
      "learning_rate": 0.00018609913314069794,
      "loss": 1.8361,
      "step": 3137
    },
    {
      "epoch": 0.06973333333333333,
      "grad_norm": 1.6017347574234009,
      "learning_rate": 0.00018609468770837965,
      "loss": 2.0159,
      "step": 3138
    },
    {
      "epoch": 0.06975555555555556,
      "grad_norm": 1.5302122831344604,
      "learning_rate": 0.00018609024227606136,
      "loss": 2.2509,
      "step": 3139
    },
    {
      "epoch": 0.06977777777777777,
      "grad_norm": 1.4924696683883667,
      "learning_rate": 0.00018608579684374307,
      "loss": 1.936,
      "step": 3140
    },
    {
      "epoch": 0.0698,
      "grad_norm": 1.1864842176437378,
      "learning_rate": 0.00018608135141142478,
      "loss": 1.7742,
      "step": 3141
    },
    {
      "epoch": 0.06982222222222222,
      "grad_norm": 1.2760343551635742,
      "learning_rate": 0.00018607690597910649,
      "loss": 1.574,
      "step": 3142
    },
    {
      "epoch": 0.06984444444444445,
      "grad_norm": 1.4915947914123535,
      "learning_rate": 0.00018607246054678817,
      "loss": 2.1868,
      "step": 3143
    },
    {
      "epoch": 0.06986666666666666,
      "grad_norm": 1.639445424079895,
      "learning_rate": 0.0001860680151144699,
      "loss": 1.9876,
      "step": 3144
    },
    {
      "epoch": 0.06988888888888889,
      "grad_norm": 1.33467435836792,
      "learning_rate": 0.0001860635696821516,
      "loss": 1.5571,
      "step": 3145
    },
    {
      "epoch": 0.0699111111111111,
      "grad_norm": 1.4326633214950562,
      "learning_rate": 0.0001860591242498333,
      "loss": 1.8554,
      "step": 3146
    },
    {
      "epoch": 0.06993333333333333,
      "grad_norm": 1.8822603225708008,
      "learning_rate": 0.000186054678817515,
      "loss": 2.0675,
      "step": 3147
    },
    {
      "epoch": 0.06995555555555556,
      "grad_norm": 1.400314450263977,
      "learning_rate": 0.00018605023338519672,
      "loss": 1.7519,
      "step": 3148
    },
    {
      "epoch": 0.06997777777777778,
      "grad_norm": 1.376460075378418,
      "learning_rate": 0.00018604578795287843,
      "loss": 1.9243,
      "step": 3149
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4170759916305542,
      "learning_rate": 0.00018604134252056014,
      "loss": 1.4566,
      "step": 3150
    },
    {
      "epoch": 0.07002222222222222,
      "grad_norm": 1.176084280014038,
      "learning_rate": 0.00018603689708824185,
      "loss": 2.5171,
      "step": 3151
    },
    {
      "epoch": 0.07004444444444445,
      "grad_norm": 0.796825647354126,
      "learning_rate": 0.00018603245165592355,
      "loss": 1.0659,
      "step": 3152
    },
    {
      "epoch": 0.07006666666666667,
      "grad_norm": 1.1480032205581665,
      "learning_rate": 0.00018602800622360526,
      "loss": 2.6119,
      "step": 3153
    },
    {
      "epoch": 0.0700888888888889,
      "grad_norm": 1.0482373237609863,
      "learning_rate": 0.00018602356079128695,
      "loss": 2.0065,
      "step": 3154
    },
    {
      "epoch": 0.07011111111111111,
      "grad_norm": 1.150799036026001,
      "learning_rate": 0.00018601911535896868,
      "loss": 2.5115,
      "step": 3155
    },
    {
      "epoch": 0.07013333333333334,
      "grad_norm": 1.0664395093917847,
      "learning_rate": 0.00018601466992665037,
      "loss": 1.4442,
      "step": 3156
    },
    {
      "epoch": 0.07015555555555555,
      "grad_norm": 1.257991909980774,
      "learning_rate": 0.00018601022449433208,
      "loss": 2.3767,
      "step": 3157
    },
    {
      "epoch": 0.07017777777777778,
      "grad_norm": 1.173624038696289,
      "learning_rate": 0.00018600577906201379,
      "loss": 2.4001,
      "step": 3158
    },
    {
      "epoch": 0.0702,
      "grad_norm": 1.3107126951217651,
      "learning_rate": 0.0001860013336296955,
      "loss": 2.0785,
      "step": 3159
    },
    {
      "epoch": 0.07022222222222223,
      "grad_norm": 1.125231385231018,
      "learning_rate": 0.0001859968881973772,
      "loss": 2.2874,
      "step": 3160
    },
    {
      "epoch": 0.07024444444444444,
      "grad_norm": 0.962848424911499,
      "learning_rate": 0.00018599244276505891,
      "loss": 1.7164,
      "step": 3161
    },
    {
      "epoch": 0.07026666666666667,
      "grad_norm": 1.4906202554702759,
      "learning_rate": 0.00018598799733274062,
      "loss": 1.9267,
      "step": 3162
    },
    {
      "epoch": 0.07028888888888889,
      "grad_norm": 1.3258379697799683,
      "learning_rate": 0.0001859835519004223,
      "loss": 2.2396,
      "step": 3163
    },
    {
      "epoch": 0.07031111111111112,
      "grad_norm": 1.1507848501205444,
      "learning_rate": 0.00018597910646810404,
      "loss": 1.5691,
      "step": 3164
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 1.2545636892318726,
      "learning_rate": 0.00018597466103578573,
      "loss": 2.3422,
      "step": 3165
    },
    {
      "epoch": 0.07035555555555556,
      "grad_norm": 1.3093425035476685,
      "learning_rate": 0.00018597021560346746,
      "loss": 2.2198,
      "step": 3166
    },
    {
      "epoch": 0.07037777777777778,
      "grad_norm": 1.6808485984802246,
      "learning_rate": 0.00018596577017114915,
      "loss": 1.3773,
      "step": 3167
    },
    {
      "epoch": 0.0704,
      "grad_norm": 1.3006585836410522,
      "learning_rate": 0.00018596132473883085,
      "loss": 1.9069,
      "step": 3168
    },
    {
      "epoch": 0.07042222222222222,
      "grad_norm": 1.3212761878967285,
      "learning_rate": 0.00018595687930651256,
      "loss": 2.132,
      "step": 3169
    },
    {
      "epoch": 0.07044444444444445,
      "grad_norm": 1.015975832939148,
      "learning_rate": 0.00018595243387419427,
      "loss": 1.5151,
      "step": 3170
    },
    {
      "epoch": 0.07046666666666666,
      "grad_norm": 1.2584716081619263,
      "learning_rate": 0.00018594798844187598,
      "loss": 1.969,
      "step": 3171
    },
    {
      "epoch": 0.07048888888888889,
      "grad_norm": 1.0883800983428955,
      "learning_rate": 0.0001859435430095577,
      "loss": 1.6872,
      "step": 3172
    },
    {
      "epoch": 0.07051111111111111,
      "grad_norm": 1.2211334705352783,
      "learning_rate": 0.0001859390975772394,
      "loss": 2.3762,
      "step": 3173
    },
    {
      "epoch": 0.07053333333333334,
      "grad_norm": 1.3487976789474487,
      "learning_rate": 0.00018593465214492109,
      "loss": 2.2317,
      "step": 3174
    },
    {
      "epoch": 0.07055555555555555,
      "grad_norm": 1.2125729322433472,
      "learning_rate": 0.00018593020671260282,
      "loss": 2.0716,
      "step": 3175
    },
    {
      "epoch": 0.07057777777777778,
      "grad_norm": 1.124316692352295,
      "learning_rate": 0.0001859257612802845,
      "loss": 1.8635,
      "step": 3176
    },
    {
      "epoch": 0.0706,
      "grad_norm": 1.2815332412719727,
      "learning_rate": 0.00018592131584796621,
      "loss": 1.8667,
      "step": 3177
    },
    {
      "epoch": 0.07062222222222223,
      "grad_norm": 1.1639313697814941,
      "learning_rate": 0.00018591687041564792,
      "loss": 1.9161,
      "step": 3178
    },
    {
      "epoch": 0.07064444444444444,
      "grad_norm": 1.319077491760254,
      "learning_rate": 0.00018591242498332963,
      "loss": 1.9424,
      "step": 3179
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 1.3556466102600098,
      "learning_rate": 0.00018590797955101134,
      "loss": 2.0775,
      "step": 3180
    },
    {
      "epoch": 0.07068888888888888,
      "grad_norm": 1.3292410373687744,
      "learning_rate": 0.00018590353411869305,
      "loss": 1.8626,
      "step": 3181
    },
    {
      "epoch": 0.07071111111111111,
      "grad_norm": 1.4909486770629883,
      "learning_rate": 0.00018589908868637476,
      "loss": 2.0275,
      "step": 3182
    },
    {
      "epoch": 0.07073333333333333,
      "grad_norm": 1.35085129737854,
      "learning_rate": 0.00018589464325405644,
      "loss": 1.8455,
      "step": 3183
    },
    {
      "epoch": 0.07075555555555556,
      "grad_norm": 1.5771790742874146,
      "learning_rate": 0.00018589019782173818,
      "loss": 2.5952,
      "step": 3184
    },
    {
      "epoch": 0.07077777777777777,
      "grad_norm": 1.8196218013763428,
      "learning_rate": 0.00018588575238941986,
      "loss": 2.253,
      "step": 3185
    },
    {
      "epoch": 0.0708,
      "grad_norm": 1.6080139875411987,
      "learning_rate": 0.0001858813069571016,
      "loss": 1.9148,
      "step": 3186
    },
    {
      "epoch": 0.07082222222222222,
      "grad_norm": 1.427482008934021,
      "learning_rate": 0.00018587686152478328,
      "loss": 2.3963,
      "step": 3187
    },
    {
      "epoch": 0.07084444444444445,
      "grad_norm": 1.2649651765823364,
      "learning_rate": 0.000185872416092465,
      "loss": 1.923,
      "step": 3188
    },
    {
      "epoch": 0.07086666666666666,
      "grad_norm": 1.2580745220184326,
      "learning_rate": 0.00018586797066014673,
      "loss": 2.0556,
      "step": 3189
    },
    {
      "epoch": 0.07088888888888889,
      "grad_norm": 1.4637434482574463,
      "learning_rate": 0.0001858635252278284,
      "loss": 2.0906,
      "step": 3190
    },
    {
      "epoch": 0.0709111111111111,
      "grad_norm": 1.472300410270691,
      "learning_rate": 0.00018585907979551012,
      "loss": 1.7587,
      "step": 3191
    },
    {
      "epoch": 0.07093333333333333,
      "grad_norm": 1.302419662475586,
      "learning_rate": 0.00018585463436319183,
      "loss": 1.9788,
      "step": 3192
    },
    {
      "epoch": 0.07095555555555555,
      "grad_norm": 1.4993181228637695,
      "learning_rate": 0.00018585018893087354,
      "loss": 1.7982,
      "step": 3193
    },
    {
      "epoch": 0.07097777777777778,
      "grad_norm": 1.391061782836914,
      "learning_rate": 0.00018584574349855522,
      "loss": 1.6953,
      "step": 3194
    },
    {
      "epoch": 0.071,
      "grad_norm": 1.4594935178756714,
      "learning_rate": 0.00018584129806623696,
      "loss": 1.8619,
      "step": 3195
    },
    {
      "epoch": 0.07102222222222222,
      "grad_norm": 1.8263238668441772,
      "learning_rate": 0.00018583685263391867,
      "loss": 1.9633,
      "step": 3196
    },
    {
      "epoch": 0.07104444444444444,
      "grad_norm": 1.0885010957717896,
      "learning_rate": 0.00018583240720160035,
      "loss": 1.0194,
      "step": 3197
    },
    {
      "epoch": 0.07106666666666667,
      "grad_norm": 1.3592110872268677,
      "learning_rate": 0.0001858279617692821,
      "loss": 1.8874,
      "step": 3198
    },
    {
      "epoch": 0.07108888888888888,
      "grad_norm": 1.5188533067703247,
      "learning_rate": 0.00018582351633696377,
      "loss": 2.103,
      "step": 3199
    },
    {
      "epoch": 0.07111111111111111,
      "grad_norm": 0.9653910398483276,
      "learning_rate": 0.00018581907090464548,
      "loss": 1.0329,
      "step": 3200
    },
    {
      "epoch": 0.07113333333333334,
      "grad_norm": 1.450005054473877,
      "learning_rate": 0.0001858146254723272,
      "loss": 1.4119,
      "step": 3201
    },
    {
      "epoch": 0.07115555555555556,
      "grad_norm": 1.0671168565750122,
      "learning_rate": 0.0001858101800400089,
      "loss": 2.0543,
      "step": 3202
    },
    {
      "epoch": 0.07117777777777778,
      "grad_norm": 1.2091753482818604,
      "learning_rate": 0.00018580573460769058,
      "loss": 2.3077,
      "step": 3203
    },
    {
      "epoch": 0.0712,
      "grad_norm": 1.1918028593063354,
      "learning_rate": 0.00018580128917537232,
      "loss": 2.586,
      "step": 3204
    },
    {
      "epoch": 0.07122222222222223,
      "grad_norm": 1.254113793373108,
      "learning_rate": 0.00018579684374305403,
      "loss": 2.2683,
      "step": 3205
    },
    {
      "epoch": 0.07124444444444444,
      "grad_norm": 1.0458388328552246,
      "learning_rate": 0.00018579239831073574,
      "loss": 1.7775,
      "step": 3206
    },
    {
      "epoch": 0.07126666666666667,
      "grad_norm": 1.2077213525772095,
      "learning_rate": 0.00018578795287841745,
      "loss": 1.9684,
      "step": 3207
    },
    {
      "epoch": 0.07128888888888889,
      "grad_norm": 1.3320894241333008,
      "learning_rate": 0.00018578350744609913,
      "loss": 2.2517,
      "step": 3208
    },
    {
      "epoch": 0.07131111111111112,
      "grad_norm": 1.3747494220733643,
      "learning_rate": 0.00018577906201378087,
      "loss": 2.5526,
      "step": 3209
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 1.362795114517212,
      "learning_rate": 0.00018577461658146255,
      "loss": 2.24,
      "step": 3210
    },
    {
      "epoch": 0.07135555555555556,
      "grad_norm": 1.2927980422973633,
      "learning_rate": 0.00018577017114914426,
      "loss": 2.7523,
      "step": 3211
    },
    {
      "epoch": 0.07137777777777778,
      "grad_norm": 1.3677923679351807,
      "learning_rate": 0.00018576572571682597,
      "loss": 2.0425,
      "step": 3212
    },
    {
      "epoch": 0.0714,
      "grad_norm": 1.250320553779602,
      "learning_rate": 0.00018576128028450768,
      "loss": 2.0995,
      "step": 3213
    },
    {
      "epoch": 0.07142222222222222,
      "grad_norm": 1.1317499876022339,
      "learning_rate": 0.0001857568348521894,
      "loss": 1.8188,
      "step": 3214
    },
    {
      "epoch": 0.07144444444444445,
      "grad_norm": 1.0998951196670532,
      "learning_rate": 0.0001857523894198711,
      "loss": 1.7639,
      "step": 3215
    },
    {
      "epoch": 0.07146666666666666,
      "grad_norm": 1.065973162651062,
      "learning_rate": 0.0001857479439875528,
      "loss": 1.5334,
      "step": 3216
    },
    {
      "epoch": 0.0714888888888889,
      "grad_norm": 1.1874308586120605,
      "learning_rate": 0.0001857434985552345,
      "loss": 2.2267,
      "step": 3217
    },
    {
      "epoch": 0.07151111111111111,
      "grad_norm": 1.1485834121704102,
      "learning_rate": 0.00018573905312291623,
      "loss": 1.911,
      "step": 3218
    },
    {
      "epoch": 0.07153333333333334,
      "grad_norm": 1.3985886573791504,
      "learning_rate": 0.0001857346076905979,
      "loss": 2.3273,
      "step": 3219
    },
    {
      "epoch": 0.07155555555555555,
      "grad_norm": 1.212371587753296,
      "learning_rate": 0.00018573016225827962,
      "loss": 2.0963,
      "step": 3220
    },
    {
      "epoch": 0.07157777777777778,
      "grad_norm": 1.2432383298873901,
      "learning_rate": 0.00018572571682596133,
      "loss": 2.1041,
      "step": 3221
    },
    {
      "epoch": 0.0716,
      "grad_norm": 1.245377779006958,
      "learning_rate": 0.00018572127139364304,
      "loss": 1.9445,
      "step": 3222
    },
    {
      "epoch": 0.07162222222222223,
      "grad_norm": 1.2812609672546387,
      "learning_rate": 0.00018571682596132475,
      "loss": 2.092,
      "step": 3223
    },
    {
      "epoch": 0.07164444444444444,
      "grad_norm": 1.3125207424163818,
      "learning_rate": 0.00018571238052900646,
      "loss": 1.9547,
      "step": 3224
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 1.4647374153137207,
      "learning_rate": 0.00018570793509668817,
      "loss": 1.7872,
      "step": 3225
    },
    {
      "epoch": 0.07168888888888889,
      "grad_norm": 1.5493143796920776,
      "learning_rate": 0.00018570348966436988,
      "loss": 1.9315,
      "step": 3226
    },
    {
      "epoch": 0.07171111111111111,
      "grad_norm": 1.7617371082305908,
      "learning_rate": 0.0001856990442320516,
      "loss": 2.237,
      "step": 3227
    },
    {
      "epoch": 0.07173333333333333,
      "grad_norm": 1.39019775390625,
      "learning_rate": 0.00018569459879973327,
      "loss": 2.4093,
      "step": 3228
    },
    {
      "epoch": 0.07175555555555556,
      "grad_norm": 1.3510781526565552,
      "learning_rate": 0.000185690153367415,
      "loss": 2.1221,
      "step": 3229
    },
    {
      "epoch": 0.07177777777777777,
      "grad_norm": 1.2744882106781006,
      "learning_rate": 0.0001856857079350967,
      "loss": 1.9313,
      "step": 3230
    },
    {
      "epoch": 0.0718,
      "grad_norm": 1.177996039390564,
      "learning_rate": 0.0001856812625027784,
      "loss": 1.5578,
      "step": 3231
    },
    {
      "epoch": 0.07182222222222222,
      "grad_norm": 1.3063701391220093,
      "learning_rate": 0.0001856768170704601,
      "loss": 2.0013,
      "step": 3232
    },
    {
      "epoch": 0.07184444444444445,
      "grad_norm": 1.3159078359603882,
      "learning_rate": 0.00018567237163814182,
      "loss": 2.0254,
      "step": 3233
    },
    {
      "epoch": 0.07186666666666666,
      "grad_norm": 1.2836161851882935,
      "learning_rate": 0.00018566792620582353,
      "loss": 1.7575,
      "step": 3234
    },
    {
      "epoch": 0.07188888888888889,
      "grad_norm": 1.320886492729187,
      "learning_rate": 0.00018566348077350524,
      "loss": 2.0836,
      "step": 3235
    },
    {
      "epoch": 0.0719111111111111,
      "grad_norm": 1.2700814008712769,
      "learning_rate": 0.00018565903534118695,
      "loss": 1.8757,
      "step": 3236
    },
    {
      "epoch": 0.07193333333333334,
      "grad_norm": 1.3701927661895752,
      "learning_rate": 0.00018565458990886863,
      "loss": 2.1828,
      "step": 3237
    },
    {
      "epoch": 0.07195555555555555,
      "grad_norm": 1.2790844440460205,
      "learning_rate": 0.00018565014447655037,
      "loss": 1.7537,
      "step": 3238
    },
    {
      "epoch": 0.07197777777777778,
      "grad_norm": 1.5068280696868896,
      "learning_rate": 0.00018564569904423205,
      "loss": 1.9848,
      "step": 3239
    },
    {
      "epoch": 0.072,
      "grad_norm": 1.5322648286819458,
      "learning_rate": 0.00018564125361191376,
      "loss": 2.3908,
      "step": 3240
    },
    {
      "epoch": 0.07202222222222222,
      "grad_norm": 1.5137754678726196,
      "learning_rate": 0.00018563680817959547,
      "loss": 2.4623,
      "step": 3241
    },
    {
      "epoch": 0.07204444444444444,
      "grad_norm": 1.3661772012710571,
      "learning_rate": 0.00018563236274727718,
      "loss": 2.1133,
      "step": 3242
    },
    {
      "epoch": 0.07206666666666667,
      "grad_norm": 1.356837272644043,
      "learning_rate": 0.00018562791731495889,
      "loss": 1.834,
      "step": 3243
    },
    {
      "epoch": 0.07208888888888888,
      "grad_norm": 1.22430419921875,
      "learning_rate": 0.0001856234718826406,
      "loss": 1.786,
      "step": 3244
    },
    {
      "epoch": 0.07211111111111111,
      "grad_norm": 1.1776831150054932,
      "learning_rate": 0.0001856190264503223,
      "loss": 1.5689,
      "step": 3245
    },
    {
      "epoch": 0.07213333333333333,
      "grad_norm": 1.3597360849380493,
      "learning_rate": 0.00018561458101800402,
      "loss": 2.388,
      "step": 3246
    },
    {
      "epoch": 0.07215555555555556,
      "grad_norm": 1.5380576848983765,
      "learning_rate": 0.00018561013558568572,
      "loss": 1.854,
      "step": 3247
    },
    {
      "epoch": 0.07217777777777777,
      "grad_norm": 1.571637749671936,
      "learning_rate": 0.0001856056901533674,
      "loss": 1.9646,
      "step": 3248
    },
    {
      "epoch": 0.0722,
      "grad_norm": 1.383018136024475,
      "learning_rate": 0.00018560124472104914,
      "loss": 1.6999,
      "step": 3249
    },
    {
      "epoch": 0.07222222222222222,
      "grad_norm": 1.2798205614089966,
      "learning_rate": 0.00018559679928873083,
      "loss": 1.0246,
      "step": 3250
    },
    {
      "epoch": 0.07224444444444444,
      "grad_norm": 0.6936966776847839,
      "learning_rate": 0.00018559235385641254,
      "loss": 1.1929,
      "step": 3251
    },
    {
      "epoch": 0.07226666666666667,
      "grad_norm": 1.1614549160003662,
      "learning_rate": 0.00018558790842409425,
      "loss": 2.5859,
      "step": 3252
    },
    {
      "epoch": 0.07228888888888889,
      "grad_norm": 1.2852308750152588,
      "learning_rate": 0.00018558346299177596,
      "loss": 2.9286,
      "step": 3253
    },
    {
      "epoch": 0.07231111111111112,
      "grad_norm": 0.97017902135849,
      "learning_rate": 0.00018557901755945767,
      "loss": 1.8899,
      "step": 3254
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 1.0069116353988647,
      "learning_rate": 0.00018557457212713937,
      "loss": 1.5767,
      "step": 3255
    },
    {
      "epoch": 0.07235555555555556,
      "grad_norm": 1.1649580001831055,
      "learning_rate": 0.00018557012669482108,
      "loss": 2.1984,
      "step": 3256
    },
    {
      "epoch": 0.07237777777777778,
      "grad_norm": 0.9498484134674072,
      "learning_rate": 0.00018556568126250277,
      "loss": 0.6958,
      "step": 3257
    },
    {
      "epoch": 0.0724,
      "grad_norm": 0.7575570344924927,
      "learning_rate": 0.0001855612358301845,
      "loss": 0.9266,
      "step": 3258
    },
    {
      "epoch": 0.07242222222222222,
      "grad_norm": 1.2204036712646484,
      "learning_rate": 0.00018555679039786619,
      "loss": 2.0346,
      "step": 3259
    },
    {
      "epoch": 0.07244444444444445,
      "grad_norm": 1.2786270380020142,
      "learning_rate": 0.0001855523449655479,
      "loss": 2.3933,
      "step": 3260
    },
    {
      "epoch": 0.07246666666666667,
      "grad_norm": 1.3189749717712402,
      "learning_rate": 0.0001855478995332296,
      "loss": 2.1746,
      "step": 3261
    },
    {
      "epoch": 0.0724888888888889,
      "grad_norm": 1.2783126831054688,
      "learning_rate": 0.00018554345410091131,
      "loss": 2.2306,
      "step": 3262
    },
    {
      "epoch": 0.07251111111111111,
      "grad_norm": 1.2526603937149048,
      "learning_rate": 0.00018553900866859305,
      "loss": 2.1827,
      "step": 3263
    },
    {
      "epoch": 0.07253333333333334,
      "grad_norm": 3.138085126876831,
      "learning_rate": 0.00018553456323627473,
      "loss": 0.1832,
      "step": 3264
    },
    {
      "epoch": 0.07255555555555555,
      "grad_norm": 1.1451914310455322,
      "learning_rate": 0.00018553011780395644,
      "loss": 1.8625,
      "step": 3265
    },
    {
      "epoch": 0.07257777777777778,
      "grad_norm": 1.1237571239471436,
      "learning_rate": 0.00018552567237163815,
      "loss": 1.5942,
      "step": 3266
    },
    {
      "epoch": 0.0726,
      "grad_norm": 1.176329493522644,
      "learning_rate": 0.00018552122693931986,
      "loss": 1.8458,
      "step": 3267
    },
    {
      "epoch": 0.07262222222222223,
      "grad_norm": 1.2657891511917114,
      "learning_rate": 0.00018551678150700155,
      "loss": 1.6219,
      "step": 3268
    },
    {
      "epoch": 0.07264444444444444,
      "grad_norm": 1.6398987770080566,
      "learning_rate": 0.00018551233607468328,
      "loss": 2.2206,
      "step": 3269
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 1.170137643814087,
      "learning_rate": 0.000185507890642365,
      "loss": 2.1818,
      "step": 3270
    },
    {
      "epoch": 0.07268888888888889,
      "grad_norm": 1.1334134340286255,
      "learning_rate": 0.00018550344521004667,
      "loss": 1.6677,
      "step": 3271
    },
    {
      "epoch": 0.07271111111111112,
      "grad_norm": 1.469070315361023,
      "learning_rate": 0.0001854989997777284,
      "loss": 2.4642,
      "step": 3272
    },
    {
      "epoch": 0.07273333333333333,
      "grad_norm": 1.529949426651001,
      "learning_rate": 0.0001854945543454101,
      "loss": 2.3606,
      "step": 3273
    },
    {
      "epoch": 0.07275555555555556,
      "grad_norm": 1.2295321226119995,
      "learning_rate": 0.0001854901089130918,
      "loss": 2.2251,
      "step": 3274
    },
    {
      "epoch": 0.07277777777777777,
      "grad_norm": 1.7624956369400024,
      "learning_rate": 0.0001854856634807735,
      "loss": 2.3783,
      "step": 3275
    },
    {
      "epoch": 0.0728,
      "grad_norm": 1.4810762405395508,
      "learning_rate": 0.00018548121804845522,
      "loss": 2.4524,
      "step": 3276
    },
    {
      "epoch": 0.07282222222222222,
      "grad_norm": 1.3258888721466064,
      "learning_rate": 0.0001854767726161369,
      "loss": 2.1944,
      "step": 3277
    },
    {
      "epoch": 0.07284444444444445,
      "grad_norm": 1.1668721437454224,
      "learning_rate": 0.00018547232718381864,
      "loss": 1.5096,
      "step": 3278
    },
    {
      "epoch": 0.07286666666666666,
      "grad_norm": 1.189149260520935,
      "learning_rate": 0.00018546788175150035,
      "loss": 1.0028,
      "step": 3279
    },
    {
      "epoch": 0.07288888888888889,
      "grad_norm": 1.1918368339538574,
      "learning_rate": 0.00018546343631918206,
      "loss": 1.7321,
      "step": 3280
    },
    {
      "epoch": 0.07291111111111111,
      "grad_norm": 1.2547839879989624,
      "learning_rate": 0.00018545899088686377,
      "loss": 2.1974,
      "step": 3281
    },
    {
      "epoch": 0.07293333333333334,
      "grad_norm": 1.5724372863769531,
      "learning_rate": 0.00018545454545454545,
      "loss": 1.8069,
      "step": 3282
    },
    {
      "epoch": 0.07295555555555555,
      "grad_norm": 1.415132761001587,
      "learning_rate": 0.0001854501000222272,
      "loss": 2.2011,
      "step": 3283
    },
    {
      "epoch": 0.07297777777777778,
      "grad_norm": 1.2512127161026,
      "learning_rate": 0.00018544565458990887,
      "loss": 1.9629,
      "step": 3284
    },
    {
      "epoch": 0.073,
      "grad_norm": 1.2589808702468872,
      "learning_rate": 0.00018544120915759058,
      "loss": 2.0601,
      "step": 3285
    },
    {
      "epoch": 0.07302222222222222,
      "grad_norm": 1.6282298564910889,
      "learning_rate": 0.0001854367637252723,
      "loss": 2.0631,
      "step": 3286
    },
    {
      "epoch": 0.07304444444444444,
      "grad_norm": 1.7478584051132202,
      "learning_rate": 0.000185432318292954,
      "loss": 2.0575,
      "step": 3287
    },
    {
      "epoch": 0.07306666666666667,
      "grad_norm": 1.8844873905181885,
      "learning_rate": 0.0001854278728606357,
      "loss": 2.0351,
      "step": 3288
    },
    {
      "epoch": 0.07308888888888888,
      "grad_norm": 1.3124668598175049,
      "learning_rate": 0.00018542342742831742,
      "loss": 1.705,
      "step": 3289
    },
    {
      "epoch": 0.07311111111111111,
      "grad_norm": 1.5351976156234741,
      "learning_rate": 0.00018541898199599913,
      "loss": 1.6251,
      "step": 3290
    },
    {
      "epoch": 0.07313333333333333,
      "grad_norm": 1.3581308126449585,
      "learning_rate": 0.0001854145365636808,
      "loss": 2.1643,
      "step": 3291
    },
    {
      "epoch": 0.07315555555555556,
      "grad_norm": 1.1872023344039917,
      "learning_rate": 0.00018541009113136255,
      "loss": 1.8228,
      "step": 3292
    },
    {
      "epoch": 0.07317777777777777,
      "grad_norm": 1.2997936010360718,
      "learning_rate": 0.00018540564569904423,
      "loss": 1.9536,
      "step": 3293
    },
    {
      "epoch": 0.0732,
      "grad_norm": 1.4094762802124023,
      "learning_rate": 0.00018540120026672594,
      "loss": 1.9771,
      "step": 3294
    },
    {
      "epoch": 0.07322222222222222,
      "grad_norm": 3.250911235809326,
      "learning_rate": 0.00018539675483440765,
      "loss": 2.0529,
      "step": 3295
    },
    {
      "epoch": 0.07324444444444445,
      "grad_norm": 1.567543625831604,
      "learning_rate": 0.00018539230940208936,
      "loss": 1.8497,
      "step": 3296
    },
    {
      "epoch": 0.07326666666666666,
      "grad_norm": 1.3556450605392456,
      "learning_rate": 0.00018538786396977107,
      "loss": 1.6056,
      "step": 3297
    },
    {
      "epoch": 0.07328888888888889,
      "grad_norm": 1.4467936754226685,
      "learning_rate": 0.00018538341853745278,
      "loss": 1.6848,
      "step": 3298
    },
    {
      "epoch": 0.0733111111111111,
      "grad_norm": 1.2786372900009155,
      "learning_rate": 0.0001853789731051345,
      "loss": 1.6993,
      "step": 3299
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 1.560208797454834,
      "learning_rate": 0.0001853745276728162,
      "loss": 2.208,
      "step": 3300
    },
    {
      "epoch": 0.07335555555555555,
      "grad_norm": 1.2748750448226929,
      "learning_rate": 0.0001853700822404979,
      "loss": 2.8881,
      "step": 3301
    },
    {
      "epoch": 0.07337777777777778,
      "grad_norm": 1.3012605905532837,
      "learning_rate": 0.0001853656368081796,
      "loss": 2.4086,
      "step": 3302
    },
    {
      "epoch": 0.0734,
      "grad_norm": 1.0598418712615967,
      "learning_rate": 0.00018536119137586133,
      "loss": 2.0764,
      "step": 3303
    },
    {
      "epoch": 0.07342222222222222,
      "grad_norm": 1.1563421487808228,
      "learning_rate": 0.000185356745943543,
      "loss": 2.0794,
      "step": 3304
    },
    {
      "epoch": 0.07344444444444445,
      "grad_norm": 1.1678755283355713,
      "learning_rate": 0.00018535230051122472,
      "loss": 2.3423,
      "step": 3305
    },
    {
      "epoch": 0.07346666666666667,
      "grad_norm": 1.1595982313156128,
      "learning_rate": 0.00018534785507890643,
      "loss": 2.1377,
      "step": 3306
    },
    {
      "epoch": 0.0734888888888889,
      "grad_norm": 1.0765740871429443,
      "learning_rate": 0.00018534340964658814,
      "loss": 2.189,
      "step": 3307
    },
    {
      "epoch": 0.07351111111111111,
      "grad_norm": 1.1508079767227173,
      "learning_rate": 0.00018533896421426985,
      "loss": 2.5721,
      "step": 3308
    },
    {
      "epoch": 0.07353333333333334,
      "grad_norm": 1.378800630569458,
      "learning_rate": 0.00018533451878195156,
      "loss": 2.4782,
      "step": 3309
    },
    {
      "epoch": 0.07355555555555555,
      "grad_norm": 1.2660834789276123,
      "learning_rate": 0.00018533007334963327,
      "loss": 2.118,
      "step": 3310
    },
    {
      "epoch": 0.07357777777777778,
      "grad_norm": 0.9212296605110168,
      "learning_rate": 0.00018532562791731495,
      "loss": 1.0606,
      "step": 3311
    },
    {
      "epoch": 0.0736,
      "grad_norm": 1.092615008354187,
      "learning_rate": 0.0001853211824849967,
      "loss": 2.2381,
      "step": 3312
    },
    {
      "epoch": 0.07362222222222223,
      "grad_norm": 1.2031207084655762,
      "learning_rate": 0.00018531673705267837,
      "loss": 2.0134,
      "step": 3313
    },
    {
      "epoch": 0.07364444444444444,
      "grad_norm": 1.151123285293579,
      "learning_rate": 0.00018531229162036008,
      "loss": 2.1517,
      "step": 3314
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 1.074080228805542,
      "learning_rate": 0.0001853078461880418,
      "loss": 1.9847,
      "step": 3315
    },
    {
      "epoch": 0.07368888888888889,
      "grad_norm": 1.1378743648529053,
      "learning_rate": 0.0001853034007557235,
      "loss": 1.8591,
      "step": 3316
    },
    {
      "epoch": 0.07371111111111112,
      "grad_norm": 1.2244162559509277,
      "learning_rate": 0.0001852989553234052,
      "loss": 2.3329,
      "step": 3317
    },
    {
      "epoch": 0.07373333333333333,
      "grad_norm": 1.2962528467178345,
      "learning_rate": 0.00018529450989108692,
      "loss": 1.1951,
      "step": 3318
    },
    {
      "epoch": 0.07375555555555556,
      "grad_norm": 1.0658739805221558,
      "learning_rate": 0.00018529006445876863,
      "loss": 1.3047,
      "step": 3319
    },
    {
      "epoch": 0.07377777777777778,
      "grad_norm": 1.2752010822296143,
      "learning_rate": 0.00018528561902645034,
      "loss": 1.9574,
      "step": 3320
    },
    {
      "epoch": 0.0738,
      "grad_norm": 1.0128380060195923,
      "learning_rate": 0.00018528117359413205,
      "loss": 1.4943,
      "step": 3321
    },
    {
      "epoch": 0.07382222222222222,
      "grad_norm": 1.343968152999878,
      "learning_rate": 0.00018527672816181373,
      "loss": 2.0003,
      "step": 3322
    },
    {
      "epoch": 0.07384444444444445,
      "grad_norm": 1.382271409034729,
      "learning_rate": 0.00018527228272949547,
      "loss": 2.028,
      "step": 3323
    },
    {
      "epoch": 0.07386666666666666,
      "grad_norm": 1.1659868955612183,
      "learning_rate": 0.00018526783729717715,
      "loss": 1.9527,
      "step": 3324
    },
    {
      "epoch": 0.07388888888888889,
      "grad_norm": 1.2338945865631104,
      "learning_rate": 0.00018526339186485886,
      "loss": 2.1587,
      "step": 3325
    },
    {
      "epoch": 0.07391111111111111,
      "grad_norm": 1.2250200510025024,
      "learning_rate": 0.00018525894643254057,
      "loss": 2.1808,
      "step": 3326
    },
    {
      "epoch": 0.07393333333333334,
      "grad_norm": 1.3517470359802246,
      "learning_rate": 0.00018525450100022228,
      "loss": 1.9654,
      "step": 3327
    },
    {
      "epoch": 0.07395555555555555,
      "grad_norm": 1.2386265993118286,
      "learning_rate": 0.000185250055567904,
      "loss": 2.3532,
      "step": 3328
    },
    {
      "epoch": 0.07397777777777778,
      "grad_norm": 1.1578645706176758,
      "learning_rate": 0.0001852456101355857,
      "loss": 1.8651,
      "step": 3329
    },
    {
      "epoch": 0.074,
      "grad_norm": 1.1870566606521606,
      "learning_rate": 0.0001852411647032674,
      "loss": 2.0604,
      "step": 3330
    },
    {
      "epoch": 0.07402222222222223,
      "grad_norm": 1.1565959453582764,
      "learning_rate": 0.0001852367192709491,
      "loss": 1.8398,
      "step": 3331
    },
    {
      "epoch": 0.07404444444444444,
      "grad_norm": 1.6551729440689087,
      "learning_rate": 0.00018523227383863083,
      "loss": 2.0341,
      "step": 3332
    },
    {
      "epoch": 0.07406666666666667,
      "grad_norm": 1.3001614809036255,
      "learning_rate": 0.0001852278284063125,
      "loss": 1.8044,
      "step": 3333
    },
    {
      "epoch": 0.07408888888888888,
      "grad_norm": 1.2458326816558838,
      "learning_rate": 0.00018522338297399422,
      "loss": 2.2024,
      "step": 3334
    },
    {
      "epoch": 0.07411111111111111,
      "grad_norm": 2.5055184364318848,
      "learning_rate": 0.00018521893754167595,
      "loss": 2.2722,
      "step": 3335
    },
    {
      "epoch": 0.07413333333333333,
      "grad_norm": 1.5144240856170654,
      "learning_rate": 0.00018521449210935764,
      "loss": 2.1092,
      "step": 3336
    },
    {
      "epoch": 0.07415555555555556,
      "grad_norm": 1.4910916090011597,
      "learning_rate": 0.00018521004667703937,
      "loss": 1.9947,
      "step": 3337
    },
    {
      "epoch": 0.07417777777777777,
      "grad_norm": 1.3464441299438477,
      "learning_rate": 0.00018520560124472106,
      "loss": 2.264,
      "step": 3338
    },
    {
      "epoch": 0.0742,
      "grad_norm": 1.2051719427108765,
      "learning_rate": 0.00018520115581240277,
      "loss": 1.8006,
      "step": 3339
    },
    {
      "epoch": 0.07422222222222222,
      "grad_norm": 1.360304355621338,
      "learning_rate": 0.00018519671038008448,
      "loss": 2.0445,
      "step": 3340
    },
    {
      "epoch": 0.07424444444444445,
      "grad_norm": 1.3306429386138916,
      "learning_rate": 0.00018519226494776619,
      "loss": 1.8543,
      "step": 3341
    },
    {
      "epoch": 0.07426666666666666,
      "grad_norm": 1.3631885051727295,
      "learning_rate": 0.00018518781951544787,
      "loss": 1.7095,
      "step": 3342
    },
    {
      "epoch": 0.07428888888888889,
      "grad_norm": 1.8065212965011597,
      "learning_rate": 0.0001851833740831296,
      "loss": 2.1346,
      "step": 3343
    },
    {
      "epoch": 0.0743111111111111,
      "grad_norm": 1.2330005168914795,
      "learning_rate": 0.00018517892865081131,
      "loss": 1.9291,
      "step": 3344
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 1.3778694868087769,
      "learning_rate": 0.000185174483218493,
      "loss": 1.8444,
      "step": 3345
    },
    {
      "epoch": 0.07435555555555555,
      "grad_norm": 1.6837142705917358,
      "learning_rate": 0.00018517003778617473,
      "loss": 1.8211,
      "step": 3346
    },
    {
      "epoch": 0.07437777777777778,
      "grad_norm": 1.7540706396102905,
      "learning_rate": 0.00018516559235385642,
      "loss": 2.0199,
      "step": 3347
    },
    {
      "epoch": 0.0744,
      "grad_norm": 1.132103681564331,
      "learning_rate": 0.00018516114692153813,
      "loss": 1.0775,
      "step": 3348
    },
    {
      "epoch": 0.07442222222222222,
      "grad_norm": 1.384882926940918,
      "learning_rate": 0.00018515670148921983,
      "loss": 1.348,
      "step": 3349
    },
    {
      "epoch": 0.07444444444444444,
      "grad_norm": 1.945608377456665,
      "learning_rate": 0.00018515225605690154,
      "loss": 1.6171,
      "step": 3350
    },
    {
      "epoch": 0.07446666666666667,
      "grad_norm": 0.9314131736755371,
      "learning_rate": 0.00018514781062458323,
      "loss": 2.2847,
      "step": 3351
    },
    {
      "epoch": 0.07448888888888888,
      "grad_norm": 1.1078766584396362,
      "learning_rate": 0.00018514336519226496,
      "loss": 2.573,
      "step": 3352
    },
    {
      "epoch": 0.07451111111111111,
      "grad_norm": 1.62334144115448,
      "learning_rate": 0.00018513891975994667,
      "loss": 2.8408,
      "step": 3353
    },
    {
      "epoch": 0.07453333333333333,
      "grad_norm": 1.525193214416504,
      "learning_rate": 0.00018513447432762836,
      "loss": 2.0845,
      "step": 3354
    },
    {
      "epoch": 0.07455555555555556,
      "grad_norm": 1.1216214895248413,
      "learning_rate": 0.0001851300288953101,
      "loss": 1.7651,
      "step": 3355
    },
    {
      "epoch": 0.07457777777777778,
      "grad_norm": 1.3580617904663086,
      "learning_rate": 0.00018512558346299178,
      "loss": 2.6094,
      "step": 3356
    },
    {
      "epoch": 0.0746,
      "grad_norm": 1.0684504508972168,
      "learning_rate": 0.0001851211380306735,
      "loss": 2.1471,
      "step": 3357
    },
    {
      "epoch": 0.07462222222222223,
      "grad_norm": 1.2796941995620728,
      "learning_rate": 0.0001851166925983552,
      "loss": 2.731,
      "step": 3358
    },
    {
      "epoch": 0.07464444444444444,
      "grad_norm": 1.17794930934906,
      "learning_rate": 0.0001851122471660369,
      "loss": 2.105,
      "step": 3359
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 1.3348009586334229,
      "learning_rate": 0.00018510780173371861,
      "loss": 1.9781,
      "step": 3360
    },
    {
      "epoch": 0.07468888888888889,
      "grad_norm": 1.0967626571655273,
      "learning_rate": 0.00018510335630140032,
      "loss": 1.7868,
      "step": 3361
    },
    {
      "epoch": 0.07471111111111112,
      "grad_norm": 1.7560702562332153,
      "learning_rate": 0.00018509891086908203,
      "loss": 1.9523,
      "step": 3362
    },
    {
      "epoch": 0.07473333333333333,
      "grad_norm": 1.2477971315383911,
      "learning_rate": 0.00018509446543676374,
      "loss": 2.2214,
      "step": 3363
    },
    {
      "epoch": 0.07475555555555556,
      "grad_norm": 1.19613778591156,
      "learning_rate": 0.00018509002000444545,
      "loss": 2.3058,
      "step": 3364
    },
    {
      "epoch": 0.07477777777777778,
      "grad_norm": 1.2666854858398438,
      "learning_rate": 0.00018508557457212713,
      "loss": 1.9466,
      "step": 3365
    },
    {
      "epoch": 0.0748,
      "grad_norm": 1.2790480852127075,
      "learning_rate": 0.00018508112913980887,
      "loss": 1.9257,
      "step": 3366
    },
    {
      "epoch": 0.07482222222222222,
      "grad_norm": 1.1811188459396362,
      "learning_rate": 0.00018507668370749055,
      "loss": 1.8595,
      "step": 3367
    },
    {
      "epoch": 0.07484444444444445,
      "grad_norm": 1.2089661359786987,
      "learning_rate": 0.00018507223827517226,
      "loss": 2.119,
      "step": 3368
    },
    {
      "epoch": 0.07486666666666666,
      "grad_norm": 1.2355477809906006,
      "learning_rate": 0.00018506779284285397,
      "loss": 1.7977,
      "step": 3369
    },
    {
      "epoch": 0.0748888888888889,
      "grad_norm": 1.1849489212036133,
      "learning_rate": 0.00018506334741053568,
      "loss": 1.5681,
      "step": 3370
    },
    {
      "epoch": 0.07491111111111111,
      "grad_norm": 1.5108733177185059,
      "learning_rate": 0.0001850589019782174,
      "loss": 2.3001,
      "step": 3371
    },
    {
      "epoch": 0.07493333333333334,
      "grad_norm": 1.1956923007965088,
      "learning_rate": 0.0001850544565458991,
      "loss": 1.7848,
      "step": 3372
    },
    {
      "epoch": 0.07495555555555555,
      "grad_norm": 1.1768664121627808,
      "learning_rate": 0.0001850500111135808,
      "loss": 1.8988,
      "step": 3373
    },
    {
      "epoch": 0.07497777777777778,
      "grad_norm": 1.3499433994293213,
      "learning_rate": 0.00018504556568126252,
      "loss": 1.8989,
      "step": 3374
    },
    {
      "epoch": 0.075,
      "grad_norm": 1.366759181022644,
      "learning_rate": 0.00018504112024894423,
      "loss": 2.4657,
      "step": 3375
    },
    {
      "epoch": 0.07502222222222223,
      "grad_norm": 1.2666727304458618,
      "learning_rate": 0.0001850366748166259,
      "loss": 2.065,
      "step": 3376
    },
    {
      "epoch": 0.07504444444444444,
      "grad_norm": 1.519229769706726,
      "learning_rate": 0.00018503222938430765,
      "loss": 2.1791,
      "step": 3377
    },
    {
      "epoch": 0.07506666666666667,
      "grad_norm": 1.416766881942749,
      "learning_rate": 0.00018502778395198933,
      "loss": 2.108,
      "step": 3378
    },
    {
      "epoch": 0.07508888888888889,
      "grad_norm": 1.2307345867156982,
      "learning_rate": 0.00018502333851967104,
      "loss": 1.968,
      "step": 3379
    },
    {
      "epoch": 0.07511111111111111,
      "grad_norm": 1.315184473991394,
      "learning_rate": 0.00018501889308735275,
      "loss": 2.1619,
      "step": 3380
    },
    {
      "epoch": 0.07513333333333333,
      "grad_norm": 0.40658947825431824,
      "learning_rate": 0.00018501444765503446,
      "loss": 0.0454,
      "step": 3381
    },
    {
      "epoch": 0.07515555555555556,
      "grad_norm": 1.5952562093734741,
      "learning_rate": 0.00018501000222271617,
      "loss": 2.1367,
      "step": 3382
    },
    {
      "epoch": 0.07517777777777777,
      "grad_norm": 1.5650168657302856,
      "learning_rate": 0.00018500555679039788,
      "loss": 2.464,
      "step": 3383
    },
    {
      "epoch": 0.0752,
      "grad_norm": 1.2832249402999878,
      "learning_rate": 0.0001850011113580796,
      "loss": 1.8291,
      "step": 3384
    },
    {
      "epoch": 0.07522222222222222,
      "grad_norm": 1.6439323425292969,
      "learning_rate": 0.00018499666592576127,
      "loss": 2.7184,
      "step": 3385
    },
    {
      "epoch": 0.07524444444444445,
      "grad_norm": 1.3815306425094604,
      "learning_rate": 0.000184992220493443,
      "loss": 2.1463,
      "step": 3386
    },
    {
      "epoch": 0.07526666666666666,
      "grad_norm": 1.3136014938354492,
      "learning_rate": 0.0001849877750611247,
      "loss": 1.7231,
      "step": 3387
    },
    {
      "epoch": 0.07528888888888889,
      "grad_norm": 1.4345208406448364,
      "learning_rate": 0.0001849833296288064,
      "loss": 1.9532,
      "step": 3388
    },
    {
      "epoch": 0.0753111111111111,
      "grad_norm": 1.4720078706741333,
      "learning_rate": 0.0001849788841964881,
      "loss": 2.0113,
      "step": 3389
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 1.3436717987060547,
      "learning_rate": 0.00018497443876416982,
      "loss": 1.9456,
      "step": 3390
    },
    {
      "epoch": 0.07535555555555555,
      "grad_norm": 1.5637962818145752,
      "learning_rate": 0.00018496999333185153,
      "loss": 1.8608,
      "step": 3391
    },
    {
      "epoch": 0.07537777777777778,
      "grad_norm": 1.2686561346054077,
      "learning_rate": 0.00018496554789953324,
      "loss": 1.625,
      "step": 3392
    },
    {
      "epoch": 0.0754,
      "grad_norm": 1.2913857698440552,
      "learning_rate": 0.00018496110246721495,
      "loss": 1.8973,
      "step": 3393
    },
    {
      "epoch": 0.07542222222222222,
      "grad_norm": 1.561462640762329,
      "learning_rate": 0.00018495665703489666,
      "loss": 1.7178,
      "step": 3394
    },
    {
      "epoch": 0.07544444444444444,
      "grad_norm": 1.4434877634048462,
      "learning_rate": 0.00018495221160257837,
      "loss": 2.1639,
      "step": 3395
    },
    {
      "epoch": 0.07546666666666667,
      "grad_norm": 1.6147836446762085,
      "learning_rate": 0.00018494776617026005,
      "loss": 1.8649,
      "step": 3396
    },
    {
      "epoch": 0.07548888888888888,
      "grad_norm": 1.618361234664917,
      "learning_rate": 0.0001849433207379418,
      "loss": 1.9943,
      "step": 3397
    },
    {
      "epoch": 0.07551111111111111,
      "grad_norm": 1.5885554552078247,
      "learning_rate": 0.00018493887530562347,
      "loss": 1.5315,
      "step": 3398
    },
    {
      "epoch": 0.07553333333333333,
      "grad_norm": 1.674157738685608,
      "learning_rate": 0.00018493442987330518,
      "loss": 1.8451,
      "step": 3399
    },
    {
      "epoch": 0.07555555555555556,
      "grad_norm": 1.1902797222137451,
      "learning_rate": 0.0001849299844409869,
      "loss": 0.9804,
      "step": 3400
    },
    {
      "epoch": 0.07557777777777777,
      "grad_norm": 0.760408878326416,
      "learning_rate": 0.0001849255390086686,
      "loss": 1.4658,
      "step": 3401
    },
    {
      "epoch": 0.0756,
      "grad_norm": 0.8293417096138,
      "learning_rate": 0.0001849210935763503,
      "loss": 1.2773,
      "step": 3402
    },
    {
      "epoch": 0.07562222222222222,
      "grad_norm": 1.3957338333129883,
      "learning_rate": 0.00018491664814403202,
      "loss": 0.947,
      "step": 3403
    },
    {
      "epoch": 0.07564444444444444,
      "grad_norm": 1.1274092197418213,
      "learning_rate": 0.00018491220271171373,
      "loss": 2.4067,
      "step": 3404
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 1.2295225858688354,
      "learning_rate": 0.0001849077572793954,
      "loss": 2.7018,
      "step": 3405
    },
    {
      "epoch": 0.07568888888888889,
      "grad_norm": 1.263177514076233,
      "learning_rate": 0.00018490331184707715,
      "loss": 2.4436,
      "step": 3406
    },
    {
      "epoch": 0.07571111111111112,
      "grad_norm": 1.1552603244781494,
      "learning_rate": 0.00018489886641475883,
      "loss": 2.2545,
      "step": 3407
    },
    {
      "epoch": 0.07573333333333333,
      "grad_norm": 1.1881152391433716,
      "learning_rate": 0.00018489442098244054,
      "loss": 2.4022,
      "step": 3408
    },
    {
      "epoch": 0.07575555555555556,
      "grad_norm": 1.275702953338623,
      "learning_rate": 0.00018488997555012228,
      "loss": 1.9104,
      "step": 3409
    },
    {
      "epoch": 0.07577777777777778,
      "grad_norm": 1.3673769235610962,
      "learning_rate": 0.00018488553011780396,
      "loss": 2.2236,
      "step": 3410
    },
    {
      "epoch": 0.0758,
      "grad_norm": 1.2929093837738037,
      "learning_rate": 0.00018488108468548567,
      "loss": 2.1843,
      "step": 3411
    },
    {
      "epoch": 0.07582222222222222,
      "grad_norm": 1.359314203262329,
      "learning_rate": 0.00018487663925316738,
      "loss": 2.1149,
      "step": 3412
    },
    {
      "epoch": 0.07584444444444445,
      "grad_norm": 1.3210586309432983,
      "learning_rate": 0.0001848721938208491,
      "loss": 2.1579,
      "step": 3413
    },
    {
      "epoch": 0.07586666666666667,
      "grad_norm": 1.0641368627548218,
      "learning_rate": 0.0001848677483885308,
      "loss": 1.8042,
      "step": 3414
    },
    {
      "epoch": 0.0758888888888889,
      "grad_norm": 1.3975999355316162,
      "learning_rate": 0.0001848633029562125,
      "loss": 2.6793,
      "step": 3415
    },
    {
      "epoch": 0.07591111111111111,
      "grad_norm": 1.2937467098236084,
      "learning_rate": 0.0001848588575238942,
      "loss": 2.0272,
      "step": 3416
    },
    {
      "epoch": 0.07593333333333334,
      "grad_norm": 1.3563932180404663,
      "learning_rate": 0.00018485441209157593,
      "loss": 2.2837,
      "step": 3417
    },
    {
      "epoch": 0.07595555555555555,
      "grad_norm": 1.334378719329834,
      "learning_rate": 0.00018484996665925764,
      "loss": 2.031,
      "step": 3418
    },
    {
      "epoch": 0.07597777777777778,
      "grad_norm": 1.229436993598938,
      "learning_rate": 0.00018484552122693932,
      "loss": 1.7034,
      "step": 3419
    },
    {
      "epoch": 0.076,
      "grad_norm": 1.3505103588104248,
      "learning_rate": 0.00018484107579462106,
      "loss": 1.733,
      "step": 3420
    },
    {
      "epoch": 0.07602222222222223,
      "grad_norm": 1.242598533630371,
      "learning_rate": 0.00018483663036230274,
      "loss": 2.1144,
      "step": 3421
    },
    {
      "epoch": 0.07604444444444444,
      "grad_norm": 1.3723598718643188,
      "learning_rate": 0.00018483218492998445,
      "loss": 2.4923,
      "step": 3422
    },
    {
      "epoch": 0.07606666666666667,
      "grad_norm": 1.3054099082946777,
      "learning_rate": 0.00018482773949766616,
      "loss": 1.854,
      "step": 3423
    },
    {
      "epoch": 0.07608888888888889,
      "grad_norm": 1.492283582687378,
      "learning_rate": 0.00018482329406534787,
      "loss": 2.3229,
      "step": 3424
    },
    {
      "epoch": 0.07611111111111112,
      "grad_norm": 1.1340991258621216,
      "learning_rate": 0.00018481884863302955,
      "loss": 1.7517,
      "step": 3425
    },
    {
      "epoch": 0.07613333333333333,
      "grad_norm": 1.4965713024139404,
      "learning_rate": 0.00018481440320071129,
      "loss": 2.8053,
      "step": 3426
    },
    {
      "epoch": 0.07615555555555556,
      "grad_norm": 1.3556275367736816,
      "learning_rate": 0.000184809957768393,
      "loss": 1.9228,
      "step": 3427
    },
    {
      "epoch": 0.07617777777777777,
      "grad_norm": 0.9949300289154053,
      "learning_rate": 0.00018480551233607468,
      "loss": 1.6918,
      "step": 3428
    },
    {
      "epoch": 0.0762,
      "grad_norm": 1.1289187669754028,
      "learning_rate": 0.00018480106690375641,
      "loss": 2.0651,
      "step": 3429
    },
    {
      "epoch": 0.07622222222222222,
      "grad_norm": 1.2417426109313965,
      "learning_rate": 0.0001847966214714381,
      "loss": 2.0404,
      "step": 3430
    },
    {
      "epoch": 0.07624444444444445,
      "grad_norm": 1.6051791906356812,
      "learning_rate": 0.00018479217603911983,
      "loss": 2.5234,
      "step": 3431
    },
    {
      "epoch": 0.07626666666666666,
      "grad_norm": 1.1387208700180054,
      "learning_rate": 0.00018478773060680152,
      "loss": 0.7454,
      "step": 3432
    },
    {
      "epoch": 0.07628888888888889,
      "grad_norm": 1.3739467859268188,
      "learning_rate": 0.00018478328517448323,
      "loss": 1.7888,
      "step": 3433
    },
    {
      "epoch": 0.07631111111111111,
      "grad_norm": 1.2826472520828247,
      "learning_rate": 0.00018477883974216494,
      "loss": 1.9529,
      "step": 3434
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 1.4125449657440186,
      "learning_rate": 0.00018477439430984665,
      "loss": 2.1709,
      "step": 3435
    },
    {
      "epoch": 0.07635555555555555,
      "grad_norm": 1.268842339515686,
      "learning_rate": 0.00018476994887752835,
      "loss": 2.0351,
      "step": 3436
    },
    {
      "epoch": 0.07637777777777778,
      "grad_norm": 1.33278489112854,
      "learning_rate": 0.00018476550344521006,
      "loss": 1.6552,
      "step": 3437
    },
    {
      "epoch": 0.0764,
      "grad_norm": 1.6010874509811401,
      "learning_rate": 0.00018476105801289177,
      "loss": 1.9434,
      "step": 3438
    },
    {
      "epoch": 0.07642222222222222,
      "grad_norm": 1.6925970315933228,
      "learning_rate": 0.00018475661258057346,
      "loss": 2.202,
      "step": 3439
    },
    {
      "epoch": 0.07644444444444444,
      "grad_norm": 1.2409571409225464,
      "learning_rate": 0.0001847521671482552,
      "loss": 2.006,
      "step": 3440
    },
    {
      "epoch": 0.07646666666666667,
      "grad_norm": 1.504262089729309,
      "learning_rate": 0.00018474772171593688,
      "loss": 2.2944,
      "step": 3441
    },
    {
      "epoch": 0.07648888888888888,
      "grad_norm": 1.1491262912750244,
      "learning_rate": 0.00018474327628361859,
      "loss": 1.6683,
      "step": 3442
    },
    {
      "epoch": 0.07651111111111111,
      "grad_norm": 1.3025236129760742,
      "learning_rate": 0.0001847388308513003,
      "loss": 2.0945,
      "step": 3443
    },
    {
      "epoch": 0.07653333333333333,
      "grad_norm": 1.6361143589019775,
      "learning_rate": 0.000184734385418982,
      "loss": 2.3858,
      "step": 3444
    },
    {
      "epoch": 0.07655555555555556,
      "grad_norm": 1.5140334367752075,
      "learning_rate": 0.00018472993998666371,
      "loss": 2.0115,
      "step": 3445
    },
    {
      "epoch": 0.07657777777777777,
      "grad_norm": 1.5223745107650757,
      "learning_rate": 0.00018472549455434542,
      "loss": 2.2974,
      "step": 3446
    },
    {
      "epoch": 0.0766,
      "grad_norm": 1.3797028064727783,
      "learning_rate": 0.00018472104912202713,
      "loss": 2.0622,
      "step": 3447
    },
    {
      "epoch": 0.07662222222222222,
      "grad_norm": 1.4724992513656616,
      "learning_rate": 0.00018471660368970882,
      "loss": 1.7984,
      "step": 3448
    },
    {
      "epoch": 0.07664444444444445,
      "grad_norm": 1.4768145084381104,
      "learning_rate": 0.00018471215825739055,
      "loss": 1.8535,
      "step": 3449
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 1.2939058542251587,
      "learning_rate": 0.00018470771282507224,
      "loss": 1.9566,
      "step": 3450
    },
    {
      "epoch": 0.07668888888888889,
      "grad_norm": 1.1560622453689575,
      "learning_rate": 0.00018470326739275397,
      "loss": 2.586,
      "step": 3451
    },
    {
      "epoch": 0.0767111111111111,
      "grad_norm": 0.8209676146507263,
      "learning_rate": 0.00018469882196043565,
      "loss": 1.1835,
      "step": 3452
    },
    {
      "epoch": 0.07673333333333333,
      "grad_norm": 1.0181770324707031,
      "learning_rate": 0.00018469437652811736,
      "loss": 1.9395,
      "step": 3453
    },
    {
      "epoch": 0.07675555555555555,
      "grad_norm": 1.1864060163497925,
      "learning_rate": 0.00018468993109579907,
      "loss": 2.4299,
      "step": 3454
    },
    {
      "epoch": 0.07677777777777778,
      "grad_norm": 1.2893823385238647,
      "learning_rate": 0.00018468548566348078,
      "loss": 2.2946,
      "step": 3455
    },
    {
      "epoch": 0.0768,
      "grad_norm": 1.1601964235305786,
      "learning_rate": 0.0001846810402311625,
      "loss": 2.1538,
      "step": 3456
    },
    {
      "epoch": 0.07682222222222222,
      "grad_norm": 1.2344838380813599,
      "learning_rate": 0.0001846765947988442,
      "loss": 2.1581,
      "step": 3457
    },
    {
      "epoch": 0.07684444444444445,
      "grad_norm": 1.3981658220291138,
      "learning_rate": 0.0001846721493665259,
      "loss": 2.4107,
      "step": 3458
    },
    {
      "epoch": 0.07686666666666667,
      "grad_norm": 1.286293387413025,
      "learning_rate": 0.0001846677039342076,
      "loss": 2.1764,
      "step": 3459
    },
    {
      "epoch": 0.0768888888888889,
      "grad_norm": 1.241084337234497,
      "learning_rate": 0.00018466325850188933,
      "loss": 1.9225,
      "step": 3460
    },
    {
      "epoch": 0.07691111111111111,
      "grad_norm": 1.2202966213226318,
      "learning_rate": 0.00018465881306957101,
      "loss": 1.8707,
      "step": 3461
    },
    {
      "epoch": 0.07693333333333334,
      "grad_norm": 1.1628791093826294,
      "learning_rate": 0.00018465436763725272,
      "loss": 2.0193,
      "step": 3462
    },
    {
      "epoch": 0.07695555555555555,
      "grad_norm": 1.1507421731948853,
      "learning_rate": 0.00018464992220493443,
      "loss": 2.0882,
      "step": 3463
    },
    {
      "epoch": 0.07697777777777778,
      "grad_norm": 1.1908776760101318,
      "learning_rate": 0.00018464547677261614,
      "loss": 2.102,
      "step": 3464
    },
    {
      "epoch": 0.077,
      "grad_norm": 1.1009654998779297,
      "learning_rate": 0.00018464103134029785,
      "loss": 2.0613,
      "step": 3465
    },
    {
      "epoch": 0.07702222222222223,
      "grad_norm": 1.2995816469192505,
      "learning_rate": 0.00018463658590797956,
      "loss": 1.8517,
      "step": 3466
    },
    {
      "epoch": 0.07704444444444444,
      "grad_norm": 1.174272894859314,
      "learning_rate": 0.00018463214047566127,
      "loss": 1.5513,
      "step": 3467
    },
    {
      "epoch": 0.07706666666666667,
      "grad_norm": 1.3458250761032104,
      "learning_rate": 0.00018462769504334295,
      "loss": 1.3634,
      "step": 3468
    },
    {
      "epoch": 0.07708888888888889,
      "grad_norm": 1.2003450393676758,
      "learning_rate": 0.0001846232496110247,
      "loss": 1.9655,
      "step": 3469
    },
    {
      "epoch": 0.07711111111111112,
      "grad_norm": 1.3843733072280884,
      "learning_rate": 0.00018461880417870637,
      "loss": 2.0414,
      "step": 3470
    },
    {
      "epoch": 0.07713333333333333,
      "grad_norm": 1.1063510179519653,
      "learning_rate": 0.0001846143587463881,
      "loss": 1.9021,
      "step": 3471
    },
    {
      "epoch": 0.07715555555555556,
      "grad_norm": 1.4000247716903687,
      "learning_rate": 0.0001846099133140698,
      "loss": 2.0526,
      "step": 3472
    },
    {
      "epoch": 0.07717777777777778,
      "grad_norm": 1.1991673707962036,
      "learning_rate": 0.0001846054678817515,
      "loss": 1.8678,
      "step": 3473
    },
    {
      "epoch": 0.0772,
      "grad_norm": 1.225142240524292,
      "learning_rate": 0.0001846010224494332,
      "loss": 1.9452,
      "step": 3474
    },
    {
      "epoch": 0.07722222222222222,
      "grad_norm": 1.9785882234573364,
      "learning_rate": 0.00018459657701711492,
      "loss": 2.0528,
      "step": 3475
    },
    {
      "epoch": 0.07724444444444445,
      "grad_norm": 1.7890123128890991,
      "learning_rate": 0.00018459213158479663,
      "loss": 1.0974,
      "step": 3476
    },
    {
      "epoch": 0.07726666666666666,
      "grad_norm": 1.4988901615142822,
      "learning_rate": 0.00018458768615247834,
      "loss": 2.0531,
      "step": 3477
    },
    {
      "epoch": 0.0772888888888889,
      "grad_norm": 1.367693543434143,
      "learning_rate": 0.00018458324072016005,
      "loss": 2.3504,
      "step": 3478
    },
    {
      "epoch": 0.07731111111111111,
      "grad_norm": 1.5607545375823975,
      "learning_rate": 0.00018457879528784173,
      "loss": 1.6545,
      "step": 3479
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 1.2028279304504395,
      "learning_rate": 0.00018457434985552347,
      "loss": 1.9468,
      "step": 3480
    },
    {
      "epoch": 0.07735555555555555,
      "grad_norm": 1.423886775970459,
      "learning_rate": 0.00018456990442320515,
      "loss": 1.889,
      "step": 3481
    },
    {
      "epoch": 0.07737777777777778,
      "grad_norm": 0.7290233373641968,
      "learning_rate": 0.00018456545899088686,
      "loss": 0.3994,
      "step": 3482
    },
    {
      "epoch": 0.0774,
      "grad_norm": 1.3803188800811768,
      "learning_rate": 0.0001845610135585686,
      "loss": 2.0634,
      "step": 3483
    },
    {
      "epoch": 0.07742222222222223,
      "grad_norm": 1.4180113077163696,
      "learning_rate": 0.00018455656812625028,
      "loss": 2.3882,
      "step": 3484
    },
    {
      "epoch": 0.07744444444444444,
      "grad_norm": 1.3056670427322388,
      "learning_rate": 0.000184552122693932,
      "loss": 1.9961,
      "step": 3485
    },
    {
      "epoch": 0.07746666666666667,
      "grad_norm": 1.4707244634628296,
      "learning_rate": 0.0001845476772616137,
      "loss": 1.9851,
      "step": 3486
    },
    {
      "epoch": 0.07748888888888888,
      "grad_norm": 1.6690611839294434,
      "learning_rate": 0.0001845432318292954,
      "loss": 2.3228,
      "step": 3487
    },
    {
      "epoch": 0.07751111111111111,
      "grad_norm": 1.2367544174194336,
      "learning_rate": 0.00018453878639697712,
      "loss": 1.8545,
      "step": 3488
    },
    {
      "epoch": 0.07753333333333333,
      "grad_norm": 1.2950916290283203,
      "learning_rate": 0.00018453434096465883,
      "loss": 2.1296,
      "step": 3489
    },
    {
      "epoch": 0.07755555555555556,
      "grad_norm": 1.189381718635559,
      "learning_rate": 0.0001845298955323405,
      "loss": 0.7387,
      "step": 3490
    },
    {
      "epoch": 0.07757777777777777,
      "grad_norm": 1.1289829015731812,
      "learning_rate": 0.00018452545010002225,
      "loss": 1.6084,
      "step": 3491
    },
    {
      "epoch": 0.0776,
      "grad_norm": 1.1105577945709229,
      "learning_rate": 0.00018452100466770396,
      "loss": 1.6848,
      "step": 3492
    },
    {
      "epoch": 0.07762222222222222,
      "grad_norm": 1.3867590427398682,
      "learning_rate": 0.00018451655923538564,
      "loss": 2.1979,
      "step": 3493
    },
    {
      "epoch": 0.07764444444444445,
      "grad_norm": 1.3577754497528076,
      "learning_rate": 0.00018451211380306738,
      "loss": 2.1895,
      "step": 3494
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 1.1534167528152466,
      "learning_rate": 0.00018450766837074906,
      "loss": 1.3549,
      "step": 3495
    },
    {
      "epoch": 0.07768888888888889,
      "grad_norm": 1.7601591348648071,
      "learning_rate": 0.00018450322293843077,
      "loss": 2.0725,
      "step": 3496
    },
    {
      "epoch": 0.0777111111111111,
      "grad_norm": 1.51445734500885,
      "learning_rate": 0.00018449877750611248,
      "loss": 2.457,
      "step": 3497
    },
    {
      "epoch": 0.07773333333333333,
      "grad_norm": 1.122924566268921,
      "learning_rate": 0.0001844943320737942,
      "loss": 1.0034,
      "step": 3498
    },
    {
      "epoch": 0.07775555555555555,
      "grad_norm": 1.2729206085205078,
      "learning_rate": 0.00018448988664147587,
      "loss": 1.4905,
      "step": 3499
    },
    {
      "epoch": 0.07777777777777778,
      "grad_norm": 1.3704026937484741,
      "learning_rate": 0.0001844854412091576,
      "loss": 1.7086,
      "step": 3500
    },
    {
      "epoch": 0.0778,
      "grad_norm": 1.169458031654358,
      "learning_rate": 0.00018448099577683932,
      "loss": 2.3989,
      "step": 3501
    },
    {
      "epoch": 0.07782222222222222,
      "grad_norm": 1.2413055896759033,
      "learning_rate": 0.000184476550344521,
      "loss": 2.8056,
      "step": 3502
    },
    {
      "epoch": 0.07784444444444444,
      "grad_norm": 0.9283324480056763,
      "learning_rate": 0.00018447210491220274,
      "loss": 2.1868,
      "step": 3503
    },
    {
      "epoch": 0.07786666666666667,
      "grad_norm": 1.0944463014602661,
      "learning_rate": 0.00018446765947988442,
      "loss": 2.4525,
      "step": 3504
    },
    {
      "epoch": 0.07788888888888888,
      "grad_norm": 1.040734052658081,
      "learning_rate": 0.00018446321404756613,
      "loss": 2.456,
      "step": 3505
    },
    {
      "epoch": 0.07791111111111111,
      "grad_norm": 1.2531497478485107,
      "learning_rate": 0.00018445876861524784,
      "loss": 2.1874,
      "step": 3506
    },
    {
      "epoch": 0.07793333333333333,
      "grad_norm": 1.0920476913452148,
      "learning_rate": 0.00018445432318292955,
      "loss": 2.5354,
      "step": 3507
    },
    {
      "epoch": 0.07795555555555556,
      "grad_norm": 0.9596732258796692,
      "learning_rate": 0.00018444987775061126,
      "loss": 2.184,
      "step": 3508
    },
    {
      "epoch": 0.07797777777777777,
      "grad_norm": 1.0432252883911133,
      "learning_rate": 0.00018444543231829297,
      "loss": 2.3774,
      "step": 3509
    },
    {
      "epoch": 0.078,
      "grad_norm": 1.034541368484497,
      "learning_rate": 0.00018444098688597468,
      "loss": 2.2227,
      "step": 3510
    },
    {
      "epoch": 0.07802222222222223,
      "grad_norm": 1.1673376560211182,
      "learning_rate": 0.0001844365414536564,
      "loss": 2.1715,
      "step": 3511
    },
    {
      "epoch": 0.07804444444444444,
      "grad_norm": 1.13186514377594,
      "learning_rate": 0.0001844320960213381,
      "loss": 2.2296,
      "step": 3512
    },
    {
      "epoch": 0.07806666666666667,
      "grad_norm": 1.1876461505889893,
      "learning_rate": 0.00018442765058901978,
      "loss": 1.1278,
      "step": 3513
    },
    {
      "epoch": 0.07808888888888889,
      "grad_norm": 1.0793194770812988,
      "learning_rate": 0.00018442320515670152,
      "loss": 2.1435,
      "step": 3514
    },
    {
      "epoch": 0.07811111111111112,
      "grad_norm": 1.3283754587173462,
      "learning_rate": 0.0001844187597243832,
      "loss": 2.4194,
      "step": 3515
    },
    {
      "epoch": 0.07813333333333333,
      "grad_norm": 1.0138556957244873,
      "learning_rate": 0.0001844143142920649,
      "loss": 1.8808,
      "step": 3516
    },
    {
      "epoch": 0.07815555555555556,
      "grad_norm": 1.2677544355392456,
      "learning_rate": 0.00018440986885974662,
      "loss": 2.2068,
      "step": 3517
    },
    {
      "epoch": 0.07817777777777778,
      "grad_norm": 1.4461482763290405,
      "learning_rate": 0.00018440542342742833,
      "loss": 2.0152,
      "step": 3518
    },
    {
      "epoch": 0.0782,
      "grad_norm": 1.2722433805465698,
      "learning_rate": 0.00018440097799511004,
      "loss": 2.3119,
      "step": 3519
    },
    {
      "epoch": 0.07822222222222222,
      "grad_norm": 1.3366338014602661,
      "learning_rate": 0.00018439653256279175,
      "loss": 1.3402,
      "step": 3520
    },
    {
      "epoch": 0.07824444444444445,
      "grad_norm": 1.1577637195587158,
      "learning_rate": 0.00018439208713047346,
      "loss": 2.1692,
      "step": 3521
    },
    {
      "epoch": 0.07826666666666666,
      "grad_norm": 1.166265845298767,
      "learning_rate": 0.00018438764169815514,
      "loss": 2.1591,
      "step": 3522
    },
    {
      "epoch": 0.0782888888888889,
      "grad_norm": 1.3110215663909912,
      "learning_rate": 0.00018438319626583687,
      "loss": 2.0267,
      "step": 3523
    },
    {
      "epoch": 0.07831111111111111,
      "grad_norm": 1.2503719329833984,
      "learning_rate": 0.00018437875083351856,
      "loss": 2.0863,
      "step": 3524
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 1.5013507604599,
      "learning_rate": 0.00018437430540120027,
      "loss": 1.7642,
      "step": 3525
    },
    {
      "epoch": 0.07835555555555555,
      "grad_norm": 1.0705934762954712,
      "learning_rate": 0.00018436985996888198,
      "loss": 1.8557,
      "step": 3526
    },
    {
      "epoch": 0.07837777777777778,
      "grad_norm": 1.474947214126587,
      "learning_rate": 0.00018436541453656369,
      "loss": 2.2498,
      "step": 3527
    },
    {
      "epoch": 0.0784,
      "grad_norm": 1.130644679069519,
      "learning_rate": 0.0001843609691042454,
      "loss": 2.1409,
      "step": 3528
    },
    {
      "epoch": 0.07842222222222223,
      "grad_norm": 1.279459834098816,
      "learning_rate": 0.0001843565236719271,
      "loss": 1.2218,
      "step": 3529
    },
    {
      "epoch": 0.07844444444444444,
      "grad_norm": 1.57211434841156,
      "learning_rate": 0.00018435207823960882,
      "loss": 2.0618,
      "step": 3530
    },
    {
      "epoch": 0.07846666666666667,
      "grad_norm": 1.3878650665283203,
      "learning_rate": 0.00018434763280729052,
      "loss": 2.3256,
      "step": 3531
    },
    {
      "epoch": 0.07848888888888889,
      "grad_norm": 1.353080153465271,
      "learning_rate": 0.00018434318737497223,
      "loss": 2.0595,
      "step": 3532
    },
    {
      "epoch": 0.07851111111111111,
      "grad_norm": 1.2658865451812744,
      "learning_rate": 0.00018433874194265392,
      "loss": 1.9995,
      "step": 3533
    },
    {
      "epoch": 0.07853333333333333,
      "grad_norm": 1.3999888896942139,
      "learning_rate": 0.00018433429651033565,
      "loss": 2.3547,
      "step": 3534
    },
    {
      "epoch": 0.07855555555555556,
      "grad_norm": 1.3804991245269775,
      "learning_rate": 0.00018432985107801734,
      "loss": 2.2289,
      "step": 3535
    },
    {
      "epoch": 0.07857777777777777,
      "grad_norm": 1.2219804525375366,
      "learning_rate": 0.00018432540564569905,
      "loss": 1.7369,
      "step": 3536
    },
    {
      "epoch": 0.0786,
      "grad_norm": 1.2095115184783936,
      "learning_rate": 0.00018432096021338076,
      "loss": 1.8324,
      "step": 3537
    },
    {
      "epoch": 0.07862222222222222,
      "grad_norm": 1.2143144607543945,
      "learning_rate": 0.00018431651478106247,
      "loss": 1.5044,
      "step": 3538
    },
    {
      "epoch": 0.07864444444444445,
      "grad_norm": 1.325598955154419,
      "learning_rate": 0.00018431206934874417,
      "loss": 1.8022,
      "step": 3539
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 1.554053544998169,
      "learning_rate": 0.00018430762391642588,
      "loss": 2.484,
      "step": 3540
    },
    {
      "epoch": 0.07868888888888889,
      "grad_norm": 1.298063039779663,
      "learning_rate": 0.0001843031784841076,
      "loss": 1.7501,
      "step": 3541
    },
    {
      "epoch": 0.0787111111111111,
      "grad_norm": 1.4226232767105103,
      "learning_rate": 0.00018429873305178928,
      "loss": 1.8218,
      "step": 3542
    },
    {
      "epoch": 0.07873333333333334,
      "grad_norm": 1.4770629405975342,
      "learning_rate": 0.000184294287619471,
      "loss": 2.0258,
      "step": 3543
    },
    {
      "epoch": 0.07875555555555555,
      "grad_norm": 1.7609769105911255,
      "learning_rate": 0.0001842898421871527,
      "loss": 2.3438,
      "step": 3544
    },
    {
      "epoch": 0.07877777777777778,
      "grad_norm": 1.478041648864746,
      "learning_rate": 0.00018428539675483443,
      "loss": 1.9367,
      "step": 3545
    },
    {
      "epoch": 0.0788,
      "grad_norm": 1.4286446571350098,
      "learning_rate": 0.00018428095132251611,
      "loss": 1.7178,
      "step": 3546
    },
    {
      "epoch": 0.07882222222222222,
      "grad_norm": 1.3285038471221924,
      "learning_rate": 0.00018427650589019782,
      "loss": 1.9675,
      "step": 3547
    },
    {
      "epoch": 0.07884444444444444,
      "grad_norm": 1.2517716884613037,
      "learning_rate": 0.00018427206045787953,
      "loss": 1.6969,
      "step": 3548
    },
    {
      "epoch": 0.07886666666666667,
      "grad_norm": 1.3864372968673706,
      "learning_rate": 0.00018426761502556124,
      "loss": 1.8481,
      "step": 3549
    },
    {
      "epoch": 0.07888888888888888,
      "grad_norm": 1.818996787071228,
      "learning_rate": 0.00018426316959324295,
      "loss": 1.8749,
      "step": 3550
    },
    {
      "epoch": 0.07891111111111111,
      "grad_norm": 1.0214799642562866,
      "learning_rate": 0.00018425872416092466,
      "loss": 2.3813,
      "step": 3551
    },
    {
      "epoch": 0.07893333333333333,
      "grad_norm": 1.1543335914611816,
      "learning_rate": 0.00018425427872860637,
      "loss": 2.9633,
      "step": 3552
    },
    {
      "epoch": 0.07895555555555556,
      "grad_norm": 1.0040719509124756,
      "learning_rate": 0.00018424983329628806,
      "loss": 2.354,
      "step": 3553
    },
    {
      "epoch": 0.07897777777777777,
      "grad_norm": 1.2549113035202026,
      "learning_rate": 0.0001842453878639698,
      "loss": 2.1434,
      "step": 3554
    },
    {
      "epoch": 0.079,
      "grad_norm": 1.2673051357269287,
      "learning_rate": 0.00018424094243165147,
      "loss": 2.0013,
      "step": 3555
    },
    {
      "epoch": 0.07902222222222222,
      "grad_norm": 1.1167728900909424,
      "learning_rate": 0.00018423649699933318,
      "loss": 1.9597,
      "step": 3556
    },
    {
      "epoch": 0.07904444444444444,
      "grad_norm": 1.2686415910720825,
      "learning_rate": 0.00018423205156701492,
      "loss": 2.2501,
      "step": 3557
    },
    {
      "epoch": 0.07906666666666666,
      "grad_norm": 1.0964961051940918,
      "learning_rate": 0.0001842276061346966,
      "loss": 2.2192,
      "step": 3558
    },
    {
      "epoch": 0.07908888888888889,
      "grad_norm": 1.236358880996704,
      "learning_rate": 0.0001842231607023783,
      "loss": 2.4522,
      "step": 3559
    },
    {
      "epoch": 0.0791111111111111,
      "grad_norm": 1.4324880838394165,
      "learning_rate": 0.00018421871527006002,
      "loss": 2.5656,
      "step": 3560
    },
    {
      "epoch": 0.07913333333333333,
      "grad_norm": 1.134580135345459,
      "learning_rate": 0.00018421426983774173,
      "loss": 2.2437,
      "step": 3561
    },
    {
      "epoch": 0.07915555555555556,
      "grad_norm": 1.2555785179138184,
      "learning_rate": 0.00018420982440542341,
      "loss": 2.4751,
      "step": 3562
    },
    {
      "epoch": 0.07917777777777778,
      "grad_norm": 1.039559245109558,
      "learning_rate": 0.00018420537897310515,
      "loss": 1.6947,
      "step": 3563
    },
    {
      "epoch": 0.0792,
      "grad_norm": 1.424818992614746,
      "learning_rate": 0.00018420093354078683,
      "loss": 1.8682,
      "step": 3564
    },
    {
      "epoch": 0.07922222222222222,
      "grad_norm": 1.4339795112609863,
      "learning_rate": 0.00018419648810846857,
      "loss": 2.4491,
      "step": 3565
    },
    {
      "epoch": 0.07924444444444445,
      "grad_norm": 1.4758858680725098,
      "learning_rate": 0.00018419204267615028,
      "loss": 2.4947,
      "step": 3566
    },
    {
      "epoch": 0.07926666666666667,
      "grad_norm": 1.2654050588607788,
      "learning_rate": 0.00018418759724383196,
      "loss": 2.3357,
      "step": 3567
    },
    {
      "epoch": 0.0792888888888889,
      "grad_norm": 1.2733409404754639,
      "learning_rate": 0.0001841831518115137,
      "loss": 1.6436,
      "step": 3568
    },
    {
      "epoch": 0.07931111111111111,
      "grad_norm": 1.3263685703277588,
      "learning_rate": 0.00018417870637919538,
      "loss": 1.9048,
      "step": 3569
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 1.2005525827407837,
      "learning_rate": 0.0001841742609468771,
      "loss": 2.1377,
      "step": 3570
    },
    {
      "epoch": 0.07935555555555555,
      "grad_norm": 1.3363029956817627,
      "learning_rate": 0.0001841698155145588,
      "loss": 1.865,
      "step": 3571
    },
    {
      "epoch": 0.07937777777777778,
      "grad_norm": 1.3493443727493286,
      "learning_rate": 0.0001841653700822405,
      "loss": 1.879,
      "step": 3572
    },
    {
      "epoch": 0.0794,
      "grad_norm": 1.4277113676071167,
      "learning_rate": 0.0001841609246499222,
      "loss": 2.0551,
      "step": 3573
    },
    {
      "epoch": 0.07942222222222223,
      "grad_norm": 1.341077446937561,
      "learning_rate": 0.00018415647921760393,
      "loss": 1.5885,
      "step": 3574
    },
    {
      "epoch": 0.07944444444444444,
      "grad_norm": 1.4764906167984009,
      "learning_rate": 0.00018415203378528564,
      "loss": 2.3138,
      "step": 3575
    },
    {
      "epoch": 0.07946666666666667,
      "grad_norm": 1.2619186639785767,
      "learning_rate": 0.00018414758835296732,
      "loss": 2.0172,
      "step": 3576
    },
    {
      "epoch": 0.07948888888888889,
      "grad_norm": 1.494451642036438,
      "learning_rate": 0.00018414314292064906,
      "loss": 2.2375,
      "step": 3577
    },
    {
      "epoch": 0.07951111111111112,
      "grad_norm": 1.520302176475525,
      "learning_rate": 0.00018413869748833074,
      "loss": 2.4607,
      "step": 3578
    },
    {
      "epoch": 0.07953333333333333,
      "grad_norm": 1.2348612546920776,
      "learning_rate": 0.00018413425205601245,
      "loss": 1.9818,
      "step": 3579
    },
    {
      "epoch": 0.07955555555555556,
      "grad_norm": 1.3702938556671143,
      "learning_rate": 0.00018412980662369416,
      "loss": 2.2337,
      "step": 3580
    },
    {
      "epoch": 0.07957777777777778,
      "grad_norm": 1.4724692106246948,
      "learning_rate": 0.00018412536119137587,
      "loss": 1.7561,
      "step": 3581
    },
    {
      "epoch": 0.0796,
      "grad_norm": 1.8898265361785889,
      "learning_rate": 0.00018412091575905755,
      "loss": 2.2726,
      "step": 3582
    },
    {
      "epoch": 0.07962222222222222,
      "grad_norm": 1.3017092943191528,
      "learning_rate": 0.0001841164703267393,
      "loss": 1.938,
      "step": 3583
    },
    {
      "epoch": 0.07964444444444445,
      "grad_norm": 1.4305883646011353,
      "learning_rate": 0.000184112024894421,
      "loss": 2.0982,
      "step": 3584
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 1.348796010017395,
      "learning_rate": 0.0001841075794621027,
      "loss": 2.3916,
      "step": 3585
    },
    {
      "epoch": 0.07968888888888889,
      "grad_norm": 1.1848704814910889,
      "learning_rate": 0.00018410313402978442,
      "loss": 1.8635,
      "step": 3586
    },
    {
      "epoch": 0.07971111111111111,
      "grad_norm": 1.4129849672317505,
      "learning_rate": 0.0001840986885974661,
      "loss": 1.8977,
      "step": 3587
    },
    {
      "epoch": 0.07973333333333334,
      "grad_norm": 1.5966459512710571,
      "learning_rate": 0.00018409424316514784,
      "loss": 2.2823,
      "step": 3588
    },
    {
      "epoch": 0.07975555555555555,
      "grad_norm": 1.3832221031188965,
      "learning_rate": 0.00018408979773282952,
      "loss": 1.7791,
      "step": 3589
    },
    {
      "epoch": 0.07977777777777778,
      "grad_norm": 1.5868730545043945,
      "learning_rate": 0.00018408535230051123,
      "loss": 1.6686,
      "step": 3590
    },
    {
      "epoch": 0.0798,
      "grad_norm": 1.3498882055282593,
      "learning_rate": 0.00018408090686819294,
      "loss": 2.0068,
      "step": 3591
    },
    {
      "epoch": 0.07982222222222222,
      "grad_norm": 1.481881022453308,
      "learning_rate": 0.00018407646143587465,
      "loss": 2.3949,
      "step": 3592
    },
    {
      "epoch": 0.07984444444444444,
      "grad_norm": 1.6734768152236938,
      "learning_rate": 0.00018407201600355636,
      "loss": 2.2972,
      "step": 3593
    },
    {
      "epoch": 0.07986666666666667,
      "grad_norm": 1.2737871408462524,
      "learning_rate": 0.00018406757057123807,
      "loss": 1.6486,
      "step": 3594
    },
    {
      "epoch": 0.07988888888888888,
      "grad_norm": 1.4712985754013062,
      "learning_rate": 0.00018406312513891978,
      "loss": 1.9414,
      "step": 3595
    },
    {
      "epoch": 0.07991111111111111,
      "grad_norm": 1.5442465543746948,
      "learning_rate": 0.00018405867970660146,
      "loss": 2.4666,
      "step": 3596
    },
    {
      "epoch": 0.07993333333333333,
      "grad_norm": 1.4952188730239868,
      "learning_rate": 0.0001840542342742832,
      "loss": 1.9409,
      "step": 3597
    },
    {
      "epoch": 0.07995555555555556,
      "grad_norm": 1.2679736614227295,
      "learning_rate": 0.00018404978884196488,
      "loss": 1.6859,
      "step": 3598
    },
    {
      "epoch": 0.07997777777777777,
      "grad_norm": 1.4676672220230103,
      "learning_rate": 0.0001840453434096466,
      "loss": 1.5231,
      "step": 3599
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2791333198547363,
      "learning_rate": 0.0001840408979773283,
      "loss": 1.1194,
      "step": 3600
    },
    {
      "epoch": 0.08002222222222222,
      "grad_norm": 0.7651627659797668,
      "learning_rate": 0.00018403645254501,
      "loss": 1.0419,
      "step": 3601
    },
    {
      "epoch": 0.08004444444444445,
      "grad_norm": 1.0922318696975708,
      "learning_rate": 0.00018403200711269172,
      "loss": 2.7505,
      "step": 3602
    },
    {
      "epoch": 0.08006666666666666,
      "grad_norm": 1.0344644784927368,
      "learning_rate": 0.00018402756168037343,
      "loss": 2.0838,
      "step": 3603
    },
    {
      "epoch": 0.08008888888888889,
      "grad_norm": 1.3135956525802612,
      "learning_rate": 0.00018402311624805514,
      "loss": 2.3239,
      "step": 3604
    },
    {
      "epoch": 0.0801111111111111,
      "grad_norm": 1.2219730615615845,
      "learning_rate": 0.00018401867081573685,
      "loss": 2.454,
      "step": 3605
    },
    {
      "epoch": 0.08013333333333333,
      "grad_norm": 1.4561711549758911,
      "learning_rate": 0.00018401422538341856,
      "loss": 2.2534,
      "step": 3606
    },
    {
      "epoch": 0.08015555555555555,
      "grad_norm": 1.7876352071762085,
      "learning_rate": 0.00018400977995110024,
      "loss": 2.3091,
      "step": 3607
    },
    {
      "epoch": 0.08017777777777778,
      "grad_norm": 1.3025296926498413,
      "learning_rate": 0.00018400533451878198,
      "loss": 1.9115,
      "step": 3608
    },
    {
      "epoch": 0.0802,
      "grad_norm": 1.2429578304290771,
      "learning_rate": 0.00018400088908646366,
      "loss": 2.3551,
      "step": 3609
    },
    {
      "epoch": 0.08022222222222222,
      "grad_norm": 1.2455662488937378,
      "learning_rate": 0.00018399644365414537,
      "loss": 1.9897,
      "step": 3610
    },
    {
      "epoch": 0.08024444444444444,
      "grad_norm": 1.1080116033554077,
      "learning_rate": 0.00018399199822182708,
      "loss": 2.0657,
      "step": 3611
    },
    {
      "epoch": 0.08026666666666667,
      "grad_norm": 1.262728214263916,
      "learning_rate": 0.0001839875527895088,
      "loss": 1.9923,
      "step": 3612
    },
    {
      "epoch": 0.0802888888888889,
      "grad_norm": 1.3619056940078735,
      "learning_rate": 0.0001839831073571905,
      "loss": 2.532,
      "step": 3613
    },
    {
      "epoch": 0.08031111111111111,
      "grad_norm": 1.1964768171310425,
      "learning_rate": 0.0001839786619248722,
      "loss": 1.7188,
      "step": 3614
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 1.2625559568405151,
      "learning_rate": 0.00018397421649255392,
      "loss": 2.0738,
      "step": 3615
    },
    {
      "epoch": 0.08035555555555556,
      "grad_norm": 1.1889249086380005,
      "learning_rate": 0.0001839697710602356,
      "loss": 1.623,
      "step": 3616
    },
    {
      "epoch": 0.08037777777777778,
      "grad_norm": 1.612296462059021,
      "learning_rate": 0.00018396532562791734,
      "loss": 1.7417,
      "step": 3617
    },
    {
      "epoch": 0.0804,
      "grad_norm": 1.2993457317352295,
      "learning_rate": 0.00018396088019559902,
      "loss": 1.9965,
      "step": 3618
    },
    {
      "epoch": 0.08042222222222223,
      "grad_norm": 1.466341495513916,
      "learning_rate": 0.00018395643476328073,
      "loss": 2.2562,
      "step": 3619
    },
    {
      "epoch": 0.08044444444444444,
      "grad_norm": 1.3218737840652466,
      "learning_rate": 0.00018395198933096244,
      "loss": 2.2346,
      "step": 3620
    },
    {
      "epoch": 0.08046666666666667,
      "grad_norm": 1.260883092880249,
      "learning_rate": 0.00018394754389864415,
      "loss": 1.9729,
      "step": 3621
    },
    {
      "epoch": 0.08048888888888889,
      "grad_norm": 1.4265375137329102,
      "learning_rate": 0.00018394309846632586,
      "loss": 2.0401,
      "step": 3622
    },
    {
      "epoch": 0.08051111111111112,
      "grad_norm": 1.3545376062393188,
      "learning_rate": 0.00018393865303400757,
      "loss": 2.4058,
      "step": 3623
    },
    {
      "epoch": 0.08053333333333333,
      "grad_norm": 1.4232828617095947,
      "learning_rate": 0.00018393420760168928,
      "loss": 2.2824,
      "step": 3624
    },
    {
      "epoch": 0.08055555555555556,
      "grad_norm": 0.9449294209480286,
      "learning_rate": 0.00018392976216937099,
      "loss": 0.0438,
      "step": 3625
    },
    {
      "epoch": 0.08057777777777778,
      "grad_norm": 1.272674560546875,
      "learning_rate": 0.0001839253167370527,
      "loss": 2.1593,
      "step": 3626
    },
    {
      "epoch": 0.0806,
      "grad_norm": 1.3517484664916992,
      "learning_rate": 0.00018392087130473438,
      "loss": 2.211,
      "step": 3627
    },
    {
      "epoch": 0.08062222222222222,
      "grad_norm": 1.4165470600128174,
      "learning_rate": 0.00018391642587241611,
      "loss": 2.1065,
      "step": 3628
    },
    {
      "epoch": 0.08064444444444445,
      "grad_norm": 1.3025490045547485,
      "learning_rate": 0.0001839119804400978,
      "loss": 1.9093,
      "step": 3629
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 1.5448799133300781,
      "learning_rate": 0.0001839075350077795,
      "loss": 1.6284,
      "step": 3630
    },
    {
      "epoch": 0.0806888888888889,
      "grad_norm": 1.2619613409042358,
      "learning_rate": 0.00018390308957546124,
      "loss": 1.8745,
      "step": 3631
    },
    {
      "epoch": 0.08071111111111111,
      "grad_norm": 1.32402503490448,
      "learning_rate": 0.00018389864414314293,
      "loss": 2.0141,
      "step": 3632
    },
    {
      "epoch": 0.08073333333333334,
      "grad_norm": 1.556218147277832,
      "learning_rate": 0.00018389419871082463,
      "loss": 1.2302,
      "step": 3633
    },
    {
      "epoch": 0.08075555555555555,
      "grad_norm": 1.385074257850647,
      "learning_rate": 0.00018388975327850634,
      "loss": 2.2311,
      "step": 3634
    },
    {
      "epoch": 0.08077777777777778,
      "grad_norm": 1.218326449394226,
      "learning_rate": 0.00018388530784618805,
      "loss": 2.0609,
      "step": 3635
    },
    {
      "epoch": 0.0808,
      "grad_norm": 1.3882129192352295,
      "learning_rate": 0.00018388086241386974,
      "loss": 1.8298,
      "step": 3636
    },
    {
      "epoch": 0.08082222222222223,
      "grad_norm": 1.1702189445495605,
      "learning_rate": 0.00018387641698155147,
      "loss": 1.7865,
      "step": 3637
    },
    {
      "epoch": 0.08084444444444444,
      "grad_norm": 1.167648196220398,
      "learning_rate": 0.00018387197154923316,
      "loss": 1.1477,
      "step": 3638
    },
    {
      "epoch": 0.08086666666666667,
      "grad_norm": 1.306415319442749,
      "learning_rate": 0.00018386752611691487,
      "loss": 1.7242,
      "step": 3639
    },
    {
      "epoch": 0.08088888888888889,
      "grad_norm": 1.4472483396530151,
      "learning_rate": 0.0001838630806845966,
      "loss": 1.9575,
      "step": 3640
    },
    {
      "epoch": 0.08091111111111111,
      "grad_norm": 1.3238056898117065,
      "learning_rate": 0.00018385863525227828,
      "loss": 1.7657,
      "step": 3641
    },
    {
      "epoch": 0.08093333333333333,
      "grad_norm": 1.3369293212890625,
      "learning_rate": 0.00018385418981996002,
      "loss": 2.0152,
      "step": 3642
    },
    {
      "epoch": 0.08095555555555556,
      "grad_norm": 1.4356917142868042,
      "learning_rate": 0.0001838497443876417,
      "loss": 2.0038,
      "step": 3643
    },
    {
      "epoch": 0.08097777777777777,
      "grad_norm": 1.1998122930526733,
      "learning_rate": 0.00018384529895532341,
      "loss": 1.6939,
      "step": 3644
    },
    {
      "epoch": 0.081,
      "grad_norm": 1.652801275253296,
      "learning_rate": 0.00018384085352300512,
      "loss": 1.8866,
      "step": 3645
    },
    {
      "epoch": 0.08102222222222222,
      "grad_norm": 1.295859456062317,
      "learning_rate": 0.00018383640809068683,
      "loss": 1.6522,
      "step": 3646
    },
    {
      "epoch": 0.08104444444444445,
      "grad_norm": 1.3272781372070312,
      "learning_rate": 0.00018383196265836852,
      "loss": 1.7942,
      "step": 3647
    },
    {
      "epoch": 0.08106666666666666,
      "grad_norm": 1.575764775276184,
      "learning_rate": 0.00018382751722605025,
      "loss": 1.0909,
      "step": 3648
    },
    {
      "epoch": 0.08108888888888889,
      "grad_norm": 1.3105343580245972,
      "learning_rate": 0.00018382307179373196,
      "loss": 1.5595,
      "step": 3649
    },
    {
      "epoch": 0.0811111111111111,
      "grad_norm": 1.3594954013824463,
      "learning_rate": 0.00018381862636141364,
      "loss": 0.3612,
      "step": 3650
    },
    {
      "epoch": 0.08113333333333334,
      "grad_norm": 1.2009679079055786,
      "learning_rate": 0.00018381418092909538,
      "loss": 1.3815,
      "step": 3651
    },
    {
      "epoch": 0.08115555555555555,
      "grad_norm": 1.504106879234314,
      "learning_rate": 0.00018380973549677706,
      "loss": 2.34,
      "step": 3652
    },
    {
      "epoch": 0.08117777777777778,
      "grad_norm": 1.378600001335144,
      "learning_rate": 0.00018380529006445877,
      "loss": 2.2169,
      "step": 3653
    },
    {
      "epoch": 0.0812,
      "grad_norm": 1.3567134141921997,
      "learning_rate": 0.00018380084463214048,
      "loss": 2.0908,
      "step": 3654
    },
    {
      "epoch": 0.08122222222222222,
      "grad_norm": 1.2840567827224731,
      "learning_rate": 0.0001837963991998222,
      "loss": 2.4718,
      "step": 3655
    },
    {
      "epoch": 0.08124444444444444,
      "grad_norm": 1.2164989709854126,
      "learning_rate": 0.00018379195376750387,
      "loss": 2.1918,
      "step": 3656
    },
    {
      "epoch": 0.08126666666666667,
      "grad_norm": 1.2970621585845947,
      "learning_rate": 0.0001837875083351856,
      "loss": 2.5404,
      "step": 3657
    },
    {
      "epoch": 0.08128888888888888,
      "grad_norm": 1.6917527914047241,
      "learning_rate": 0.00018378306290286732,
      "loss": 2.6029,
      "step": 3658
    },
    {
      "epoch": 0.08131111111111111,
      "grad_norm": 1.423792839050293,
      "learning_rate": 0.00018377861747054903,
      "loss": 2.3866,
      "step": 3659
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 1.0677741765975952,
      "learning_rate": 0.00018377417203823074,
      "loss": 1.837,
      "step": 3660
    },
    {
      "epoch": 0.08135555555555556,
      "grad_norm": 1.362773060798645,
      "learning_rate": 0.00018376972660591242,
      "loss": 2.1794,
      "step": 3661
    },
    {
      "epoch": 0.08137777777777777,
      "grad_norm": 1.1057037115097046,
      "learning_rate": 0.00018376528117359416,
      "loss": 1.7721,
      "step": 3662
    },
    {
      "epoch": 0.0814,
      "grad_norm": 1.3051068782806396,
      "learning_rate": 0.00018376083574127584,
      "loss": 2.2466,
      "step": 3663
    },
    {
      "epoch": 0.08142222222222223,
      "grad_norm": 1.3648536205291748,
      "learning_rate": 0.00018375639030895755,
      "loss": 2.5114,
      "step": 3664
    },
    {
      "epoch": 0.08144444444444444,
      "grad_norm": 1.2011499404907227,
      "learning_rate": 0.00018375194487663926,
      "loss": 1.7476,
      "step": 3665
    },
    {
      "epoch": 0.08146666666666667,
      "grad_norm": 1.173875093460083,
      "learning_rate": 0.00018374749944432097,
      "loss": 2.1159,
      "step": 3666
    },
    {
      "epoch": 0.08148888888888889,
      "grad_norm": 1.375784158706665,
      "learning_rate": 0.00018374305401200268,
      "loss": 2.0589,
      "step": 3667
    },
    {
      "epoch": 0.08151111111111112,
      "grad_norm": 1.263965368270874,
      "learning_rate": 0.0001837386085796844,
      "loss": 1.8981,
      "step": 3668
    },
    {
      "epoch": 0.08153333333333333,
      "grad_norm": 1.5320152044296265,
      "learning_rate": 0.0001837341631473661,
      "loss": 2.6019,
      "step": 3669
    },
    {
      "epoch": 0.08155555555555556,
      "grad_norm": 1.3832933902740479,
      "learning_rate": 0.00018372971771504778,
      "loss": 1.7914,
      "step": 3670
    },
    {
      "epoch": 0.08157777777777778,
      "grad_norm": 1.9614989757537842,
      "learning_rate": 0.00018372527228272952,
      "loss": 1.8868,
      "step": 3671
    },
    {
      "epoch": 0.0816,
      "grad_norm": 1.3117355108261108,
      "learning_rate": 0.0001837208268504112,
      "loss": 2.5962,
      "step": 3672
    },
    {
      "epoch": 0.08162222222222222,
      "grad_norm": 1.5149602890014648,
      "learning_rate": 0.0001837163814180929,
      "loss": 1.731,
      "step": 3673
    },
    {
      "epoch": 0.08164444444444445,
      "grad_norm": 1.4484587907791138,
      "learning_rate": 0.00018371193598577462,
      "loss": 1.6353,
      "step": 3674
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 1.5084599256515503,
      "learning_rate": 0.00018370749055345633,
      "loss": 2.4353,
      "step": 3675
    },
    {
      "epoch": 0.0816888888888889,
      "grad_norm": 1.3500257730484009,
      "learning_rate": 0.00018370304512113804,
      "loss": 2.3369,
      "step": 3676
    },
    {
      "epoch": 0.08171111111111111,
      "grad_norm": 1.5253559350967407,
      "learning_rate": 0.00018369859968881975,
      "loss": 1.9887,
      "step": 3677
    },
    {
      "epoch": 0.08173333333333334,
      "grad_norm": 1.4120569229125977,
      "learning_rate": 0.00018369415425650146,
      "loss": 2.2231,
      "step": 3678
    },
    {
      "epoch": 0.08175555555555555,
      "grad_norm": 1.1387830972671509,
      "learning_rate": 0.00018368970882418317,
      "loss": 1.9658,
      "step": 3679
    },
    {
      "epoch": 0.08177777777777778,
      "grad_norm": 1.6434063911437988,
      "learning_rate": 0.00018368526339186488,
      "loss": 2.3205,
      "step": 3680
    },
    {
      "epoch": 0.0818,
      "grad_norm": 1.296899437904358,
      "learning_rate": 0.00018368081795954656,
      "loss": 1.744,
      "step": 3681
    },
    {
      "epoch": 0.08182222222222223,
      "grad_norm": 1.2624237537384033,
      "learning_rate": 0.0001836763725272283,
      "loss": 2.0235,
      "step": 3682
    },
    {
      "epoch": 0.08184444444444444,
      "grad_norm": 1.5623878240585327,
      "learning_rate": 0.00018367192709490998,
      "loss": 2.1944,
      "step": 3683
    },
    {
      "epoch": 0.08186666666666667,
      "grad_norm": 1.5247491598129272,
      "learning_rate": 0.0001836674816625917,
      "loss": 2.3596,
      "step": 3684
    },
    {
      "epoch": 0.08188888888888889,
      "grad_norm": 1.2370851039886475,
      "learning_rate": 0.0001836630362302734,
      "loss": 2.0781,
      "step": 3685
    },
    {
      "epoch": 0.08191111111111112,
      "grad_norm": 1.3484132289886475,
      "learning_rate": 0.0001836585907979551,
      "loss": 2.3458,
      "step": 3686
    },
    {
      "epoch": 0.08193333333333333,
      "grad_norm": 1.4338109493255615,
      "learning_rate": 0.00018365414536563682,
      "loss": 2.4587,
      "step": 3687
    },
    {
      "epoch": 0.08195555555555556,
      "grad_norm": 1.4265894889831543,
      "learning_rate": 0.00018364969993331853,
      "loss": 2.2896,
      "step": 3688
    },
    {
      "epoch": 0.08197777777777777,
      "grad_norm": 1.4162578582763672,
      "learning_rate": 0.00018364525450100024,
      "loss": 2.1227,
      "step": 3689
    },
    {
      "epoch": 0.082,
      "grad_norm": 1.510770559310913,
      "learning_rate": 0.00018364080906868192,
      "loss": 2.1402,
      "step": 3690
    },
    {
      "epoch": 0.08202222222222222,
      "grad_norm": 1.2629023790359497,
      "learning_rate": 0.00018363636363636366,
      "loss": 2.0158,
      "step": 3691
    },
    {
      "epoch": 0.08204444444444445,
      "grad_norm": 1.305181622505188,
      "learning_rate": 0.00018363191820404534,
      "loss": 1.8069,
      "step": 3692
    },
    {
      "epoch": 0.08206666666666666,
      "grad_norm": 1.3685085773468018,
      "learning_rate": 0.00018362747277172705,
      "loss": 2.0623,
      "step": 3693
    },
    {
      "epoch": 0.08208888888888889,
      "grad_norm": 1.4363067150115967,
      "learning_rate": 0.00018362302733940876,
      "loss": 2.2537,
      "step": 3694
    },
    {
      "epoch": 0.08211111111111111,
      "grad_norm": 1.0464816093444824,
      "learning_rate": 0.00018361858190709047,
      "loss": 1.5119,
      "step": 3695
    },
    {
      "epoch": 0.08213333333333334,
      "grad_norm": 1.2719902992248535,
      "learning_rate": 0.00018361413647477218,
      "loss": 1.6483,
      "step": 3696
    },
    {
      "epoch": 0.08215555555555555,
      "grad_norm": 1.4137662649154663,
      "learning_rate": 0.0001836096910424539,
      "loss": 1.8361,
      "step": 3697
    },
    {
      "epoch": 0.08217777777777778,
      "grad_norm": 1.267458200454712,
      "learning_rate": 0.0001836052456101356,
      "loss": 1.7088,
      "step": 3698
    },
    {
      "epoch": 0.0822,
      "grad_norm": 1.7159905433654785,
      "learning_rate": 0.0001836008001778173,
      "loss": 2.0834,
      "step": 3699
    },
    {
      "epoch": 0.08222222222222222,
      "grad_norm": 1.3477818965911865,
      "learning_rate": 0.00018359635474549902,
      "loss": 0.6832,
      "step": 3700
    },
    {
      "epoch": 0.08224444444444444,
      "grad_norm": 1.3076441287994385,
      "learning_rate": 0.0001835919093131807,
      "loss": 2.6709,
      "step": 3701
    },
    {
      "epoch": 0.08226666666666667,
      "grad_norm": 1.1363846063613892,
      "learning_rate": 0.00018358746388086244,
      "loss": 2.3923,
      "step": 3702
    },
    {
      "epoch": 0.08228888888888888,
      "grad_norm": 1.495496153831482,
      "learning_rate": 0.00018358301844854412,
      "loss": 2.3562,
      "step": 3703
    },
    {
      "epoch": 0.08231111111111111,
      "grad_norm": 1.2286193370819092,
      "learning_rate": 0.00018357857301622583,
      "loss": 2.5056,
      "step": 3704
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 1.1402894258499146,
      "learning_rate": 0.00018357412758390756,
      "loss": 1.9959,
      "step": 3705
    },
    {
      "epoch": 0.08235555555555556,
      "grad_norm": 1.7085946798324585,
      "learning_rate": 0.00018356968215158925,
      "loss": 1.7225,
      "step": 3706
    },
    {
      "epoch": 0.08237777777777777,
      "grad_norm": 1.388522982597351,
      "learning_rate": 0.00018356523671927096,
      "loss": 2.2679,
      "step": 3707
    },
    {
      "epoch": 0.0824,
      "grad_norm": 1.1444454193115234,
      "learning_rate": 0.00018356079128695267,
      "loss": 2.4866,
      "step": 3708
    },
    {
      "epoch": 0.08242222222222222,
      "grad_norm": 1.2037158012390137,
      "learning_rate": 0.00018355634585463438,
      "loss": 1.9698,
      "step": 3709
    },
    {
      "epoch": 0.08244444444444445,
      "grad_norm": 1.2525960206985474,
      "learning_rate": 0.00018355190042231606,
      "loss": 2.1183,
      "step": 3710
    },
    {
      "epoch": 0.08246666666666666,
      "grad_norm": 1.2685823440551758,
      "learning_rate": 0.0001835474549899978,
      "loss": 2.3999,
      "step": 3711
    },
    {
      "epoch": 0.08248888888888889,
      "grad_norm": 1.1982176303863525,
      "learning_rate": 0.00018354300955767948,
      "loss": 2.1479,
      "step": 3712
    },
    {
      "epoch": 0.0825111111111111,
      "grad_norm": 1.1716853380203247,
      "learning_rate": 0.0001835385641253612,
      "loss": 2.0812,
      "step": 3713
    },
    {
      "epoch": 0.08253333333333333,
      "grad_norm": 1.269726037979126,
      "learning_rate": 0.00018353411869304292,
      "loss": 1.6473,
      "step": 3714
    },
    {
      "epoch": 0.08255555555555555,
      "grad_norm": 1.376862645149231,
      "learning_rate": 0.0001835296732607246,
      "loss": 2.0835,
      "step": 3715
    },
    {
      "epoch": 0.08257777777777778,
      "grad_norm": 1.4289859533309937,
      "learning_rate": 0.00018352522782840634,
      "loss": 2.2132,
      "step": 3716
    },
    {
      "epoch": 0.0826,
      "grad_norm": 1.2596189975738525,
      "learning_rate": 0.00018352078239608803,
      "loss": 2.0538,
      "step": 3717
    },
    {
      "epoch": 0.08262222222222222,
      "grad_norm": 1.392706274986267,
      "learning_rate": 0.00018351633696376974,
      "loss": 1.8508,
      "step": 3718
    },
    {
      "epoch": 0.08264444444444445,
      "grad_norm": 1.222619652748108,
      "learning_rate": 0.00018351189153145145,
      "loss": 2.019,
      "step": 3719
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 1.2307435274124146,
      "learning_rate": 0.00018350744609913315,
      "loss": 2.0585,
      "step": 3720
    },
    {
      "epoch": 0.0826888888888889,
      "grad_norm": 1.7775535583496094,
      "learning_rate": 0.00018350300066681484,
      "loss": 2.5409,
      "step": 3721
    },
    {
      "epoch": 0.08271111111111111,
      "grad_norm": 1.337125301361084,
      "learning_rate": 0.00018349855523449657,
      "loss": 2.396,
      "step": 3722
    },
    {
      "epoch": 0.08273333333333334,
      "grad_norm": 1.3704264163970947,
      "learning_rate": 0.00018349410980217828,
      "loss": 2.3751,
      "step": 3723
    },
    {
      "epoch": 0.08275555555555555,
      "grad_norm": 1.3984158039093018,
      "learning_rate": 0.00018348966436985997,
      "loss": 2.1248,
      "step": 3724
    },
    {
      "epoch": 0.08277777777777778,
      "grad_norm": 1.2886028289794922,
      "learning_rate": 0.0001834852189375417,
      "loss": 2.1778,
      "step": 3725
    },
    {
      "epoch": 0.0828,
      "grad_norm": 1.1951922178268433,
      "learning_rate": 0.00018348077350522339,
      "loss": 1.9336,
      "step": 3726
    },
    {
      "epoch": 0.08282222222222223,
      "grad_norm": 1.3340922594070435,
      "learning_rate": 0.0001834763280729051,
      "loss": 2.0582,
      "step": 3727
    },
    {
      "epoch": 0.08284444444444444,
      "grad_norm": 1.9350781440734863,
      "learning_rate": 0.0001834718826405868,
      "loss": 2.2931,
      "step": 3728
    },
    {
      "epoch": 0.08286666666666667,
      "grad_norm": 1.3482329845428467,
      "learning_rate": 0.00018346743720826851,
      "loss": 2.0152,
      "step": 3729
    },
    {
      "epoch": 0.08288888888888889,
      "grad_norm": 1.343555212020874,
      "learning_rate": 0.0001834629917759502,
      "loss": 2.3119,
      "step": 3730
    },
    {
      "epoch": 0.08291111111111112,
      "grad_norm": 1.2393773794174194,
      "learning_rate": 0.00018345854634363193,
      "loss": 2.0094,
      "step": 3731
    },
    {
      "epoch": 0.08293333333333333,
      "grad_norm": 1.1807552576065063,
      "learning_rate": 0.00018345410091131364,
      "loss": 2.0507,
      "step": 3732
    },
    {
      "epoch": 0.08295555555555556,
      "grad_norm": 1.3803151845932007,
      "learning_rate": 0.00018344965547899533,
      "loss": 2.1102,
      "step": 3733
    },
    {
      "epoch": 0.08297777777777778,
      "grad_norm": 1.5443792343139648,
      "learning_rate": 0.00018344521004667706,
      "loss": 2.1081,
      "step": 3734
    },
    {
      "epoch": 0.083,
      "grad_norm": 1.2594364881515503,
      "learning_rate": 0.00018344076461435874,
      "loss": 1.8055,
      "step": 3735
    },
    {
      "epoch": 0.08302222222222222,
      "grad_norm": 1.3027013540267944,
      "learning_rate": 0.00018343631918204048,
      "loss": 1.9598,
      "step": 3736
    },
    {
      "epoch": 0.08304444444444445,
      "grad_norm": 1.3988456726074219,
      "learning_rate": 0.00018343187374972216,
      "loss": 1.9072,
      "step": 3737
    },
    {
      "epoch": 0.08306666666666666,
      "grad_norm": 1.1366162300109863,
      "learning_rate": 0.00018342742831740387,
      "loss": 0.8282,
      "step": 3738
    },
    {
      "epoch": 0.08308888888888889,
      "grad_norm": 1.3433319330215454,
      "learning_rate": 0.00018342298288508558,
      "loss": 2.145,
      "step": 3739
    },
    {
      "epoch": 0.08311111111111111,
      "grad_norm": 1.6333012580871582,
      "learning_rate": 0.0001834185374527673,
      "loss": 1.9882,
      "step": 3740
    },
    {
      "epoch": 0.08313333333333334,
      "grad_norm": 1.5079331398010254,
      "learning_rate": 0.000183414092020449,
      "loss": 2.2294,
      "step": 3741
    },
    {
      "epoch": 0.08315555555555555,
      "grad_norm": 1.4349793195724487,
      "learning_rate": 0.0001834096465881307,
      "loss": 1.9885,
      "step": 3742
    },
    {
      "epoch": 0.08317777777777778,
      "grad_norm": 1.5758147239685059,
      "learning_rate": 0.00018340520115581242,
      "loss": 1.6917,
      "step": 3743
    },
    {
      "epoch": 0.0832,
      "grad_norm": 1.4096463918685913,
      "learning_rate": 0.0001834007557234941,
      "loss": 2.1504,
      "step": 3744
    },
    {
      "epoch": 0.08322222222222223,
      "grad_norm": 1.3794286251068115,
      "learning_rate": 0.00018339631029117584,
      "loss": 1.7257,
      "step": 3745
    },
    {
      "epoch": 0.08324444444444444,
      "grad_norm": 1.4833141565322876,
      "learning_rate": 0.00018339186485885752,
      "loss": 1.9217,
      "step": 3746
    },
    {
      "epoch": 0.08326666666666667,
      "grad_norm": 1.7716563940048218,
      "learning_rate": 0.00018338741942653923,
      "loss": 2.1866,
      "step": 3747
    },
    {
      "epoch": 0.08328888888888888,
      "grad_norm": 1.4403369426727295,
      "learning_rate": 0.00018338297399422094,
      "loss": 1.659,
      "step": 3748
    },
    {
      "epoch": 0.08331111111111111,
      "grad_norm": 1.3384677171707153,
      "learning_rate": 0.00018337852856190265,
      "loss": 1.7207,
      "step": 3749
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 1.173349142074585,
      "learning_rate": 0.00018337408312958436,
      "loss": 1.2062,
      "step": 3750
    },
    {
      "epoch": 0.08335555555555556,
      "grad_norm": 1.14934241771698,
      "learning_rate": 0.00018336963769726607,
      "loss": 2.5767,
      "step": 3751
    },
    {
      "epoch": 0.08337777777777777,
      "grad_norm": 1.1485891342163086,
      "learning_rate": 0.00018336519226494778,
      "loss": 2.1732,
      "step": 3752
    },
    {
      "epoch": 0.0834,
      "grad_norm": 1.2195016145706177,
      "learning_rate": 0.0001833607468326295,
      "loss": 2.3286,
      "step": 3753
    },
    {
      "epoch": 0.08342222222222222,
      "grad_norm": 1.106770634651184,
      "learning_rate": 0.0001833563014003112,
      "loss": 2.0485,
      "step": 3754
    },
    {
      "epoch": 0.08344444444444445,
      "grad_norm": 1.0948654413223267,
      "learning_rate": 0.00018335185596799288,
      "loss": 2.1415,
      "step": 3755
    },
    {
      "epoch": 0.08346666666666666,
      "grad_norm": 1.0810214281082153,
      "learning_rate": 0.00018334741053567462,
      "loss": 1.9772,
      "step": 3756
    },
    {
      "epoch": 0.08348888888888889,
      "grad_norm": 1.108093023300171,
      "learning_rate": 0.0001833429651033563,
      "loss": 2.0626,
      "step": 3757
    },
    {
      "epoch": 0.0835111111111111,
      "grad_norm": 1.31307053565979,
      "learning_rate": 0.000183338519671038,
      "loss": 2.1667,
      "step": 3758
    },
    {
      "epoch": 0.08353333333333333,
      "grad_norm": 1.193341612815857,
      "learning_rate": 0.00018333407423871972,
      "loss": 2.0653,
      "step": 3759
    },
    {
      "epoch": 0.08355555555555555,
      "grad_norm": 1.399157166481018,
      "learning_rate": 0.00018332962880640143,
      "loss": 1.5565,
      "step": 3760
    },
    {
      "epoch": 0.08357777777777778,
      "grad_norm": 1.119966745376587,
      "learning_rate": 0.00018332518337408314,
      "loss": 2.2336,
      "step": 3761
    },
    {
      "epoch": 0.0836,
      "grad_norm": 1.3634086847305298,
      "learning_rate": 0.00018332073794176485,
      "loss": 2.5965,
      "step": 3762
    },
    {
      "epoch": 0.08362222222222222,
      "grad_norm": 1.0697473287582397,
      "learning_rate": 0.00018331629250944656,
      "loss": 2.0305,
      "step": 3763
    },
    {
      "epoch": 0.08364444444444444,
      "grad_norm": 1.3779423236846924,
      "learning_rate": 0.00018331184707712824,
      "loss": 2.4304,
      "step": 3764
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 1.227135181427002,
      "learning_rate": 0.00018330740164480998,
      "loss": 2.0807,
      "step": 3765
    },
    {
      "epoch": 0.08368888888888888,
      "grad_norm": 1.2680401802062988,
      "learning_rate": 0.00018330295621249166,
      "loss": 2.1856,
      "step": 3766
    },
    {
      "epoch": 0.08371111111111111,
      "grad_norm": 1.5422371625900269,
      "learning_rate": 0.00018329851078017337,
      "loss": 2.174,
      "step": 3767
    },
    {
      "epoch": 0.08373333333333334,
      "grad_norm": 1.2656880617141724,
      "learning_rate": 0.00018329406534785508,
      "loss": 2.1735,
      "step": 3768
    },
    {
      "epoch": 0.08375555555555556,
      "grad_norm": 1.351730465888977,
      "learning_rate": 0.0001832896199155368,
      "loss": 2.2512,
      "step": 3769
    },
    {
      "epoch": 0.08377777777777778,
      "grad_norm": 1.2336546182632446,
      "learning_rate": 0.0001832851744832185,
      "loss": 2.0626,
      "step": 3770
    },
    {
      "epoch": 0.0838,
      "grad_norm": 1.3643064498901367,
      "learning_rate": 0.0001832807290509002,
      "loss": 2.532,
      "step": 3771
    },
    {
      "epoch": 0.08382222222222223,
      "grad_norm": 1.3892377614974976,
      "learning_rate": 0.00018327628361858192,
      "loss": 1.8554,
      "step": 3772
    },
    {
      "epoch": 0.08384444444444444,
      "grad_norm": 1.1425843238830566,
      "learning_rate": 0.00018327183818626363,
      "loss": 2.1771,
      "step": 3773
    },
    {
      "epoch": 0.08386666666666667,
      "grad_norm": 1.2658792734146118,
      "learning_rate": 0.00018326739275394534,
      "loss": 2.0332,
      "step": 3774
    },
    {
      "epoch": 0.08388888888888889,
      "grad_norm": 0.942596971988678,
      "learning_rate": 0.00018326294732162702,
      "loss": 0.7195,
      "step": 3775
    },
    {
      "epoch": 0.08391111111111112,
      "grad_norm": 1.3439239263534546,
      "learning_rate": 0.00018325850188930876,
      "loss": 1.8195,
      "step": 3776
    },
    {
      "epoch": 0.08393333333333333,
      "grad_norm": 1.0942491292953491,
      "learning_rate": 0.00018325405645699044,
      "loss": 1.902,
      "step": 3777
    },
    {
      "epoch": 0.08395555555555556,
      "grad_norm": 1.3457939624786377,
      "learning_rate": 0.00018324961102467215,
      "loss": 2.0151,
      "step": 3778
    },
    {
      "epoch": 0.08397777777777778,
      "grad_norm": 1.4305779933929443,
      "learning_rate": 0.0001832451655923539,
      "loss": 2.0161,
      "step": 3779
    },
    {
      "epoch": 0.084,
      "grad_norm": 1.5203875303268433,
      "learning_rate": 0.00018324072016003557,
      "loss": 2.1299,
      "step": 3780
    },
    {
      "epoch": 0.08402222222222222,
      "grad_norm": 1.2600908279418945,
      "learning_rate": 0.00018323627472771728,
      "loss": 1.8775,
      "step": 3781
    },
    {
      "epoch": 0.08404444444444445,
      "grad_norm": 1.4517302513122559,
      "learning_rate": 0.000183231829295399,
      "loss": 2.1346,
      "step": 3782
    },
    {
      "epoch": 0.08406666666666666,
      "grad_norm": 1.3709062337875366,
      "learning_rate": 0.0001832273838630807,
      "loss": 2.0511,
      "step": 3783
    },
    {
      "epoch": 0.0840888888888889,
      "grad_norm": 1.2844997644424438,
      "learning_rate": 0.00018322293843076238,
      "loss": 2.1488,
      "step": 3784
    },
    {
      "epoch": 0.08411111111111111,
      "grad_norm": 1.3488349914550781,
      "learning_rate": 0.00018321849299844412,
      "loss": 1.9388,
      "step": 3785
    },
    {
      "epoch": 0.08413333333333334,
      "grad_norm": 1.384660005569458,
      "learning_rate": 0.0001832140475661258,
      "loss": 1.8102,
      "step": 3786
    },
    {
      "epoch": 0.08415555555555555,
      "grad_norm": 1.673464298248291,
      "learning_rate": 0.0001832096021338075,
      "loss": 2.3498,
      "step": 3787
    },
    {
      "epoch": 0.08417777777777778,
      "grad_norm": 1.142154335975647,
      "learning_rate": 0.00018320515670148925,
      "loss": 1.5239,
      "step": 3788
    },
    {
      "epoch": 0.0842,
      "grad_norm": 1.0959197282791138,
      "learning_rate": 0.00018320071126917093,
      "loss": 1.4466,
      "step": 3789
    },
    {
      "epoch": 0.08422222222222223,
      "grad_norm": 1.5571155548095703,
      "learning_rate": 0.00018319626583685264,
      "loss": 1.9711,
      "step": 3790
    },
    {
      "epoch": 0.08424444444444444,
      "grad_norm": 1.321845293045044,
      "learning_rate": 0.00018319182040453435,
      "loss": 1.8046,
      "step": 3791
    },
    {
      "epoch": 0.08426666666666667,
      "grad_norm": 1.5317105054855347,
      "learning_rate": 0.00018318737497221606,
      "loss": 1.7864,
      "step": 3792
    },
    {
      "epoch": 0.08428888888888889,
      "grad_norm": 1.3122411966323853,
      "learning_rate": 0.00018318292953989777,
      "loss": 1.8149,
      "step": 3793
    },
    {
      "epoch": 0.08431111111111111,
      "grad_norm": 1.271420955657959,
      "learning_rate": 0.00018317848410757948,
      "loss": 1.8306,
      "step": 3794
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 1.3152903318405151,
      "learning_rate": 0.00018317403867526116,
      "loss": 1.6876,
      "step": 3795
    },
    {
      "epoch": 0.08435555555555556,
      "grad_norm": 1.5708154439926147,
      "learning_rate": 0.0001831695932429429,
      "loss": 2.0446,
      "step": 3796
    },
    {
      "epoch": 0.08437777777777777,
      "grad_norm": 1.3261884450912476,
      "learning_rate": 0.0001831651478106246,
      "loss": 2.0654,
      "step": 3797
    },
    {
      "epoch": 0.0844,
      "grad_norm": 1.4633420705795288,
      "learning_rate": 0.0001831607023783063,
      "loss": 1.9781,
      "step": 3798
    },
    {
      "epoch": 0.08442222222222222,
      "grad_norm": 1.7155293226242065,
      "learning_rate": 0.00018315625694598803,
      "loss": 2.1932,
      "step": 3799
    },
    {
      "epoch": 0.08444444444444445,
      "grad_norm": 0.9392032027244568,
      "learning_rate": 0.0001831518115136697,
      "loss": 0.5209,
      "step": 3800
    },
    {
      "epoch": 0.08446666666666666,
      "grad_norm": 1.2845485210418701,
      "learning_rate": 0.00018314736608135142,
      "loss": 2.2759,
      "step": 3801
    },
    {
      "epoch": 0.08448888888888889,
      "grad_norm": 1.1438502073287964,
      "learning_rate": 0.00018314292064903313,
      "loss": 2.7633,
      "step": 3802
    },
    {
      "epoch": 0.0845111111111111,
      "grad_norm": 1.2022689580917358,
      "learning_rate": 0.00018313847521671484,
      "loss": 2.6877,
      "step": 3803
    },
    {
      "epoch": 0.08453333333333334,
      "grad_norm": 1.2780210971832275,
      "learning_rate": 0.00018313402978439652,
      "loss": 2.4602,
      "step": 3804
    },
    {
      "epoch": 0.08455555555555555,
      "grad_norm": 1.147143006324768,
      "learning_rate": 0.00018312958435207826,
      "loss": 2.0325,
      "step": 3805
    },
    {
      "epoch": 0.08457777777777778,
      "grad_norm": 1.0741664171218872,
      "learning_rate": 0.00018312513891975997,
      "loss": 2.589,
      "step": 3806
    },
    {
      "epoch": 0.0846,
      "grad_norm": 1.1212646961212158,
      "learning_rate": 0.00018312069348744165,
      "loss": 2.149,
      "step": 3807
    },
    {
      "epoch": 0.08462222222222222,
      "grad_norm": 1.1260703802108765,
      "learning_rate": 0.00018311624805512338,
      "loss": 2.103,
      "step": 3808
    },
    {
      "epoch": 0.08464444444444444,
      "grad_norm": 1.293121337890625,
      "learning_rate": 0.00018311180262280507,
      "loss": 2.0342,
      "step": 3809
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 1.3064484596252441,
      "learning_rate": 0.0001831073571904868,
      "loss": 2.1646,
      "step": 3810
    },
    {
      "epoch": 0.08468888888888888,
      "grad_norm": 1.1782290935516357,
      "learning_rate": 0.00018310291175816849,
      "loss": 2.2629,
      "step": 3811
    },
    {
      "epoch": 0.08471111111111111,
      "grad_norm": 1.1606324911117554,
      "learning_rate": 0.0001830984663258502,
      "loss": 2.1509,
      "step": 3812
    },
    {
      "epoch": 0.08473333333333333,
      "grad_norm": 1.1473417282104492,
      "learning_rate": 0.0001830940208935319,
      "loss": 2.192,
      "step": 3813
    },
    {
      "epoch": 0.08475555555555556,
      "grad_norm": 1.12730073928833,
      "learning_rate": 0.00018308957546121362,
      "loss": 2.0235,
      "step": 3814
    },
    {
      "epoch": 0.08477777777777777,
      "grad_norm": 1.1038776636123657,
      "learning_rate": 0.00018308513002889532,
      "loss": 2.0591,
      "step": 3815
    },
    {
      "epoch": 0.0848,
      "grad_norm": 1.5187519788742065,
      "learning_rate": 0.00018308068459657703,
      "loss": 2.2847,
      "step": 3816
    },
    {
      "epoch": 0.08482222222222222,
      "grad_norm": 1.1474043130874634,
      "learning_rate": 0.00018307623916425874,
      "loss": 1.2486,
      "step": 3817
    },
    {
      "epoch": 0.08484444444444444,
      "grad_norm": 1.1251564025878906,
      "learning_rate": 0.00018307179373194043,
      "loss": 0.9984,
      "step": 3818
    },
    {
      "epoch": 0.08486666666666667,
      "grad_norm": 1.3187544345855713,
      "learning_rate": 0.00018306734829962216,
      "loss": 2.0501,
      "step": 3819
    },
    {
      "epoch": 0.08488888888888889,
      "grad_norm": 1.1238620281219482,
      "learning_rate": 0.00018306290286730385,
      "loss": 1.8969,
      "step": 3820
    },
    {
      "epoch": 0.08491111111111112,
      "grad_norm": 1.1466844081878662,
      "learning_rate": 0.00018305845743498556,
      "loss": 1.8634,
      "step": 3821
    },
    {
      "epoch": 0.08493333333333333,
      "grad_norm": 1.1636260747909546,
      "learning_rate": 0.00018305401200266726,
      "loss": 2.0346,
      "step": 3822
    },
    {
      "epoch": 0.08495555555555556,
      "grad_norm": 1.2605708837509155,
      "learning_rate": 0.00018304956657034897,
      "loss": 2.1221,
      "step": 3823
    },
    {
      "epoch": 0.08497777777777778,
      "grad_norm": 1.1905038356781006,
      "learning_rate": 0.00018304512113803068,
      "loss": 2.3228,
      "step": 3824
    },
    {
      "epoch": 0.085,
      "grad_norm": 1.3121824264526367,
      "learning_rate": 0.0001830406757057124,
      "loss": 1.9939,
      "step": 3825
    },
    {
      "epoch": 0.08502222222222222,
      "grad_norm": 1.428402304649353,
      "learning_rate": 0.0001830362302733941,
      "loss": 1.9317,
      "step": 3826
    },
    {
      "epoch": 0.08504444444444445,
      "grad_norm": 1.2127010822296143,
      "learning_rate": 0.00018303178484107579,
      "loss": 2.2116,
      "step": 3827
    },
    {
      "epoch": 0.08506666666666667,
      "grad_norm": 1.0765200853347778,
      "learning_rate": 0.00018302733940875752,
      "loss": 1.4125,
      "step": 3828
    },
    {
      "epoch": 0.0850888888888889,
      "grad_norm": 1.4758669137954712,
      "learning_rate": 0.0001830228939764392,
      "loss": 2.3978,
      "step": 3829
    },
    {
      "epoch": 0.08511111111111111,
      "grad_norm": 1.2892208099365234,
      "learning_rate": 0.00018301844854412094,
      "loss": 1.7413,
      "step": 3830
    },
    {
      "epoch": 0.08513333333333334,
      "grad_norm": 1.28184974193573,
      "learning_rate": 0.00018301400311180262,
      "loss": 1.8904,
      "step": 3831
    },
    {
      "epoch": 0.08515555555555555,
      "grad_norm": 1.3503646850585938,
      "learning_rate": 0.00018300955767948433,
      "loss": 2.0101,
      "step": 3832
    },
    {
      "epoch": 0.08517777777777778,
      "grad_norm": 1.3963651657104492,
      "learning_rate": 0.00018300511224716604,
      "loss": 2.0048,
      "step": 3833
    },
    {
      "epoch": 0.0852,
      "grad_norm": 1.353186845779419,
      "learning_rate": 0.00018300066681484775,
      "loss": 2.0891,
      "step": 3834
    },
    {
      "epoch": 0.08522222222222223,
      "grad_norm": 1.2621327638626099,
      "learning_rate": 0.00018299622138252946,
      "loss": 1.8593,
      "step": 3835
    },
    {
      "epoch": 0.08524444444444444,
      "grad_norm": 1.5457473993301392,
      "learning_rate": 0.00018299177595021117,
      "loss": 2.1439,
      "step": 3836
    },
    {
      "epoch": 0.08526666666666667,
      "grad_norm": 1.2190488576889038,
      "learning_rate": 0.00018298733051789288,
      "loss": 2.1942,
      "step": 3837
    },
    {
      "epoch": 0.08528888888888889,
      "grad_norm": 1.450424313545227,
      "learning_rate": 0.00018298288508557456,
      "loss": 1.8608,
      "step": 3838
    },
    {
      "epoch": 0.08531111111111112,
      "grad_norm": 1.333061695098877,
      "learning_rate": 0.0001829784396532563,
      "loss": 1.7707,
      "step": 3839
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 1.3491209745407104,
      "learning_rate": 0.00018297399422093798,
      "loss": 1.9879,
      "step": 3840
    },
    {
      "epoch": 0.08535555555555556,
      "grad_norm": 1.6014151573181152,
      "learning_rate": 0.0001829695487886197,
      "loss": 2.3131,
      "step": 3841
    },
    {
      "epoch": 0.08537777777777777,
      "grad_norm": 1.4640525579452515,
      "learning_rate": 0.0001829651033563014,
      "loss": 2.2822,
      "step": 3842
    },
    {
      "epoch": 0.0854,
      "grad_norm": 1.201319932937622,
      "learning_rate": 0.0001829606579239831,
      "loss": 1.6643,
      "step": 3843
    },
    {
      "epoch": 0.08542222222222222,
      "grad_norm": 1.3478792905807495,
      "learning_rate": 0.00018295621249166482,
      "loss": 1.8764,
      "step": 3844
    },
    {
      "epoch": 0.08544444444444445,
      "grad_norm": 1.3052295446395874,
      "learning_rate": 0.00018295176705934653,
      "loss": 1.7053,
      "step": 3845
    },
    {
      "epoch": 0.08546666666666666,
      "grad_norm": 1.3359328508377075,
      "learning_rate": 0.00018294732162702824,
      "loss": 1.8894,
      "step": 3846
    },
    {
      "epoch": 0.08548888888888889,
      "grad_norm": 1.4691016674041748,
      "learning_rate": 0.00018294287619470992,
      "loss": 1.8617,
      "step": 3847
    },
    {
      "epoch": 0.08551111111111111,
      "grad_norm": 1.3177027702331543,
      "learning_rate": 0.00018293843076239166,
      "loss": 1.8823,
      "step": 3848
    },
    {
      "epoch": 0.08553333333333334,
      "grad_norm": 1.5961673259735107,
      "learning_rate": 0.00018293398533007334,
      "loss": 1.905,
      "step": 3849
    },
    {
      "epoch": 0.08555555555555555,
      "grad_norm": 1.4407944679260254,
      "learning_rate": 0.00018292953989775508,
      "loss": 1.7201,
      "step": 3850
    },
    {
      "epoch": 0.08557777777777778,
      "grad_norm": 0.6729428172111511,
      "learning_rate": 0.00018292509446543676,
      "loss": 0.0287,
      "step": 3851
    },
    {
      "epoch": 0.0856,
      "grad_norm": 0.7333818078041077,
      "learning_rate": 0.00018292064903311847,
      "loss": 1.0013,
      "step": 3852
    },
    {
      "epoch": 0.08562222222222222,
      "grad_norm": 0.9840003252029419,
      "learning_rate": 0.0001829162036008002,
      "loss": 1.0692,
      "step": 3853
    },
    {
      "epoch": 0.08564444444444444,
      "grad_norm": 1.1732404232025146,
      "learning_rate": 0.0001829117581684819,
      "loss": 2.0807,
      "step": 3854
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 1.106427550315857,
      "learning_rate": 0.0001829073127361636,
      "loss": 2.1901,
      "step": 3855
    },
    {
      "epoch": 0.08568888888888888,
      "grad_norm": 1.2000621557235718,
      "learning_rate": 0.0001829028673038453,
      "loss": 2.0366,
      "step": 3856
    },
    {
      "epoch": 0.08571111111111111,
      "grad_norm": 1.1870254278182983,
      "learning_rate": 0.00018289842187152702,
      "loss": 2.1497,
      "step": 3857
    },
    {
      "epoch": 0.08573333333333333,
      "grad_norm": 1.2883726358413696,
      "learning_rate": 0.0001828939764392087,
      "loss": 2.5934,
      "step": 3858
    },
    {
      "epoch": 0.08575555555555556,
      "grad_norm": 1.24656081199646,
      "learning_rate": 0.00018288953100689044,
      "loss": 2.6096,
      "step": 3859
    },
    {
      "epoch": 0.08577777777777777,
      "grad_norm": 1.0583786964416504,
      "learning_rate": 0.00018288508557457212,
      "loss": 1.0283,
      "step": 3860
    },
    {
      "epoch": 0.0858,
      "grad_norm": 1.234200119972229,
      "learning_rate": 0.00018288064014225383,
      "loss": 2.3328,
      "step": 3861
    },
    {
      "epoch": 0.08582222222222222,
      "grad_norm": 1.124598503112793,
      "learning_rate": 0.00018287619470993557,
      "loss": 1.7652,
      "step": 3862
    },
    {
      "epoch": 0.08584444444444445,
      "grad_norm": 1.3905720710754395,
      "learning_rate": 0.00018287174927761725,
      "loss": 2.1556,
      "step": 3863
    },
    {
      "epoch": 0.08586666666666666,
      "grad_norm": 1.1601526737213135,
      "learning_rate": 0.00018286730384529896,
      "loss": 1.8192,
      "step": 3864
    },
    {
      "epoch": 0.08588888888888889,
      "grad_norm": 1.1960759162902832,
      "learning_rate": 0.00018286285841298067,
      "loss": 2.0937,
      "step": 3865
    },
    {
      "epoch": 0.0859111111111111,
      "grad_norm": 1.1918174028396606,
      "learning_rate": 0.00018285841298066238,
      "loss": 2.226,
      "step": 3866
    },
    {
      "epoch": 0.08593333333333333,
      "grad_norm": 1.2833738327026367,
      "learning_rate": 0.0001828539675483441,
      "loss": 2.0411,
      "step": 3867
    },
    {
      "epoch": 0.08595555555555555,
      "grad_norm": 1.3212376832962036,
      "learning_rate": 0.0001828495221160258,
      "loss": 2.1898,
      "step": 3868
    },
    {
      "epoch": 0.08597777777777778,
      "grad_norm": 1.1451706886291504,
      "learning_rate": 0.00018284507668370748,
      "loss": 1.849,
      "step": 3869
    },
    {
      "epoch": 0.086,
      "grad_norm": 1.1616791486740112,
      "learning_rate": 0.00018284063125138922,
      "loss": 1.7259,
      "step": 3870
    },
    {
      "epoch": 0.08602222222222222,
      "grad_norm": 1.6663930416107178,
      "learning_rate": 0.00018283618581907093,
      "loss": 1.2284,
      "step": 3871
    },
    {
      "epoch": 0.08604444444444445,
      "grad_norm": 1.2836792469024658,
      "learning_rate": 0.0001828317403867526,
      "loss": 2.2392,
      "step": 3872
    },
    {
      "epoch": 0.08606666666666667,
      "grad_norm": 1.2171481847763062,
      "learning_rate": 0.00018282729495443435,
      "loss": 2.0785,
      "step": 3873
    },
    {
      "epoch": 0.0860888888888889,
      "grad_norm": 1.2060463428497314,
      "learning_rate": 0.00018282284952211603,
      "loss": 1.8582,
      "step": 3874
    },
    {
      "epoch": 0.08611111111111111,
      "grad_norm": 1.1895673274993896,
      "learning_rate": 0.00018281840408979774,
      "loss": 1.9122,
      "step": 3875
    },
    {
      "epoch": 0.08613333333333334,
      "grad_norm": 1.509826898574829,
      "learning_rate": 0.00018281395865747945,
      "loss": 2.2616,
      "step": 3876
    },
    {
      "epoch": 0.08615555555555555,
      "grad_norm": 1.3473097085952759,
      "learning_rate": 0.00018280951322516116,
      "loss": 2.0758,
      "step": 3877
    },
    {
      "epoch": 0.08617777777777778,
      "grad_norm": 1.6493169069290161,
      "learning_rate": 0.00018280506779284287,
      "loss": 2.2373,
      "step": 3878
    },
    {
      "epoch": 0.0862,
      "grad_norm": 1.089248776435852,
      "learning_rate": 0.00018280062236052458,
      "loss": 1.1297,
      "step": 3879
    },
    {
      "epoch": 0.08622222222222223,
      "grad_norm": 1.1902804374694824,
      "learning_rate": 0.0001827961769282063,
      "loss": 1.1705,
      "step": 3880
    },
    {
      "epoch": 0.08624444444444444,
      "grad_norm": 1.4258880615234375,
      "learning_rate": 0.00018279173149588797,
      "loss": 2.0755,
      "step": 3881
    },
    {
      "epoch": 0.08626666666666667,
      "grad_norm": 1.316024661064148,
      "learning_rate": 0.0001827872860635697,
      "loss": 2.0348,
      "step": 3882
    },
    {
      "epoch": 0.08628888888888889,
      "grad_norm": 1.4670634269714355,
      "learning_rate": 0.0001827828406312514,
      "loss": 2.0473,
      "step": 3883
    },
    {
      "epoch": 0.08631111111111112,
      "grad_norm": 1.5652819871902466,
      "learning_rate": 0.0001827783951989331,
      "loss": 2.5831,
      "step": 3884
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 1.4132565259933472,
      "learning_rate": 0.0001827739497666148,
      "loss": 2.3326,
      "step": 3885
    },
    {
      "epoch": 0.08635555555555556,
      "grad_norm": 1.2993839979171753,
      "learning_rate": 0.00018276950433429652,
      "loss": 1.8057,
      "step": 3886
    },
    {
      "epoch": 0.08637777777777778,
      "grad_norm": 1.2038097381591797,
      "learning_rate": 0.00018276505890197823,
      "loss": 1.9702,
      "step": 3887
    },
    {
      "epoch": 0.0864,
      "grad_norm": 1.3122345209121704,
      "learning_rate": 0.00018276061346965994,
      "loss": 1.9484,
      "step": 3888
    },
    {
      "epoch": 0.08642222222222222,
      "grad_norm": 1.383968710899353,
      "learning_rate": 0.00018275616803734165,
      "loss": 2.0874,
      "step": 3889
    },
    {
      "epoch": 0.08644444444444445,
      "grad_norm": 1.4431442022323608,
      "learning_rate": 0.00018275172260502336,
      "loss": 1.9278,
      "step": 3890
    },
    {
      "epoch": 0.08646666666666666,
      "grad_norm": 1.4338607788085938,
      "learning_rate": 0.00018274727717270507,
      "loss": 2.0402,
      "step": 3891
    },
    {
      "epoch": 0.08648888888888889,
      "grad_norm": 1.6500836610794067,
      "learning_rate": 0.00018274283174038675,
      "loss": 1.9843,
      "step": 3892
    },
    {
      "epoch": 0.08651111111111111,
      "grad_norm": 1.2799413204193115,
      "learning_rate": 0.00018273838630806849,
      "loss": 1.7724,
      "step": 3893
    },
    {
      "epoch": 0.08653333333333334,
      "grad_norm": 1.622963547706604,
      "learning_rate": 0.00018273394087575017,
      "loss": 2.2003,
      "step": 3894
    },
    {
      "epoch": 0.08655555555555555,
      "grad_norm": 1.247835636138916,
      "learning_rate": 0.00018272949544343188,
      "loss": 1.4512,
      "step": 3895
    },
    {
      "epoch": 0.08657777777777778,
      "grad_norm": 1.3503494262695312,
      "learning_rate": 0.0001827250500111136,
      "loss": 1.6344,
      "step": 3896
    },
    {
      "epoch": 0.0866,
      "grad_norm": 1.5317302942276,
      "learning_rate": 0.0001827206045787953,
      "loss": 1.278,
      "step": 3897
    },
    {
      "epoch": 0.08662222222222223,
      "grad_norm": 1.6802184581756592,
      "learning_rate": 0.000182716159146477,
      "loss": 1.8352,
      "step": 3898
    },
    {
      "epoch": 0.08664444444444444,
      "grad_norm": 1.332260012626648,
      "learning_rate": 0.00018271171371415872,
      "loss": 1.7385,
      "step": 3899
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 1.4168360233306885,
      "learning_rate": 0.00018270726828184043,
      "loss": 1.654,
      "step": 3900
    },
    {
      "epoch": 0.08668888888888888,
      "grad_norm": 1.11492919921875,
      "learning_rate": 0.0001827028228495221,
      "loss": 2.8721,
      "step": 3901
    },
    {
      "epoch": 0.08671111111111111,
      "grad_norm": 0.9290326237678528,
      "learning_rate": 0.00018269837741720384,
      "loss": 1.3628,
      "step": 3902
    },
    {
      "epoch": 0.08673333333333333,
      "grad_norm": 1.1157268285751343,
      "learning_rate": 0.00018269393198488553,
      "loss": 2.8096,
      "step": 3903
    },
    {
      "epoch": 0.08675555555555556,
      "grad_norm": 1.1336044073104858,
      "learning_rate": 0.00018268948655256724,
      "loss": 2.0028,
      "step": 3904
    },
    {
      "epoch": 0.08677777777777777,
      "grad_norm": 1.1529829502105713,
      "learning_rate": 0.00018268504112024895,
      "loss": 2.0633,
      "step": 3905
    },
    {
      "epoch": 0.0868,
      "grad_norm": 1.2534562349319458,
      "learning_rate": 0.00018268059568793066,
      "loss": 2.7211,
      "step": 3906
    },
    {
      "epoch": 0.08682222222222222,
      "grad_norm": 1.2881025075912476,
      "learning_rate": 0.00018267615025561237,
      "loss": 2.3184,
      "step": 3907
    },
    {
      "epoch": 0.08684444444444445,
      "grad_norm": 1.069238543510437,
      "learning_rate": 0.00018267170482329408,
      "loss": 2.1236,
      "step": 3908
    },
    {
      "epoch": 0.08686666666666666,
      "grad_norm": 1.2697378396987915,
      "learning_rate": 0.00018266725939097578,
      "loss": 2.125,
      "step": 3909
    },
    {
      "epoch": 0.08688888888888889,
      "grad_norm": 1.2994015216827393,
      "learning_rate": 0.0001826628139586575,
      "loss": 1.9171,
      "step": 3910
    },
    {
      "epoch": 0.0869111111111111,
      "grad_norm": 1.0967013835906982,
      "learning_rate": 0.0001826583685263392,
      "loss": 1.6726,
      "step": 3911
    },
    {
      "epoch": 0.08693333333333333,
      "grad_norm": 1.1177443265914917,
      "learning_rate": 0.0001826539230940209,
      "loss": 1.7946,
      "step": 3912
    },
    {
      "epoch": 0.08695555555555555,
      "grad_norm": 1.2079192399978638,
      "learning_rate": 0.00018264947766170262,
      "loss": 2.2675,
      "step": 3913
    },
    {
      "epoch": 0.08697777777777778,
      "grad_norm": 1.2005130052566528,
      "learning_rate": 0.0001826450322293843,
      "loss": 2.2046,
      "step": 3914
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.9720653891563416,
      "learning_rate": 0.00018264058679706602,
      "loss": 0.7893,
      "step": 3915
    },
    {
      "epoch": 0.08702222222222222,
      "grad_norm": 1.1333423852920532,
      "learning_rate": 0.00018263614136474773,
      "loss": 2.3172,
      "step": 3916
    },
    {
      "epoch": 0.08704444444444444,
      "grad_norm": 1.1365100145339966,
      "learning_rate": 0.00018263169593242943,
      "loss": 1.9795,
      "step": 3917
    },
    {
      "epoch": 0.08706666666666667,
      "grad_norm": 1.843353509902954,
      "learning_rate": 0.00018262725050011114,
      "loss": 2.3793,
      "step": 3918
    },
    {
      "epoch": 0.08708888888888888,
      "grad_norm": 1.4716764688491821,
      "learning_rate": 0.00018262280506779285,
      "loss": 2.1506,
      "step": 3919
    },
    {
      "epoch": 0.08711111111111111,
      "grad_norm": 1.2647080421447754,
      "learning_rate": 0.00018261835963547456,
      "loss": 1.6478,
      "step": 3920
    },
    {
      "epoch": 0.08713333333333333,
      "grad_norm": 1.2279027700424194,
      "learning_rate": 0.00018261391420315625,
      "loss": 1.5735,
      "step": 3921
    },
    {
      "epoch": 0.08715555555555556,
      "grad_norm": 1.8002568483352661,
      "learning_rate": 0.00018260946877083798,
      "loss": 2.7739,
      "step": 3922
    },
    {
      "epoch": 0.08717777777777778,
      "grad_norm": 1.3656952381134033,
      "learning_rate": 0.00018260502333851967,
      "loss": 2.1193,
      "step": 3923
    },
    {
      "epoch": 0.0872,
      "grad_norm": 1.1363921165466309,
      "learning_rate": 0.0001826005779062014,
      "loss": 2.0275,
      "step": 3924
    },
    {
      "epoch": 0.08722222222222223,
      "grad_norm": 1.2623662948608398,
      "learning_rate": 0.00018259613247388308,
      "loss": 1.9614,
      "step": 3925
    },
    {
      "epoch": 0.08724444444444444,
      "grad_norm": 1.2325552701950073,
      "learning_rate": 0.0001825916870415648,
      "loss": 1.8201,
      "step": 3926
    },
    {
      "epoch": 0.08726666666666667,
      "grad_norm": 1.227401852607727,
      "learning_rate": 0.00018258724160924653,
      "loss": 1.861,
      "step": 3927
    },
    {
      "epoch": 0.08728888888888889,
      "grad_norm": 1.7943168878555298,
      "learning_rate": 0.0001825827961769282,
      "loss": 2.0819,
      "step": 3928
    },
    {
      "epoch": 0.08731111111111112,
      "grad_norm": 1.3471245765686035,
      "learning_rate": 0.00018257835074460992,
      "loss": 2.1757,
      "step": 3929
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 1.2830681800842285,
      "learning_rate": 0.00018257390531229163,
      "loss": 1.7819,
      "step": 3930
    },
    {
      "epoch": 0.08735555555555556,
      "grad_norm": 1.503760576248169,
      "learning_rate": 0.00018256945987997334,
      "loss": 2.147,
      "step": 3931
    },
    {
      "epoch": 0.08737777777777778,
      "grad_norm": 1.274315357208252,
      "learning_rate": 0.00018256501444765502,
      "loss": 1.9309,
      "step": 3932
    },
    {
      "epoch": 0.0874,
      "grad_norm": 1.124243974685669,
      "learning_rate": 0.00018256056901533676,
      "loss": 1.4179,
      "step": 3933
    },
    {
      "epoch": 0.08742222222222222,
      "grad_norm": 1.495699405670166,
      "learning_rate": 0.00018255612358301844,
      "loss": 2.2812,
      "step": 3934
    },
    {
      "epoch": 0.08744444444444445,
      "grad_norm": 1.2558859586715698,
      "learning_rate": 0.00018255167815070015,
      "loss": 1.9374,
      "step": 3935
    },
    {
      "epoch": 0.08746666666666666,
      "grad_norm": 1.431708574295044,
      "learning_rate": 0.0001825472327183819,
      "loss": 2.1444,
      "step": 3936
    },
    {
      "epoch": 0.0874888888888889,
      "grad_norm": 1.640269160270691,
      "learning_rate": 0.00018254278728606357,
      "loss": 2.3488,
      "step": 3937
    },
    {
      "epoch": 0.08751111111111111,
      "grad_norm": 1.3659045696258545,
      "learning_rate": 0.00018253834185374528,
      "loss": 1.6372,
      "step": 3938
    },
    {
      "epoch": 0.08753333333333334,
      "grad_norm": 1.3964117765426636,
      "learning_rate": 0.000182533896421427,
      "loss": 1.7944,
      "step": 3939
    },
    {
      "epoch": 0.08755555555555555,
      "grad_norm": 1.3688442707061768,
      "learning_rate": 0.0001825294509891087,
      "loss": 1.8169,
      "step": 3940
    },
    {
      "epoch": 0.08757777777777778,
      "grad_norm": 1.4212323427200317,
      "learning_rate": 0.00018252500555679038,
      "loss": 1.5998,
      "step": 3941
    },
    {
      "epoch": 0.0876,
      "grad_norm": 1.274173617362976,
      "learning_rate": 0.00018252056012447212,
      "loss": 1.8158,
      "step": 3942
    },
    {
      "epoch": 0.08762222222222223,
      "grad_norm": 1.159591555595398,
      "learning_rate": 0.0001825161146921538,
      "loss": 1.6519,
      "step": 3943
    },
    {
      "epoch": 0.08764444444444444,
      "grad_norm": 1.3204801082611084,
      "learning_rate": 0.00018251166925983554,
      "loss": 1.7134,
      "step": 3944
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 1.462691068649292,
      "learning_rate": 0.00018250722382751725,
      "loss": 1.6365,
      "step": 3945
    },
    {
      "epoch": 0.08768888888888889,
      "grad_norm": 1.473249912261963,
      "learning_rate": 0.00018250277839519893,
      "loss": 1.8595,
      "step": 3946
    },
    {
      "epoch": 0.08771111111111111,
      "grad_norm": 1.5079234838485718,
      "learning_rate": 0.00018249833296288067,
      "loss": 1.6698,
      "step": 3947
    },
    {
      "epoch": 0.08773333333333333,
      "grad_norm": 1.3877707719802856,
      "learning_rate": 0.00018249388753056235,
      "loss": 1.978,
      "step": 3948
    },
    {
      "epoch": 0.08775555555555556,
      "grad_norm": 1.373972773551941,
      "learning_rate": 0.00018248944209824406,
      "loss": 1.6741,
      "step": 3949
    },
    {
      "epoch": 0.08777777777777777,
      "grad_norm": 1.5319815874099731,
      "learning_rate": 0.00018248499666592577,
      "loss": 1.7444,
      "step": 3950
    },
    {
      "epoch": 0.0878,
      "grad_norm": 1.1451045274734497,
      "learning_rate": 0.00018248055123360748,
      "loss": 2.6294,
      "step": 3951
    },
    {
      "epoch": 0.08782222222222222,
      "grad_norm": 1.3626810312271118,
      "learning_rate": 0.0001824761058012892,
      "loss": 2.7648,
      "step": 3952
    },
    {
      "epoch": 0.08784444444444445,
      "grad_norm": 1.3611873388290405,
      "learning_rate": 0.0001824716603689709,
      "loss": 2.6151,
      "step": 3953
    },
    {
      "epoch": 0.08786666666666666,
      "grad_norm": 1.384328842163086,
      "learning_rate": 0.0001824672149366526,
      "loss": 3.144,
      "step": 3954
    },
    {
      "epoch": 0.08788888888888889,
      "grad_norm": 1.287131905555725,
      "learning_rate": 0.0001824627695043343,
      "loss": 1.9983,
      "step": 3955
    },
    {
      "epoch": 0.0879111111111111,
      "grad_norm": 1.3529751300811768,
      "learning_rate": 0.00018245832407201603,
      "loss": 2.9865,
      "step": 3956
    },
    {
      "epoch": 0.08793333333333334,
      "grad_norm": 1.1994839906692505,
      "learning_rate": 0.0001824538786396977,
      "loss": 2.3215,
      "step": 3957
    },
    {
      "epoch": 0.08795555555555555,
      "grad_norm": 1.0824435949325562,
      "learning_rate": 0.00018244943320737942,
      "loss": 2.2071,
      "step": 3958
    },
    {
      "epoch": 0.08797777777777778,
      "grad_norm": 1.3807737827301025,
      "learning_rate": 0.00018244498777506113,
      "loss": 2.8193,
      "step": 3959
    },
    {
      "epoch": 0.088,
      "grad_norm": 1.1116480827331543,
      "learning_rate": 0.00018244054234274284,
      "loss": 2.0974,
      "step": 3960
    },
    {
      "epoch": 0.08802222222222222,
      "grad_norm": 1.0865592956542969,
      "learning_rate": 0.00018243609691042455,
      "loss": 2.0467,
      "step": 3961
    },
    {
      "epoch": 0.08804444444444444,
      "grad_norm": 1.4668089151382446,
      "learning_rate": 0.00018243165147810626,
      "loss": 2.4284,
      "step": 3962
    },
    {
      "epoch": 0.08806666666666667,
      "grad_norm": 1.2750132083892822,
      "learning_rate": 0.00018242720604578797,
      "loss": 2.435,
      "step": 3963
    },
    {
      "epoch": 0.08808888888888888,
      "grad_norm": 1.1693750619888306,
      "learning_rate": 0.00018242276061346968,
      "loss": 2.3241,
      "step": 3964
    },
    {
      "epoch": 0.08811111111111111,
      "grad_norm": 1.3129546642303467,
      "learning_rate": 0.0001824183151811514,
      "loss": 2.4794,
      "step": 3965
    },
    {
      "epoch": 0.08813333333333333,
      "grad_norm": 1.2565345764160156,
      "learning_rate": 0.00018241386974883307,
      "loss": 2.3347,
      "step": 3966
    },
    {
      "epoch": 0.08815555555555556,
      "grad_norm": 1.4078856706619263,
      "learning_rate": 0.0001824094243165148,
      "loss": 1.7856,
      "step": 3967
    },
    {
      "epoch": 0.08817777777777777,
      "grad_norm": 0.9889540076255798,
      "learning_rate": 0.0001824049788841965,
      "loss": 1.0568,
      "step": 3968
    },
    {
      "epoch": 0.0882,
      "grad_norm": 1.3720183372497559,
      "learning_rate": 0.0001824005334518782,
      "loss": 2.142,
      "step": 3969
    },
    {
      "epoch": 0.08822222222222222,
      "grad_norm": 2.0734097957611084,
      "learning_rate": 0.0001823960880195599,
      "loss": 2.1306,
      "step": 3970
    },
    {
      "epoch": 0.08824444444444444,
      "grad_norm": 1.5309531688690186,
      "learning_rate": 0.00018239164258724162,
      "loss": 2.239,
      "step": 3971
    },
    {
      "epoch": 0.08826666666666666,
      "grad_norm": 1.593670129776001,
      "learning_rate": 0.00018238719715492333,
      "loss": 1.6127,
      "step": 3972
    },
    {
      "epoch": 0.08828888888888889,
      "grad_norm": 1.2348586320877075,
      "learning_rate": 0.00018238275172260504,
      "loss": 1.7285,
      "step": 3973
    },
    {
      "epoch": 0.08831111111111112,
      "grad_norm": 1.130700707435608,
      "learning_rate": 0.00018237830629028675,
      "loss": 1.8215,
      "step": 3974
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 1.3735883235931396,
      "learning_rate": 0.00018237386085796843,
      "loss": 2.1751,
      "step": 3975
    },
    {
      "epoch": 0.08835555555555556,
      "grad_norm": 1.6415408849716187,
      "learning_rate": 0.00018236941542565017,
      "loss": 2.3657,
      "step": 3976
    },
    {
      "epoch": 0.08837777777777778,
      "grad_norm": 1.179374098777771,
      "learning_rate": 0.00018236496999333185,
      "loss": 1.816,
      "step": 3977
    },
    {
      "epoch": 0.0884,
      "grad_norm": 1.0282421112060547,
      "learning_rate": 0.00018236052456101356,
      "loss": 1.5093,
      "step": 3978
    },
    {
      "epoch": 0.08842222222222222,
      "grad_norm": 1.3459587097167969,
      "learning_rate": 0.00018235607912869527,
      "loss": 1.9031,
      "step": 3979
    },
    {
      "epoch": 0.08844444444444445,
      "grad_norm": 1.5987575054168701,
      "learning_rate": 0.00018235163369637698,
      "loss": 2.2409,
      "step": 3980
    },
    {
      "epoch": 0.08846666666666667,
      "grad_norm": 1.356877088546753,
      "learning_rate": 0.0001823471882640587,
      "loss": 1.8444,
      "step": 3981
    },
    {
      "epoch": 0.0884888888888889,
      "grad_norm": 1.6989684104919434,
      "learning_rate": 0.0001823427428317404,
      "loss": 1.6699,
      "step": 3982
    },
    {
      "epoch": 0.08851111111111111,
      "grad_norm": 1.3182530403137207,
      "learning_rate": 0.0001823382973994221,
      "loss": 1.7226,
      "step": 3983
    },
    {
      "epoch": 0.08853333333333334,
      "grad_norm": 1.0926573276519775,
      "learning_rate": 0.00018233385196710382,
      "loss": 0.7869,
      "step": 3984
    },
    {
      "epoch": 0.08855555555555555,
      "grad_norm": 1.505751371383667,
      "learning_rate": 0.00018232940653478553,
      "loss": 2.0821,
      "step": 3985
    },
    {
      "epoch": 0.08857777777777778,
      "grad_norm": 1.4366180896759033,
      "learning_rate": 0.0001823249611024672,
      "loss": 2.0181,
      "step": 3986
    },
    {
      "epoch": 0.0886,
      "grad_norm": 1.3815208673477173,
      "learning_rate": 0.00018232051567014895,
      "loss": 1.9652,
      "step": 3987
    },
    {
      "epoch": 0.08862222222222223,
      "grad_norm": 1.1777048110961914,
      "learning_rate": 0.00018231607023783063,
      "loss": 1.584,
      "step": 3988
    },
    {
      "epoch": 0.08864444444444444,
      "grad_norm": 1.5454330444335938,
      "learning_rate": 0.00018231162480551234,
      "loss": 2.3896,
      "step": 3989
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 1.3766738176345825,
      "learning_rate": 0.00018230717937319405,
      "loss": 1.6587,
      "step": 3990
    },
    {
      "epoch": 0.08868888888888889,
      "grad_norm": 1.064445972442627,
      "learning_rate": 0.00018230273394087576,
      "loss": 1.3703,
      "step": 3991
    },
    {
      "epoch": 0.08871111111111112,
      "grad_norm": 1.2387447357177734,
      "learning_rate": 0.00018229828850855747,
      "loss": 1.8601,
      "step": 3992
    },
    {
      "epoch": 0.08873333333333333,
      "grad_norm": 1.6053434610366821,
      "learning_rate": 0.00018229384307623918,
      "loss": 2.3741,
      "step": 3993
    },
    {
      "epoch": 0.08875555555555556,
      "grad_norm": 1.5138375759124756,
      "learning_rate": 0.00018228939764392089,
      "loss": 1.9498,
      "step": 3994
    },
    {
      "epoch": 0.08877777777777777,
      "grad_norm": 1.4985507726669312,
      "learning_rate": 0.00018228495221160257,
      "loss": 1.931,
      "step": 3995
    },
    {
      "epoch": 0.0888,
      "grad_norm": 1.4858930110931396,
      "learning_rate": 0.0001822805067792843,
      "loss": 1.783,
      "step": 3996
    },
    {
      "epoch": 0.08882222222222222,
      "grad_norm": 1.0707796812057495,
      "learning_rate": 0.000182276061346966,
      "loss": 1.0062,
      "step": 3997
    },
    {
      "epoch": 0.08884444444444445,
      "grad_norm": 1.5340445041656494,
      "learning_rate": 0.0001822716159146477,
      "loss": 2.0391,
      "step": 3998
    },
    {
      "epoch": 0.08886666666666666,
      "grad_norm": 1.7474359273910522,
      "learning_rate": 0.0001822671704823294,
      "loss": 1.6239,
      "step": 3999
    },
    {
      "epoch": 0.08888888888888889,
      "grad_norm": 1.7199676036834717,
      "learning_rate": 0.00018226272505001112,
      "loss": 1.8825,
      "step": 4000
    },
    {
      "epoch": 0.08891111111111111,
      "grad_norm": 1.1654189825057983,
      "learning_rate": 0.00018225827961769285,
      "loss": 2.3205,
      "step": 4001
    },
    {
      "epoch": 0.08893333333333334,
      "grad_norm": 1.0770715475082397,
      "learning_rate": 0.00018225383418537454,
      "loss": 2.1443,
      "step": 4002
    },
    {
      "epoch": 0.08895555555555555,
      "grad_norm": 1.1399768590927124,
      "learning_rate": 0.00018224938875305625,
      "loss": 2.228,
      "step": 4003
    },
    {
      "epoch": 0.08897777777777778,
      "grad_norm": 1.2105519771575928,
      "learning_rate": 0.00018224494332073795,
      "loss": 2.2901,
      "step": 4004
    },
    {
      "epoch": 0.089,
      "grad_norm": 1.3387752771377563,
      "learning_rate": 0.00018224049788841966,
      "loss": 2.3667,
      "step": 4005
    },
    {
      "epoch": 0.08902222222222222,
      "grad_norm": 1.366286039352417,
      "learning_rate": 0.00018223605245610135,
      "loss": 2.0674,
      "step": 4006
    },
    {
      "epoch": 0.08904444444444444,
      "grad_norm": 1.034104824066162,
      "learning_rate": 0.00018223160702378308,
      "loss": 1.6388,
      "step": 4007
    },
    {
      "epoch": 0.08906666666666667,
      "grad_norm": 1.419653296470642,
      "learning_rate": 0.00018222716159146477,
      "loss": 2.597,
      "step": 4008
    },
    {
      "epoch": 0.08908888888888888,
      "grad_norm": 1.376345157623291,
      "learning_rate": 0.00018222271615914648,
      "loss": 2.2231,
      "step": 4009
    },
    {
      "epoch": 0.08911111111111111,
      "grad_norm": 1.5309399366378784,
      "learning_rate": 0.0001822182707268282,
      "loss": 2.2812,
      "step": 4010
    },
    {
      "epoch": 0.08913333333333333,
      "grad_norm": 1.1608930826187134,
      "learning_rate": 0.0001822138252945099,
      "loss": 2.0559,
      "step": 4011
    },
    {
      "epoch": 0.08915555555555556,
      "grad_norm": 1.237950325012207,
      "learning_rate": 0.0001822093798621916,
      "loss": 2.04,
      "step": 4012
    },
    {
      "epoch": 0.08917777777777777,
      "grad_norm": 1.3438576459884644,
      "learning_rate": 0.00018220493442987331,
      "loss": 2.6675,
      "step": 4013
    },
    {
      "epoch": 0.0892,
      "grad_norm": 1.3429163694381714,
      "learning_rate": 0.00018220048899755502,
      "loss": 2.2567,
      "step": 4014
    },
    {
      "epoch": 0.08922222222222222,
      "grad_norm": 1.0870521068572998,
      "learning_rate": 0.0001821960435652367,
      "loss": 1.552,
      "step": 4015
    },
    {
      "epoch": 0.08924444444444445,
      "grad_norm": 1.3223501443862915,
      "learning_rate": 0.00018219159813291844,
      "loss": 2.2699,
      "step": 4016
    },
    {
      "epoch": 0.08926666666666666,
      "grad_norm": 1.3303872346878052,
      "learning_rate": 0.00018218715270060013,
      "loss": 2.4244,
      "step": 4017
    },
    {
      "epoch": 0.08928888888888889,
      "grad_norm": 1.0466386079788208,
      "learning_rate": 0.00018218270726828184,
      "loss": 1.5336,
      "step": 4018
    },
    {
      "epoch": 0.0893111111111111,
      "grad_norm": 1.267941951751709,
      "learning_rate": 0.00018217826183596357,
      "loss": 1.8151,
      "step": 4019
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 1.208484172821045,
      "learning_rate": 0.00018217381640364525,
      "loss": 1.9847,
      "step": 4020
    },
    {
      "epoch": 0.08935555555555555,
      "grad_norm": 1.3358150720596313,
      "learning_rate": 0.000182169370971327,
      "loss": 2.4709,
      "step": 4021
    },
    {
      "epoch": 0.08937777777777778,
      "grad_norm": 0.9815666675567627,
      "learning_rate": 0.00018216492553900867,
      "loss": 1.4165,
      "step": 4022
    },
    {
      "epoch": 0.0894,
      "grad_norm": 1.3121657371520996,
      "learning_rate": 0.00018216048010669038,
      "loss": 2.4059,
      "step": 4023
    },
    {
      "epoch": 0.08942222222222222,
      "grad_norm": 1.3153599500656128,
      "learning_rate": 0.0001821560346743721,
      "loss": 1.7834,
      "step": 4024
    },
    {
      "epoch": 0.08944444444444444,
      "grad_norm": 1.4722740650177002,
      "learning_rate": 0.0001821515892420538,
      "loss": 1.9365,
      "step": 4025
    },
    {
      "epoch": 0.08946666666666667,
      "grad_norm": 1.6213995218276978,
      "learning_rate": 0.0001821471438097355,
      "loss": 2.3869,
      "step": 4026
    },
    {
      "epoch": 0.0894888888888889,
      "grad_norm": 1.2937724590301514,
      "learning_rate": 0.00018214269837741722,
      "loss": 1.7115,
      "step": 4027
    },
    {
      "epoch": 0.08951111111111111,
      "grad_norm": 1.3780187368392944,
      "learning_rate": 0.00018213825294509893,
      "loss": 1.8938,
      "step": 4028
    },
    {
      "epoch": 0.08953333333333334,
      "grad_norm": 1.5479607582092285,
      "learning_rate": 0.00018213380751278061,
      "loss": 2.4191,
      "step": 4029
    },
    {
      "epoch": 0.08955555555555555,
      "grad_norm": 1.3018114566802979,
      "learning_rate": 0.00018212936208046235,
      "loss": 1.9965,
      "step": 4030
    },
    {
      "epoch": 0.08957777777777778,
      "grad_norm": 1.505035638809204,
      "learning_rate": 0.00018212491664814403,
      "loss": 2.3121,
      "step": 4031
    },
    {
      "epoch": 0.0896,
      "grad_norm": 1.39242684841156,
      "learning_rate": 0.00018212047121582574,
      "loss": 1.6258,
      "step": 4032
    },
    {
      "epoch": 0.08962222222222223,
      "grad_norm": 1.5285018682479858,
      "learning_rate": 0.00018211602578350745,
      "loss": 2.3059,
      "step": 4033
    },
    {
      "epoch": 0.08964444444444444,
      "grad_norm": 1.3786457777023315,
      "learning_rate": 0.00018211158035118916,
      "loss": 1.9854,
      "step": 4034
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 1.4496877193450928,
      "learning_rate": 0.00018210713491887087,
      "loss": 2.0708,
      "step": 4035
    },
    {
      "epoch": 0.08968888888888889,
      "grad_norm": 1.1986298561096191,
      "learning_rate": 0.00018210268948655258,
      "loss": 1.7447,
      "step": 4036
    },
    {
      "epoch": 0.08971111111111112,
      "grad_norm": 1.2278554439544678,
      "learning_rate": 0.0001820982440542343,
      "loss": 2.1479,
      "step": 4037
    },
    {
      "epoch": 0.08973333333333333,
      "grad_norm": 1.1859891414642334,
      "learning_rate": 0.000182093798621916,
      "loss": 1.5363,
      "step": 4038
    },
    {
      "epoch": 0.08975555555555556,
      "grad_norm": 1.2920050621032715,
      "learning_rate": 0.0001820893531895977,
      "loss": 1.7126,
      "step": 4039
    },
    {
      "epoch": 0.08977777777777778,
      "grad_norm": 1.2669432163238525,
      "learning_rate": 0.0001820849077572794,
      "loss": 1.8844,
      "step": 4040
    },
    {
      "epoch": 0.0898,
      "grad_norm": 1.3032450675964355,
      "learning_rate": 0.00018208046232496113,
      "loss": 1.5503,
      "step": 4041
    },
    {
      "epoch": 0.08982222222222222,
      "grad_norm": 1.9114999771118164,
      "learning_rate": 0.0001820760168926428,
      "loss": 2.1349,
      "step": 4042
    },
    {
      "epoch": 0.08984444444444445,
      "grad_norm": 1.7164593935012817,
      "learning_rate": 0.00018207157146032452,
      "loss": 2.4535,
      "step": 4043
    },
    {
      "epoch": 0.08986666666666666,
      "grad_norm": 1.281882405281067,
      "learning_rate": 0.00018206712602800623,
      "loss": 1.6772,
      "step": 4044
    },
    {
      "epoch": 0.0898888888888889,
      "grad_norm": 1.291181206703186,
      "learning_rate": 0.00018206268059568794,
      "loss": 1.77,
      "step": 4045
    },
    {
      "epoch": 0.08991111111111111,
      "grad_norm": 1.5831859111785889,
      "learning_rate": 0.00018205823516336965,
      "loss": 2.1031,
      "step": 4046
    },
    {
      "epoch": 0.08993333333333334,
      "grad_norm": 1.6419646739959717,
      "learning_rate": 0.00018205378973105136,
      "loss": 2.1175,
      "step": 4047
    },
    {
      "epoch": 0.08995555555555555,
      "grad_norm": 1.4621165990829468,
      "learning_rate": 0.00018204934429873307,
      "loss": 1.9295,
      "step": 4048
    },
    {
      "epoch": 0.08997777777777778,
      "grad_norm": 1.4456675052642822,
      "learning_rate": 0.00018204489886641475,
      "loss": 1.4717,
      "step": 4049
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8878512382507324,
      "learning_rate": 0.0001820404534340965,
      "loss": 1.4931,
      "step": 4050
    },
    {
      "epoch": 0.09002222222222223,
      "grad_norm": 0.33234038949012756,
      "learning_rate": 0.00018203600800177817,
      "loss": 0.0248,
      "step": 4051
    },
    {
      "epoch": 0.09004444444444444,
      "grad_norm": 1.067193627357483,
      "learning_rate": 0.00018203156256945988,
      "loss": 2.1954,
      "step": 4052
    },
    {
      "epoch": 0.09006666666666667,
      "grad_norm": 1.11116361618042,
      "learning_rate": 0.0001820271171371416,
      "loss": 2.4635,
      "step": 4053
    },
    {
      "epoch": 0.09008888888888889,
      "grad_norm": 6.025672435760498,
      "learning_rate": 0.0001820226717048233,
      "loss": 0.5715,
      "step": 4054
    },
    {
      "epoch": 0.09011111111111111,
      "grad_norm": 1.2340022325515747,
      "learning_rate": 0.000182018226272505,
      "loss": 2.4092,
      "step": 4055
    },
    {
      "epoch": 0.09013333333333333,
      "grad_norm": 1.2766684293746948,
      "learning_rate": 0.00018201378084018672,
      "loss": 2.0936,
      "step": 4056
    },
    {
      "epoch": 0.09015555555555556,
      "grad_norm": 1.2358952760696411,
      "learning_rate": 0.00018200933540786843,
      "loss": 2.5282,
      "step": 4057
    },
    {
      "epoch": 0.09017777777777777,
      "grad_norm": 1.080397129058838,
      "learning_rate": 0.00018200488997555014,
      "loss": 2.1662,
      "step": 4058
    },
    {
      "epoch": 0.0902,
      "grad_norm": 1.2267324924468994,
      "learning_rate": 0.00018200044454323185,
      "loss": 2.2952,
      "step": 4059
    },
    {
      "epoch": 0.09022222222222222,
      "grad_norm": 1.363930344581604,
      "learning_rate": 0.00018199599911091353,
      "loss": 2.3119,
      "step": 4060
    },
    {
      "epoch": 0.09024444444444445,
      "grad_norm": 1.7942321300506592,
      "learning_rate": 0.00018199155367859527,
      "loss": 2.6284,
      "step": 4061
    },
    {
      "epoch": 0.09026666666666666,
      "grad_norm": 1.4145745038986206,
      "learning_rate": 0.00018198710824627695,
      "loss": 2.7728,
      "step": 4062
    },
    {
      "epoch": 0.09028888888888889,
      "grad_norm": 1.1446871757507324,
      "learning_rate": 0.00018198266281395866,
      "loss": 1.8908,
      "step": 4063
    },
    {
      "epoch": 0.0903111111111111,
      "grad_norm": 1.2324484586715698,
      "learning_rate": 0.00018197821738164037,
      "loss": 2.1921,
      "step": 4064
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 1.2518575191497803,
      "learning_rate": 0.00018197377194932208,
      "loss": 2.0331,
      "step": 4065
    },
    {
      "epoch": 0.09035555555555555,
      "grad_norm": 1.296597957611084,
      "learning_rate": 0.0001819693265170038,
      "loss": 2.3096,
      "step": 4066
    },
    {
      "epoch": 0.09037777777777778,
      "grad_norm": 1.4862322807312012,
      "learning_rate": 0.0001819648810846855,
      "loss": 2.2494,
      "step": 4067
    },
    {
      "epoch": 0.0904,
      "grad_norm": 1.2500277757644653,
      "learning_rate": 0.0001819604356523672,
      "loss": 1.8087,
      "step": 4068
    },
    {
      "epoch": 0.09042222222222222,
      "grad_norm": 1.2148723602294922,
      "learning_rate": 0.0001819559902200489,
      "loss": 2.1848,
      "step": 4069
    },
    {
      "epoch": 0.09044444444444444,
      "grad_norm": 1.2145519256591797,
      "learning_rate": 0.00018195154478773063,
      "loss": 0.9238,
      "step": 4070
    },
    {
      "epoch": 0.09046666666666667,
      "grad_norm": 1.3164136409759521,
      "learning_rate": 0.0001819470993554123,
      "loss": 2.0691,
      "step": 4071
    },
    {
      "epoch": 0.09048888888888888,
      "grad_norm": 1.2843410968780518,
      "learning_rate": 0.00018194265392309402,
      "loss": 1.8868,
      "step": 4072
    },
    {
      "epoch": 0.09051111111111111,
      "grad_norm": 1.3158208131790161,
      "learning_rate": 0.00018193820849077573,
      "loss": 1.4847,
      "step": 4073
    },
    {
      "epoch": 0.09053333333333333,
      "grad_norm": 1.7421456575393677,
      "learning_rate": 0.00018193376305845744,
      "loss": 1.9892,
      "step": 4074
    },
    {
      "epoch": 0.09055555555555556,
      "grad_norm": 1.2904186248779297,
      "learning_rate": 0.00018192931762613915,
      "loss": 1.6743,
      "step": 4075
    },
    {
      "epoch": 0.09057777777777777,
      "grad_norm": 1.356465220451355,
      "learning_rate": 0.00018192487219382086,
      "loss": 2.2248,
      "step": 4076
    },
    {
      "epoch": 0.0906,
      "grad_norm": 1.4544111490249634,
      "learning_rate": 0.00018192042676150257,
      "loss": 1.499,
      "step": 4077
    },
    {
      "epoch": 0.09062222222222223,
      "grad_norm": 1.1715073585510254,
      "learning_rate": 0.00018191598132918428,
      "loss": 2.044,
      "step": 4078
    },
    {
      "epoch": 0.09064444444444444,
      "grad_norm": 1.368010401725769,
      "learning_rate": 0.000181911535896866,
      "loss": 2.4096,
      "step": 4079
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 1.209328532218933,
      "learning_rate": 0.00018190709046454767,
      "loss": 2.0634,
      "step": 4080
    },
    {
      "epoch": 0.09068888888888889,
      "grad_norm": 1.1925572156906128,
      "learning_rate": 0.0001819026450322294,
      "loss": 1.7468,
      "step": 4081
    },
    {
      "epoch": 0.09071111111111112,
      "grad_norm": 1.38496994972229,
      "learning_rate": 0.0001818981995999111,
      "loss": 2.1352,
      "step": 4082
    },
    {
      "epoch": 0.09073333333333333,
      "grad_norm": 1.2292604446411133,
      "learning_rate": 0.0001818937541675928,
      "loss": 1.8989,
      "step": 4083
    },
    {
      "epoch": 0.09075555555555556,
      "grad_norm": 1.361112117767334,
      "learning_rate": 0.00018188930873527453,
      "loss": 2.4108,
      "step": 4084
    },
    {
      "epoch": 0.09077777777777778,
      "grad_norm": 1.3043910264968872,
      "learning_rate": 0.00018188486330295622,
      "loss": 2.2388,
      "step": 4085
    },
    {
      "epoch": 0.0908,
      "grad_norm": 1.2776652574539185,
      "learning_rate": 0.00018188041787063793,
      "loss": 2.1992,
      "step": 4086
    },
    {
      "epoch": 0.09082222222222222,
      "grad_norm": 1.2072038650512695,
      "learning_rate": 0.00018187597243831964,
      "loss": 1.9774,
      "step": 4087
    },
    {
      "epoch": 0.09084444444444445,
      "grad_norm": 1.2190172672271729,
      "learning_rate": 0.00018187152700600135,
      "loss": 2.0718,
      "step": 4088
    },
    {
      "epoch": 0.09086666666666667,
      "grad_norm": 1.5369328260421753,
      "learning_rate": 0.00018186708157368303,
      "loss": 2.3374,
      "step": 4089
    },
    {
      "epoch": 0.0908888888888889,
      "grad_norm": 1.2563663721084595,
      "learning_rate": 0.00018186263614136477,
      "loss": 1.7178,
      "step": 4090
    },
    {
      "epoch": 0.09091111111111111,
      "grad_norm": 1.189376950263977,
      "learning_rate": 0.00018185819070904645,
      "loss": 1.8669,
      "step": 4091
    },
    {
      "epoch": 0.09093333333333334,
      "grad_norm": 1.274102807044983,
      "learning_rate": 0.00018185374527672816,
      "loss": 2.2547,
      "step": 4092
    },
    {
      "epoch": 0.09095555555555555,
      "grad_norm": 1.4080109596252441,
      "learning_rate": 0.0001818492998444099,
      "loss": 2.0774,
      "step": 4093
    },
    {
      "epoch": 0.09097777777777778,
      "grad_norm": 1.2916828393936157,
      "learning_rate": 0.00018184485441209158,
      "loss": 1.6038,
      "step": 4094
    },
    {
      "epoch": 0.091,
      "grad_norm": 1.2181613445281982,
      "learning_rate": 0.0001818404089797733,
      "loss": 1.8275,
      "step": 4095
    },
    {
      "epoch": 0.09102222222222223,
      "grad_norm": 1.469650149345398,
      "learning_rate": 0.000181835963547455,
      "loss": 2.0016,
      "step": 4096
    },
    {
      "epoch": 0.09104444444444444,
      "grad_norm": 1.3400145769119263,
      "learning_rate": 0.0001818315181151367,
      "loss": 1.8783,
      "step": 4097
    },
    {
      "epoch": 0.09106666666666667,
      "grad_norm": 1.454121708869934,
      "learning_rate": 0.00018182707268281842,
      "loss": 1.7824,
      "step": 4098
    },
    {
      "epoch": 0.09108888888888889,
      "grad_norm": 1.7567150592803955,
      "learning_rate": 0.00018182262725050012,
      "loss": 2.1554,
      "step": 4099
    },
    {
      "epoch": 0.09111111111111111,
      "grad_norm": 1.4065117835998535,
      "learning_rate": 0.00018181818181818183,
      "loss": 1.4674,
      "step": 4100
    },
    {
      "epoch": 0.09113333333333333,
      "grad_norm": 1.067503809928894,
      "learning_rate": 0.00018181373638586354,
      "loss": 2.7277,
      "step": 4101
    },
    {
      "epoch": 0.09115555555555556,
      "grad_norm": 1.1799376010894775,
      "learning_rate": 0.00018180929095354525,
      "loss": 2.6751,
      "step": 4102
    },
    {
      "epoch": 0.09117777777777777,
      "grad_norm": 1.2468464374542236,
      "learning_rate": 0.00018180484552122694,
      "loss": 2.3971,
      "step": 4103
    },
    {
      "epoch": 0.0912,
      "grad_norm": 1.1874558925628662,
      "learning_rate": 0.00018180040008890867,
      "loss": 2.6052,
      "step": 4104
    },
    {
      "epoch": 0.09122222222222222,
      "grad_norm": 1.1237014532089233,
      "learning_rate": 0.00018179595465659036,
      "loss": 2.2262,
      "step": 4105
    },
    {
      "epoch": 0.09124444444444445,
      "grad_norm": 0.9946170449256897,
      "learning_rate": 0.00018179150922427206,
      "loss": 1.5529,
      "step": 4106
    },
    {
      "epoch": 0.09126666666666666,
      "grad_norm": 1.1014432907104492,
      "learning_rate": 0.00018178706379195377,
      "loss": 2.4072,
      "step": 4107
    },
    {
      "epoch": 0.09128888888888889,
      "grad_norm": 1.0999475717544556,
      "learning_rate": 0.00018178261835963548,
      "loss": 1.9625,
      "step": 4108
    },
    {
      "epoch": 0.0913111111111111,
      "grad_norm": 1.183287501335144,
      "learning_rate": 0.0001817781729273172,
      "loss": 1.9984,
      "step": 4109
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 1.2450661659240723,
      "learning_rate": 0.0001817737274949989,
      "loss": 2.1961,
      "step": 4110
    },
    {
      "epoch": 0.09135555555555555,
      "grad_norm": 1.2629178762435913,
      "learning_rate": 0.0001817692820626806,
      "loss": 2.0241,
      "step": 4111
    },
    {
      "epoch": 0.09137777777777778,
      "grad_norm": 1.1407676935195923,
      "learning_rate": 0.0001817648366303623,
      "loss": 2.3813,
      "step": 4112
    },
    {
      "epoch": 0.0914,
      "grad_norm": 1.1981663703918457,
      "learning_rate": 0.00018176039119804403,
      "loss": 2.127,
      "step": 4113
    },
    {
      "epoch": 0.09142222222222222,
      "grad_norm": 1.6344211101531982,
      "learning_rate": 0.00018175594576572571,
      "loss": 2.3908,
      "step": 4114
    },
    {
      "epoch": 0.09144444444444444,
      "grad_norm": 1.4242089986801147,
      "learning_rate": 0.00018175150033340745,
      "loss": 2.4322,
      "step": 4115
    },
    {
      "epoch": 0.09146666666666667,
      "grad_norm": 1.284766674041748,
      "learning_rate": 0.00018174705490108913,
      "loss": 2.2547,
      "step": 4116
    },
    {
      "epoch": 0.09148888888888888,
      "grad_norm": 1.1385011672973633,
      "learning_rate": 0.00018174260946877084,
      "loss": 1.7965,
      "step": 4117
    },
    {
      "epoch": 0.09151111111111111,
      "grad_norm": 1.1987061500549316,
      "learning_rate": 0.00018173816403645255,
      "loss": 1.9546,
      "step": 4118
    },
    {
      "epoch": 0.09153333333333333,
      "grad_norm": 1.543986201286316,
      "learning_rate": 0.00018173371860413426,
      "loss": 2.2107,
      "step": 4119
    },
    {
      "epoch": 0.09155555555555556,
      "grad_norm": 1.3513902425765991,
      "learning_rate": 0.00018172927317181597,
      "loss": 2.2166,
      "step": 4120
    },
    {
      "epoch": 0.09157777777777777,
      "grad_norm": 1.5229825973510742,
      "learning_rate": 0.00018172482773949768,
      "loss": 2.1961,
      "step": 4121
    },
    {
      "epoch": 0.0916,
      "grad_norm": 1.3071125745773315,
      "learning_rate": 0.0001817203823071794,
      "loss": 2.2583,
      "step": 4122
    },
    {
      "epoch": 0.09162222222222222,
      "grad_norm": 1.1928024291992188,
      "learning_rate": 0.00018171593687486107,
      "loss": 2.064,
      "step": 4123
    },
    {
      "epoch": 0.09164444444444445,
      "grad_norm": 1.4223048686981201,
      "learning_rate": 0.0001817114914425428,
      "loss": 2.051,
      "step": 4124
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 1.1061046123504639,
      "learning_rate": 0.0001817070460102245,
      "loss": 1.6612,
      "step": 4125
    },
    {
      "epoch": 0.09168888888888889,
      "grad_norm": 1.3171643018722534,
      "learning_rate": 0.0001817026005779062,
      "loss": 2.4557,
      "step": 4126
    },
    {
      "epoch": 0.0917111111111111,
      "grad_norm": 1.4509333372116089,
      "learning_rate": 0.0001816981551455879,
      "loss": 2.2647,
      "step": 4127
    },
    {
      "epoch": 0.09173333333333333,
      "grad_norm": 1.041982650756836,
      "learning_rate": 0.00018169370971326962,
      "loss": 1.0209,
      "step": 4128
    },
    {
      "epoch": 0.09175555555555556,
      "grad_norm": 1.3982865810394287,
      "learning_rate": 0.00018168926428095133,
      "loss": 1.6007,
      "step": 4129
    },
    {
      "epoch": 0.09177777777777778,
      "grad_norm": 1.341732144355774,
      "learning_rate": 0.00018168481884863304,
      "loss": 2.0328,
      "step": 4130
    },
    {
      "epoch": 0.0918,
      "grad_norm": 1.386540412902832,
      "learning_rate": 0.00018168037341631475,
      "loss": 2.1151,
      "step": 4131
    },
    {
      "epoch": 0.09182222222222222,
      "grad_norm": 1.4547587633132935,
      "learning_rate": 0.00018167592798399646,
      "loss": 2.2619,
      "step": 4132
    },
    {
      "epoch": 0.09184444444444445,
      "grad_norm": 1.330428123474121,
      "learning_rate": 0.00018167148255167817,
      "loss": 2.0824,
      "step": 4133
    },
    {
      "epoch": 0.09186666666666667,
      "grad_norm": 1.92506742477417,
      "learning_rate": 0.00018166703711935985,
      "loss": 1.9639,
      "step": 4134
    },
    {
      "epoch": 0.0918888888888889,
      "grad_norm": 1.524463176727295,
      "learning_rate": 0.0001816625916870416,
      "loss": 1.9331,
      "step": 4135
    },
    {
      "epoch": 0.09191111111111111,
      "grad_norm": 1.3584568500518799,
      "learning_rate": 0.00018165814625472327,
      "loss": 2.1083,
      "step": 4136
    },
    {
      "epoch": 0.09193333333333334,
      "grad_norm": 1.2452504634857178,
      "learning_rate": 0.00018165370082240498,
      "loss": 1.6683,
      "step": 4137
    },
    {
      "epoch": 0.09195555555555555,
      "grad_norm": 1.5261337757110596,
      "learning_rate": 0.0001816492553900867,
      "loss": 2.023,
      "step": 4138
    },
    {
      "epoch": 0.09197777777777778,
      "grad_norm": 1.327707052230835,
      "learning_rate": 0.0001816448099577684,
      "loss": 1.863,
      "step": 4139
    },
    {
      "epoch": 0.092,
      "grad_norm": 1.279916524887085,
      "learning_rate": 0.0001816403645254501,
      "loss": 1.821,
      "step": 4140
    },
    {
      "epoch": 0.09202222222222223,
      "grad_norm": 1.303451418876648,
      "learning_rate": 0.00018163591909313182,
      "loss": 1.9548,
      "step": 4141
    },
    {
      "epoch": 0.09204444444444444,
      "grad_norm": 1.4252902269363403,
      "learning_rate": 0.00018163147366081353,
      "loss": 2.0182,
      "step": 4142
    },
    {
      "epoch": 0.09206666666666667,
      "grad_norm": 1.4667932987213135,
      "learning_rate": 0.0001816270282284952,
      "loss": 1.988,
      "step": 4143
    },
    {
      "epoch": 0.09208888888888889,
      "grad_norm": 1.4066476821899414,
      "learning_rate": 0.00018162258279617695,
      "loss": 2.0203,
      "step": 4144
    },
    {
      "epoch": 0.09211111111111112,
      "grad_norm": 1.4897884130477905,
      "learning_rate": 0.00018161813736385863,
      "loss": 2.0111,
      "step": 4145
    },
    {
      "epoch": 0.09213333333333333,
      "grad_norm": 1.6931284666061401,
      "learning_rate": 0.00018161369193154034,
      "loss": 1.9726,
      "step": 4146
    },
    {
      "epoch": 0.09215555555555556,
      "grad_norm": 1.417374610900879,
      "learning_rate": 0.00018160924649922205,
      "loss": 1.934,
      "step": 4147
    },
    {
      "epoch": 0.09217777777777778,
      "grad_norm": 1.4875603914260864,
      "learning_rate": 0.00018160480106690376,
      "loss": 2.0975,
      "step": 4148
    },
    {
      "epoch": 0.0922,
      "grad_norm": 1.4240719079971313,
      "learning_rate": 0.00018160035563458547,
      "loss": 1.8821,
      "step": 4149
    },
    {
      "epoch": 0.09222222222222222,
      "grad_norm": 1.3454698324203491,
      "learning_rate": 0.00018159591020226718,
      "loss": 1.1832,
      "step": 4150
    },
    {
      "epoch": 0.09224444444444445,
      "grad_norm": 1.187279224395752,
      "learning_rate": 0.0001815914647699489,
      "loss": 2.6025,
      "step": 4151
    },
    {
      "epoch": 0.09226666666666666,
      "grad_norm": 0.9831141233444214,
      "learning_rate": 0.0001815870193376306,
      "loss": 2.0989,
      "step": 4152
    },
    {
      "epoch": 0.09228888888888889,
      "grad_norm": 1.077631950378418,
      "learning_rate": 0.0001815825739053123,
      "loss": 1.1146,
      "step": 4153
    },
    {
      "epoch": 0.09231111111111111,
      "grad_norm": 1.36410391330719,
      "learning_rate": 0.000181578128472994,
      "loss": 1.6986,
      "step": 4154
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 1.1403145790100098,
      "learning_rate": 0.00018157368304067573,
      "loss": 1.9825,
      "step": 4155
    },
    {
      "epoch": 0.09235555555555555,
      "grad_norm": 1.1738941669464111,
      "learning_rate": 0.0001815692376083574,
      "loss": 2.196,
      "step": 4156
    },
    {
      "epoch": 0.09237777777777778,
      "grad_norm": 1.170693278312683,
      "learning_rate": 0.00018156479217603912,
      "loss": 2.5959,
      "step": 4157
    },
    {
      "epoch": 0.0924,
      "grad_norm": 1.2521940469741821,
      "learning_rate": 0.00018156034674372086,
      "loss": 2.0433,
      "step": 4158
    },
    {
      "epoch": 0.09242222222222223,
      "grad_norm": 1.8422415256500244,
      "learning_rate": 0.00018155590131140254,
      "loss": 2.2061,
      "step": 4159
    },
    {
      "epoch": 0.09244444444444444,
      "grad_norm": 1.1428771018981934,
      "learning_rate": 0.00018155145587908425,
      "loss": 1.8359,
      "step": 4160
    },
    {
      "epoch": 0.09246666666666667,
      "grad_norm": 1.272699236869812,
      "learning_rate": 0.00018154701044676596,
      "loss": 2.0727,
      "step": 4161
    },
    {
      "epoch": 0.09248888888888888,
      "grad_norm": 1.3834130764007568,
      "learning_rate": 0.00018154256501444767,
      "loss": 2.523,
      "step": 4162
    },
    {
      "epoch": 0.09251111111111111,
      "grad_norm": 1.2837368249893188,
      "learning_rate": 0.00018153811958212935,
      "loss": 2.0416,
      "step": 4163
    },
    {
      "epoch": 0.09253333333333333,
      "grad_norm": 1.3925597667694092,
      "learning_rate": 0.0001815336741498111,
      "loss": 2.1914,
      "step": 4164
    },
    {
      "epoch": 0.09255555555555556,
      "grad_norm": 1.2541146278381348,
      "learning_rate": 0.00018152922871749277,
      "loss": 2.2622,
      "step": 4165
    },
    {
      "epoch": 0.09257777777777777,
      "grad_norm": 1.1055595874786377,
      "learning_rate": 0.00018152478328517448,
      "loss": 2.2316,
      "step": 4166
    },
    {
      "epoch": 0.0926,
      "grad_norm": 1.1584255695343018,
      "learning_rate": 0.00018152033785285622,
      "loss": 2.05,
      "step": 4167
    },
    {
      "epoch": 0.09262222222222222,
      "grad_norm": 1.4687235355377197,
      "learning_rate": 0.0001815158924205379,
      "loss": 2.7488,
      "step": 4168
    },
    {
      "epoch": 0.09264444444444445,
      "grad_norm": 1.6420753002166748,
      "learning_rate": 0.0001815114469882196,
      "loss": 1.6486,
      "step": 4169
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 1.29860258102417,
      "learning_rate": 0.00018150700155590132,
      "loss": 2.0112,
      "step": 4170
    },
    {
      "epoch": 0.09268888888888889,
      "grad_norm": 1.113627552986145,
      "learning_rate": 0.00018150255612358303,
      "loss": 1.7817,
      "step": 4171
    },
    {
      "epoch": 0.0927111111111111,
      "grad_norm": 1.347639799118042,
      "learning_rate": 0.00018149811069126474,
      "loss": 2.1989,
      "step": 4172
    },
    {
      "epoch": 0.09273333333333333,
      "grad_norm": 1.31053626537323,
      "learning_rate": 0.00018149366525894645,
      "loss": 2.2405,
      "step": 4173
    },
    {
      "epoch": 0.09275555555555555,
      "grad_norm": 1.0628243684768677,
      "learning_rate": 0.00018148921982662816,
      "loss": 1.2763,
      "step": 4174
    },
    {
      "epoch": 0.09277777777777778,
      "grad_norm": 1.509133219718933,
      "learning_rate": 0.00018148477439430987,
      "loss": 1.9642,
      "step": 4175
    },
    {
      "epoch": 0.0928,
      "grad_norm": 1.3447598218917847,
      "learning_rate": 0.00018148032896199158,
      "loss": 2.1625,
      "step": 4176
    },
    {
      "epoch": 0.09282222222222222,
      "grad_norm": 1.3930628299713135,
      "learning_rate": 0.00018147588352967326,
      "loss": 1.4658,
      "step": 4177
    },
    {
      "epoch": 0.09284444444444444,
      "grad_norm": 1.2476844787597656,
      "learning_rate": 0.000181471438097355,
      "loss": 1.7581,
      "step": 4178
    },
    {
      "epoch": 0.09286666666666667,
      "grad_norm": 1.6546212434768677,
      "learning_rate": 0.00018146699266503668,
      "loss": 1.8664,
      "step": 4179
    },
    {
      "epoch": 0.09288888888888888,
      "grad_norm": 1.2041245698928833,
      "learning_rate": 0.0001814625472327184,
      "loss": 2.0695,
      "step": 4180
    },
    {
      "epoch": 0.09291111111111111,
      "grad_norm": 1.5564019680023193,
      "learning_rate": 0.0001814581018004001,
      "loss": 2.3585,
      "step": 4181
    },
    {
      "epoch": 0.09293333333333334,
      "grad_norm": 1.8060500621795654,
      "learning_rate": 0.0001814536563680818,
      "loss": 2.6819,
      "step": 4182
    },
    {
      "epoch": 0.09295555555555556,
      "grad_norm": 1.2701903581619263,
      "learning_rate": 0.00018144921093576352,
      "loss": 2.2501,
      "step": 4183
    },
    {
      "epoch": 0.09297777777777778,
      "grad_norm": 1.4386299848556519,
      "learning_rate": 0.00018144476550344523,
      "loss": 2.0179,
      "step": 4184
    },
    {
      "epoch": 0.093,
      "grad_norm": 1.2705012559890747,
      "learning_rate": 0.00018144032007112694,
      "loss": 0.7869,
      "step": 4185
    },
    {
      "epoch": 0.09302222222222223,
      "grad_norm": 1.10904860496521,
      "learning_rate": 0.00018143587463880862,
      "loss": 1.1131,
      "step": 4186
    },
    {
      "epoch": 0.09304444444444444,
      "grad_norm": 1.481854796409607,
      "learning_rate": 0.00018143142920649035,
      "loss": 2.1458,
      "step": 4187
    },
    {
      "epoch": 0.09306666666666667,
      "grad_norm": 1.3963654041290283,
      "learning_rate": 0.00018142698377417204,
      "loss": 2.3388,
      "step": 4188
    },
    {
      "epoch": 0.09308888888888889,
      "grad_norm": 1.2234638929367065,
      "learning_rate": 0.00018142253834185377,
      "loss": 1.9841,
      "step": 4189
    },
    {
      "epoch": 0.09311111111111112,
      "grad_norm": 1.4090217351913452,
      "learning_rate": 0.00018141809290953546,
      "loss": 1.9881,
      "step": 4190
    },
    {
      "epoch": 0.09313333333333333,
      "grad_norm": 1.6126677989959717,
      "learning_rate": 0.00018141364747721717,
      "loss": 2.3224,
      "step": 4191
    },
    {
      "epoch": 0.09315555555555556,
      "grad_norm": 1.5788543224334717,
      "learning_rate": 0.00018140920204489888,
      "loss": 2.3603,
      "step": 4192
    },
    {
      "epoch": 0.09317777777777778,
      "grad_norm": 1.5272618532180786,
      "learning_rate": 0.00018140475661258058,
      "loss": 1.8782,
      "step": 4193
    },
    {
      "epoch": 0.0932,
      "grad_norm": 1.5217806100845337,
      "learning_rate": 0.0001814003111802623,
      "loss": 2.0306,
      "step": 4194
    },
    {
      "epoch": 0.09322222222222222,
      "grad_norm": 1.3852847814559937,
      "learning_rate": 0.000181395865747944,
      "loss": 2.1866,
      "step": 4195
    },
    {
      "epoch": 0.09324444444444445,
      "grad_norm": 1.3555530309677124,
      "learning_rate": 0.00018139142031562571,
      "loss": 1.7641,
      "step": 4196
    },
    {
      "epoch": 0.09326666666666666,
      "grad_norm": 1.4179768562316895,
      "learning_rate": 0.0001813869748833074,
      "loss": 1.7759,
      "step": 4197
    },
    {
      "epoch": 0.0932888888888889,
      "grad_norm": 1.8198423385620117,
      "learning_rate": 0.00018138252945098913,
      "loss": 2.0111,
      "step": 4198
    },
    {
      "epoch": 0.09331111111111111,
      "grad_norm": 1.2606964111328125,
      "learning_rate": 0.00018137808401867082,
      "loss": 1.7961,
      "step": 4199
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 1.642815113067627,
      "learning_rate": 0.00018137363858635253,
      "loss": 2.0713,
      "step": 4200
    },
    {
      "epoch": 0.09335555555555555,
      "grad_norm": 1.0824311971664429,
      "learning_rate": 0.00018136919315403423,
      "loss": 2.3005,
      "step": 4201
    },
    {
      "epoch": 0.09337777777777778,
      "grad_norm": 1.268574833869934,
      "learning_rate": 0.00018136474772171594,
      "loss": 2.679,
      "step": 4202
    },
    {
      "epoch": 0.0934,
      "grad_norm": 1.0037251710891724,
      "learning_rate": 0.00018136030228939765,
      "loss": 2.3274,
      "step": 4203
    },
    {
      "epoch": 0.09342222222222223,
      "grad_norm": 1.1797771453857422,
      "learning_rate": 0.00018135585685707936,
      "loss": 2.5565,
      "step": 4204
    },
    {
      "epoch": 0.09344444444444444,
      "grad_norm": 0.8439913392066956,
      "learning_rate": 0.00018135141142476107,
      "loss": 1.1975,
      "step": 4205
    },
    {
      "epoch": 0.09346666666666667,
      "grad_norm": 2.013122320175171,
      "learning_rate": 0.00018134696599244276,
      "loss": 1.3977,
      "step": 4206
    },
    {
      "epoch": 0.09348888888888889,
      "grad_norm": 1.0435880422592163,
      "learning_rate": 0.0001813425205601245,
      "loss": 2.1787,
      "step": 4207
    },
    {
      "epoch": 0.09351111111111111,
      "grad_norm": 1.1416970491409302,
      "learning_rate": 0.00018133807512780617,
      "loss": 2.3445,
      "step": 4208
    },
    {
      "epoch": 0.09353333333333333,
      "grad_norm": 2.4251341819763184,
      "learning_rate": 0.0001813336296954879,
      "loss": 2.1292,
      "step": 4209
    },
    {
      "epoch": 0.09355555555555556,
      "grad_norm": 1.3286365270614624,
      "learning_rate": 0.0001813291842631696,
      "loss": 2.6483,
      "step": 4210
    },
    {
      "epoch": 0.09357777777777777,
      "grad_norm": 3.780172824859619,
      "learning_rate": 0.0001813247388308513,
      "loss": 2.3436,
      "step": 4211
    },
    {
      "epoch": 0.0936,
      "grad_norm": 1.190225601196289,
      "learning_rate": 0.000181320293398533,
      "loss": 1.0689,
      "step": 4212
    },
    {
      "epoch": 0.09362222222222222,
      "grad_norm": 1.3211151361465454,
      "learning_rate": 0.00018131584796621472,
      "loss": 2.0866,
      "step": 4213
    },
    {
      "epoch": 0.09364444444444445,
      "grad_norm": 1.102105736732483,
      "learning_rate": 0.00018131140253389643,
      "loss": 2.0576,
      "step": 4214
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 1.079500675201416,
      "learning_rate": 0.00018130695710157814,
      "loss": 1.3332,
      "step": 4215
    },
    {
      "epoch": 0.09368888888888889,
      "grad_norm": 1.3115174770355225,
      "learning_rate": 0.00018130251166925985,
      "loss": 2.5506,
      "step": 4216
    },
    {
      "epoch": 0.0937111111111111,
      "grad_norm": 1.547541618347168,
      "learning_rate": 0.00018129806623694153,
      "loss": 2.616,
      "step": 4217
    },
    {
      "epoch": 0.09373333333333334,
      "grad_norm": 1.1907072067260742,
      "learning_rate": 0.00018129362080462327,
      "loss": 2.0952,
      "step": 4218
    },
    {
      "epoch": 0.09375555555555555,
      "grad_norm": 1.5523000955581665,
      "learning_rate": 0.00018128917537230495,
      "loss": 2.4598,
      "step": 4219
    },
    {
      "epoch": 0.09377777777777778,
      "grad_norm": 1.2876936197280884,
      "learning_rate": 0.00018128472993998666,
      "loss": 1.7338,
      "step": 4220
    },
    {
      "epoch": 0.0938,
      "grad_norm": 1.2711793184280396,
      "learning_rate": 0.00018128028450766837,
      "loss": 2.3053,
      "step": 4221
    },
    {
      "epoch": 0.09382222222222222,
      "grad_norm": 1.5317453145980835,
      "learning_rate": 0.00018127583907535008,
      "loss": 1.99,
      "step": 4222
    },
    {
      "epoch": 0.09384444444444444,
      "grad_norm": 1.5987350940704346,
      "learning_rate": 0.0001812713936430318,
      "loss": 2.2579,
      "step": 4223
    },
    {
      "epoch": 0.09386666666666667,
      "grad_norm": 1.209079384803772,
      "learning_rate": 0.0001812669482107135,
      "loss": 2.1626,
      "step": 4224
    },
    {
      "epoch": 0.09388888888888888,
      "grad_norm": 1.1336803436279297,
      "learning_rate": 0.0001812625027783952,
      "loss": 1.1717,
      "step": 4225
    },
    {
      "epoch": 0.09391111111111111,
      "grad_norm": 1.61040461063385,
      "learning_rate": 0.0001812580573460769,
      "loss": 2.2274,
      "step": 4226
    },
    {
      "epoch": 0.09393333333333333,
      "grad_norm": 1.129787564277649,
      "learning_rate": 0.00018125361191375863,
      "loss": 1.3491,
      "step": 4227
    },
    {
      "epoch": 0.09395555555555556,
      "grad_norm": 1.1524302959442139,
      "learning_rate": 0.0001812491664814403,
      "loss": 1.5449,
      "step": 4228
    },
    {
      "epoch": 0.09397777777777777,
      "grad_norm": 1.4663796424865723,
      "learning_rate": 0.00018124472104912205,
      "loss": 2.4459,
      "step": 4229
    },
    {
      "epoch": 0.094,
      "grad_norm": 1.4033117294311523,
      "learning_rate": 0.00018124027561680373,
      "loss": 2.4515,
      "step": 4230
    },
    {
      "epoch": 0.09402222222222222,
      "grad_norm": 1.3667465448379517,
      "learning_rate": 0.00018123583018448544,
      "loss": 2.4104,
      "step": 4231
    },
    {
      "epoch": 0.09404444444444444,
      "grad_norm": 1.3276413679122925,
      "learning_rate": 0.00018123138475216718,
      "loss": 2.3673,
      "step": 4232
    },
    {
      "epoch": 0.09406666666666667,
      "grad_norm": 1.6873568296432495,
      "learning_rate": 0.00018122693931984886,
      "loss": 1.8131,
      "step": 4233
    },
    {
      "epoch": 0.09408888888888889,
      "grad_norm": 1.1830881834030151,
      "learning_rate": 0.00018122249388753057,
      "loss": 1.3195,
      "step": 4234
    },
    {
      "epoch": 0.09411111111111112,
      "grad_norm": 1.2423733472824097,
      "learning_rate": 0.00018121804845521228,
      "loss": 1.7322,
      "step": 4235
    },
    {
      "epoch": 0.09413333333333333,
      "grad_norm": 1.4849443435668945,
      "learning_rate": 0.000181213603022894,
      "loss": 2.2424,
      "step": 4236
    },
    {
      "epoch": 0.09415555555555556,
      "grad_norm": 1.2287132740020752,
      "learning_rate": 0.00018120915759057567,
      "loss": 1.5136,
      "step": 4237
    },
    {
      "epoch": 0.09417777777777778,
      "grad_norm": 1.350013017654419,
      "learning_rate": 0.0001812047121582574,
      "loss": 2.0541,
      "step": 4238
    },
    {
      "epoch": 0.0942,
      "grad_norm": 2.004333972930908,
      "learning_rate": 0.0001812002667259391,
      "loss": 2.1348,
      "step": 4239
    },
    {
      "epoch": 0.09422222222222222,
      "grad_norm": 1.4392337799072266,
      "learning_rate": 0.0001811958212936208,
      "loss": 1.9321,
      "step": 4240
    },
    {
      "epoch": 0.09424444444444445,
      "grad_norm": 1.5513615608215332,
      "learning_rate": 0.00018119137586130254,
      "loss": 2.2537,
      "step": 4241
    },
    {
      "epoch": 0.09426666666666667,
      "grad_norm": 1.2317965030670166,
      "learning_rate": 0.00018118693042898422,
      "loss": 1.636,
      "step": 4242
    },
    {
      "epoch": 0.0942888888888889,
      "grad_norm": 1.2938313484191895,
      "learning_rate": 0.00018118248499666593,
      "loss": 1.8187,
      "step": 4243
    },
    {
      "epoch": 0.09431111111111111,
      "grad_norm": 1.340935468673706,
      "learning_rate": 0.00018117803956434764,
      "loss": 1.5115,
      "step": 4244
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.7534791231155396,
      "learning_rate": 0.00018117359413202935,
      "loss": 1.7701,
      "step": 4245
    },
    {
      "epoch": 0.09435555555555555,
      "grad_norm": 1.4208885431289673,
      "learning_rate": 0.00018116914869971106,
      "loss": 1.7399,
      "step": 4246
    },
    {
      "epoch": 0.09437777777777778,
      "grad_norm": 1.6531567573547363,
      "learning_rate": 0.00018116470326739277,
      "loss": 1.9721,
      "step": 4247
    },
    {
      "epoch": 0.0944,
      "grad_norm": 1.0221691131591797,
      "learning_rate": 0.00018116025783507448,
      "loss": 0.9554,
      "step": 4248
    },
    {
      "epoch": 0.09442222222222223,
      "grad_norm": 0.8962246775627136,
      "learning_rate": 0.0001811558124027562,
      "loss": 0.6982,
      "step": 4249
    },
    {
      "epoch": 0.09444444444444444,
      "grad_norm": 1.6421195268630981,
      "learning_rate": 0.0001811513669704379,
      "loss": 1.818,
      "step": 4250
    },
    {
      "epoch": 0.09446666666666667,
      "grad_norm": 1.294623851776123,
      "learning_rate": 0.00018114692153811958,
      "loss": 2.2651,
      "step": 4251
    },
    {
      "epoch": 0.09448888888888889,
      "grad_norm": 1.2783280611038208,
      "learning_rate": 0.00018114247610580132,
      "loss": 2.6086,
      "step": 4252
    },
    {
      "epoch": 0.09451111111111112,
      "grad_norm": 1.3720486164093018,
      "learning_rate": 0.000181138030673483,
      "loss": 3.0212,
      "step": 4253
    },
    {
      "epoch": 0.09453333333333333,
      "grad_norm": 1.2371083498001099,
      "learning_rate": 0.0001811335852411647,
      "loss": 2.5947,
      "step": 4254
    },
    {
      "epoch": 0.09455555555555556,
      "grad_norm": 1.1510810852050781,
      "learning_rate": 0.00018112913980884642,
      "loss": 1.7774,
      "step": 4255
    },
    {
      "epoch": 0.09457777777777777,
      "grad_norm": 1.3002768754959106,
      "learning_rate": 0.00018112469437652813,
      "loss": 2.2432,
      "step": 4256
    },
    {
      "epoch": 0.0946,
      "grad_norm": 1.4122568368911743,
      "learning_rate": 0.00018112024894420984,
      "loss": 2.1229,
      "step": 4257
    },
    {
      "epoch": 0.09462222222222222,
      "grad_norm": 1.2634310722351074,
      "learning_rate": 0.00018111580351189155,
      "loss": 2.2565,
      "step": 4258
    },
    {
      "epoch": 0.09464444444444445,
      "grad_norm": 1.222751259803772,
      "learning_rate": 0.00018111135807957326,
      "loss": 2.288,
      "step": 4259
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 1.275425672531128,
      "learning_rate": 0.00018110691264725494,
      "loss": 1.8685,
      "step": 4260
    },
    {
      "epoch": 0.09468888888888889,
      "grad_norm": 1.3416695594787598,
      "learning_rate": 0.00018110246721493668,
      "loss": 2.0879,
      "step": 4261
    },
    {
      "epoch": 0.09471111111111111,
      "grad_norm": 1.304337978363037,
      "learning_rate": 0.00018109802178261836,
      "loss": 2.1505,
      "step": 4262
    },
    {
      "epoch": 0.09473333333333334,
      "grad_norm": 1.3516786098480225,
      "learning_rate": 0.00018109357635030007,
      "loss": 2.7259,
      "step": 4263
    },
    {
      "epoch": 0.09475555555555555,
      "grad_norm": 1.4799913167953491,
      "learning_rate": 0.00018108913091798178,
      "loss": 2.3552,
      "step": 4264
    },
    {
      "epoch": 0.09477777777777778,
      "grad_norm": 1.1678763628005981,
      "learning_rate": 0.0001810846854856635,
      "loss": 2.4232,
      "step": 4265
    },
    {
      "epoch": 0.0948,
      "grad_norm": 1.1596277952194214,
      "learning_rate": 0.0001810802400533452,
      "loss": 1.9048,
      "step": 4266
    },
    {
      "epoch": 0.09482222222222222,
      "grad_norm": 1.223615050315857,
      "learning_rate": 0.0001810757946210269,
      "loss": 1.8111,
      "step": 4267
    },
    {
      "epoch": 0.09484444444444444,
      "grad_norm": 1.3789392709732056,
      "learning_rate": 0.00018107134918870862,
      "loss": 1.8811,
      "step": 4268
    },
    {
      "epoch": 0.09486666666666667,
      "grad_norm": 1.5451769828796387,
      "learning_rate": 0.00018106690375639033,
      "loss": 2.4704,
      "step": 4269
    },
    {
      "epoch": 0.09488888888888888,
      "grad_norm": 1.3389593362808228,
      "learning_rate": 0.00018106245832407204,
      "loss": 2.049,
      "step": 4270
    },
    {
      "epoch": 0.09491111111111111,
      "grad_norm": 1.2102974653244019,
      "learning_rate": 0.00018105801289175372,
      "loss": 1.8909,
      "step": 4271
    },
    {
      "epoch": 0.09493333333333333,
      "grad_norm": 1.4268876314163208,
      "learning_rate": 0.00018105356745943546,
      "loss": 2.2258,
      "step": 4272
    },
    {
      "epoch": 0.09495555555555556,
      "grad_norm": 1.5768458843231201,
      "learning_rate": 0.00018104912202711714,
      "loss": 1.9996,
      "step": 4273
    },
    {
      "epoch": 0.09497777777777777,
      "grad_norm": 1.2787331342697144,
      "learning_rate": 0.00018104467659479885,
      "loss": 1.9048,
      "step": 4274
    },
    {
      "epoch": 0.095,
      "grad_norm": 1.0063116550445557,
      "learning_rate": 0.00018104023116248056,
      "loss": 1.1417,
      "step": 4275
    },
    {
      "epoch": 0.09502222222222222,
      "grad_norm": 1.2776713371276855,
      "learning_rate": 0.00018103578573016227,
      "loss": 2.0983,
      "step": 4276
    },
    {
      "epoch": 0.09504444444444445,
      "grad_norm": 1.7451448440551758,
      "learning_rate": 0.00018103134029784398,
      "loss": 1.7376,
      "step": 4277
    },
    {
      "epoch": 0.09506666666666666,
      "grad_norm": 1.3430607318878174,
      "learning_rate": 0.00018102689486552569,
      "loss": 2.0422,
      "step": 4278
    },
    {
      "epoch": 0.09508888888888889,
      "grad_norm": 1.5033154487609863,
      "learning_rate": 0.0001810224494332074,
      "loss": 2.2636,
      "step": 4279
    },
    {
      "epoch": 0.0951111111111111,
      "grad_norm": 1.2348893880844116,
      "learning_rate": 0.00018101800400088908,
      "loss": 1.5191,
      "step": 4280
    },
    {
      "epoch": 0.09513333333333333,
      "grad_norm": 1.6065969467163086,
      "learning_rate": 0.00018101355856857081,
      "loss": 1.7404,
      "step": 4281
    },
    {
      "epoch": 0.09515555555555555,
      "grad_norm": 1.1985697746276855,
      "learning_rate": 0.0001810091131362525,
      "loss": 1.7366,
      "step": 4282
    },
    {
      "epoch": 0.09517777777777778,
      "grad_norm": 1.2793217897415161,
      "learning_rate": 0.0001810046677039342,
      "loss": 1.8455,
      "step": 4283
    },
    {
      "epoch": 0.0952,
      "grad_norm": 1.4190576076507568,
      "learning_rate": 0.00018100022227161592,
      "loss": 2.15,
      "step": 4284
    },
    {
      "epoch": 0.09522222222222222,
      "grad_norm": 1.6962013244628906,
      "learning_rate": 0.00018099577683929763,
      "loss": 2.4338,
      "step": 4285
    },
    {
      "epoch": 0.09524444444444445,
      "grad_norm": 1.3325179815292358,
      "learning_rate": 0.00018099133140697934,
      "loss": 1.7976,
      "step": 4286
    },
    {
      "epoch": 0.09526666666666667,
      "grad_norm": 1.3189228773117065,
      "learning_rate": 0.00018098688597466105,
      "loss": 2.1157,
      "step": 4287
    },
    {
      "epoch": 0.0952888888888889,
      "grad_norm": 1.4062597751617432,
      "learning_rate": 0.00018098244054234275,
      "loss": 1.9111,
      "step": 4288
    },
    {
      "epoch": 0.09531111111111111,
      "grad_norm": 1.2860467433929443,
      "learning_rate": 0.00018097799511002446,
      "loss": 1.6923,
      "step": 4289
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 1.2095752954483032,
      "learning_rate": 0.00018097354967770617,
      "loss": 1.579,
      "step": 4290
    },
    {
      "epoch": 0.09535555555555555,
      "grad_norm": 1.528182864189148,
      "learning_rate": 0.00018096910424538786,
      "loss": 1.9927,
      "step": 4291
    },
    {
      "epoch": 0.09537777777777778,
      "grad_norm": 1.2321522235870361,
      "learning_rate": 0.0001809646588130696,
      "loss": 1.8781,
      "step": 4292
    },
    {
      "epoch": 0.0954,
      "grad_norm": 1.5300689935684204,
      "learning_rate": 0.00018096021338075128,
      "loss": 2.081,
      "step": 4293
    },
    {
      "epoch": 0.09542222222222223,
      "grad_norm": 1.2138551473617554,
      "learning_rate": 0.00018095576794843299,
      "loss": 1.4392,
      "step": 4294
    },
    {
      "epoch": 0.09544444444444444,
      "grad_norm": 1.5390785932540894,
      "learning_rate": 0.0001809513225161147,
      "loss": 1.9736,
      "step": 4295
    },
    {
      "epoch": 0.09546666666666667,
      "grad_norm": 1.4192858934402466,
      "learning_rate": 0.0001809468770837964,
      "loss": 1.8074,
      "step": 4296
    },
    {
      "epoch": 0.09548888888888889,
      "grad_norm": 1.7370961904525757,
      "learning_rate": 0.00018094243165147811,
      "loss": 2.2916,
      "step": 4297
    },
    {
      "epoch": 0.09551111111111112,
      "grad_norm": 1.2780367136001587,
      "learning_rate": 0.00018093798621915982,
      "loss": 1.7095,
      "step": 4298
    },
    {
      "epoch": 0.09553333333333333,
      "grad_norm": 1.3951181173324585,
      "learning_rate": 0.00018093354078684153,
      "loss": 2.0691,
      "step": 4299
    },
    {
      "epoch": 0.09555555555555556,
      "grad_norm": 1.4083855152130127,
      "learning_rate": 0.00018092909535452322,
      "loss": 0.0724,
      "step": 4300
    },
    {
      "epoch": 0.09557777777777778,
      "grad_norm": 0.9079444408416748,
      "learning_rate": 0.00018092464992220495,
      "loss": 0.0312,
      "step": 4301
    },
    {
      "epoch": 0.0956,
      "grad_norm": 1.3994101285934448,
      "learning_rate": 0.00018092020448988664,
      "loss": 2.8179,
      "step": 4302
    },
    {
      "epoch": 0.09562222222222222,
      "grad_norm": 1.0253506898880005,
      "learning_rate": 0.00018091575905756837,
      "loss": 2.4645,
      "step": 4303
    },
    {
      "epoch": 0.09564444444444445,
      "grad_norm": 0.9988961815834045,
      "learning_rate": 0.00018091131362525005,
      "loss": 2.3299,
      "step": 4304
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 1.1515384912490845,
      "learning_rate": 0.00018090686819293176,
      "loss": 2.4374,
      "step": 4305
    },
    {
      "epoch": 0.09568888888888889,
      "grad_norm": 1.3075590133666992,
      "learning_rate": 0.0001809024227606135,
      "loss": 2.3008,
      "step": 4306
    },
    {
      "epoch": 0.09571111111111111,
      "grad_norm": 1.123917818069458,
      "learning_rate": 0.00018089797732829518,
      "loss": 1.7689,
      "step": 4307
    },
    {
      "epoch": 0.09573333333333334,
      "grad_norm": 1.1856988668441772,
      "learning_rate": 0.0001808935318959769,
      "loss": 1.9832,
      "step": 4308
    },
    {
      "epoch": 0.09575555555555555,
      "grad_norm": 1.3103424310684204,
      "learning_rate": 0.0001808890864636586,
      "loss": 2.0647,
      "step": 4309
    },
    {
      "epoch": 0.09577777777777778,
      "grad_norm": 1.462695837020874,
      "learning_rate": 0.0001808846410313403,
      "loss": 1.106,
      "step": 4310
    },
    {
      "epoch": 0.0958,
      "grad_norm": 1.256929874420166,
      "learning_rate": 0.000180880195599022,
      "loss": 2.4581,
      "step": 4311
    },
    {
      "epoch": 0.09582222222222223,
      "grad_norm": 1.2270046472549438,
      "learning_rate": 0.00018087575016670373,
      "loss": 2.1377,
      "step": 4312
    },
    {
      "epoch": 0.09584444444444444,
      "grad_norm": 1.2823048830032349,
      "learning_rate": 0.00018087130473438541,
      "loss": 2.2922,
      "step": 4313
    },
    {
      "epoch": 0.09586666666666667,
      "grad_norm": 1.218608021736145,
      "learning_rate": 0.00018086685930206712,
      "loss": 1.9525,
      "step": 4314
    },
    {
      "epoch": 0.09588888888888888,
      "grad_norm": 1.298201560974121,
      "learning_rate": 0.00018086241386974886,
      "loss": 2.113,
      "step": 4315
    },
    {
      "epoch": 0.09591111111111111,
      "grad_norm": 1.27276611328125,
      "learning_rate": 0.00018085796843743054,
      "loss": 1.1977,
      "step": 4316
    },
    {
      "epoch": 0.09593333333333333,
      "grad_norm": 0.3113328814506531,
      "learning_rate": 0.00018085352300511225,
      "loss": 0.0398,
      "step": 4317
    },
    {
      "epoch": 0.09595555555555556,
      "grad_norm": 1.482030987739563,
      "learning_rate": 0.00018084907757279396,
      "loss": 2.2754,
      "step": 4318
    },
    {
      "epoch": 0.09597777777777777,
      "grad_norm": 1.1038774251937866,
      "learning_rate": 0.00018084463214047567,
      "loss": 1.7575,
      "step": 4319
    },
    {
      "epoch": 0.096,
      "grad_norm": 1.5362251996994019,
      "learning_rate": 0.00018084018670815735,
      "loss": 2.2929,
      "step": 4320
    },
    {
      "epoch": 0.09602222222222222,
      "grad_norm": 1.4543116092681885,
      "learning_rate": 0.0001808357412758391,
      "loss": 1.8894,
      "step": 4321
    },
    {
      "epoch": 0.09604444444444445,
      "grad_norm": 1.8341054916381836,
      "learning_rate": 0.0001808312958435208,
      "loss": 2.503,
      "step": 4322
    },
    {
      "epoch": 0.09606666666666666,
      "grad_norm": 1.3067163228988647,
      "learning_rate": 0.0001808268504112025,
      "loss": 1.9965,
      "step": 4323
    },
    {
      "epoch": 0.09608888888888889,
      "grad_norm": 1.318099856376648,
      "learning_rate": 0.00018082240497888422,
      "loss": 2.1736,
      "step": 4324
    },
    {
      "epoch": 0.0961111111111111,
      "grad_norm": 1.4188133478164673,
      "learning_rate": 0.0001808179595465659,
      "loss": 2.5916,
      "step": 4325
    },
    {
      "epoch": 0.09613333333333333,
      "grad_norm": 1.6572717428207397,
      "learning_rate": 0.00018081351411424764,
      "loss": 2.0161,
      "step": 4326
    },
    {
      "epoch": 0.09615555555555555,
      "grad_norm": 1.4251986742019653,
      "learning_rate": 0.00018080906868192932,
      "loss": 2.1169,
      "step": 4327
    },
    {
      "epoch": 0.09617777777777778,
      "grad_norm": 1.1902278661727905,
      "learning_rate": 0.00018080462324961103,
      "loss": 2.1141,
      "step": 4328
    },
    {
      "epoch": 0.0962,
      "grad_norm": 0.9251983761787415,
      "learning_rate": 0.00018080017781729274,
      "loss": 0.9708,
      "step": 4329
    },
    {
      "epoch": 0.09622222222222222,
      "grad_norm": 1.4548628330230713,
      "learning_rate": 0.00018079573238497445,
      "loss": 1.8184,
      "step": 4330
    },
    {
      "epoch": 0.09624444444444444,
      "grad_norm": 1.542205810546875,
      "learning_rate": 0.00018079128695265616,
      "loss": 2.2024,
      "step": 4331
    },
    {
      "epoch": 0.09626666666666667,
      "grad_norm": 1.196998953819275,
      "learning_rate": 0.00018078684152033787,
      "loss": 1.6554,
      "step": 4332
    },
    {
      "epoch": 0.09628888888888888,
      "grad_norm": 1.0667402744293213,
      "learning_rate": 0.00018078239608801958,
      "loss": 0.9449,
      "step": 4333
    },
    {
      "epoch": 0.09631111111111111,
      "grad_norm": 1.5856736898422241,
      "learning_rate": 0.00018077795065570126,
      "loss": 2.2405,
      "step": 4334
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 1.3911514282226562,
      "learning_rate": 0.000180773505223383,
      "loss": 1.9074,
      "step": 4335
    },
    {
      "epoch": 0.09635555555555556,
      "grad_norm": 1.4888899326324463,
      "learning_rate": 0.00018076905979106468,
      "loss": 1.9256,
      "step": 4336
    },
    {
      "epoch": 0.09637777777777778,
      "grad_norm": 1.3612645864486694,
      "learning_rate": 0.0001807646143587464,
      "loss": 1.928,
      "step": 4337
    },
    {
      "epoch": 0.0964,
      "grad_norm": 1.2366394996643066,
      "learning_rate": 0.0001807601689264281,
      "loss": 1.5805,
      "step": 4338
    },
    {
      "epoch": 0.09642222222222223,
      "grad_norm": 1.4254026412963867,
      "learning_rate": 0.0001807557234941098,
      "loss": 1.8367,
      "step": 4339
    },
    {
      "epoch": 0.09644444444444444,
      "grad_norm": 1.8091131448745728,
      "learning_rate": 0.00018075127806179152,
      "loss": 2.351,
      "step": 4340
    },
    {
      "epoch": 0.09646666666666667,
      "grad_norm": 1.4739104509353638,
      "learning_rate": 0.00018074683262947323,
      "loss": 1.834,
      "step": 4341
    },
    {
      "epoch": 0.09648888888888889,
      "grad_norm": 1.322166085243225,
      "learning_rate": 0.00018074238719715494,
      "loss": 1.9759,
      "step": 4342
    },
    {
      "epoch": 0.09651111111111112,
      "grad_norm": 1.3412140607833862,
      "learning_rate": 0.00018073794176483665,
      "loss": 2.081,
      "step": 4343
    },
    {
      "epoch": 0.09653333333333333,
      "grad_norm": 1.4519928693771362,
      "learning_rate": 0.00018073349633251836,
      "loss": 1.9883,
      "step": 4344
    },
    {
      "epoch": 0.09655555555555556,
      "grad_norm": 1.3364869356155396,
      "learning_rate": 0.00018072905090020004,
      "loss": 1.5963,
      "step": 4345
    },
    {
      "epoch": 0.09657777777777778,
      "grad_norm": 1.4493587017059326,
      "learning_rate": 0.00018072460546788178,
      "loss": 1.9617,
      "step": 4346
    },
    {
      "epoch": 0.0966,
      "grad_norm": 1.399957537651062,
      "learning_rate": 0.00018072016003556346,
      "loss": 1.7653,
      "step": 4347
    },
    {
      "epoch": 0.09662222222222222,
      "grad_norm": 1.750044584274292,
      "learning_rate": 0.00018071571460324517,
      "loss": 2.1182,
      "step": 4348
    },
    {
      "epoch": 0.09664444444444445,
      "grad_norm": 1.8996422290802002,
      "learning_rate": 0.00018071126917092688,
      "loss": 1.7376,
      "step": 4349
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 1.560601830482483,
      "learning_rate": 0.0001807068237386086,
      "loss": 0.5731,
      "step": 4350
    },
    {
      "epoch": 0.0966888888888889,
      "grad_norm": 1.0504833459854126,
      "learning_rate": 0.0001807023783062903,
      "loss": 2.3573,
      "step": 4351
    },
    {
      "epoch": 0.09671111111111111,
      "grad_norm": 1.4904145002365112,
      "learning_rate": 0.000180697932873972,
      "loss": 1.1591,
      "step": 4352
    },
    {
      "epoch": 0.09673333333333334,
      "grad_norm": 0.8558697700500488,
      "learning_rate": 0.00018069348744165372,
      "loss": 1.1718,
      "step": 4353
    },
    {
      "epoch": 0.09675555555555555,
      "grad_norm": 1.1474530696868896,
      "learning_rate": 0.0001806890420093354,
      "loss": 2.3552,
      "step": 4354
    },
    {
      "epoch": 0.09677777777777778,
      "grad_norm": 0.9881858825683594,
      "learning_rate": 0.00018068459657701714,
      "loss": 2.2725,
      "step": 4355
    },
    {
      "epoch": 0.0968,
      "grad_norm": 0.949849009513855,
      "learning_rate": 0.00018068015114469882,
      "loss": 1.6118,
      "step": 4356
    },
    {
      "epoch": 0.09682222222222223,
      "grad_norm": 1.2274798154830933,
      "learning_rate": 0.00018067570571238053,
      "loss": 2.2421,
      "step": 4357
    },
    {
      "epoch": 0.09684444444444444,
      "grad_norm": 1.1576870679855347,
      "learning_rate": 0.00018067126028006224,
      "loss": 2.2184,
      "step": 4358
    },
    {
      "epoch": 0.09686666666666667,
      "grad_norm": 1.0928457975387573,
      "learning_rate": 0.00018066681484774395,
      "loss": 1.9365,
      "step": 4359
    },
    {
      "epoch": 0.09688888888888889,
      "grad_norm": 1.1598966121673584,
      "learning_rate": 0.00018066236941542566,
      "loss": 2.282,
      "step": 4360
    },
    {
      "epoch": 0.09691111111111111,
      "grad_norm": 1.2059329748153687,
      "learning_rate": 0.00018065792398310737,
      "loss": 2.0386,
      "step": 4361
    },
    {
      "epoch": 0.09693333333333333,
      "grad_norm": 1.069584846496582,
      "learning_rate": 0.00018065347855078908,
      "loss": 1.6026,
      "step": 4362
    },
    {
      "epoch": 0.09695555555555556,
      "grad_norm": 1.3587257862091064,
      "learning_rate": 0.00018064903311847079,
      "loss": 1.929,
      "step": 4363
    },
    {
      "epoch": 0.09697777777777777,
      "grad_norm": 1.2386860847473145,
      "learning_rate": 0.0001806445876861525,
      "loss": 2.4121,
      "step": 4364
    },
    {
      "epoch": 0.097,
      "grad_norm": 1.2312818765640259,
      "learning_rate": 0.00018064014225383418,
      "loss": 2.1486,
      "step": 4365
    },
    {
      "epoch": 0.09702222222222222,
      "grad_norm": 1.272645115852356,
      "learning_rate": 0.00018063569682151592,
      "loss": 1.6875,
      "step": 4366
    },
    {
      "epoch": 0.09704444444444445,
      "grad_norm": 1.142034888267517,
      "learning_rate": 0.0001806312513891976,
      "loss": 2.1747,
      "step": 4367
    },
    {
      "epoch": 0.09706666666666666,
      "grad_norm": 1.1463781595230103,
      "learning_rate": 0.0001806268059568793,
      "loss": 1.2144,
      "step": 4368
    },
    {
      "epoch": 0.09708888888888889,
      "grad_norm": 1.3081779479980469,
      "learning_rate": 0.00018062236052456102,
      "loss": 2.2114,
      "step": 4369
    },
    {
      "epoch": 0.0971111111111111,
      "grad_norm": 1.6387537717819214,
      "learning_rate": 0.00018061791509224273,
      "loss": 2.2408,
      "step": 4370
    },
    {
      "epoch": 0.09713333333333334,
      "grad_norm": 1.271367073059082,
      "learning_rate": 0.00018061346965992444,
      "loss": 2.1865,
      "step": 4371
    },
    {
      "epoch": 0.09715555555555555,
      "grad_norm": 1.4236445426940918,
      "learning_rate": 0.00018060902422760615,
      "loss": 2.2823,
      "step": 4372
    },
    {
      "epoch": 0.09717777777777778,
      "grad_norm": 1.4783875942230225,
      "learning_rate": 0.00018060457879528786,
      "loss": 2.5749,
      "step": 4373
    },
    {
      "epoch": 0.0972,
      "grad_norm": 1.446212887763977,
      "learning_rate": 0.00018060013336296954,
      "loss": 2.1849,
      "step": 4374
    },
    {
      "epoch": 0.09722222222222222,
      "grad_norm": 1.3906170129776,
      "learning_rate": 0.00018059568793065127,
      "loss": 2.1291,
      "step": 4375
    },
    {
      "epoch": 0.09724444444444444,
      "grad_norm": 1.4127378463745117,
      "learning_rate": 0.00018059124249833296,
      "loss": 2.2909,
      "step": 4376
    },
    {
      "epoch": 0.09726666666666667,
      "grad_norm": 1.329476237297058,
      "learning_rate": 0.00018058679706601467,
      "loss": 1.9118,
      "step": 4377
    },
    {
      "epoch": 0.09728888888888888,
      "grad_norm": 1.7600513696670532,
      "learning_rate": 0.00018058235163369638,
      "loss": 1.2208,
      "step": 4378
    },
    {
      "epoch": 0.09731111111111111,
      "grad_norm": 1.5222866535186768,
      "learning_rate": 0.00018057790620137809,
      "loss": 2.4877,
      "step": 4379
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 1.6175096035003662,
      "learning_rate": 0.00018057346076905982,
      "loss": 2.4975,
      "step": 4380
    },
    {
      "epoch": 0.09735555555555556,
      "grad_norm": 1.3158024549484253,
      "learning_rate": 0.0001805690153367415,
      "loss": 2.1654,
      "step": 4381
    },
    {
      "epoch": 0.09737777777777777,
      "grad_norm": 1.266546368598938,
      "learning_rate": 0.00018056456990442321,
      "loss": 2.2962,
      "step": 4382
    },
    {
      "epoch": 0.0974,
      "grad_norm": 1.3766202926635742,
      "learning_rate": 0.00018056012447210492,
      "loss": 2.0777,
      "step": 4383
    },
    {
      "epoch": 0.09742222222222222,
      "grad_norm": 1.6375465393066406,
      "learning_rate": 0.00018055567903978663,
      "loss": 2.5874,
      "step": 4384
    },
    {
      "epoch": 0.09744444444444444,
      "grad_norm": 1.3366793394088745,
      "learning_rate": 0.00018055123360746832,
      "loss": 1.9877,
      "step": 4385
    },
    {
      "epoch": 0.09746666666666666,
      "grad_norm": 1.199235439300537,
      "learning_rate": 0.00018054678817515005,
      "loss": 1.4807,
      "step": 4386
    },
    {
      "epoch": 0.09748888888888889,
      "grad_norm": 0.9937195777893066,
      "learning_rate": 0.00018054234274283174,
      "loss": 1.0858,
      "step": 4387
    },
    {
      "epoch": 0.09751111111111112,
      "grad_norm": 1.2782981395721436,
      "learning_rate": 0.00018053789731051345,
      "loss": 1.8537,
      "step": 4388
    },
    {
      "epoch": 0.09753333333333333,
      "grad_norm": 1.832302451133728,
      "learning_rate": 0.00018053345187819518,
      "loss": 1.8441,
      "step": 4389
    },
    {
      "epoch": 0.09755555555555556,
      "grad_norm": 1.429241418838501,
      "learning_rate": 0.00018052900644587686,
      "loss": 1.9086,
      "step": 4390
    },
    {
      "epoch": 0.09757777777777778,
      "grad_norm": 1.300802230834961,
      "learning_rate": 0.00018052456101355857,
      "loss": 1.8006,
      "step": 4391
    },
    {
      "epoch": 0.0976,
      "grad_norm": 1.724574327468872,
      "learning_rate": 0.00018052011558124028,
      "loss": 1.6432,
      "step": 4392
    },
    {
      "epoch": 0.09762222222222222,
      "grad_norm": 1.190918207168579,
      "learning_rate": 0.000180515670148922,
      "loss": 1.7289,
      "step": 4393
    },
    {
      "epoch": 0.09764444444444445,
      "grad_norm": 1.712777018547058,
      "learning_rate": 0.00018051122471660368,
      "loss": 2.1239,
      "step": 4394
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 1.7275041341781616,
      "learning_rate": 0.0001805067792842854,
      "loss": 1.7419,
      "step": 4395
    },
    {
      "epoch": 0.0976888888888889,
      "grad_norm": 1.387739658355713,
      "learning_rate": 0.00018050233385196712,
      "loss": 1.6528,
      "step": 4396
    },
    {
      "epoch": 0.09771111111111111,
      "grad_norm": 1.427575707435608,
      "learning_rate": 0.0001804978884196488,
      "loss": 1.8057,
      "step": 4397
    },
    {
      "epoch": 0.09773333333333334,
      "grad_norm": 1.9699738025665283,
      "learning_rate": 0.00018049344298733054,
      "loss": 2.2689,
      "step": 4398
    },
    {
      "epoch": 0.09775555555555555,
      "grad_norm": 1.493066430091858,
      "learning_rate": 0.00018048899755501222,
      "loss": 1.8887,
      "step": 4399
    },
    {
      "epoch": 0.09777777777777778,
      "grad_norm": 1.2431524991989136,
      "learning_rate": 0.00018048455212269396,
      "loss": 1.4983,
      "step": 4400
    },
    {
      "epoch": 0.0978,
      "grad_norm": 1.3198671340942383,
      "learning_rate": 0.00018048010669037564,
      "loss": 2.4862,
      "step": 4401
    },
    {
      "epoch": 0.09782222222222223,
      "grad_norm": 0.844988226890564,
      "learning_rate": 0.00018047566125805735,
      "loss": 1.1806,
      "step": 4402
    },
    {
      "epoch": 0.09784444444444444,
      "grad_norm": 1.0930746793746948,
      "learning_rate": 0.00018047121582573906,
      "loss": 2.3488,
      "step": 4403
    },
    {
      "epoch": 0.09786666666666667,
      "grad_norm": 1.369760274887085,
      "learning_rate": 0.00018046677039342077,
      "loss": 2.6371,
      "step": 4404
    },
    {
      "epoch": 0.09788888888888889,
      "grad_norm": 1.3217105865478516,
      "learning_rate": 0.00018046232496110248,
      "loss": 2.7823,
      "step": 4405
    },
    {
      "epoch": 0.09791111111111112,
      "grad_norm": 1.3410041332244873,
      "learning_rate": 0.0001804578795287842,
      "loss": 2.5896,
      "step": 4406
    },
    {
      "epoch": 0.09793333333333333,
      "grad_norm": 1.0788627862930298,
      "learning_rate": 0.0001804534340964659,
      "loss": 2.0777,
      "step": 4407
    },
    {
      "epoch": 0.09795555555555556,
      "grad_norm": 1.273199439048767,
      "learning_rate": 0.00018044898866414758,
      "loss": 2.1908,
      "step": 4408
    },
    {
      "epoch": 0.09797777777777777,
      "grad_norm": 1.3570038080215454,
      "learning_rate": 0.00018044454323182932,
      "loss": 2.9192,
      "step": 4409
    },
    {
      "epoch": 0.098,
      "grad_norm": 1.2110463380813599,
      "learning_rate": 0.000180440097799511,
      "loss": 2.5296,
      "step": 4410
    },
    {
      "epoch": 0.09802222222222222,
      "grad_norm": 1.1199480295181274,
      "learning_rate": 0.0001804356523671927,
      "loss": 1.8769,
      "step": 4411
    },
    {
      "epoch": 0.09804444444444445,
      "grad_norm": 1.202898621559143,
      "learning_rate": 0.00018043120693487442,
      "loss": 2.1629,
      "step": 4412
    },
    {
      "epoch": 0.09806666666666666,
      "grad_norm": 1.2951065301895142,
      "learning_rate": 0.00018042676150255613,
      "loss": 1.9552,
      "step": 4413
    },
    {
      "epoch": 0.09808888888888889,
      "grad_norm": 1.3778116703033447,
      "learning_rate": 0.00018042231607023784,
      "loss": 2.1159,
      "step": 4414
    },
    {
      "epoch": 0.09811111111111111,
      "grad_norm": 1.2748832702636719,
      "learning_rate": 0.00018041787063791955,
      "loss": 2.6161,
      "step": 4415
    },
    {
      "epoch": 0.09813333333333334,
      "grad_norm": 1.0710159540176392,
      "learning_rate": 0.00018041342520560126,
      "loss": 1.513,
      "step": 4416
    },
    {
      "epoch": 0.09815555555555555,
      "grad_norm": 1.3692610263824463,
      "learning_rate": 0.00018040897977328297,
      "loss": 2.0782,
      "step": 4417
    },
    {
      "epoch": 0.09817777777777778,
      "grad_norm": 1.190234661102295,
      "learning_rate": 0.00018040453434096468,
      "loss": 1.8536,
      "step": 4418
    },
    {
      "epoch": 0.0982,
      "grad_norm": 1.738289475440979,
      "learning_rate": 0.00018040008890864636,
      "loss": 2.2558,
      "step": 4419
    },
    {
      "epoch": 0.09822222222222222,
      "grad_norm": 1.4065693616867065,
      "learning_rate": 0.0001803956434763281,
      "loss": 1.4075,
      "step": 4420
    },
    {
      "epoch": 0.09824444444444444,
      "grad_norm": 0.897720992565155,
      "learning_rate": 0.00018039119804400978,
      "loss": 0.8285,
      "step": 4421
    },
    {
      "epoch": 0.09826666666666667,
      "grad_norm": 1.5050746202468872,
      "learning_rate": 0.0001803867526116915,
      "loss": 2.446,
      "step": 4422
    },
    {
      "epoch": 0.09828888888888888,
      "grad_norm": 1.2419902086257935,
      "learning_rate": 0.0001803823071793732,
      "loss": 1.8285,
      "step": 4423
    },
    {
      "epoch": 0.09831111111111111,
      "grad_norm": 1.4274375438690186,
      "learning_rate": 0.0001803778617470549,
      "loss": 2.3178,
      "step": 4424
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 1.6556620597839355,
      "learning_rate": 0.00018037341631473662,
      "loss": 2.4652,
      "step": 4425
    },
    {
      "epoch": 0.09835555555555556,
      "grad_norm": 1.3161110877990723,
      "learning_rate": 0.00018036897088241833,
      "loss": 2.5008,
      "step": 4426
    },
    {
      "epoch": 0.09837777777777777,
      "grad_norm": 1.4334475994110107,
      "learning_rate": 0.00018036452545010004,
      "loss": 2.134,
      "step": 4427
    },
    {
      "epoch": 0.0984,
      "grad_norm": 1.1863737106323242,
      "learning_rate": 0.00018036008001778172,
      "loss": 1.9887,
      "step": 4428
    },
    {
      "epoch": 0.09842222222222222,
      "grad_norm": 1.260151982307434,
      "learning_rate": 0.00018035563458546346,
      "loss": 1.888,
      "step": 4429
    },
    {
      "epoch": 0.09844444444444445,
      "grad_norm": 1.0401445627212524,
      "learning_rate": 0.00018035118915314514,
      "loss": 1.1331,
      "step": 4430
    },
    {
      "epoch": 0.09846666666666666,
      "grad_norm": 1.4833295345306396,
      "learning_rate": 0.00018034674372082685,
      "loss": 1.8414,
      "step": 4431
    },
    {
      "epoch": 0.09848888888888889,
      "grad_norm": 1.4104746580123901,
      "learning_rate": 0.00018034229828850856,
      "loss": 2.1685,
      "step": 4432
    },
    {
      "epoch": 0.0985111111111111,
      "grad_norm": 1.1910183429718018,
      "learning_rate": 0.00018033785285619027,
      "loss": 1.6557,
      "step": 4433
    },
    {
      "epoch": 0.09853333333333333,
      "grad_norm": 1.6644701957702637,
      "learning_rate": 0.00018033340742387198,
      "loss": 2.1799,
      "step": 4434
    },
    {
      "epoch": 0.09855555555555555,
      "grad_norm": 1.4257797002792358,
      "learning_rate": 0.0001803289619915537,
      "loss": 2.0706,
      "step": 4435
    },
    {
      "epoch": 0.09857777777777778,
      "grad_norm": 1.1833685636520386,
      "learning_rate": 0.0001803245165592354,
      "loss": 1.8003,
      "step": 4436
    },
    {
      "epoch": 0.0986,
      "grad_norm": 1.4477691650390625,
      "learning_rate": 0.0001803200711269171,
      "loss": 2.1154,
      "step": 4437
    },
    {
      "epoch": 0.09862222222222222,
      "grad_norm": 1.5556645393371582,
      "learning_rate": 0.00018031562569459882,
      "loss": 2.4443,
      "step": 4438
    },
    {
      "epoch": 0.09864444444444445,
      "grad_norm": 1.3518905639648438,
      "learning_rate": 0.0001803111802622805,
      "loss": 2.0318,
      "step": 4439
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 1.3766332864761353,
      "learning_rate": 0.00018030673482996224,
      "loss": 1.9228,
      "step": 4440
    },
    {
      "epoch": 0.0986888888888889,
      "grad_norm": 1.3773131370544434,
      "learning_rate": 0.00018030228939764392,
      "loss": 1.9193,
      "step": 4441
    },
    {
      "epoch": 0.09871111111111111,
      "grad_norm": 1.5432028770446777,
      "learning_rate": 0.00018029784396532563,
      "loss": 2.0612,
      "step": 4442
    },
    {
      "epoch": 0.09873333333333334,
      "grad_norm": 1.040864109992981,
      "learning_rate": 0.00018029339853300734,
      "loss": 1.34,
      "step": 4443
    },
    {
      "epoch": 0.09875555555555555,
      "grad_norm": 1.2923661470413208,
      "learning_rate": 0.00018028895310068905,
      "loss": 1.6208,
      "step": 4444
    },
    {
      "epoch": 0.09877777777777778,
      "grad_norm": 1.3355612754821777,
      "learning_rate": 0.00018028450766837076,
      "loss": 1.885,
      "step": 4445
    },
    {
      "epoch": 0.0988,
      "grad_norm": 1.5252952575683594,
      "learning_rate": 0.00018028006223605247,
      "loss": 1.9786,
      "step": 4446
    },
    {
      "epoch": 0.09882222222222223,
      "grad_norm": 1.568361759185791,
      "learning_rate": 0.00018027561680373418,
      "loss": 2.0919,
      "step": 4447
    },
    {
      "epoch": 0.09884444444444444,
      "grad_norm": 1.6935590505599976,
      "learning_rate": 0.00018027117137141586,
      "loss": 2.0133,
      "step": 4448
    },
    {
      "epoch": 0.09886666666666667,
      "grad_norm": 1.3074549436569214,
      "learning_rate": 0.0001802667259390976,
      "loss": 1.9556,
      "step": 4449
    },
    {
      "epoch": 0.09888888888888889,
      "grad_norm": 1.5643311738967896,
      "learning_rate": 0.00018026228050677928,
      "loss": 1.716,
      "step": 4450
    },
    {
      "epoch": 0.09891111111111112,
      "grad_norm": 1.19057297706604,
      "learning_rate": 0.000180257835074461,
      "loss": 2.6874,
      "step": 4451
    },
    {
      "epoch": 0.09893333333333333,
      "grad_norm": 1.175662875175476,
      "learning_rate": 0.0001802533896421427,
      "loss": 0.0533,
      "step": 4452
    },
    {
      "epoch": 0.09895555555555556,
      "grad_norm": 1.4417732954025269,
      "learning_rate": 0.0001802489442098244,
      "loss": 2.4653,
      "step": 4453
    },
    {
      "epoch": 0.09897777777777778,
      "grad_norm": 1.0468107461929321,
      "learning_rate": 0.00018024449877750612,
      "loss": 2.046,
      "step": 4454
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.7389274835586548,
      "learning_rate": 0.00018024005334518783,
      "loss": 1.4057,
      "step": 4455
    },
    {
      "epoch": 0.09902222222222222,
      "grad_norm": 1.0182894468307495,
      "learning_rate": 0.00018023560791286954,
      "loss": 2.4539,
      "step": 4456
    },
    {
      "epoch": 0.09904444444444445,
      "grad_norm": 1.128106951713562,
      "learning_rate": 0.00018023116248055125,
      "loss": 2.1567,
      "step": 4457
    },
    {
      "epoch": 0.09906666666666666,
      "grad_norm": 1.0658607482910156,
      "learning_rate": 0.00018022671704823296,
      "loss": 1.5295,
      "step": 4458
    },
    {
      "epoch": 0.09908888888888889,
      "grad_norm": 1.5395396947860718,
      "learning_rate": 0.00018022227161591464,
      "loss": 2.7383,
      "step": 4459
    },
    {
      "epoch": 0.09911111111111111,
      "grad_norm": 1.2264471054077148,
      "learning_rate": 0.00018021782618359638,
      "loss": 2.149,
      "step": 4460
    },
    {
      "epoch": 0.09913333333333334,
      "grad_norm": 1.0935885906219482,
      "learning_rate": 0.00018021338075127806,
      "loss": 2.1916,
      "step": 4461
    },
    {
      "epoch": 0.09915555555555555,
      "grad_norm": 1.26873779296875,
      "learning_rate": 0.00018020893531895977,
      "loss": 2.1652,
      "step": 4462
    },
    {
      "epoch": 0.09917777777777778,
      "grad_norm": 1.4730082750320435,
      "learning_rate": 0.0001802044898866415,
      "loss": 2.5607,
      "step": 4463
    },
    {
      "epoch": 0.0992,
      "grad_norm": 1.0220870971679688,
      "learning_rate": 0.0001802000444543232,
      "loss": 1.1443,
      "step": 4464
    },
    {
      "epoch": 0.09922222222222223,
      "grad_norm": 1.0993688106536865,
      "learning_rate": 0.0001801955990220049,
      "loss": 1.8948,
      "step": 4465
    },
    {
      "epoch": 0.09924444444444444,
      "grad_norm": 1.2144601345062256,
      "learning_rate": 0.0001801911535896866,
      "loss": 1.9652,
      "step": 4466
    },
    {
      "epoch": 0.09926666666666667,
      "grad_norm": 1.220253348350525,
      "learning_rate": 0.00018018670815736832,
      "loss": 1.9683,
      "step": 4467
    },
    {
      "epoch": 0.09928888888888888,
      "grad_norm": 1.2824461460113525,
      "learning_rate": 0.00018018226272505,
      "loss": 2.415,
      "step": 4468
    },
    {
      "epoch": 0.09931111111111111,
      "grad_norm": 1.3988687992095947,
      "learning_rate": 0.00018017781729273173,
      "loss": 1.124,
      "step": 4469
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.8374323844909668,
      "learning_rate": 0.00018017337186041344,
      "loss": 1.2069,
      "step": 4470
    },
    {
      "epoch": 0.09935555555555556,
      "grad_norm": 1.3232494592666626,
      "learning_rate": 0.00018016892642809513,
      "loss": 1.9529,
      "step": 4471
    },
    {
      "epoch": 0.09937777777777777,
      "grad_norm": 1.1095073223114014,
      "learning_rate": 0.00018016448099577686,
      "loss": 1.7246,
      "step": 4472
    },
    {
      "epoch": 0.0994,
      "grad_norm": 1.3508285284042358,
      "learning_rate": 0.00018016003556345855,
      "loss": 2.137,
      "step": 4473
    },
    {
      "epoch": 0.09942222222222222,
      "grad_norm": 1.7036936283111572,
      "learning_rate": 0.00018015559013114028,
      "loss": 3.1291,
      "step": 4474
    },
    {
      "epoch": 0.09944444444444445,
      "grad_norm": 1.5720809698104858,
      "learning_rate": 0.00018015114469882197,
      "loss": 2.4024,
      "step": 4475
    },
    {
      "epoch": 0.09946666666666666,
      "grad_norm": 1.3260328769683838,
      "learning_rate": 0.00018014669926650368,
      "loss": 1.8592,
      "step": 4476
    },
    {
      "epoch": 0.09948888888888889,
      "grad_norm": 1.5580748319625854,
      "learning_rate": 0.00018014225383418538,
      "loss": 2.1636,
      "step": 4477
    },
    {
      "epoch": 0.0995111111111111,
      "grad_norm": 1.1836466789245605,
      "learning_rate": 0.0001801378084018671,
      "loss": 1.9728,
      "step": 4478
    },
    {
      "epoch": 0.09953333333333333,
      "grad_norm": 1.3697766065597534,
      "learning_rate": 0.0001801333629695488,
      "loss": 1.7712,
      "step": 4479
    },
    {
      "epoch": 0.09955555555555555,
      "grad_norm": 1.3192039728164673,
      "learning_rate": 0.00018012891753723051,
      "loss": 1.9998,
      "step": 4480
    },
    {
      "epoch": 0.09957777777777778,
      "grad_norm": 1.352051854133606,
      "learning_rate": 0.00018012447210491222,
      "loss": 2.3214,
      "step": 4481
    },
    {
      "epoch": 0.0996,
      "grad_norm": 1.3424073457717896,
      "learning_rate": 0.0001801200266725939,
      "loss": 2.1331,
      "step": 4482
    },
    {
      "epoch": 0.09962222222222222,
      "grad_norm": 1.4906132221221924,
      "learning_rate": 0.00018011558124027564,
      "loss": 1.9629,
      "step": 4483
    },
    {
      "epoch": 0.09964444444444444,
      "grad_norm": 1.441964864730835,
      "learning_rate": 0.00018011113580795733,
      "loss": 2.1286,
      "step": 4484
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 1.443705677986145,
      "learning_rate": 0.00018010669037563903,
      "loss": 1.7009,
      "step": 4485
    },
    {
      "epoch": 0.09968888888888888,
      "grad_norm": 1.3226597309112549,
      "learning_rate": 0.00018010224494332074,
      "loss": 1.8768,
      "step": 4486
    },
    {
      "epoch": 0.09971111111111111,
      "grad_norm": 1.454082727432251,
      "learning_rate": 0.00018009779951100245,
      "loss": 1.8601,
      "step": 4487
    },
    {
      "epoch": 0.09973333333333333,
      "grad_norm": 1.8369663953781128,
      "learning_rate": 0.00018009335407868416,
      "loss": 0.069,
      "step": 4488
    },
    {
      "epoch": 0.09975555555555556,
      "grad_norm": 1.2956428527832031,
      "learning_rate": 0.00018008890864636587,
      "loss": 1.868,
      "step": 4489
    },
    {
      "epoch": 0.09977777777777778,
      "grad_norm": 1.6002861261367798,
      "learning_rate": 0.00018008446321404758,
      "loss": 2.0486,
      "step": 4490
    },
    {
      "epoch": 0.0998,
      "grad_norm": 1.4827994108200073,
      "learning_rate": 0.00018008001778172927,
      "loss": 2.244,
      "step": 4491
    },
    {
      "epoch": 0.09982222222222223,
      "grad_norm": 1.3553178310394287,
      "learning_rate": 0.000180075572349411,
      "loss": 1.3299,
      "step": 4492
    },
    {
      "epoch": 0.09984444444444444,
      "grad_norm": 1.3971030712127686,
      "learning_rate": 0.00018007112691709268,
      "loss": 1.8899,
      "step": 4493
    },
    {
      "epoch": 0.09986666666666667,
      "grad_norm": 1.5578504800796509,
      "learning_rate": 0.00018006668148477442,
      "loss": 1.8414,
      "step": 4494
    },
    {
      "epoch": 0.09988888888888889,
      "grad_norm": 1.4631415605545044,
      "learning_rate": 0.0001800622360524561,
      "loss": 2.085,
      "step": 4495
    },
    {
      "epoch": 0.09991111111111112,
      "grad_norm": 1.4966238737106323,
      "learning_rate": 0.0001800577906201378,
      "loss": 1.8362,
      "step": 4496
    },
    {
      "epoch": 0.09993333333333333,
      "grad_norm": 1.7602430582046509,
      "learning_rate": 0.00018005334518781952,
      "loss": 1.965,
      "step": 4497
    },
    {
      "epoch": 0.09995555555555556,
      "grad_norm": 1.838391900062561,
      "learning_rate": 0.00018004889975550123,
      "loss": 2.0265,
      "step": 4498
    },
    {
      "epoch": 0.09997777777777778,
      "grad_norm": 1.3434847593307495,
      "learning_rate": 0.00018004445432318294,
      "loss": 0.638,
      "step": 4499
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3077208995819092,
      "learning_rate": 0.00018004000889086465,
      "loss": 1.1671,
      "step": 4500
    },
    {
      "epoch": 0.10002222222222222,
      "grad_norm": 1.0700474977493286,
      "learning_rate": 0.00018003556345854636,
      "loss": 2.6163,
      "step": 4501
    },
    {
      "epoch": 0.10004444444444445,
      "grad_norm": 1.1620192527770996,
      "learning_rate": 0.00018003111802622804,
      "loss": 2.5226,
      "step": 4502
    },
    {
      "epoch": 0.10006666666666666,
      "grad_norm": 1.1475083827972412,
      "learning_rate": 0.00018002667259390978,
      "loss": 2.5302,
      "step": 4503
    },
    {
      "epoch": 0.1000888888888889,
      "grad_norm": 1.1489850282669067,
      "learning_rate": 0.00018002222716159146,
      "loss": 2.1681,
      "step": 4504
    },
    {
      "epoch": 0.10011111111111111,
      "grad_norm": 1.1222330331802368,
      "learning_rate": 0.00018001778172927317,
      "loss": 1.8605,
      "step": 4505
    },
    {
      "epoch": 0.10013333333333334,
      "grad_norm": 1.1848361492156982,
      "learning_rate": 0.00018001333629695488,
      "loss": 2.4713,
      "step": 4506
    },
    {
      "epoch": 0.10015555555555555,
      "grad_norm": 1.3263381719589233,
      "learning_rate": 0.0001800088908646366,
      "loss": 1.9377,
      "step": 4507
    },
    {
      "epoch": 0.10017777777777778,
      "grad_norm": 1.302356243133545,
      "learning_rate": 0.0001800044454323183,
      "loss": 2.4729,
      "step": 4508
    },
    {
      "epoch": 0.1002,
      "grad_norm": 1.492964506149292,
      "learning_rate": 0.00018,
      "loss": 2.2221,
      "step": 4509
    },
    {
      "epoch": 0.10022222222222223,
      "grad_norm": 1.2655242681503296,
      "learning_rate": 0.00017999555456768172,
      "loss": 2.6287,
      "step": 4510
    },
    {
      "epoch": 0.10024444444444444,
      "grad_norm": 1.2084869146347046,
      "learning_rate": 0.00017999110913536343,
      "loss": 2.3839,
      "step": 4511
    },
    {
      "epoch": 0.10026666666666667,
      "grad_norm": 1.1417101621627808,
      "learning_rate": 0.00017998666370304514,
      "loss": 2.4502,
      "step": 4512
    },
    {
      "epoch": 0.10028888888888889,
      "grad_norm": 1.2735824584960938,
      "learning_rate": 0.00017998221827072682,
      "loss": 2.1662,
      "step": 4513
    },
    {
      "epoch": 0.10031111111111111,
      "grad_norm": 1.0747036933898926,
      "learning_rate": 0.00017997777283840856,
      "loss": 2.1198,
      "step": 4514
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 1.32513427734375,
      "learning_rate": 0.00017997332740609024,
      "loss": 2.1641,
      "step": 4515
    },
    {
      "epoch": 0.10035555555555556,
      "grad_norm": 1.254108190536499,
      "learning_rate": 0.00017996888197377195,
      "loss": 1.9495,
      "step": 4516
    },
    {
      "epoch": 0.10037777777777777,
      "grad_norm": 1.3607242107391357,
      "learning_rate": 0.00017996443654145366,
      "loss": 2.3084,
      "step": 4517
    },
    {
      "epoch": 0.1004,
      "grad_norm": 1.2414820194244385,
      "learning_rate": 0.00017995999110913537,
      "loss": 2.4332,
      "step": 4518
    },
    {
      "epoch": 0.10042222222222222,
      "grad_norm": 1.4720838069915771,
      "learning_rate": 0.00017995554567681708,
      "loss": 2.367,
      "step": 4519
    },
    {
      "epoch": 0.10044444444444445,
      "grad_norm": 1.3227603435516357,
      "learning_rate": 0.0001799511002444988,
      "loss": 1.8766,
      "step": 4520
    },
    {
      "epoch": 0.10046666666666666,
      "grad_norm": 1.5360599756240845,
      "learning_rate": 0.0001799466548121805,
      "loss": 2.4649,
      "step": 4521
    },
    {
      "epoch": 0.10048888888888889,
      "grad_norm": 1.2606695890426636,
      "learning_rate": 0.00017994220937986218,
      "loss": 1.9326,
      "step": 4522
    },
    {
      "epoch": 0.1005111111111111,
      "grad_norm": 1.1181033849716187,
      "learning_rate": 0.00017993776394754392,
      "loss": 1.8243,
      "step": 4523
    },
    {
      "epoch": 0.10053333333333334,
      "grad_norm": 1.4821643829345703,
      "learning_rate": 0.0001799333185152256,
      "loss": 2.1311,
      "step": 4524
    },
    {
      "epoch": 0.10055555555555555,
      "grad_norm": 1.2980374097824097,
      "learning_rate": 0.0001799288730829073,
      "loss": 1.6123,
      "step": 4525
    },
    {
      "epoch": 0.10057777777777778,
      "grad_norm": 1.3282278776168823,
      "learning_rate": 0.00017992442765058902,
      "loss": 2.2648,
      "step": 4526
    },
    {
      "epoch": 0.1006,
      "grad_norm": 1.2121895551681519,
      "learning_rate": 0.00017991998221827073,
      "loss": 2.1269,
      "step": 4527
    },
    {
      "epoch": 0.10062222222222222,
      "grad_norm": 1.2339322566986084,
      "learning_rate": 0.00017991553678595244,
      "loss": 1.7795,
      "step": 4528
    },
    {
      "epoch": 0.10064444444444444,
      "grad_norm": 0.8297223448753357,
      "learning_rate": 0.00017991109135363415,
      "loss": 0.7758,
      "step": 4529
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 1.205521583557129,
      "learning_rate": 0.00017990664592131586,
      "loss": 1.2347,
      "step": 4530
    },
    {
      "epoch": 0.10068888888888888,
      "grad_norm": 1.3334580659866333,
      "learning_rate": 0.00017990220048899757,
      "loss": 2.3322,
      "step": 4531
    },
    {
      "epoch": 0.10071111111111111,
      "grad_norm": 1.4802695512771606,
      "learning_rate": 0.00017989775505667928,
      "loss": 2.0938,
      "step": 4532
    },
    {
      "epoch": 0.10073333333333333,
      "grad_norm": 0.9862070679664612,
      "learning_rate": 0.00017989330962436096,
      "loss": 1.1852,
      "step": 4533
    },
    {
      "epoch": 0.10075555555555556,
      "grad_norm": 1.0659462213516235,
      "learning_rate": 0.0001798888641920427,
      "loss": 1.1631,
      "step": 4534
    },
    {
      "epoch": 0.10077777777777777,
      "grad_norm": 1.5292655229568481,
      "learning_rate": 0.00017988441875972438,
      "loss": 1.8282,
      "step": 4535
    },
    {
      "epoch": 0.1008,
      "grad_norm": 1.8752927780151367,
      "learning_rate": 0.0001798799733274061,
      "loss": 2.0466,
      "step": 4536
    },
    {
      "epoch": 0.10082222222222222,
      "grad_norm": 1.4686386585235596,
      "learning_rate": 0.00017987552789508783,
      "loss": 1.9048,
      "step": 4537
    },
    {
      "epoch": 0.10084444444444444,
      "grad_norm": 1.6862549781799316,
      "learning_rate": 0.0001798710824627695,
      "loss": 2.3511,
      "step": 4538
    },
    {
      "epoch": 0.10086666666666666,
      "grad_norm": 1.357166051864624,
      "learning_rate": 0.00017986663703045122,
      "loss": 1.9995,
      "step": 4539
    },
    {
      "epoch": 0.10088888888888889,
      "grad_norm": 1.4182924032211304,
      "learning_rate": 0.00017986219159813293,
      "loss": 2.1343,
      "step": 4540
    },
    {
      "epoch": 0.1009111111111111,
      "grad_norm": 1.322924017906189,
      "learning_rate": 0.00017985774616581464,
      "loss": 1.8664,
      "step": 4541
    },
    {
      "epoch": 0.10093333333333333,
      "grad_norm": 1.4450047016143799,
      "learning_rate": 0.00017985330073349632,
      "loss": 2.015,
      "step": 4542
    },
    {
      "epoch": 0.10095555555555556,
      "grad_norm": 1.5767916440963745,
      "learning_rate": 0.00017984885530117806,
      "loss": 1.063,
      "step": 4543
    },
    {
      "epoch": 0.10097777777777778,
      "grad_norm": 1.3766216039657593,
      "learning_rate": 0.00017984440986885977,
      "loss": 2.1104,
      "step": 4544
    },
    {
      "epoch": 0.101,
      "grad_norm": 1.4096211194992065,
      "learning_rate": 0.00017983996443654145,
      "loss": 1.8738,
      "step": 4545
    },
    {
      "epoch": 0.10102222222222222,
      "grad_norm": 1.9654799699783325,
      "learning_rate": 0.00017983551900422319,
      "loss": 2.059,
      "step": 4546
    },
    {
      "epoch": 0.10104444444444445,
      "grad_norm": 1.5229862928390503,
      "learning_rate": 0.00017983107357190487,
      "loss": 1.8899,
      "step": 4547
    },
    {
      "epoch": 0.10106666666666667,
      "grad_norm": 1.4340468645095825,
      "learning_rate": 0.00017982662813958658,
      "loss": 1.8753,
      "step": 4548
    },
    {
      "epoch": 0.1010888888888889,
      "grad_norm": 1.261633038520813,
      "learning_rate": 0.0001798221827072683,
      "loss": 1.6701,
      "step": 4549
    },
    {
      "epoch": 0.10111111111111111,
      "grad_norm": 1.3499265909194946,
      "learning_rate": 0.00017981773727495,
      "loss": 0.9082,
      "step": 4550
    },
    {
      "epoch": 0.10113333333333334,
      "grad_norm": 1.1998485326766968,
      "learning_rate": 0.0001798132918426317,
      "loss": 2.3424,
      "step": 4551
    },
    {
      "epoch": 0.10115555555555555,
      "grad_norm": 0.9679036736488342,
      "learning_rate": 0.00017980884641031342,
      "loss": 1.2857,
      "step": 4552
    },
    {
      "epoch": 0.10117777777777778,
      "grad_norm": 1.101314902305603,
      "learning_rate": 0.00017980440097799513,
      "loss": 2.3451,
      "step": 4553
    },
    {
      "epoch": 0.1012,
      "grad_norm": 1.2301385402679443,
      "learning_rate": 0.00017979995554567684,
      "loss": 2.5677,
      "step": 4554
    },
    {
      "epoch": 0.10122222222222223,
      "grad_norm": 1.1807093620300293,
      "learning_rate": 0.00017979551011335855,
      "loss": 2.5417,
      "step": 4555
    },
    {
      "epoch": 0.10124444444444444,
      "grad_norm": 1.1361746788024902,
      "learning_rate": 0.00017979106468104023,
      "loss": 2.1949,
      "step": 4556
    },
    {
      "epoch": 0.10126666666666667,
      "grad_norm": 1.1690309047698975,
      "learning_rate": 0.00017978661924872196,
      "loss": 1.9276,
      "step": 4557
    },
    {
      "epoch": 0.10128888888888889,
      "grad_norm": 1.13777756690979,
      "learning_rate": 0.00017978217381640365,
      "loss": 1.6578,
      "step": 4558
    },
    {
      "epoch": 0.10131111111111112,
      "grad_norm": 1.1411702632904053,
      "learning_rate": 0.00017977772838408536,
      "loss": 2.051,
      "step": 4559
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 1.2523962259292603,
      "learning_rate": 0.00017977328295176707,
      "loss": 1.6661,
      "step": 4560
    },
    {
      "epoch": 0.10135555555555556,
      "grad_norm": 1.1678746938705444,
      "learning_rate": 0.00017976883751944878,
      "loss": 2.2319,
      "step": 4561
    },
    {
      "epoch": 0.10137777777777777,
      "grad_norm": 1.5486644506454468,
      "learning_rate": 0.00017976439208713049,
      "loss": 2.0421,
      "step": 4562
    },
    {
      "epoch": 0.1014,
      "grad_norm": 1.5725224018096924,
      "learning_rate": 0.0001797599466548122,
      "loss": 2.5077,
      "step": 4563
    },
    {
      "epoch": 0.10142222222222222,
      "grad_norm": 1.2779611349105835,
      "learning_rate": 0.0001797555012224939,
      "loss": 2.0999,
      "step": 4564
    },
    {
      "epoch": 0.10144444444444445,
      "grad_norm": 1.263800024986267,
      "learning_rate": 0.0001797510557901756,
      "loss": 2.1752,
      "step": 4565
    },
    {
      "epoch": 0.10146666666666666,
      "grad_norm": 1.360589623451233,
      "learning_rate": 0.00017974661035785732,
      "loss": 2.27,
      "step": 4566
    },
    {
      "epoch": 0.10148888888888889,
      "grad_norm": 1.156154990196228,
      "learning_rate": 0.000179742164925539,
      "loss": 1.9843,
      "step": 4567
    },
    {
      "epoch": 0.10151111111111111,
      "grad_norm": 1.3196426630020142,
      "learning_rate": 0.00017973771949322074,
      "loss": 2.0636,
      "step": 4568
    },
    {
      "epoch": 0.10153333333333334,
      "grad_norm": 1.2223477363586426,
      "learning_rate": 0.00017973327406090243,
      "loss": 1.8422,
      "step": 4569
    },
    {
      "epoch": 0.10155555555555555,
      "grad_norm": 1.2372304201126099,
      "learning_rate": 0.00017972882862858414,
      "loss": 1.7804,
      "step": 4570
    },
    {
      "epoch": 0.10157777777777778,
      "grad_norm": 1.6939142942428589,
      "learning_rate": 0.00017972438319626585,
      "loss": 2.3238,
      "step": 4571
    },
    {
      "epoch": 0.1016,
      "grad_norm": 1.4249662160873413,
      "learning_rate": 0.00017971993776394755,
      "loss": 2.1564,
      "step": 4572
    },
    {
      "epoch": 0.10162222222222222,
      "grad_norm": 1.195669174194336,
      "learning_rate": 0.00017971549233162926,
      "loss": 1.8923,
      "step": 4573
    },
    {
      "epoch": 0.10164444444444444,
      "grad_norm": 1.3309195041656494,
      "learning_rate": 0.00017971104689931097,
      "loss": 1.7738,
      "step": 4574
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 1.5576967000961304,
      "learning_rate": 0.00017970660146699268,
      "loss": 2.1503,
      "step": 4575
    },
    {
      "epoch": 0.10168888888888888,
      "grad_norm": 1.6863161325454712,
      "learning_rate": 0.00017970215603467437,
      "loss": 2.2591,
      "step": 4576
    },
    {
      "epoch": 0.10171111111111111,
      "grad_norm": 1.847129464149475,
      "learning_rate": 0.0001796977106023561,
      "loss": 2.4507,
      "step": 4577
    },
    {
      "epoch": 0.10173333333333333,
      "grad_norm": 1.155192494392395,
      "learning_rate": 0.00017969326517003779,
      "loss": 1.6717,
      "step": 4578
    },
    {
      "epoch": 0.10175555555555556,
      "grad_norm": 1.3489474058151245,
      "learning_rate": 0.0001796888197377195,
      "loss": 2.1401,
      "step": 4579
    },
    {
      "epoch": 0.10177777777777777,
      "grad_norm": 1.4400485754013062,
      "learning_rate": 0.0001796843743054012,
      "loss": 2.3982,
      "step": 4580
    },
    {
      "epoch": 0.1018,
      "grad_norm": 1.5399576425552368,
      "learning_rate": 0.00017967992887308291,
      "loss": 1.8028,
      "step": 4581
    },
    {
      "epoch": 0.10182222222222222,
      "grad_norm": 1.1433242559432983,
      "learning_rate": 0.00017967548344076462,
      "loss": 1.2652,
      "step": 4582
    },
    {
      "epoch": 0.10184444444444445,
      "grad_norm": 2.25974702835083,
      "learning_rate": 0.00017967103800844633,
      "loss": 2.0798,
      "step": 4583
    },
    {
      "epoch": 0.10186666666666666,
      "grad_norm": 1.5146572589874268,
      "learning_rate": 0.00017966659257612804,
      "loss": 2.4189,
      "step": 4584
    },
    {
      "epoch": 0.10188888888888889,
      "grad_norm": 1.6665347814559937,
      "learning_rate": 0.00017966214714380973,
      "loss": 2.0715,
      "step": 4585
    },
    {
      "epoch": 0.1019111111111111,
      "grad_norm": 1.384492039680481,
      "learning_rate": 0.00017965770171149146,
      "loss": 2.2461,
      "step": 4586
    },
    {
      "epoch": 0.10193333333333333,
      "grad_norm": 1.2817753553390503,
      "learning_rate": 0.00017965325627917314,
      "loss": 1.5799,
      "step": 4587
    },
    {
      "epoch": 0.10195555555555555,
      "grad_norm": 1.52030611038208,
      "learning_rate": 0.00017964881084685488,
      "loss": 1.8372,
      "step": 4588
    },
    {
      "epoch": 0.10197777777777778,
      "grad_norm": 1.7442991733551025,
      "learning_rate": 0.00017964436541453656,
      "loss": 2.2178,
      "step": 4589
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.4898406267166138,
      "learning_rate": 0.00017963991998221827,
      "loss": 1.6938,
      "step": 4590
    },
    {
      "epoch": 0.10202222222222222,
      "grad_norm": 1.504529356956482,
      "learning_rate": 0.00017963547454989998,
      "loss": 2.1715,
      "step": 4591
    },
    {
      "epoch": 0.10204444444444444,
      "grad_norm": 1.3955018520355225,
      "learning_rate": 0.0001796310291175817,
      "loss": 2.1935,
      "step": 4592
    },
    {
      "epoch": 0.10206666666666667,
      "grad_norm": 1.2676892280578613,
      "learning_rate": 0.0001796265836852634,
      "loss": 1.7474,
      "step": 4593
    },
    {
      "epoch": 0.1020888888888889,
      "grad_norm": 1.3315775394439697,
      "learning_rate": 0.0001796221382529451,
      "loss": 1.4655,
      "step": 4594
    },
    {
      "epoch": 0.10211111111111111,
      "grad_norm": 1.4957044124603271,
      "learning_rate": 0.00017961769282062682,
      "loss": 2.2472,
      "step": 4595
    },
    {
      "epoch": 0.10213333333333334,
      "grad_norm": 1.4856873750686646,
      "learning_rate": 0.0001796132473883085,
      "loss": 1.8713,
      "step": 4596
    },
    {
      "epoch": 0.10215555555555556,
      "grad_norm": 1.355457067489624,
      "learning_rate": 0.00017960880195599024,
      "loss": 1.4948,
      "step": 4597
    },
    {
      "epoch": 0.10217777777777778,
      "grad_norm": 1.5222852230072021,
      "learning_rate": 0.00017960435652367192,
      "loss": 1.8607,
      "step": 4598
    },
    {
      "epoch": 0.1022,
      "grad_norm": 1.9654401540756226,
      "learning_rate": 0.00017959991109135363,
      "loss": 1.5605,
      "step": 4599
    },
    {
      "epoch": 0.10222222222222223,
      "grad_norm": 1.3997873067855835,
      "learning_rate": 0.00017959546565903534,
      "loss": 1.0984,
      "step": 4600
    },
    {
      "epoch": 0.10224444444444444,
      "grad_norm": 1.0412570238113403,
      "learning_rate": 0.00017959102022671705,
      "loss": 2.5375,
      "step": 4601
    },
    {
      "epoch": 0.10226666666666667,
      "grad_norm": 1.3185845613479614,
      "learning_rate": 0.00017958657479439876,
      "loss": 2.5337,
      "step": 4602
    },
    {
      "epoch": 0.10228888888888889,
      "grad_norm": 1.1858352422714233,
      "learning_rate": 0.00017958212936208047,
      "loss": 2.4824,
      "step": 4603
    },
    {
      "epoch": 0.10231111111111112,
      "grad_norm": 1.074351191520691,
      "learning_rate": 0.00017957768392976218,
      "loss": 2.2161,
      "step": 4604
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 1.1715136766433716,
      "learning_rate": 0.00017957323849744386,
      "loss": 2.0258,
      "step": 4605
    },
    {
      "epoch": 0.10235555555555556,
      "grad_norm": 1.1067131757736206,
      "learning_rate": 0.0001795687930651256,
      "loss": 1.9996,
      "step": 4606
    },
    {
      "epoch": 0.10237777777777778,
      "grad_norm": 1.2037277221679688,
      "learning_rate": 0.00017956434763280728,
      "loss": 2.2758,
      "step": 4607
    },
    {
      "epoch": 0.1024,
      "grad_norm": 1.1180009841918945,
      "learning_rate": 0.00017955990220048902,
      "loss": 2.0901,
      "step": 4608
    },
    {
      "epoch": 0.10242222222222222,
      "grad_norm": 1.1651686429977417,
      "learning_rate": 0.0001795554567681707,
      "loss": 2.1304,
      "step": 4609
    },
    {
      "epoch": 0.10244444444444445,
      "grad_norm": 1.2160648107528687,
      "learning_rate": 0.0001795510113358524,
      "loss": 2.4842,
      "step": 4610
    },
    {
      "epoch": 0.10246666666666666,
      "grad_norm": 1.2420545816421509,
      "learning_rate": 0.00017954656590353415,
      "loss": 2.6068,
      "step": 4611
    },
    {
      "epoch": 0.1024888888888889,
      "grad_norm": 1.2576555013656616,
      "learning_rate": 0.00017954212047121583,
      "loss": 2.4677,
      "step": 4612
    },
    {
      "epoch": 0.10251111111111111,
      "grad_norm": 1.2574868202209473,
      "learning_rate": 0.00017953767503889754,
      "loss": 2.0982,
      "step": 4613
    },
    {
      "epoch": 0.10253333333333334,
      "grad_norm": 1.2017476558685303,
      "learning_rate": 0.00017953322960657925,
      "loss": 1.8347,
      "step": 4614
    },
    {
      "epoch": 0.10255555555555555,
      "grad_norm": 1.086390733718872,
      "learning_rate": 0.00017952878417426096,
      "loss": 1.2219,
      "step": 4615
    },
    {
      "epoch": 0.10257777777777778,
      "grad_norm": 1.362026572227478,
      "learning_rate": 0.00017952433874194264,
      "loss": 2.381,
      "step": 4616
    },
    {
      "epoch": 0.1026,
      "grad_norm": 1.6786465644836426,
      "learning_rate": 0.00017951989330962438,
      "loss": 1.6736,
      "step": 4617
    },
    {
      "epoch": 0.10262222222222223,
      "grad_norm": 1.2606959342956543,
      "learning_rate": 0.0001795154478773061,
      "loss": 1.7454,
      "step": 4618
    },
    {
      "epoch": 0.10264444444444444,
      "grad_norm": 1.5881798267364502,
      "learning_rate": 0.00017951100244498777,
      "loss": 2.7024,
      "step": 4619
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 1.2433445453643799,
      "learning_rate": 0.0001795065570126695,
      "loss": 1.7929,
      "step": 4620
    },
    {
      "epoch": 0.10268888888888889,
      "grad_norm": 1.2029064893722534,
      "learning_rate": 0.0001795021115803512,
      "loss": 2.0105,
      "step": 4621
    },
    {
      "epoch": 0.10271111111111111,
      "grad_norm": 1.5071628093719482,
      "learning_rate": 0.0001794976661480329,
      "loss": 1.9158,
      "step": 4622
    },
    {
      "epoch": 0.10273333333333333,
      "grad_norm": 1.4113117456436157,
      "learning_rate": 0.0001794932207157146,
      "loss": 2.107,
      "step": 4623
    },
    {
      "epoch": 0.10275555555555556,
      "grad_norm": 1.5553901195526123,
      "learning_rate": 0.00017948877528339632,
      "loss": 2.4155,
      "step": 4624
    },
    {
      "epoch": 0.10277777777777777,
      "grad_norm": 1.2681584358215332,
      "learning_rate": 0.00017948432985107803,
      "loss": 1.8085,
      "step": 4625
    },
    {
      "epoch": 0.1028,
      "grad_norm": 1.3174275159835815,
      "learning_rate": 0.00017947988441875974,
      "loss": 1.8957,
      "step": 4626
    },
    {
      "epoch": 0.10282222222222222,
      "grad_norm": 1.2613061666488647,
      "learning_rate": 0.00017947543898644145,
      "loss": 1.9034,
      "step": 4627
    },
    {
      "epoch": 0.10284444444444445,
      "grad_norm": 1.515085220336914,
      "learning_rate": 0.00017947099355412316,
      "loss": 2.2849,
      "step": 4628
    },
    {
      "epoch": 0.10286666666666666,
      "grad_norm": 1.2645028829574585,
      "learning_rate": 0.00017946654812180487,
      "loss": 2.1126,
      "step": 4629
    },
    {
      "epoch": 0.10288888888888889,
      "grad_norm": 1.3133676052093506,
      "learning_rate": 0.00017946210268948655,
      "loss": 2.2592,
      "step": 4630
    },
    {
      "epoch": 0.1029111111111111,
      "grad_norm": 1.1684843301773071,
      "learning_rate": 0.0001794576572571683,
      "loss": 1.6911,
      "step": 4631
    },
    {
      "epoch": 0.10293333333333334,
      "grad_norm": 1.3858537673950195,
      "learning_rate": 0.00017945321182484997,
      "loss": 1.8967,
      "step": 4632
    },
    {
      "epoch": 0.10295555555555555,
      "grad_norm": 1.3120898008346558,
      "learning_rate": 0.00017944876639253168,
      "loss": 2.1183,
      "step": 4633
    },
    {
      "epoch": 0.10297777777777778,
      "grad_norm": 1.8002424240112305,
      "learning_rate": 0.0001794443209602134,
      "loss": 2.2696,
      "step": 4634
    },
    {
      "epoch": 0.103,
      "grad_norm": 1.4287925958633423,
      "learning_rate": 0.0001794398755278951,
      "loss": 1.817,
      "step": 4635
    },
    {
      "epoch": 0.10302222222222222,
      "grad_norm": 1.5401346683502197,
      "learning_rate": 0.0001794354300955768,
      "loss": 1.5767,
      "step": 4636
    },
    {
      "epoch": 0.10304444444444444,
      "grad_norm": 1.336228370666504,
      "learning_rate": 0.00017943098466325852,
      "loss": 1.9442,
      "step": 4637
    },
    {
      "epoch": 0.10306666666666667,
      "grad_norm": 1.4568718671798706,
      "learning_rate": 0.00017942653923094023,
      "loss": 1.9845,
      "step": 4638
    },
    {
      "epoch": 0.10308888888888888,
      "grad_norm": 1.5085418224334717,
      "learning_rate": 0.0001794220937986219,
      "loss": 1.4438,
      "step": 4639
    },
    {
      "epoch": 0.10311111111111111,
      "grad_norm": 1.366981029510498,
      "learning_rate": 0.00017941764836630365,
      "loss": 1.8725,
      "step": 4640
    },
    {
      "epoch": 0.10313333333333333,
      "grad_norm": 1.7619227170944214,
      "learning_rate": 0.00017941320293398533,
      "loss": 2.3364,
      "step": 4641
    },
    {
      "epoch": 0.10315555555555556,
      "grad_norm": 1.5690550804138184,
      "learning_rate": 0.00017940875750166704,
      "loss": 1.8431,
      "step": 4642
    },
    {
      "epoch": 0.10317777777777777,
      "grad_norm": 1.686866044998169,
      "learning_rate": 0.00017940431206934875,
      "loss": 2.4302,
      "step": 4643
    },
    {
      "epoch": 0.1032,
      "grad_norm": 1.7820451259613037,
      "learning_rate": 0.00017939986663703046,
      "loss": 2.4202,
      "step": 4644
    },
    {
      "epoch": 0.10322222222222223,
      "grad_norm": 1.4131567478179932,
      "learning_rate": 0.00017939542120471217,
      "loss": 1.7421,
      "step": 4645
    },
    {
      "epoch": 0.10324444444444444,
      "grad_norm": 1.5755765438079834,
      "learning_rate": 0.00017939097577239388,
      "loss": 2.2758,
      "step": 4646
    },
    {
      "epoch": 0.10326666666666667,
      "grad_norm": 1.1355630159378052,
      "learning_rate": 0.00017938653034007559,
      "loss": 1.7723,
      "step": 4647
    },
    {
      "epoch": 0.10328888888888889,
      "grad_norm": 1.059228777885437,
      "learning_rate": 0.0001793820849077573,
      "loss": 0.9362,
      "step": 4648
    },
    {
      "epoch": 0.10331111111111112,
      "grad_norm": 1.6165074110031128,
      "learning_rate": 0.000179377639475439,
      "loss": 2.4257,
      "step": 4649
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 1.3630965948104858,
      "learning_rate": 0.0001793731940431207,
      "loss": 1.037,
      "step": 4650
    },
    {
      "epoch": 0.10335555555555556,
      "grad_norm": 0.8397119045257568,
      "learning_rate": 0.00017936874861080242,
      "loss": 1.2374,
      "step": 4651
    },
    {
      "epoch": 0.10337777777777778,
      "grad_norm": 1.1855571269989014,
      "learning_rate": 0.0001793643031784841,
      "loss": 2.1357,
      "step": 4652
    },
    {
      "epoch": 0.1034,
      "grad_norm": 1.1406707763671875,
      "learning_rate": 0.00017935985774616582,
      "loss": 2.4501,
      "step": 4653
    },
    {
      "epoch": 0.10342222222222222,
      "grad_norm": 1.0034575462341309,
      "learning_rate": 0.00017935541231384753,
      "loss": 2.0184,
      "step": 4654
    },
    {
      "epoch": 0.10344444444444445,
      "grad_norm": 1.1791536808013916,
      "learning_rate": 0.00017935096688152924,
      "loss": 2.3305,
      "step": 4655
    },
    {
      "epoch": 0.10346666666666667,
      "grad_norm": 1.5166912078857422,
      "learning_rate": 0.00017934652144921095,
      "loss": 2.536,
      "step": 4656
    },
    {
      "epoch": 0.1034888888888889,
      "grad_norm": 1.3112488985061646,
      "learning_rate": 0.00017934207601689266,
      "loss": 2.4141,
      "step": 4657
    },
    {
      "epoch": 0.10351111111111111,
      "grad_norm": 1.2915891408920288,
      "learning_rate": 0.00017933763058457437,
      "loss": 2.1156,
      "step": 4658
    },
    {
      "epoch": 0.10353333333333334,
      "grad_norm": 1.3239997625350952,
      "learning_rate": 0.00017933318515225605,
      "loss": 2.5297,
      "step": 4659
    },
    {
      "epoch": 0.10355555555555555,
      "grad_norm": 1.2447015047073364,
      "learning_rate": 0.00017932873971993778,
      "loss": 2.1459,
      "step": 4660
    },
    {
      "epoch": 0.10357777777777778,
      "grad_norm": 1.2146960496902466,
      "learning_rate": 0.00017932429428761947,
      "loss": 2.5321,
      "step": 4661
    },
    {
      "epoch": 0.1036,
      "grad_norm": 1.3347951173782349,
      "learning_rate": 0.00017931984885530118,
      "loss": 2.353,
      "step": 4662
    },
    {
      "epoch": 0.10362222222222223,
      "grad_norm": 1.039957880973816,
      "learning_rate": 0.00017931540342298289,
      "loss": 1.7461,
      "step": 4663
    },
    {
      "epoch": 0.10364444444444444,
      "grad_norm": 1.240303874015808,
      "learning_rate": 0.0001793109579906646,
      "loss": 2.2365,
      "step": 4664
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 1.6558023691177368,
      "learning_rate": 0.0001793065125583463,
      "loss": 2.2952,
      "step": 4665
    },
    {
      "epoch": 0.10368888888888889,
      "grad_norm": 1.3637255430221558,
      "learning_rate": 0.00017930206712602801,
      "loss": 2.4326,
      "step": 4666
    },
    {
      "epoch": 0.10371111111111112,
      "grad_norm": 1.1824246644973755,
      "learning_rate": 0.00017929762169370972,
      "loss": 2.1414,
      "step": 4667
    },
    {
      "epoch": 0.10373333333333333,
      "grad_norm": 1.566886067390442,
      "learning_rate": 0.00017929317626139143,
      "loss": 1.8825,
      "step": 4668
    },
    {
      "epoch": 0.10375555555555556,
      "grad_norm": 1.238523244857788,
      "learning_rate": 0.00017928873082907314,
      "loss": 1.7236,
      "step": 4669
    },
    {
      "epoch": 0.10377777777777777,
      "grad_norm": 1.2555123567581177,
      "learning_rate": 0.00017928428539675483,
      "loss": 2.3086,
      "step": 4670
    },
    {
      "epoch": 0.1038,
      "grad_norm": 1.174302101135254,
      "learning_rate": 0.00017927983996443656,
      "loss": 1.5017,
      "step": 4671
    },
    {
      "epoch": 0.10382222222222222,
      "grad_norm": 1.2573962211608887,
      "learning_rate": 0.00017927539453211825,
      "loss": 2.0492,
      "step": 4672
    },
    {
      "epoch": 0.10384444444444445,
      "grad_norm": 1.6517279148101807,
      "learning_rate": 0.00017927094909979996,
      "loss": 2.3336,
      "step": 4673
    },
    {
      "epoch": 0.10386666666666666,
      "grad_norm": 1.2209466695785522,
      "learning_rate": 0.00017926650366748166,
      "loss": 1.7249,
      "step": 4674
    },
    {
      "epoch": 0.10388888888888889,
      "grad_norm": 1.1546794176101685,
      "learning_rate": 0.00017926205823516337,
      "loss": 1.6352,
      "step": 4675
    },
    {
      "epoch": 0.1039111111111111,
      "grad_norm": 1.363912582397461,
      "learning_rate": 0.00017925761280284508,
      "loss": 2.3831,
      "step": 4676
    },
    {
      "epoch": 0.10393333333333334,
      "grad_norm": 1.3337188959121704,
      "learning_rate": 0.0001792531673705268,
      "loss": 1.7637,
      "step": 4677
    },
    {
      "epoch": 0.10395555555555555,
      "grad_norm": 1.9137290716171265,
      "learning_rate": 0.0001792487219382085,
      "loss": 2.044,
      "step": 4678
    },
    {
      "epoch": 0.10397777777777778,
      "grad_norm": 1.146369218826294,
      "learning_rate": 0.00017924427650589019,
      "loss": 1.8023,
      "step": 4679
    },
    {
      "epoch": 0.104,
      "grad_norm": 1.2753961086273193,
      "learning_rate": 0.00017923983107357192,
      "loss": 2.0125,
      "step": 4680
    },
    {
      "epoch": 0.10402222222222222,
      "grad_norm": 1.3141913414001465,
      "learning_rate": 0.0001792353856412536,
      "loss": 2.3434,
      "step": 4681
    },
    {
      "epoch": 0.10404444444444444,
      "grad_norm": 1.7478870153427124,
      "learning_rate": 0.00017923094020893534,
      "loss": 1.908,
      "step": 4682
    },
    {
      "epoch": 0.10406666666666667,
      "grad_norm": 1.4790189266204834,
      "learning_rate": 0.00017922649477661702,
      "loss": 1.8963,
      "step": 4683
    },
    {
      "epoch": 0.10408888888888888,
      "grad_norm": 0.8964288830757141,
      "learning_rate": 0.00017922204934429873,
      "loss": 0.8126,
      "step": 4684
    },
    {
      "epoch": 0.10411111111111111,
      "grad_norm": 1.1856062412261963,
      "learning_rate": 0.00017921760391198047,
      "loss": 1.2994,
      "step": 4685
    },
    {
      "epoch": 0.10413333333333333,
      "grad_norm": 1.4017351865768433,
      "learning_rate": 0.00017921315847966215,
      "loss": 1.9044,
      "step": 4686
    },
    {
      "epoch": 0.10415555555555556,
      "grad_norm": 1.7440826892852783,
      "learning_rate": 0.00017920871304734386,
      "loss": 2.5096,
      "step": 4687
    },
    {
      "epoch": 0.10417777777777777,
      "grad_norm": 1.5403646230697632,
      "learning_rate": 0.00017920426761502557,
      "loss": 1.9192,
      "step": 4688
    },
    {
      "epoch": 0.1042,
      "grad_norm": 1.7913638353347778,
      "learning_rate": 0.00017919982218270728,
      "loss": 2.1075,
      "step": 4689
    },
    {
      "epoch": 0.10422222222222222,
      "grad_norm": 1.7125804424285889,
      "learning_rate": 0.00017919537675038896,
      "loss": 1.8505,
      "step": 4690
    },
    {
      "epoch": 0.10424444444444445,
      "grad_norm": 1.6220624446868896,
      "learning_rate": 0.0001791909313180707,
      "loss": 2.1024,
      "step": 4691
    },
    {
      "epoch": 0.10426666666666666,
      "grad_norm": 1.75843346118927,
      "learning_rate": 0.0001791864858857524,
      "loss": 2.3189,
      "step": 4692
    },
    {
      "epoch": 0.10428888888888889,
      "grad_norm": 1.722414493560791,
      "learning_rate": 0.0001791820404534341,
      "loss": 1.8609,
      "step": 4693
    },
    {
      "epoch": 0.1043111111111111,
      "grad_norm": 1.6046638488769531,
      "learning_rate": 0.00017917759502111583,
      "loss": 1.8687,
      "step": 4694
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 1.341619610786438,
      "learning_rate": 0.0001791731495887975,
      "loss": 1.9194,
      "step": 4695
    },
    {
      "epoch": 0.10435555555555555,
      "grad_norm": 1.5972071886062622,
      "learning_rate": 0.00017916870415647922,
      "loss": 2.2778,
      "step": 4696
    },
    {
      "epoch": 0.10437777777777778,
      "grad_norm": 1.3288145065307617,
      "learning_rate": 0.00017916425872416093,
      "loss": 1.6617,
      "step": 4697
    },
    {
      "epoch": 0.1044,
      "grad_norm": 1.6051876544952393,
      "learning_rate": 0.00017915981329184264,
      "loss": 1.8437,
      "step": 4698
    },
    {
      "epoch": 0.10442222222222222,
      "grad_norm": 1.7933837175369263,
      "learning_rate": 0.00017915536785952432,
      "loss": 1.95,
      "step": 4699
    },
    {
      "epoch": 0.10444444444444445,
      "grad_norm": 1.4337576627731323,
      "learning_rate": 0.00017915092242720606,
      "loss": 1.7093,
      "step": 4700
    },
    {
      "epoch": 0.10446666666666667,
      "grad_norm": 1.213118314743042,
      "learning_rate": 0.00017914647699488777,
      "loss": 2.6718,
      "step": 4701
    },
    {
      "epoch": 0.1044888888888889,
      "grad_norm": 1.1741292476654053,
      "learning_rate": 0.00017914203156256948,
      "loss": 2.4319,
      "step": 4702
    },
    {
      "epoch": 0.10451111111111111,
      "grad_norm": 1.1501327753067017,
      "learning_rate": 0.0001791375861302512,
      "loss": 2.3273,
      "step": 4703
    },
    {
      "epoch": 0.10453333333333334,
      "grad_norm": 1.2908824682235718,
      "learning_rate": 0.00017913314069793287,
      "loss": 2.25,
      "step": 4704
    },
    {
      "epoch": 0.10455555555555555,
      "grad_norm": 1.2125142812728882,
      "learning_rate": 0.0001791286952656146,
      "loss": 2.3531,
      "step": 4705
    },
    {
      "epoch": 0.10457777777777778,
      "grad_norm": 1.2105412483215332,
      "learning_rate": 0.0001791242498332963,
      "loss": 2.1998,
      "step": 4706
    },
    {
      "epoch": 0.1046,
      "grad_norm": 1.067679762840271,
      "learning_rate": 0.000179119804400978,
      "loss": 1.9206,
      "step": 4707
    },
    {
      "epoch": 0.10462222222222223,
      "grad_norm": 1.1268724203109741,
      "learning_rate": 0.0001791153589686597,
      "loss": 2.1677,
      "step": 4708
    },
    {
      "epoch": 0.10464444444444444,
      "grad_norm": 1.1919324398040771,
      "learning_rate": 0.00017911091353634142,
      "loss": 2.4894,
      "step": 4709
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 1.278702974319458,
      "learning_rate": 0.00017910646810402313,
      "loss": 0.8101,
      "step": 4710
    },
    {
      "epoch": 0.10468888888888889,
      "grad_norm": 1.2591575384140015,
      "learning_rate": 0.00017910202267170484,
      "loss": 2.6963,
      "step": 4711
    },
    {
      "epoch": 0.10471111111111112,
      "grad_norm": 1.5875438451766968,
      "learning_rate": 0.00017909757723938655,
      "loss": 2.4404,
      "step": 4712
    },
    {
      "epoch": 0.10473333333333333,
      "grad_norm": 1.4721304178237915,
      "learning_rate": 0.00017909313180706823,
      "loss": 2.2582,
      "step": 4713
    },
    {
      "epoch": 0.10475555555555556,
      "grad_norm": 1.1468361616134644,
      "learning_rate": 0.00017908868637474997,
      "loss": 1.5026,
      "step": 4714
    },
    {
      "epoch": 0.10477777777777778,
      "grad_norm": 1.3252166509628296,
      "learning_rate": 0.00017908424094243165,
      "loss": 2.0172,
      "step": 4715
    },
    {
      "epoch": 0.1048,
      "grad_norm": 1.3450089693069458,
      "learning_rate": 0.00017907979551011336,
      "loss": 2.2964,
      "step": 4716
    },
    {
      "epoch": 0.10482222222222222,
      "grad_norm": 1.4002469778060913,
      "learning_rate": 0.00017907535007779507,
      "loss": 2.3678,
      "step": 4717
    },
    {
      "epoch": 0.10484444444444445,
      "grad_norm": 1.2362087965011597,
      "learning_rate": 0.00017907090464547678,
      "loss": 1.9837,
      "step": 4718
    },
    {
      "epoch": 0.10486666666666666,
      "grad_norm": 1.0984290838241577,
      "learning_rate": 0.0001790664592131585,
      "loss": 1.7908,
      "step": 4719
    },
    {
      "epoch": 0.10488888888888889,
      "grad_norm": 1.2312449216842651,
      "learning_rate": 0.0001790620137808402,
      "loss": 2.3593,
      "step": 4720
    },
    {
      "epoch": 0.10491111111111111,
      "grad_norm": 1.186219334602356,
      "learning_rate": 0.0001790575683485219,
      "loss": 2.3052,
      "step": 4721
    },
    {
      "epoch": 0.10493333333333334,
      "grad_norm": 1.9416412115097046,
      "learning_rate": 0.00017905312291620362,
      "loss": 2.1005,
      "step": 4722
    },
    {
      "epoch": 0.10495555555555555,
      "grad_norm": 1.5877373218536377,
      "learning_rate": 0.00017904867748388533,
      "loss": 2.1296,
      "step": 4723
    },
    {
      "epoch": 0.10497777777777778,
      "grad_norm": 1.4939285516738892,
      "learning_rate": 0.000179044232051567,
      "loss": 2.2017,
      "step": 4724
    },
    {
      "epoch": 0.105,
      "grad_norm": 1.6222294569015503,
      "learning_rate": 0.00017903978661924875,
      "loss": 2.1711,
      "step": 4725
    },
    {
      "epoch": 0.10502222222222223,
      "grad_norm": 1.5012242794036865,
      "learning_rate": 0.00017903534118693043,
      "loss": 2.3452,
      "step": 4726
    },
    {
      "epoch": 0.10504444444444444,
      "grad_norm": 1.6099516153335571,
      "learning_rate": 0.00017903089575461214,
      "loss": 2.2325,
      "step": 4727
    },
    {
      "epoch": 0.10506666666666667,
      "grad_norm": 1.3687937259674072,
      "learning_rate": 0.00017902645032229385,
      "loss": 2.1793,
      "step": 4728
    },
    {
      "epoch": 0.10508888888888888,
      "grad_norm": 1.3842027187347412,
      "learning_rate": 0.00017902200488997556,
      "loss": 1.632,
      "step": 4729
    },
    {
      "epoch": 0.10511111111111111,
      "grad_norm": 1.439971923828125,
      "learning_rate": 0.00017901755945765727,
      "loss": 2.2228,
      "step": 4730
    },
    {
      "epoch": 0.10513333333333333,
      "grad_norm": 1.350061058998108,
      "learning_rate": 0.00017901311402533898,
      "loss": 1.861,
      "step": 4731
    },
    {
      "epoch": 0.10515555555555556,
      "grad_norm": 1.3200052976608276,
      "learning_rate": 0.0001790086685930207,
      "loss": 2.1378,
      "step": 4732
    },
    {
      "epoch": 0.10517777777777777,
      "grad_norm": 1.5480362176895142,
      "learning_rate": 0.00017900422316070237,
      "loss": 1.9267,
      "step": 4733
    },
    {
      "epoch": 0.1052,
      "grad_norm": 1.4195936918258667,
      "learning_rate": 0.0001789997777283841,
      "loss": 1.5747,
      "step": 4734
    },
    {
      "epoch": 0.10522222222222222,
      "grad_norm": 1.2044605016708374,
      "learning_rate": 0.0001789953322960658,
      "loss": 1.9024,
      "step": 4735
    },
    {
      "epoch": 0.10524444444444445,
      "grad_norm": 1.2100012302398682,
      "learning_rate": 0.0001789908868637475,
      "loss": 1.7301,
      "step": 4736
    },
    {
      "epoch": 0.10526666666666666,
      "grad_norm": 1.2560068368911743,
      "learning_rate": 0.0001789864414314292,
      "loss": 1.7934,
      "step": 4737
    },
    {
      "epoch": 0.10528888888888889,
      "grad_norm": 1.6757310628890991,
      "learning_rate": 0.00017898199599911092,
      "loss": 2.1064,
      "step": 4738
    },
    {
      "epoch": 0.1053111111111111,
      "grad_norm": 1.3027863502502441,
      "learning_rate": 0.00017897755056679263,
      "loss": 1.7545,
      "step": 4739
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 1.9690635204315186,
      "learning_rate": 0.00017897310513447434,
      "loss": 1.8703,
      "step": 4740
    },
    {
      "epoch": 0.10535555555555555,
      "grad_norm": 1.5110101699829102,
      "learning_rate": 0.00017896865970215605,
      "loss": 1.8594,
      "step": 4741
    },
    {
      "epoch": 0.10537777777777778,
      "grad_norm": 1.3774563074111938,
      "learning_rate": 0.00017896421426983776,
      "loss": 1.9482,
      "step": 4742
    },
    {
      "epoch": 0.1054,
      "grad_norm": 1.1434893608093262,
      "learning_rate": 0.00017895976883751947,
      "loss": 1.4703,
      "step": 4743
    },
    {
      "epoch": 0.10542222222222222,
      "grad_norm": 1.6772842407226562,
      "learning_rate": 0.00017895532340520115,
      "loss": 2.4015,
      "step": 4744
    },
    {
      "epoch": 0.10544444444444444,
      "grad_norm": 1.4966915845870972,
      "learning_rate": 0.00017895087797288289,
      "loss": 2.1092,
      "step": 4745
    },
    {
      "epoch": 0.10546666666666667,
      "grad_norm": 1.4620712995529175,
      "learning_rate": 0.00017894643254056457,
      "loss": 1.8991,
      "step": 4746
    },
    {
      "epoch": 0.10548888888888888,
      "grad_norm": 1.4245212078094482,
      "learning_rate": 0.00017894198710824628,
      "loss": 1.6592,
      "step": 4747
    },
    {
      "epoch": 0.10551111111111111,
      "grad_norm": 1.5226815938949585,
      "learning_rate": 0.000178937541675928,
      "loss": 1.7001,
      "step": 4748
    },
    {
      "epoch": 0.10553333333333334,
      "grad_norm": 1.407592535018921,
      "learning_rate": 0.0001789330962436097,
      "loss": 1.525,
      "step": 4749
    },
    {
      "epoch": 0.10555555555555556,
      "grad_norm": 1.8174995183944702,
      "learning_rate": 0.0001789286508112914,
      "loss": 1.8836,
      "step": 4750
    },
    {
      "epoch": 0.10557777777777778,
      "grad_norm": 1.2203701734542847,
      "learning_rate": 0.00017892420537897312,
      "loss": 2.3811,
      "step": 4751
    },
    {
      "epoch": 0.1056,
      "grad_norm": 1.1053575277328491,
      "learning_rate": 0.00017891975994665483,
      "loss": 2.0804,
      "step": 4752
    },
    {
      "epoch": 0.10562222222222223,
      "grad_norm": 1.281872034072876,
      "learning_rate": 0.0001789153145143365,
      "loss": 2.5541,
      "step": 4753
    },
    {
      "epoch": 0.10564444444444444,
      "grad_norm": 1.1466424465179443,
      "learning_rate": 0.00017891086908201824,
      "loss": 2.3009,
      "step": 4754
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 2.035588502883911,
      "learning_rate": 0.00017890642364969993,
      "loss": 2.1204,
      "step": 4755
    },
    {
      "epoch": 0.10568888888888889,
      "grad_norm": 1.331515908241272,
      "learning_rate": 0.00017890197821738164,
      "loss": 2.4788,
      "step": 4756
    },
    {
      "epoch": 0.10571111111111112,
      "grad_norm": 1.2990413904190063,
      "learning_rate": 0.00017889753278506335,
      "loss": 2.3972,
      "step": 4757
    },
    {
      "epoch": 0.10573333333333333,
      "grad_norm": 1.1266638040542603,
      "learning_rate": 0.00017889308735274506,
      "loss": 2.3233,
      "step": 4758
    },
    {
      "epoch": 0.10575555555555556,
      "grad_norm": 1.1677242517471313,
      "learning_rate": 0.0001788886419204268,
      "loss": 1.0468,
      "step": 4759
    },
    {
      "epoch": 0.10577777777777778,
      "grad_norm": 1.148490071296692,
      "learning_rate": 0.00017888419648810848,
      "loss": 2.4618,
      "step": 4760
    },
    {
      "epoch": 0.1058,
      "grad_norm": 1.2375208139419556,
      "learning_rate": 0.00017887975105579018,
      "loss": 2.0278,
      "step": 4761
    },
    {
      "epoch": 0.10582222222222222,
      "grad_norm": 1.6354830265045166,
      "learning_rate": 0.0001788753056234719,
      "loss": 3.0135,
      "step": 4762
    },
    {
      "epoch": 0.10584444444444445,
      "grad_norm": 1.2000577449798584,
      "learning_rate": 0.0001788708601911536,
      "loss": 1.9629,
      "step": 4763
    },
    {
      "epoch": 0.10586666666666666,
      "grad_norm": 1.2368160486221313,
      "learning_rate": 0.0001788664147588353,
      "loss": 2.2188,
      "step": 4764
    },
    {
      "epoch": 0.1058888888888889,
      "grad_norm": 1.275530219078064,
      "learning_rate": 0.00017886196932651702,
      "loss": 1.9226,
      "step": 4765
    },
    {
      "epoch": 0.10591111111111111,
      "grad_norm": 1.4124844074249268,
      "learning_rate": 0.00017885752389419873,
      "loss": 1.7367,
      "step": 4766
    },
    {
      "epoch": 0.10593333333333334,
      "grad_norm": 1.3520641326904297,
      "learning_rate": 0.00017885307846188042,
      "loss": 1.6431,
      "step": 4767
    },
    {
      "epoch": 0.10595555555555555,
      "grad_norm": 1.2531776428222656,
      "learning_rate": 0.00017884863302956215,
      "loss": 1.7625,
      "step": 4768
    },
    {
      "epoch": 0.10597777777777778,
      "grad_norm": 1.1857998371124268,
      "learning_rate": 0.00017884418759724383,
      "loss": 1.8581,
      "step": 4769
    },
    {
      "epoch": 0.106,
      "grad_norm": 1.1404083967208862,
      "learning_rate": 0.00017883974216492554,
      "loss": 1.9312,
      "step": 4770
    },
    {
      "epoch": 0.10602222222222223,
      "grad_norm": 1.3994954824447632,
      "learning_rate": 0.00017883529673260725,
      "loss": 2.177,
      "step": 4771
    },
    {
      "epoch": 0.10604444444444444,
      "grad_norm": 1.3618932962417603,
      "learning_rate": 0.00017883085130028896,
      "loss": 1.8714,
      "step": 4772
    },
    {
      "epoch": 0.10606666666666667,
      "grad_norm": 1.509718656539917,
      "learning_rate": 0.00017882640586797065,
      "loss": 2.6175,
      "step": 4773
    },
    {
      "epoch": 0.10608888888888889,
      "grad_norm": 1.5017961263656616,
      "learning_rate": 0.00017882196043565238,
      "loss": 1.9237,
      "step": 4774
    },
    {
      "epoch": 0.10611111111111111,
      "grad_norm": 1.3233697414398193,
      "learning_rate": 0.0001788175150033341,
      "loss": 2.0806,
      "step": 4775
    },
    {
      "epoch": 0.10613333333333333,
      "grad_norm": 1.19089674949646,
      "learning_rate": 0.00017881306957101577,
      "loss": 1.3739,
      "step": 4776
    },
    {
      "epoch": 0.10615555555555556,
      "grad_norm": 1.4545414447784424,
      "learning_rate": 0.0001788086241386975,
      "loss": 2.0857,
      "step": 4777
    },
    {
      "epoch": 0.10617777777777777,
      "grad_norm": 1.4069355726242065,
      "learning_rate": 0.0001788041787063792,
      "loss": 1.9801,
      "step": 4778
    },
    {
      "epoch": 0.1062,
      "grad_norm": 1.385577917098999,
      "learning_rate": 0.00017879973327406093,
      "loss": 1.9267,
      "step": 4779
    },
    {
      "epoch": 0.10622222222222222,
      "grad_norm": 1.0476232767105103,
      "learning_rate": 0.0001787952878417426,
      "loss": 1.1107,
      "step": 4780
    },
    {
      "epoch": 0.10624444444444445,
      "grad_norm": 1.624247670173645,
      "learning_rate": 0.00017879084240942432,
      "loss": 1.8352,
      "step": 4781
    },
    {
      "epoch": 0.10626666666666666,
      "grad_norm": 1.4389219284057617,
      "learning_rate": 0.00017878639697710603,
      "loss": 2.073,
      "step": 4782
    },
    {
      "epoch": 0.10628888888888889,
      "grad_norm": 1.6805499792099,
      "learning_rate": 0.00017878195154478774,
      "loss": 1.6638,
      "step": 4783
    },
    {
      "epoch": 0.1063111111111111,
      "grad_norm": 1.327546238899231,
      "learning_rate": 0.00017877750611246945,
      "loss": 1.851,
      "step": 4784
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 1.2685459852218628,
      "learning_rate": 0.00017877306068015116,
      "loss": 1.7745,
      "step": 4785
    },
    {
      "epoch": 0.10635555555555555,
      "grad_norm": 1.380784034729004,
      "learning_rate": 0.00017876861524783287,
      "loss": 1.9107,
      "step": 4786
    },
    {
      "epoch": 0.10637777777777778,
      "grad_norm": 1.4243820905685425,
      "learning_rate": 0.00017876416981551455,
      "loss": 1.5676,
      "step": 4787
    },
    {
      "epoch": 0.1064,
      "grad_norm": 1.5323160886764526,
      "learning_rate": 0.0001787597243831963,
      "loss": 2.1893,
      "step": 4788
    },
    {
      "epoch": 0.10642222222222222,
      "grad_norm": 1.447121500968933,
      "learning_rate": 0.00017875527895087797,
      "loss": 2.2089,
      "step": 4789
    },
    {
      "epoch": 0.10644444444444444,
      "grad_norm": 1.1103867292404175,
      "learning_rate": 0.00017875083351855968,
      "loss": 1.6697,
      "step": 4790
    },
    {
      "epoch": 0.10646666666666667,
      "grad_norm": 1.676403522491455,
      "learning_rate": 0.0001787463880862414,
      "loss": 1.8635,
      "step": 4791
    },
    {
      "epoch": 0.10648888888888888,
      "grad_norm": 1.495719075202942,
      "learning_rate": 0.0001787419426539231,
      "loss": 2.0954,
      "step": 4792
    },
    {
      "epoch": 0.10651111111111111,
      "grad_norm": 1.6013007164001465,
      "learning_rate": 0.0001787374972216048,
      "loss": 1.8357,
      "step": 4793
    },
    {
      "epoch": 0.10653333333333333,
      "grad_norm": 1.310623049736023,
      "learning_rate": 0.00017873305178928652,
      "loss": 1.3455,
      "step": 4794
    },
    {
      "epoch": 0.10655555555555556,
      "grad_norm": 1.3772886991500854,
      "learning_rate": 0.00017872860635696823,
      "loss": 1.5966,
      "step": 4795
    },
    {
      "epoch": 0.10657777777777777,
      "grad_norm": 1.4872381687164307,
      "learning_rate": 0.00017872416092464994,
      "loss": 1.9453,
      "step": 4796
    },
    {
      "epoch": 0.1066,
      "grad_norm": 1.821520209312439,
      "learning_rate": 0.00017871971549233165,
      "loss": 2.0848,
      "step": 4797
    },
    {
      "epoch": 0.10662222222222222,
      "grad_norm": 1.5731239318847656,
      "learning_rate": 0.00017871527006001333,
      "loss": 1.3454,
      "step": 4798
    },
    {
      "epoch": 0.10664444444444444,
      "grad_norm": 1.2627689838409424,
      "learning_rate": 0.00017871082462769507,
      "loss": 0.9885,
      "step": 4799
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 1.0051491260528564,
      "learning_rate": 0.00017870637919537675,
      "loss": 0.7215,
      "step": 4800
    },
    {
      "epoch": 0.10668888888888889,
      "grad_norm": 1.0902740955352783,
      "learning_rate": 0.00017870193376305846,
      "loss": 2.5814,
      "step": 4801
    },
    {
      "epoch": 0.10671111111111112,
      "grad_norm": 1.281722903251648,
      "learning_rate": 0.00017869748833074017,
      "loss": 2.689,
      "step": 4802
    },
    {
      "epoch": 0.10673333333333333,
      "grad_norm": 0.7057554721832275,
      "learning_rate": 0.00017869304289842188,
      "loss": 0.9449,
      "step": 4803
    },
    {
      "epoch": 0.10675555555555556,
      "grad_norm": 1.2787814140319824,
      "learning_rate": 0.0001786885974661036,
      "loss": 1.2284,
      "step": 4804
    },
    {
      "epoch": 0.10677777777777778,
      "grad_norm": 1.2882000207901,
      "learning_rate": 0.0001786841520337853,
      "loss": 1.8383,
      "step": 4805
    },
    {
      "epoch": 0.1068,
      "grad_norm": 1.1241916418075562,
      "learning_rate": 0.000178679706601467,
      "loss": 2.1864,
      "step": 4806
    },
    {
      "epoch": 0.10682222222222222,
      "grad_norm": 1.198936939239502,
      "learning_rate": 0.0001786752611691487,
      "loss": 2.4488,
      "step": 4807
    },
    {
      "epoch": 0.10684444444444445,
      "grad_norm": 1.236473560333252,
      "learning_rate": 0.00017867081573683043,
      "loss": 2.0607,
      "step": 4808
    },
    {
      "epoch": 0.10686666666666667,
      "grad_norm": 1.1822491884231567,
      "learning_rate": 0.0001786663703045121,
      "loss": 1.833,
      "step": 4809
    },
    {
      "epoch": 0.1068888888888889,
      "grad_norm": 1.7205073833465576,
      "learning_rate": 0.00017866192487219382,
      "loss": 2.3711,
      "step": 4810
    },
    {
      "epoch": 0.10691111111111111,
      "grad_norm": 1.1875735521316528,
      "learning_rate": 0.00017865747943987553,
      "loss": 1.7567,
      "step": 4811
    },
    {
      "epoch": 0.10693333333333334,
      "grad_norm": 1.2851990461349487,
      "learning_rate": 0.00017865303400755724,
      "loss": 2.2358,
      "step": 4812
    },
    {
      "epoch": 0.10695555555555555,
      "grad_norm": 0.8558325171470642,
      "learning_rate": 0.00017864858857523895,
      "loss": 1.0373,
      "step": 4813
    },
    {
      "epoch": 0.10697777777777778,
      "grad_norm": 1.146108627319336,
      "learning_rate": 0.00017864414314292066,
      "loss": 1.6266,
      "step": 4814
    },
    {
      "epoch": 0.107,
      "grad_norm": 1.458898901939392,
      "learning_rate": 0.00017863969771060237,
      "loss": 1.9737,
      "step": 4815
    },
    {
      "epoch": 0.10702222222222223,
      "grad_norm": 1.3957576751708984,
      "learning_rate": 0.00017863525227828408,
      "loss": 2.3041,
      "step": 4816
    },
    {
      "epoch": 0.10704444444444444,
      "grad_norm": 1.4162242412567139,
      "learning_rate": 0.0001786308068459658,
      "loss": 1.5047,
      "step": 4817
    },
    {
      "epoch": 0.10706666666666667,
      "grad_norm": 1.3430386781692505,
      "learning_rate": 0.00017862636141364747,
      "loss": 1.7485,
      "step": 4818
    },
    {
      "epoch": 0.10708888888888889,
      "grad_norm": 1.3710466623306274,
      "learning_rate": 0.0001786219159813292,
      "loss": 2.2305,
      "step": 4819
    },
    {
      "epoch": 0.10711111111111112,
      "grad_norm": 1.6137245893478394,
      "learning_rate": 0.0001786174705490109,
      "loss": 1.8626,
      "step": 4820
    },
    {
      "epoch": 0.10713333333333333,
      "grad_norm": 1.2521051168441772,
      "learning_rate": 0.0001786130251166926,
      "loss": 1.6502,
      "step": 4821
    },
    {
      "epoch": 0.10715555555555556,
      "grad_norm": 1.2675551176071167,
      "learning_rate": 0.0001786085796843743,
      "loss": 1.9744,
      "step": 4822
    },
    {
      "epoch": 0.10717777777777777,
      "grad_norm": 1.7004122734069824,
      "learning_rate": 0.00017860413425205602,
      "loss": 2.2287,
      "step": 4823
    },
    {
      "epoch": 0.1072,
      "grad_norm": 1.5085628032684326,
      "learning_rate": 0.00017859968881973773,
      "loss": 1.9892,
      "step": 4824
    },
    {
      "epoch": 0.10722222222222222,
      "grad_norm": 1.344618320465088,
      "learning_rate": 0.00017859524338741944,
      "loss": 1.7773,
      "step": 4825
    },
    {
      "epoch": 0.10724444444444445,
      "grad_norm": 1.485036015510559,
      "learning_rate": 0.00017859079795510115,
      "loss": 2.3897,
      "step": 4826
    },
    {
      "epoch": 0.10726666666666666,
      "grad_norm": 1.508232593536377,
      "learning_rate": 0.00017858635252278283,
      "loss": 2.5241,
      "step": 4827
    },
    {
      "epoch": 0.10728888888888889,
      "grad_norm": 1.3245428800582886,
      "learning_rate": 0.00017858190709046457,
      "loss": 1.5729,
      "step": 4828
    },
    {
      "epoch": 0.10731111111111111,
      "grad_norm": 1.2436652183532715,
      "learning_rate": 0.00017857746165814625,
      "loss": 1.8424,
      "step": 4829
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 1.1924527883529663,
      "learning_rate": 0.00017857301622582796,
      "loss": 1.5195,
      "step": 4830
    },
    {
      "epoch": 0.10735555555555555,
      "grad_norm": 1.6256686449050903,
      "learning_rate": 0.00017856857079350967,
      "loss": 2.0897,
      "step": 4831
    },
    {
      "epoch": 0.10737777777777778,
      "grad_norm": 1.4407004117965698,
      "learning_rate": 0.00017856412536119138,
      "loss": 1.9401,
      "step": 4832
    },
    {
      "epoch": 0.1074,
      "grad_norm": 1.6473324298858643,
      "learning_rate": 0.0001785596799288731,
      "loss": 1.8209,
      "step": 4833
    },
    {
      "epoch": 0.10742222222222222,
      "grad_norm": 1.5636391639709473,
      "learning_rate": 0.0001785552344965548,
      "loss": 1.8687,
      "step": 4834
    },
    {
      "epoch": 0.10744444444444444,
      "grad_norm": 1.5384244918823242,
      "learning_rate": 0.0001785507890642365,
      "loss": 1.8711,
      "step": 4835
    },
    {
      "epoch": 0.10746666666666667,
      "grad_norm": 1.4427685737609863,
      "learning_rate": 0.00017854634363191822,
      "loss": 1.6654,
      "step": 4836
    },
    {
      "epoch": 0.10748888888888888,
      "grad_norm": 1.6583229303359985,
      "learning_rate": 0.00017854189819959993,
      "loss": 1.801,
      "step": 4837
    },
    {
      "epoch": 0.10751111111111111,
      "grad_norm": 1.4824061393737793,
      "learning_rate": 0.0001785374527672816,
      "loss": 2.0656,
      "step": 4838
    },
    {
      "epoch": 0.10753333333333333,
      "grad_norm": 1.9851138591766357,
      "learning_rate": 0.00017853300733496335,
      "loss": 2.6776,
      "step": 4839
    },
    {
      "epoch": 0.10755555555555556,
      "grad_norm": 1.6271814107894897,
      "learning_rate": 0.00017852856190264505,
      "loss": 1.5037,
      "step": 4840
    },
    {
      "epoch": 0.10757777777777777,
      "grad_norm": 1.7235820293426514,
      "learning_rate": 0.00017852411647032674,
      "loss": 2.0508,
      "step": 4841
    },
    {
      "epoch": 0.1076,
      "grad_norm": 1.6878529787063599,
      "learning_rate": 0.00017851967103800847,
      "loss": 1.9263,
      "step": 4842
    },
    {
      "epoch": 0.10762222222222222,
      "grad_norm": 1.3455007076263428,
      "learning_rate": 0.00017851522560569016,
      "loss": 1.8635,
      "step": 4843
    },
    {
      "epoch": 0.10764444444444445,
      "grad_norm": 1.4259041547775269,
      "learning_rate": 0.00017851078017337187,
      "loss": 1.5115,
      "step": 4844
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 1.975699543952942,
      "learning_rate": 0.00017850633474105358,
      "loss": 2.2073,
      "step": 4845
    },
    {
      "epoch": 0.10768888888888889,
      "grad_norm": 1.9313888549804688,
      "learning_rate": 0.00017850188930873529,
      "loss": 1.9747,
      "step": 4846
    },
    {
      "epoch": 0.1077111111111111,
      "grad_norm": 1.72438645362854,
      "learning_rate": 0.00017849744387641697,
      "loss": 2.3328,
      "step": 4847
    },
    {
      "epoch": 0.10773333333333333,
      "grad_norm": 1.9362549781799316,
      "learning_rate": 0.0001784929984440987,
      "loss": 2.2887,
      "step": 4848
    },
    {
      "epoch": 0.10775555555555555,
      "grad_norm": 1.6018445491790771,
      "learning_rate": 0.00017848855301178041,
      "loss": 1.5289,
      "step": 4849
    },
    {
      "epoch": 0.10777777777777778,
      "grad_norm": 1.141117811203003,
      "learning_rate": 0.0001784841075794621,
      "loss": 0.7504,
      "step": 4850
    },
    {
      "epoch": 0.1078,
      "grad_norm": 1.1608731746673584,
      "learning_rate": 0.00017847966214714383,
      "loss": 1.8391,
      "step": 4851
    },
    {
      "epoch": 0.10782222222222222,
      "grad_norm": 0.7492461204528809,
      "learning_rate": 0.00017847521671482552,
      "loss": 1.148,
      "step": 4852
    },
    {
      "epoch": 0.10784444444444445,
      "grad_norm": 1.2936536073684692,
      "learning_rate": 0.00017847077128250725,
      "loss": 2.5965,
      "step": 4853
    },
    {
      "epoch": 0.10786666666666667,
      "grad_norm": 1.4905349016189575,
      "learning_rate": 0.00017846632585018894,
      "loss": 2.1515,
      "step": 4854
    },
    {
      "epoch": 0.1078888888888889,
      "grad_norm": 1.23819899559021,
      "learning_rate": 0.00017846188041787065,
      "loss": 2.2115,
      "step": 4855
    },
    {
      "epoch": 0.10791111111111111,
      "grad_norm": 1.4479632377624512,
      "learning_rate": 0.00017845743498555235,
      "loss": 2.641,
      "step": 4856
    },
    {
      "epoch": 0.10793333333333334,
      "grad_norm": 1.1513296365737915,
      "learning_rate": 0.00017845298955323406,
      "loss": 2.1495,
      "step": 4857
    },
    {
      "epoch": 0.10795555555555555,
      "grad_norm": 1.3184159994125366,
      "learning_rate": 0.00017844854412091577,
      "loss": 2.0914,
      "step": 4858
    },
    {
      "epoch": 0.10797777777777778,
      "grad_norm": 1.2866036891937256,
      "learning_rate": 0.00017844409868859748,
      "loss": 1.5749,
      "step": 4859
    },
    {
      "epoch": 0.108,
      "grad_norm": 1.1014026403427124,
      "learning_rate": 0.0001784396532562792,
      "loss": 2.0802,
      "step": 4860
    },
    {
      "epoch": 0.10802222222222223,
      "grad_norm": 1.5733935832977295,
      "learning_rate": 0.00017843520782396088,
      "loss": 2.6836,
      "step": 4861
    },
    {
      "epoch": 0.10804444444444444,
      "grad_norm": 1.2848235368728638,
      "learning_rate": 0.0001784307623916426,
      "loss": 2.3255,
      "step": 4862
    },
    {
      "epoch": 0.10806666666666667,
      "grad_norm": 1.2833555936813354,
      "learning_rate": 0.0001784263169593243,
      "loss": 0.9655,
      "step": 4863
    },
    {
      "epoch": 0.10808888888888889,
      "grad_norm": 1.536370873451233,
      "learning_rate": 0.000178421871527006,
      "loss": 1.7931,
      "step": 4864
    },
    {
      "epoch": 0.10811111111111112,
      "grad_norm": 1.3962472677230835,
      "learning_rate": 0.00017841742609468771,
      "loss": 2.1334,
      "step": 4865
    },
    {
      "epoch": 0.10813333333333333,
      "grad_norm": 1.568142294883728,
      "learning_rate": 0.00017841298066236942,
      "loss": 2.354,
      "step": 4866
    },
    {
      "epoch": 0.10815555555555556,
      "grad_norm": 1.3509085178375244,
      "learning_rate": 0.00017840853523005113,
      "loss": 2.1654,
      "step": 4867
    },
    {
      "epoch": 0.10817777777777778,
      "grad_norm": 1.3805365562438965,
      "learning_rate": 0.00017840408979773284,
      "loss": 2.1351,
      "step": 4868
    },
    {
      "epoch": 0.1082,
      "grad_norm": 1.3206920623779297,
      "learning_rate": 0.00017839964436541455,
      "loss": 1.9483,
      "step": 4869
    },
    {
      "epoch": 0.10822222222222222,
      "grad_norm": 1.3076742887496948,
      "learning_rate": 0.00017839519893309624,
      "loss": 1.877,
      "step": 4870
    },
    {
      "epoch": 0.10824444444444445,
      "grad_norm": 1.265954613685608,
      "learning_rate": 0.00017839075350077797,
      "loss": 1.9334,
      "step": 4871
    },
    {
      "epoch": 0.10826666666666666,
      "grad_norm": 1.1229366064071655,
      "learning_rate": 0.00017838630806845965,
      "loss": 2.0534,
      "step": 4872
    },
    {
      "epoch": 0.10828888888888889,
      "grad_norm": 1.210316777229309,
      "learning_rate": 0.0001783818626361414,
      "loss": 1.5617,
      "step": 4873
    },
    {
      "epoch": 0.10831111111111111,
      "grad_norm": 1.445582389831543,
      "learning_rate": 0.00017837741720382307,
      "loss": 2.0075,
      "step": 4874
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 1.116840124130249,
      "learning_rate": 0.00017837297177150478,
      "loss": 1.5076,
      "step": 4875
    },
    {
      "epoch": 0.10835555555555555,
      "grad_norm": 1.5497595071792603,
      "learning_rate": 0.0001783685263391865,
      "loss": 1.759,
      "step": 4876
    },
    {
      "epoch": 0.10837777777777778,
      "grad_norm": 1.470854640007019,
      "learning_rate": 0.0001783640809068682,
      "loss": 1.9371,
      "step": 4877
    },
    {
      "epoch": 0.1084,
      "grad_norm": 1.361628532409668,
      "learning_rate": 0.0001783596354745499,
      "loss": 1.9077,
      "step": 4878
    },
    {
      "epoch": 0.10842222222222223,
      "grad_norm": 1.4020766019821167,
      "learning_rate": 0.00017835519004223162,
      "loss": 2.2299,
      "step": 4879
    },
    {
      "epoch": 0.10844444444444444,
      "grad_norm": 1.097943902015686,
      "learning_rate": 0.00017835074460991333,
      "loss": 0.7599,
      "step": 4880
    },
    {
      "epoch": 0.10846666666666667,
      "grad_norm": 1.819696307182312,
      "learning_rate": 0.00017834629917759501,
      "loss": 1.8885,
      "step": 4881
    },
    {
      "epoch": 0.10848888888888888,
      "grad_norm": 1.4998507499694824,
      "learning_rate": 0.00017834185374527675,
      "loss": 2.2118,
      "step": 4882
    },
    {
      "epoch": 0.10851111111111111,
      "grad_norm": 1.3697640895843506,
      "learning_rate": 0.00017833740831295843,
      "loss": 1.6194,
      "step": 4883
    },
    {
      "epoch": 0.10853333333333333,
      "grad_norm": 1.3775430917739868,
      "learning_rate": 0.00017833296288064014,
      "loss": 1.9667,
      "step": 4884
    },
    {
      "epoch": 0.10855555555555556,
      "grad_norm": 1.5209304094314575,
      "learning_rate": 0.00017832851744832185,
      "loss": 2.084,
      "step": 4885
    },
    {
      "epoch": 0.10857777777777777,
      "grad_norm": 1.9952448606491089,
      "learning_rate": 0.00017832407201600356,
      "loss": 1.863,
      "step": 4886
    },
    {
      "epoch": 0.1086,
      "grad_norm": 1.7274080514907837,
      "learning_rate": 0.00017831962658368527,
      "loss": 2.3409,
      "step": 4887
    },
    {
      "epoch": 0.10862222222222222,
      "grad_norm": 1.2222557067871094,
      "learning_rate": 0.00017831518115136698,
      "loss": 0.8603,
      "step": 4888
    },
    {
      "epoch": 0.10864444444444445,
      "grad_norm": 1.3831441402435303,
      "learning_rate": 0.0001783107357190487,
      "loss": 2.0508,
      "step": 4889
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 1.679049015045166,
      "learning_rate": 0.0001783062902867304,
      "loss": 1.7804,
      "step": 4890
    },
    {
      "epoch": 0.10868888888888889,
      "grad_norm": 1.5535331964492798,
      "learning_rate": 0.0001783018448544121,
      "loss": 2.0566,
      "step": 4891
    },
    {
      "epoch": 0.1087111111111111,
      "grad_norm": 1.339060664176941,
      "learning_rate": 0.0001782973994220938,
      "loss": 1.3368,
      "step": 4892
    },
    {
      "epoch": 0.10873333333333333,
      "grad_norm": 1.4295165538787842,
      "learning_rate": 0.00017829295398977553,
      "loss": 1.6355,
      "step": 4893
    },
    {
      "epoch": 0.10875555555555555,
      "grad_norm": 1.288623332977295,
      "learning_rate": 0.0001782885085574572,
      "loss": 1.6462,
      "step": 4894
    },
    {
      "epoch": 0.10877777777777778,
      "grad_norm": 1.2904632091522217,
      "learning_rate": 0.00017828406312513892,
      "loss": 1.8499,
      "step": 4895
    },
    {
      "epoch": 0.1088,
      "grad_norm": 1.1083375215530396,
      "learning_rate": 0.00017827961769282063,
      "loss": 1.0046,
      "step": 4896
    },
    {
      "epoch": 0.10882222222222222,
      "grad_norm": 1.6553095579147339,
      "learning_rate": 0.00017827517226050234,
      "loss": 2.0296,
      "step": 4897
    },
    {
      "epoch": 0.10884444444444444,
      "grad_norm": 1.8628255128860474,
      "learning_rate": 0.00017827072682818405,
      "loss": 2.0301,
      "step": 4898
    },
    {
      "epoch": 0.10886666666666667,
      "grad_norm": 1.0950030088424683,
      "learning_rate": 0.00017826628139586576,
      "loss": 0.9646,
      "step": 4899
    },
    {
      "epoch": 0.10888888888888888,
      "grad_norm": 1.362380027770996,
      "learning_rate": 0.00017826183596354747,
      "loss": 0.9393,
      "step": 4900
    },
    {
      "epoch": 0.10891111111111111,
      "grad_norm": 1.2046605348587036,
      "learning_rate": 0.00017825739053122915,
      "loss": 2.5841,
      "step": 4901
    },
    {
      "epoch": 0.10893333333333333,
      "grad_norm": 1.240393877029419,
      "learning_rate": 0.0001782529450989109,
      "loss": 2.2994,
      "step": 4902
    },
    {
      "epoch": 0.10895555555555556,
      "grad_norm": 1.2417223453521729,
      "learning_rate": 0.00017824849966659257,
      "loss": 2.3333,
      "step": 4903
    },
    {
      "epoch": 0.10897777777777778,
      "grad_norm": 1.2935045957565308,
      "learning_rate": 0.00017824405423427428,
      "loss": 2.4592,
      "step": 4904
    },
    {
      "epoch": 0.109,
      "grad_norm": 1.198891520500183,
      "learning_rate": 0.000178239608801956,
      "loss": 2.2766,
      "step": 4905
    },
    {
      "epoch": 0.10902222222222223,
      "grad_norm": 1.267836570739746,
      "learning_rate": 0.0001782351633696377,
      "loss": 2.327,
      "step": 4906
    },
    {
      "epoch": 0.10904444444444444,
      "grad_norm": 1.1461093425750732,
      "learning_rate": 0.0001782307179373194,
      "loss": 2.1304,
      "step": 4907
    },
    {
      "epoch": 0.10906666666666667,
      "grad_norm": 1.1516743898391724,
      "learning_rate": 0.00017822627250500112,
      "loss": 1.8076,
      "step": 4908
    },
    {
      "epoch": 0.10908888888888889,
      "grad_norm": 1.1365642547607422,
      "learning_rate": 0.00017822182707268283,
      "loss": 1.9656,
      "step": 4909
    },
    {
      "epoch": 0.10911111111111112,
      "grad_norm": 1.3225398063659668,
      "learning_rate": 0.00017821738164036454,
      "loss": 2.2263,
      "step": 4910
    },
    {
      "epoch": 0.10913333333333333,
      "grad_norm": 1.1225049495697021,
      "learning_rate": 0.00017821293620804625,
      "loss": 2.1251,
      "step": 4911
    },
    {
      "epoch": 0.10915555555555556,
      "grad_norm": 1.3000221252441406,
      "learning_rate": 0.00017820849077572793,
      "loss": 1.6102,
      "step": 4912
    },
    {
      "epoch": 0.10917777777777778,
      "grad_norm": 1.3952467441558838,
      "learning_rate": 0.00017820404534340967,
      "loss": 2.2641,
      "step": 4913
    },
    {
      "epoch": 0.1092,
      "grad_norm": 1.2409698963165283,
      "learning_rate": 0.00017819959991109138,
      "loss": 2.2962,
      "step": 4914
    },
    {
      "epoch": 0.10922222222222222,
      "grad_norm": 1.2674980163574219,
      "learning_rate": 0.00017819515447877306,
      "loss": 2.182,
      "step": 4915
    },
    {
      "epoch": 0.10924444444444445,
      "grad_norm": 1.1855359077453613,
      "learning_rate": 0.0001781907090464548,
      "loss": 2.0495,
      "step": 4916
    },
    {
      "epoch": 0.10926666666666666,
      "grad_norm": 1.5238451957702637,
      "learning_rate": 0.00017818626361413648,
      "loss": 2.3102,
      "step": 4917
    },
    {
      "epoch": 0.1092888888888889,
      "grad_norm": 1.4892759323120117,
      "learning_rate": 0.0001781818181818182,
      "loss": 2.2334,
      "step": 4918
    },
    {
      "epoch": 0.10931111111111111,
      "grad_norm": 1.322411298751831,
      "learning_rate": 0.0001781773727494999,
      "loss": 1.8538,
      "step": 4919
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 1.4651658535003662,
      "learning_rate": 0.0001781729273171816,
      "loss": 2.2097,
      "step": 4920
    },
    {
      "epoch": 0.10935555555555555,
      "grad_norm": 1.3706555366516113,
      "learning_rate": 0.0001781684818848633,
      "loss": 2.2071,
      "step": 4921
    },
    {
      "epoch": 0.10937777777777778,
      "grad_norm": 1.6024689674377441,
      "learning_rate": 0.00017816403645254503,
      "loss": 2.5414,
      "step": 4922
    },
    {
      "epoch": 0.1094,
      "grad_norm": 1.3139142990112305,
      "learning_rate": 0.00017815959102022674,
      "loss": 1.8648,
      "step": 4923
    },
    {
      "epoch": 0.10942222222222223,
      "grad_norm": 1.3900974988937378,
      "learning_rate": 0.00017815514558790842,
      "loss": 2.267,
      "step": 4924
    },
    {
      "epoch": 0.10944444444444444,
      "grad_norm": 1.4711378812789917,
      "learning_rate": 0.00017815070015559016,
      "loss": 2.6183,
      "step": 4925
    },
    {
      "epoch": 0.10946666666666667,
      "grad_norm": 1.3628692626953125,
      "learning_rate": 0.00017814625472327184,
      "loss": 2.119,
      "step": 4926
    },
    {
      "epoch": 0.10948888888888889,
      "grad_norm": 1.5487639904022217,
      "learning_rate": 0.00017814180929095355,
      "loss": 1.9755,
      "step": 4927
    },
    {
      "epoch": 0.10951111111111111,
      "grad_norm": 1.4975794553756714,
      "learning_rate": 0.00017813736385863526,
      "loss": 1.8296,
      "step": 4928
    },
    {
      "epoch": 0.10953333333333333,
      "grad_norm": 1.407785177230835,
      "learning_rate": 0.00017813291842631697,
      "loss": 1.9145,
      "step": 4929
    },
    {
      "epoch": 0.10955555555555556,
      "grad_norm": 1.6278789043426514,
      "learning_rate": 0.00017812847299399868,
      "loss": 2.4235,
      "step": 4930
    },
    {
      "epoch": 0.10957777777777777,
      "grad_norm": 0.8241516351699829,
      "learning_rate": 0.00017812402756168039,
      "loss": 0.8306,
      "step": 4931
    },
    {
      "epoch": 0.1096,
      "grad_norm": 0.8477980494499207,
      "learning_rate": 0.0001781195821293621,
      "loss": 1.043,
      "step": 4932
    },
    {
      "epoch": 0.10962222222222222,
      "grad_norm": 1.435505986213684,
      "learning_rate": 0.0001781151366970438,
      "loss": 1.9168,
      "step": 4933
    },
    {
      "epoch": 0.10964444444444445,
      "grad_norm": 1.3857914209365845,
      "learning_rate": 0.00017811069126472552,
      "loss": 1.8039,
      "step": 4934
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 1.3236032724380493,
      "learning_rate": 0.0001781062458324072,
      "loss": 1.911,
      "step": 4935
    },
    {
      "epoch": 0.10968888888888889,
      "grad_norm": 1.2719550132751465,
      "learning_rate": 0.00017810180040008893,
      "loss": 1.9364,
      "step": 4936
    },
    {
      "epoch": 0.1097111111111111,
      "grad_norm": 1.5228955745697021,
      "learning_rate": 0.00017809735496777062,
      "loss": 2.2249,
      "step": 4937
    },
    {
      "epoch": 0.10973333333333334,
      "grad_norm": 1.7752206325531006,
      "learning_rate": 0.00017809290953545233,
      "loss": 2.1801,
      "step": 4938
    },
    {
      "epoch": 0.10975555555555555,
      "grad_norm": 1.5022207498550415,
      "learning_rate": 0.00017808846410313404,
      "loss": 2.0358,
      "step": 4939
    },
    {
      "epoch": 0.10977777777777778,
      "grad_norm": 1.2860084772109985,
      "learning_rate": 0.00017808401867081575,
      "loss": 2.0872,
      "step": 4940
    },
    {
      "epoch": 0.1098,
      "grad_norm": 1.8445580005645752,
      "learning_rate": 0.00017807957323849746,
      "loss": 2.161,
      "step": 4941
    },
    {
      "epoch": 0.10982222222222222,
      "grad_norm": 1.8703105449676514,
      "learning_rate": 0.00017807512780617917,
      "loss": 2.2376,
      "step": 4942
    },
    {
      "epoch": 0.10984444444444444,
      "grad_norm": 1.394773244857788,
      "learning_rate": 0.00017807068237386087,
      "loss": 1.8604,
      "step": 4943
    },
    {
      "epoch": 0.10986666666666667,
      "grad_norm": 1.3939281702041626,
      "learning_rate": 0.00017806623694154256,
      "loss": 1.9885,
      "step": 4944
    },
    {
      "epoch": 0.10988888888888888,
      "grad_norm": 1.4619903564453125,
      "learning_rate": 0.0001780617915092243,
      "loss": 2.0994,
      "step": 4945
    },
    {
      "epoch": 0.10991111111111111,
      "grad_norm": 1.3319731950759888,
      "learning_rate": 0.00017805734607690598,
      "loss": 1.8153,
      "step": 4946
    },
    {
      "epoch": 0.10993333333333333,
      "grad_norm": 1.2182470560073853,
      "learning_rate": 0.0001780529006445877,
      "loss": 1.5511,
      "step": 4947
    },
    {
      "epoch": 0.10995555555555556,
      "grad_norm": 1.3883278369903564,
      "learning_rate": 0.0001780484552122694,
      "loss": 1.6702,
      "step": 4948
    },
    {
      "epoch": 0.10997777777777777,
      "grad_norm": 1.6375178098678589,
      "learning_rate": 0.0001780440097799511,
      "loss": 1.9152,
      "step": 4949
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1389442682266235,
      "learning_rate": 0.00017803956434763281,
      "loss": 0.9172,
      "step": 4950
    },
    {
      "epoch": 0.11002222222222222,
      "grad_norm": 0.12997838854789734,
      "learning_rate": 0.00017803511891531452,
      "loss": 0.0177,
      "step": 4951
    },
    {
      "epoch": 0.11004444444444444,
      "grad_norm": 1.1792343854904175,
      "learning_rate": 0.00017803067348299623,
      "loss": 2.3594,
      "step": 4952
    },
    {
      "epoch": 0.11006666666666666,
      "grad_norm": 1.1777515411376953,
      "learning_rate": 0.00017802622805067794,
      "loss": 2.3509,
      "step": 4953
    },
    {
      "epoch": 0.11008888888888889,
      "grad_norm": 1.1146148443222046,
      "learning_rate": 0.00017802178261835965,
      "loss": 2.4819,
      "step": 4954
    },
    {
      "epoch": 0.11011111111111112,
      "grad_norm": 1.207305908203125,
      "learning_rate": 0.00017801733718604134,
      "loss": 2.2144,
      "step": 4955
    },
    {
      "epoch": 0.11013333333333333,
      "grad_norm": 1.1073167324066162,
      "learning_rate": 0.00017801289175372307,
      "loss": 2.1333,
      "step": 4956
    },
    {
      "epoch": 0.11015555555555556,
      "grad_norm": 1.449088454246521,
      "learning_rate": 0.00017800844632140476,
      "loss": 1.8638,
      "step": 4957
    },
    {
      "epoch": 0.11017777777777778,
      "grad_norm": 1.4596796035766602,
      "learning_rate": 0.00017800400088908646,
      "loss": 1.7366,
      "step": 4958
    },
    {
      "epoch": 0.1102,
      "grad_norm": 0.9645782709121704,
      "learning_rate": 0.00017799955545676817,
      "loss": 0.7482,
      "step": 4959
    },
    {
      "epoch": 0.11022222222222222,
      "grad_norm": 1.3452082872390747,
      "learning_rate": 0.00017799511002444988,
      "loss": 2.503,
      "step": 4960
    },
    {
      "epoch": 0.11024444444444445,
      "grad_norm": 1.2432230710983276,
      "learning_rate": 0.0001779906645921316,
      "loss": 2.2808,
      "step": 4961
    },
    {
      "epoch": 0.11026666666666667,
      "grad_norm": 1.3141149282455444,
      "learning_rate": 0.0001779862191598133,
      "loss": 1.7479,
      "step": 4962
    },
    {
      "epoch": 0.1102888888888889,
      "grad_norm": 1.176876425743103,
      "learning_rate": 0.000177981773727495,
      "loss": 2.1083,
      "step": 4963
    },
    {
      "epoch": 0.11031111111111111,
      "grad_norm": 1.2352588176727295,
      "learning_rate": 0.0001779773282951767,
      "loss": 1.6807,
      "step": 4964
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 1.4506590366363525,
      "learning_rate": 0.00017797288286285843,
      "loss": 2.1653,
      "step": 4965
    },
    {
      "epoch": 0.11035555555555555,
      "grad_norm": 1.2555843591690063,
      "learning_rate": 0.00017796843743054011,
      "loss": 1.7592,
      "step": 4966
    },
    {
      "epoch": 0.11037777777777778,
      "grad_norm": 1.2213855981826782,
      "learning_rate": 0.00017796399199822185,
      "loss": 2.0853,
      "step": 4967
    },
    {
      "epoch": 0.1104,
      "grad_norm": 1.7171430587768555,
      "learning_rate": 0.00017795954656590353,
      "loss": 2.107,
      "step": 4968
    },
    {
      "epoch": 0.11042222222222223,
      "grad_norm": 1.5660433769226074,
      "learning_rate": 0.00017795510113358524,
      "loss": 1.9708,
      "step": 4969
    },
    {
      "epoch": 0.11044444444444444,
      "grad_norm": 1.2019463777542114,
      "learning_rate": 0.00017795065570126695,
      "loss": 2.2367,
      "step": 4970
    },
    {
      "epoch": 0.11046666666666667,
      "grad_norm": 1.367891550064087,
      "learning_rate": 0.00017794621026894866,
      "loss": 1.7857,
      "step": 4971
    },
    {
      "epoch": 0.11048888888888889,
      "grad_norm": 1.2923423051834106,
      "learning_rate": 0.00017794176483663037,
      "loss": 1.9825,
      "step": 4972
    },
    {
      "epoch": 0.11051111111111112,
      "grad_norm": 1.4158298969268799,
      "learning_rate": 0.00017793731940431208,
      "loss": 2.176,
      "step": 4973
    },
    {
      "epoch": 0.11053333333333333,
      "grad_norm": 1.428587555885315,
      "learning_rate": 0.0001779328739719938,
      "loss": 2.1497,
      "step": 4974
    },
    {
      "epoch": 0.11055555555555556,
      "grad_norm": 1.3398618698120117,
      "learning_rate": 0.00017792842853967547,
      "loss": 2.0232,
      "step": 4975
    },
    {
      "epoch": 0.11057777777777777,
      "grad_norm": 1.2881113290786743,
      "learning_rate": 0.0001779239831073572,
      "loss": 2.2488,
      "step": 4976
    },
    {
      "epoch": 0.1106,
      "grad_norm": 1.1857106685638428,
      "learning_rate": 0.0001779195376750389,
      "loss": 1.4271,
      "step": 4977
    },
    {
      "epoch": 0.11062222222222222,
      "grad_norm": 1.5726913213729858,
      "learning_rate": 0.0001779150922427206,
      "loss": 1.9038,
      "step": 4978
    },
    {
      "epoch": 0.11064444444444445,
      "grad_norm": 1.5969356298446655,
      "learning_rate": 0.00017791064681040234,
      "loss": 1.9209,
      "step": 4979
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 1.407378077507019,
      "learning_rate": 0.00017790620137808402,
      "loss": 1.408,
      "step": 4980
    },
    {
      "epoch": 0.11068888888888889,
      "grad_norm": 1.4328492879867554,
      "learning_rate": 0.00017790175594576573,
      "loss": 2.2418,
      "step": 4981
    },
    {
      "epoch": 0.11071111111111111,
      "grad_norm": 1.4168318510055542,
      "learning_rate": 0.00017789731051344744,
      "loss": 1.9438,
      "step": 4982
    },
    {
      "epoch": 0.11073333333333334,
      "grad_norm": 1.2629501819610596,
      "learning_rate": 0.00017789286508112915,
      "loss": 1.973,
      "step": 4983
    },
    {
      "epoch": 0.11075555555555555,
      "grad_norm": 1.528676152229309,
      "learning_rate": 0.00017788841964881083,
      "loss": 1.9864,
      "step": 4984
    },
    {
      "epoch": 0.11077777777777778,
      "grad_norm": 1.5707221031188965,
      "learning_rate": 0.00017788397421649257,
      "loss": 2.4735,
      "step": 4985
    },
    {
      "epoch": 0.1108,
      "grad_norm": 1.2189866304397583,
      "learning_rate": 0.00017787952878417425,
      "loss": 1.4992,
      "step": 4986
    },
    {
      "epoch": 0.11082222222222222,
      "grad_norm": 1.1503536701202393,
      "learning_rate": 0.000177875083351856,
      "loss": 1.4935,
      "step": 4987
    },
    {
      "epoch": 0.11084444444444444,
      "grad_norm": 1.5683157444000244,
      "learning_rate": 0.0001778706379195377,
      "loss": 1.7106,
      "step": 4988
    },
    {
      "epoch": 0.11086666666666667,
      "grad_norm": 1.5320016145706177,
      "learning_rate": 0.00017786619248721938,
      "loss": 1.669,
      "step": 4989
    },
    {
      "epoch": 0.11088888888888888,
      "grad_norm": 1.1583964824676514,
      "learning_rate": 0.00017786174705490112,
      "loss": 0.9219,
      "step": 4990
    },
    {
      "epoch": 0.11091111111111111,
      "grad_norm": 1.0285687446594238,
      "learning_rate": 0.0001778573016225828,
      "loss": 0.9763,
      "step": 4991
    },
    {
      "epoch": 0.11093333333333333,
      "grad_norm": 1.4588276147842407,
      "learning_rate": 0.0001778528561902645,
      "loss": 1.9239,
      "step": 4992
    },
    {
      "epoch": 0.11095555555555556,
      "grad_norm": 1.398634433746338,
      "learning_rate": 0.00017784841075794622,
      "loss": 1.6122,
      "step": 4993
    },
    {
      "epoch": 0.11097777777777777,
      "grad_norm": 1.389514684677124,
      "learning_rate": 0.00017784396532562793,
      "loss": 1.7873,
      "step": 4994
    },
    {
      "epoch": 0.111,
      "grad_norm": 1.3286993503570557,
      "learning_rate": 0.0001778395198933096,
      "loss": 1.5322,
      "step": 4995
    },
    {
      "epoch": 0.11102222222222222,
      "grad_norm": 1.3495367765426636,
      "learning_rate": 0.00017783507446099135,
      "loss": 1.7065,
      "step": 4996
    },
    {
      "epoch": 0.11104444444444445,
      "grad_norm": 1.3817431926727295,
      "learning_rate": 0.00017783062902867306,
      "loss": 1.8559,
      "step": 4997
    },
    {
      "epoch": 0.11106666666666666,
      "grad_norm": 1.6605621576309204,
      "learning_rate": 0.00017782618359635474,
      "loss": 2.1082,
      "step": 4998
    },
    {
      "epoch": 0.11108888888888889,
      "grad_norm": 1.6809682846069336,
      "learning_rate": 0.00017782173816403648,
      "loss": 1.3724,
      "step": 4999
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 2.218095541000366,
      "learning_rate": 0.00017781729273171816,
      "loss": 1.8033,
      "step": 5000
    },
    {
      "epoch": 0.11113333333333333,
      "grad_norm": 1.3983505964279175,
      "learning_rate": 0.00017781284729939987,
      "loss": 2.6479,
      "step": 5001
    },
    {
      "epoch": 0.11115555555555555,
      "grad_norm": 1.118889570236206,
      "learning_rate": 0.00017780840186708158,
      "loss": 2.2881,
      "step": 5002
    },
    {
      "epoch": 0.11117777777777778,
      "grad_norm": 1.2370734214782715,
      "learning_rate": 0.0001778039564347633,
      "loss": 2.511,
      "step": 5003
    },
    {
      "epoch": 0.1112,
      "grad_norm": 1.4073246717453003,
      "learning_rate": 0.000177799511002445,
      "loss": 2.5538,
      "step": 5004
    },
    {
      "epoch": 0.11122222222222222,
      "grad_norm": 1.2627114057540894,
      "learning_rate": 0.0001777950655701267,
      "loss": 2.3748,
      "step": 5005
    },
    {
      "epoch": 0.11124444444444445,
      "grad_norm": 1.3050421476364136,
      "learning_rate": 0.00017779062013780842,
      "loss": 2.4917,
      "step": 5006
    },
    {
      "epoch": 0.11126666666666667,
      "grad_norm": 1.4680570363998413,
      "learning_rate": 0.00017778617470549013,
      "loss": 2.0991,
      "step": 5007
    },
    {
      "epoch": 0.1112888888888889,
      "grad_norm": 1.4279617071151733,
      "learning_rate": 0.00017778172927317184,
      "loss": 2.126,
      "step": 5008
    },
    {
      "epoch": 0.11131111111111111,
      "grad_norm": 1.2299838066101074,
      "learning_rate": 0.00017777728384085352,
      "loss": 2.0916,
      "step": 5009
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 1.3711631298065186,
      "learning_rate": 0.00017777283840853526,
      "loss": 2.5735,
      "step": 5010
    },
    {
      "epoch": 0.11135555555555555,
      "grad_norm": 1.238057255744934,
      "learning_rate": 0.00017776839297621694,
      "loss": 2.0754,
      "step": 5011
    },
    {
      "epoch": 0.11137777777777778,
      "grad_norm": 1.2719650268554688,
      "learning_rate": 0.00017776394754389865,
      "loss": 1.8889,
      "step": 5012
    },
    {
      "epoch": 0.1114,
      "grad_norm": 1.265609622001648,
      "learning_rate": 0.00017775950211158036,
      "loss": 2.2611,
      "step": 5013
    },
    {
      "epoch": 0.11142222222222223,
      "grad_norm": 1.2422065734863281,
      "learning_rate": 0.00017775505667926207,
      "loss": 2.3888,
      "step": 5014
    },
    {
      "epoch": 0.11144444444444444,
      "grad_norm": 1.1743037700653076,
      "learning_rate": 0.00017775061124694378,
      "loss": 1.9377,
      "step": 5015
    },
    {
      "epoch": 0.11146666666666667,
      "grad_norm": 1.254905343055725,
      "learning_rate": 0.0001777461658146255,
      "loss": 2.1314,
      "step": 5016
    },
    {
      "epoch": 0.11148888888888889,
      "grad_norm": 1.5828601121902466,
      "learning_rate": 0.0001777417203823072,
      "loss": 2.2343,
      "step": 5017
    },
    {
      "epoch": 0.11151111111111112,
      "grad_norm": 1.3265292644500732,
      "learning_rate": 0.00017773727494998888,
      "loss": 2.1354,
      "step": 5018
    },
    {
      "epoch": 0.11153333333333333,
      "grad_norm": 1.9142812490463257,
      "learning_rate": 0.00017773282951767062,
      "loss": 1.4181,
      "step": 5019
    },
    {
      "epoch": 0.11155555555555556,
      "grad_norm": 1.1251025199890137,
      "learning_rate": 0.0001777283840853523,
      "loss": 1.5946,
      "step": 5020
    },
    {
      "epoch": 0.11157777777777778,
      "grad_norm": 1.3337846994400024,
      "learning_rate": 0.000177723938653034,
      "loss": 2.0779,
      "step": 5021
    },
    {
      "epoch": 0.1116,
      "grad_norm": 1.7197351455688477,
      "learning_rate": 0.00017771949322071572,
      "loss": 2.1778,
      "step": 5022
    },
    {
      "epoch": 0.11162222222222222,
      "grad_norm": 1.3380740880966187,
      "learning_rate": 0.00017771504778839743,
      "loss": 1.9896,
      "step": 5023
    },
    {
      "epoch": 0.11164444444444445,
      "grad_norm": 1.1544618606567383,
      "learning_rate": 0.00017771060235607914,
      "loss": 1.9457,
      "step": 5024
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 1.1930968761444092,
      "learning_rate": 0.00017770615692376085,
      "loss": 1.538,
      "step": 5025
    },
    {
      "epoch": 0.1116888888888889,
      "grad_norm": 1.5718439817428589,
      "learning_rate": 0.00017770171149144256,
      "loss": 2.5752,
      "step": 5026
    },
    {
      "epoch": 0.11171111111111111,
      "grad_norm": 1.336801528930664,
      "learning_rate": 0.00017769726605912427,
      "loss": 2.0241,
      "step": 5027
    },
    {
      "epoch": 0.11173333333333334,
      "grad_norm": 1.47652006149292,
      "learning_rate": 0.00017769282062680598,
      "loss": 1.6831,
      "step": 5028
    },
    {
      "epoch": 0.11175555555555555,
      "grad_norm": 1.2141870260238647,
      "learning_rate": 0.00017768837519448766,
      "loss": 1.751,
      "step": 5029
    },
    {
      "epoch": 0.11177777777777778,
      "grad_norm": 1.3316985368728638,
      "learning_rate": 0.0001776839297621694,
      "loss": 2.0142,
      "step": 5030
    },
    {
      "epoch": 0.1118,
      "grad_norm": 1.3700969219207764,
      "learning_rate": 0.00017767948432985108,
      "loss": 2.1605,
      "step": 5031
    },
    {
      "epoch": 0.11182222222222223,
      "grad_norm": 1.2169078588485718,
      "learning_rate": 0.0001776750388975328,
      "loss": 1.5295,
      "step": 5032
    },
    {
      "epoch": 0.11184444444444444,
      "grad_norm": 1.3926321268081665,
      "learning_rate": 0.0001776705934652145,
      "loss": 2.0812,
      "step": 5033
    },
    {
      "epoch": 0.11186666666666667,
      "grad_norm": 1.349778175354004,
      "learning_rate": 0.0001776661480328962,
      "loss": 1.9752,
      "step": 5034
    },
    {
      "epoch": 0.11188888888888888,
      "grad_norm": 1.394132375717163,
      "learning_rate": 0.00017766170260057792,
      "loss": 2.0999,
      "step": 5035
    },
    {
      "epoch": 0.11191111111111111,
      "grad_norm": 1.6251869201660156,
      "learning_rate": 0.00017765725716825963,
      "loss": 2.3478,
      "step": 5036
    },
    {
      "epoch": 0.11193333333333333,
      "grad_norm": 1.5890778303146362,
      "learning_rate": 0.00017765281173594133,
      "loss": 1.7384,
      "step": 5037
    },
    {
      "epoch": 0.11195555555555556,
      "grad_norm": 1.5351111888885498,
      "learning_rate": 0.00017764836630362302,
      "loss": 2.3721,
      "step": 5038
    },
    {
      "epoch": 0.11197777777777777,
      "grad_norm": 1.6077560186386108,
      "learning_rate": 0.00017764392087130475,
      "loss": 2.2364,
      "step": 5039
    },
    {
      "epoch": 0.112,
      "grad_norm": 1.79613196849823,
      "learning_rate": 0.00017763947543898644,
      "loss": 2.241,
      "step": 5040
    },
    {
      "epoch": 0.11202222222222222,
      "grad_norm": 1.4689910411834717,
      "learning_rate": 0.00017763503000666815,
      "loss": 1.5785,
      "step": 5041
    },
    {
      "epoch": 0.11204444444444445,
      "grad_norm": 1.642271637916565,
      "learning_rate": 0.00017763058457434986,
      "loss": 2.3711,
      "step": 5042
    },
    {
      "epoch": 0.11206666666666666,
      "grad_norm": 1.4730833768844604,
      "learning_rate": 0.00017762613914203157,
      "loss": 1.6477,
      "step": 5043
    },
    {
      "epoch": 0.11208888888888889,
      "grad_norm": 1.6511725187301636,
      "learning_rate": 0.00017762169370971328,
      "loss": 1.7219,
      "step": 5044
    },
    {
      "epoch": 0.1121111111111111,
      "grad_norm": 1.5343180894851685,
      "learning_rate": 0.00017761724827739498,
      "loss": 1.5645,
      "step": 5045
    },
    {
      "epoch": 0.11213333333333333,
      "grad_norm": 1.6951569318771362,
      "learning_rate": 0.0001776128028450767,
      "loss": 1.6697,
      "step": 5046
    },
    {
      "epoch": 0.11215555555555555,
      "grad_norm": 1.5304094552993774,
      "learning_rate": 0.0001776083574127584,
      "loss": 0.9368,
      "step": 5047
    },
    {
      "epoch": 0.11217777777777778,
      "grad_norm": 1.7765971422195435,
      "learning_rate": 0.00017760391198044011,
      "loss": 2.0717,
      "step": 5048
    },
    {
      "epoch": 0.1122,
      "grad_norm": 1.5121829509735107,
      "learning_rate": 0.0001775994665481218,
      "loss": 1.5083,
      "step": 5049
    },
    {
      "epoch": 0.11222222222222222,
      "grad_norm": 1.2043821811676025,
      "learning_rate": 0.00017759502111580353,
      "loss": 0.5405,
      "step": 5050
    },
    {
      "epoch": 0.11224444444444444,
      "grad_norm": 1.0119868516921997,
      "learning_rate": 0.00017759057568348522,
      "loss": 2.1999,
      "step": 5051
    },
    {
      "epoch": 0.11226666666666667,
      "grad_norm": 1.2577649354934692,
      "learning_rate": 0.00017758613025116692,
      "loss": 2.6479,
      "step": 5052
    },
    {
      "epoch": 0.11228888888888888,
      "grad_norm": 1.1767185926437378,
      "learning_rate": 0.00017758168481884866,
      "loss": 2.219,
      "step": 5053
    },
    {
      "epoch": 0.11231111111111111,
      "grad_norm": 1.2458372116088867,
      "learning_rate": 0.00017757723938653034,
      "loss": 2.411,
      "step": 5054
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 1.2151967287063599,
      "learning_rate": 0.00017757279395421205,
      "loss": 1.9483,
      "step": 5055
    },
    {
      "epoch": 0.11235555555555556,
      "grad_norm": 1.480958342552185,
      "learning_rate": 0.00017756834852189376,
      "loss": 2.4296,
      "step": 5056
    },
    {
      "epoch": 0.11237777777777777,
      "grad_norm": 1.5519949197769165,
      "learning_rate": 0.00017756390308957547,
      "loss": 2.2065,
      "step": 5057
    },
    {
      "epoch": 0.1124,
      "grad_norm": 1.1458766460418701,
      "learning_rate": 0.00017755945765725716,
      "loss": 1.4172,
      "step": 5058
    },
    {
      "epoch": 0.11242222222222223,
      "grad_norm": 1.3941888809204102,
      "learning_rate": 0.0001775550122249389,
      "loss": 2.7717,
      "step": 5059
    },
    {
      "epoch": 0.11244444444444444,
      "grad_norm": 1.1368533372879028,
      "learning_rate": 0.00017755056679262057,
      "loss": 1.9177,
      "step": 5060
    },
    {
      "epoch": 0.11246666666666667,
      "grad_norm": 1.6057581901550293,
      "learning_rate": 0.0001775461213603023,
      "loss": 2.6562,
      "step": 5061
    },
    {
      "epoch": 0.11248888888888889,
      "grad_norm": 1.2396193742752075,
      "learning_rate": 0.00017754167592798402,
      "loss": 2.1943,
      "step": 5062
    },
    {
      "epoch": 0.11251111111111112,
      "grad_norm": 1.5316815376281738,
      "learning_rate": 0.0001775372304956657,
      "loss": 2.0267,
      "step": 5063
    },
    {
      "epoch": 0.11253333333333333,
      "grad_norm": 1.1796925067901611,
      "learning_rate": 0.00017753278506334744,
      "loss": 2.2153,
      "step": 5064
    },
    {
      "epoch": 0.11255555555555556,
      "grad_norm": 1.2533857822418213,
      "learning_rate": 0.00017752833963102912,
      "loss": 2.3211,
      "step": 5065
    },
    {
      "epoch": 0.11257777777777778,
      "grad_norm": 1.4380621910095215,
      "learning_rate": 0.00017752389419871083,
      "loss": 2.2131,
      "step": 5066
    },
    {
      "epoch": 0.1126,
      "grad_norm": 1.547850251197815,
      "learning_rate": 0.00017751944876639254,
      "loss": 2.5403,
      "step": 5067
    },
    {
      "epoch": 0.11262222222222222,
      "grad_norm": 1.5619879961013794,
      "learning_rate": 0.00017751500333407425,
      "loss": 1.8945,
      "step": 5068
    },
    {
      "epoch": 0.11264444444444445,
      "grad_norm": 1.3736305236816406,
      "learning_rate": 0.00017751055790175593,
      "loss": 1.1862,
      "step": 5069
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 1.5100748538970947,
      "learning_rate": 0.00017750611246943767,
      "loss": 1.9584,
      "step": 5070
    },
    {
      "epoch": 0.1126888888888889,
      "grad_norm": 1.2288748025894165,
      "learning_rate": 0.00017750166703711938,
      "loss": 2.0685,
      "step": 5071
    },
    {
      "epoch": 0.11271111111111111,
      "grad_norm": 1.2720407247543335,
      "learning_rate": 0.00017749722160480106,
      "loss": 2.0043,
      "step": 5072
    },
    {
      "epoch": 0.11273333333333334,
      "grad_norm": 1.951144814491272,
      "learning_rate": 0.0001774927761724828,
      "loss": 2.2167,
      "step": 5073
    },
    {
      "epoch": 0.11275555555555555,
      "grad_norm": 2.141939640045166,
      "learning_rate": 0.00017748833074016448,
      "loss": 2.2557,
      "step": 5074
    },
    {
      "epoch": 0.11277777777777778,
      "grad_norm": 1.4049593210220337,
      "learning_rate": 0.0001774838853078462,
      "loss": 1.9564,
      "step": 5075
    },
    {
      "epoch": 0.1128,
      "grad_norm": 1.1876099109649658,
      "learning_rate": 0.0001774794398755279,
      "loss": 1.8036,
      "step": 5076
    },
    {
      "epoch": 0.11282222222222223,
      "grad_norm": 1.3107233047485352,
      "learning_rate": 0.0001774749944432096,
      "loss": 1.9183,
      "step": 5077
    },
    {
      "epoch": 0.11284444444444444,
      "grad_norm": 1.5450191497802734,
      "learning_rate": 0.0001774705490108913,
      "loss": 1.9192,
      "step": 5078
    },
    {
      "epoch": 0.11286666666666667,
      "grad_norm": 4.222431182861328,
      "learning_rate": 0.00017746610357857303,
      "loss": 2.1935,
      "step": 5079
    },
    {
      "epoch": 0.11288888888888889,
      "grad_norm": 1.4634716510772705,
      "learning_rate": 0.00017746165814625474,
      "loss": 1.7537,
      "step": 5080
    },
    {
      "epoch": 0.11291111111111111,
      "grad_norm": 1.2911278009414673,
      "learning_rate": 0.00017745721271393645,
      "loss": 1.5758,
      "step": 5081
    },
    {
      "epoch": 0.11293333333333333,
      "grad_norm": 1.743165135383606,
      "learning_rate": 0.00017745276728161816,
      "loss": 2.4815,
      "step": 5082
    },
    {
      "epoch": 0.11295555555555556,
      "grad_norm": 1.380764365196228,
      "learning_rate": 0.00017744832184929984,
      "loss": 1.9661,
      "step": 5083
    },
    {
      "epoch": 0.11297777777777777,
      "grad_norm": 1.549609661102295,
      "learning_rate": 0.00017744387641698158,
      "loss": 2.0034,
      "step": 5084
    },
    {
      "epoch": 0.113,
      "grad_norm": 1.1933952569961548,
      "learning_rate": 0.00017743943098466326,
      "loss": 1.5705,
      "step": 5085
    },
    {
      "epoch": 0.11302222222222222,
      "grad_norm": 1.3108937740325928,
      "learning_rate": 0.00017743498555234497,
      "loss": 1.3341,
      "step": 5086
    },
    {
      "epoch": 0.11304444444444445,
      "grad_norm": 1.3413195610046387,
      "learning_rate": 0.00017743054012002668,
      "loss": 1.9002,
      "step": 5087
    },
    {
      "epoch": 0.11306666666666666,
      "grad_norm": 1.7198405265808105,
      "learning_rate": 0.0001774260946877084,
      "loss": 2.2851,
      "step": 5088
    },
    {
      "epoch": 0.11308888888888889,
      "grad_norm": 1.4057743549346924,
      "learning_rate": 0.0001774216492553901,
      "loss": 1.7812,
      "step": 5089
    },
    {
      "epoch": 0.1131111111111111,
      "grad_norm": 1.4254884719848633,
      "learning_rate": 0.0001774172038230718,
      "loss": 1.8268,
      "step": 5090
    },
    {
      "epoch": 0.11313333333333334,
      "grad_norm": 1.5046526193618774,
      "learning_rate": 0.00017741275839075352,
      "loss": 1.5895,
      "step": 5091
    },
    {
      "epoch": 0.11315555555555555,
      "grad_norm": 1.5355123281478882,
      "learning_rate": 0.0001774083129584352,
      "loss": 1.9188,
      "step": 5092
    },
    {
      "epoch": 0.11317777777777778,
      "grad_norm": 1.3141051530838013,
      "learning_rate": 0.00017740386752611694,
      "loss": 1.4063,
      "step": 5093
    },
    {
      "epoch": 0.1132,
      "grad_norm": 1.4688297510147095,
      "learning_rate": 0.00017739942209379862,
      "loss": 1.9722,
      "step": 5094
    },
    {
      "epoch": 0.11322222222222222,
      "grad_norm": 1.655248761177063,
      "learning_rate": 0.00017739497666148033,
      "loss": 1.6003,
      "step": 5095
    },
    {
      "epoch": 0.11324444444444444,
      "grad_norm": 1.6938925981521606,
      "learning_rate": 0.00017739053122916204,
      "loss": 1.9889,
      "step": 5096
    },
    {
      "epoch": 0.11326666666666667,
      "grad_norm": 1.5341523885726929,
      "learning_rate": 0.00017738608579684375,
      "loss": 1.8754,
      "step": 5097
    },
    {
      "epoch": 0.11328888888888888,
      "grad_norm": 1.8950093984603882,
      "learning_rate": 0.00017738164036452546,
      "loss": 2.2745,
      "step": 5098
    },
    {
      "epoch": 0.11331111111111111,
      "grad_norm": 1.697243571281433,
      "learning_rate": 0.00017737719493220717,
      "loss": 1.7651,
      "step": 5099
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 1.9970570802688599,
      "learning_rate": 0.00017737274949988888,
      "loss": 1.4308,
      "step": 5100
    },
    {
      "epoch": 0.11335555555555556,
      "grad_norm": 0.7907066941261292,
      "learning_rate": 0.0001773683040675706,
      "loss": 1.135,
      "step": 5101
    },
    {
      "epoch": 0.11337777777777777,
      "grad_norm": 1.5267406702041626,
      "learning_rate": 0.0001773638586352523,
      "loss": 3.7447,
      "step": 5102
    },
    {
      "epoch": 0.1134,
      "grad_norm": 1.3227429389953613,
      "learning_rate": 0.00017735941320293398,
      "loss": 2.0307,
      "step": 5103
    },
    {
      "epoch": 0.11342222222222222,
      "grad_norm": 1.3742402791976929,
      "learning_rate": 0.00017735496777061572,
      "loss": 2.7864,
      "step": 5104
    },
    {
      "epoch": 0.11344444444444444,
      "grad_norm": 1.2790541648864746,
      "learning_rate": 0.0001773505223382974,
      "loss": 2.2297,
      "step": 5105
    },
    {
      "epoch": 0.11346666666666666,
      "grad_norm": 1.6303282976150513,
      "learning_rate": 0.0001773460769059791,
      "loss": 1.7428,
      "step": 5106
    },
    {
      "epoch": 0.11348888888888889,
      "grad_norm": 1.4178900718688965,
      "learning_rate": 0.00017734163147366082,
      "loss": 3.2077,
      "step": 5107
    },
    {
      "epoch": 0.1135111111111111,
      "grad_norm": 1.168179988861084,
      "learning_rate": 0.00017733718604134253,
      "loss": 2.3963,
      "step": 5108
    },
    {
      "epoch": 0.11353333333333333,
      "grad_norm": 1.1689555644989014,
      "learning_rate": 0.00017733274060902424,
      "loss": 1.7967,
      "step": 5109
    },
    {
      "epoch": 0.11355555555555556,
      "grad_norm": 1.3647937774658203,
      "learning_rate": 0.00017732829517670595,
      "loss": 1.5834,
      "step": 5110
    },
    {
      "epoch": 0.11357777777777778,
      "grad_norm": 1.2367920875549316,
      "learning_rate": 0.00017732384974438766,
      "loss": 1.8135,
      "step": 5111
    },
    {
      "epoch": 0.1136,
      "grad_norm": 1.1891045570373535,
      "learning_rate": 0.00017731940431206934,
      "loss": 2.4224,
      "step": 5112
    },
    {
      "epoch": 0.11362222222222222,
      "grad_norm": 1.3024311065673828,
      "learning_rate": 0.00017731495887975108,
      "loss": 2.3569,
      "step": 5113
    },
    {
      "epoch": 0.11364444444444445,
      "grad_norm": 1.407698392868042,
      "learning_rate": 0.00017731051344743276,
      "loss": 2.1946,
      "step": 5114
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 1.3817795515060425,
      "learning_rate": 0.00017730606801511447,
      "loss": 1.981,
      "step": 5115
    },
    {
      "epoch": 0.1136888888888889,
      "grad_norm": 1.203313946723938,
      "learning_rate": 0.00017730162258279618,
      "loss": 0.763,
      "step": 5116
    },
    {
      "epoch": 0.11371111111111111,
      "grad_norm": 1.2009518146514893,
      "learning_rate": 0.0001772971771504779,
      "loss": 2.0445,
      "step": 5117
    },
    {
      "epoch": 0.11373333333333334,
      "grad_norm": 1.4145153760910034,
      "learning_rate": 0.0001772927317181596,
      "loss": 0.9959,
      "step": 5118
    },
    {
      "epoch": 0.11375555555555555,
      "grad_norm": 1.2546398639678955,
      "learning_rate": 0.0001772882862858413,
      "loss": 2.0736,
      "step": 5119
    },
    {
      "epoch": 0.11377777777777778,
      "grad_norm": 1.31464684009552,
      "learning_rate": 0.00017728384085352302,
      "loss": 1.9976,
      "step": 5120
    },
    {
      "epoch": 0.1138,
      "grad_norm": 1.4416872262954712,
      "learning_rate": 0.00017727939542120473,
      "loss": 2.2668,
      "step": 5121
    },
    {
      "epoch": 0.11382222222222223,
      "grad_norm": 1.5908821821212769,
      "learning_rate": 0.00017727494998888644,
      "loss": 2.1144,
      "step": 5122
    },
    {
      "epoch": 0.11384444444444444,
      "grad_norm": 1.3650100231170654,
      "learning_rate": 0.00017727050455656812,
      "loss": 1.9845,
      "step": 5123
    },
    {
      "epoch": 0.11386666666666667,
      "grad_norm": 1.7686071395874023,
      "learning_rate": 0.00017726605912424985,
      "loss": 2.6463,
      "step": 5124
    },
    {
      "epoch": 0.11388888888888889,
      "grad_norm": 1.5385589599609375,
      "learning_rate": 0.00017726161369193154,
      "loss": 2.0718,
      "step": 5125
    },
    {
      "epoch": 0.11391111111111112,
      "grad_norm": 1.164670705795288,
      "learning_rate": 0.00017725716825961325,
      "loss": 1.727,
      "step": 5126
    },
    {
      "epoch": 0.11393333333333333,
      "grad_norm": 1.3132243156433105,
      "learning_rate": 0.00017725272282729498,
      "loss": 1.9811,
      "step": 5127
    },
    {
      "epoch": 0.11395555555555556,
      "grad_norm": 2.3269941806793213,
      "learning_rate": 0.00017724827739497667,
      "loss": 0.0562,
      "step": 5128
    },
    {
      "epoch": 0.11397777777777778,
      "grad_norm": 1.281191110610962,
      "learning_rate": 0.00017724383196265838,
      "loss": 2.0648,
      "step": 5129
    },
    {
      "epoch": 0.114,
      "grad_norm": 1.408193588256836,
      "learning_rate": 0.00017723938653034009,
      "loss": 2.1562,
      "step": 5130
    },
    {
      "epoch": 0.11402222222222222,
      "grad_norm": 1.4464021921157837,
      "learning_rate": 0.0001772349410980218,
      "loss": 1.9426,
      "step": 5131
    },
    {
      "epoch": 0.11404444444444445,
      "grad_norm": 1.258482575416565,
      "learning_rate": 0.00017723049566570348,
      "loss": 1.6698,
      "step": 5132
    },
    {
      "epoch": 0.11406666666666666,
      "grad_norm": 1.4888955354690552,
      "learning_rate": 0.00017722605023338521,
      "loss": 2.0069,
      "step": 5133
    },
    {
      "epoch": 0.11408888888888889,
      "grad_norm": 1.5849593877792358,
      "learning_rate": 0.0001772216048010669,
      "loss": 2.0934,
      "step": 5134
    },
    {
      "epoch": 0.11411111111111111,
      "grad_norm": 1.3543071746826172,
      "learning_rate": 0.0001772171593687486,
      "loss": 2.2385,
      "step": 5135
    },
    {
      "epoch": 0.11413333333333334,
      "grad_norm": 1.6978118419647217,
      "learning_rate": 0.00017721271393643034,
      "loss": 1.7511,
      "step": 5136
    },
    {
      "epoch": 0.11415555555555555,
      "grad_norm": 1.433289885520935,
      "learning_rate": 0.00017720826850411203,
      "loss": 2.3377,
      "step": 5137
    },
    {
      "epoch": 0.11417777777777778,
      "grad_norm": 1.6883666515350342,
      "learning_rate": 0.00017720382307179376,
      "loss": 1.9965,
      "step": 5138
    },
    {
      "epoch": 0.1142,
      "grad_norm": 1.3626232147216797,
      "learning_rate": 0.00017719937763947544,
      "loss": 1.807,
      "step": 5139
    },
    {
      "epoch": 0.11422222222222222,
      "grad_norm": 1.3200125694274902,
      "learning_rate": 0.00017719493220715715,
      "loss": 1.5997,
      "step": 5140
    },
    {
      "epoch": 0.11424444444444444,
      "grad_norm": 1.4528861045837402,
      "learning_rate": 0.00017719048677483886,
      "loss": 1.6679,
      "step": 5141
    },
    {
      "epoch": 0.11426666666666667,
      "grad_norm": 1.4721143245697021,
      "learning_rate": 0.00017718604134252057,
      "loss": 1.8036,
      "step": 5142
    },
    {
      "epoch": 0.11428888888888888,
      "grad_norm": 1.741131067276001,
      "learning_rate": 0.00017718159591020226,
      "loss": 2.13,
      "step": 5143
    },
    {
      "epoch": 0.11431111111111111,
      "grad_norm": 1.3387887477874756,
      "learning_rate": 0.000177177150477884,
      "loss": 1.6669,
      "step": 5144
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 1.5003666877746582,
      "learning_rate": 0.0001771727050455657,
      "loss": 1.5871,
      "step": 5145
    },
    {
      "epoch": 0.11435555555555556,
      "grad_norm": 1.4765644073486328,
      "learning_rate": 0.00017716825961324739,
      "loss": 1.903,
      "step": 5146
    },
    {
      "epoch": 0.11437777777777777,
      "grad_norm": 1.393083930015564,
      "learning_rate": 0.00017716381418092912,
      "loss": 1.8636,
      "step": 5147
    },
    {
      "epoch": 0.1144,
      "grad_norm": 1.717644214630127,
      "learning_rate": 0.0001771593687486108,
      "loss": 2.1222,
      "step": 5148
    },
    {
      "epoch": 0.11442222222222222,
      "grad_norm": 1.1183701753616333,
      "learning_rate": 0.00017715492331629251,
      "loss": 0.6973,
      "step": 5149
    },
    {
      "epoch": 0.11444444444444445,
      "grad_norm": 1.3382008075714111,
      "learning_rate": 0.00017715047788397422,
      "loss": 1.0461,
      "step": 5150
    },
    {
      "epoch": 0.11446666666666666,
      "grad_norm": 1.186599850654602,
      "learning_rate": 0.00017714603245165593,
      "loss": 2.4845,
      "step": 5151
    },
    {
      "epoch": 0.11448888888888889,
      "grad_norm": 1.1599234342575073,
      "learning_rate": 0.00017714158701933762,
      "loss": 2.5664,
      "step": 5152
    },
    {
      "epoch": 0.1145111111111111,
      "grad_norm": 1.3636176586151123,
      "learning_rate": 0.00017713714158701935,
      "loss": 2.6404,
      "step": 5153
    },
    {
      "epoch": 0.11453333333333333,
      "grad_norm": 1.2928452491760254,
      "learning_rate": 0.00017713269615470106,
      "loss": 2.3483,
      "step": 5154
    },
    {
      "epoch": 0.11455555555555555,
      "grad_norm": 1.2426079511642456,
      "learning_rate": 0.00017712825072238274,
      "loss": 2.1331,
      "step": 5155
    },
    {
      "epoch": 0.11457777777777778,
      "grad_norm": 1.3825256824493408,
      "learning_rate": 0.00017712380529006448,
      "loss": 2.3623,
      "step": 5156
    },
    {
      "epoch": 0.1146,
      "grad_norm": 1.2302961349487305,
      "learning_rate": 0.00017711935985774616,
      "loss": 2.1747,
      "step": 5157
    },
    {
      "epoch": 0.11462222222222222,
      "grad_norm": 1.2418292760849,
      "learning_rate": 0.0001771149144254279,
      "loss": 2.193,
      "step": 5158
    },
    {
      "epoch": 0.11464444444444444,
      "grad_norm": 1.6226986646652222,
      "learning_rate": 0.00017711046899310958,
      "loss": 2.26,
      "step": 5159
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 1.4466549158096313,
      "learning_rate": 0.0001771060235607913,
      "loss": 2.4512,
      "step": 5160
    },
    {
      "epoch": 0.1146888888888889,
      "grad_norm": 1.368017315864563,
      "learning_rate": 0.000177101578128473,
      "loss": 2.1749,
      "step": 5161
    },
    {
      "epoch": 0.11471111111111111,
      "grad_norm": 1.3235207796096802,
      "learning_rate": 0.0001770971326961547,
      "loss": 2.6945,
      "step": 5162
    },
    {
      "epoch": 0.11473333333333334,
      "grad_norm": 1.1783288717269897,
      "learning_rate": 0.00017709268726383642,
      "loss": 1.786,
      "step": 5163
    },
    {
      "epoch": 0.11475555555555556,
      "grad_norm": 1.4989451169967651,
      "learning_rate": 0.00017708824183151813,
      "loss": 2.7724,
      "step": 5164
    },
    {
      "epoch": 0.11477777777777778,
      "grad_norm": 1.4152259826660156,
      "learning_rate": 0.00017708379639919984,
      "loss": 2.4276,
      "step": 5165
    },
    {
      "epoch": 0.1148,
      "grad_norm": 1.585567831993103,
      "learning_rate": 0.00017707935096688152,
      "loss": 1.069,
      "step": 5166
    },
    {
      "epoch": 0.11482222222222223,
      "grad_norm": 1.2601577043533325,
      "learning_rate": 0.00017707490553456326,
      "loss": 2.0534,
      "step": 5167
    },
    {
      "epoch": 0.11484444444444444,
      "grad_norm": 1.3895394802093506,
      "learning_rate": 0.00017707046010224494,
      "loss": 1.854,
      "step": 5168
    },
    {
      "epoch": 0.11486666666666667,
      "grad_norm": 1.5196293592453003,
      "learning_rate": 0.00017706601466992665,
      "loss": 1.8847,
      "step": 5169
    },
    {
      "epoch": 0.11488888888888889,
      "grad_norm": 1.4364118576049805,
      "learning_rate": 0.00017706156923760836,
      "loss": 2.1398,
      "step": 5170
    },
    {
      "epoch": 0.11491111111111112,
      "grad_norm": 1.39016854763031,
      "learning_rate": 0.00017705712380529007,
      "loss": 2.1094,
      "step": 5171
    },
    {
      "epoch": 0.11493333333333333,
      "grad_norm": 1.5415878295898438,
      "learning_rate": 0.00017705267837297178,
      "loss": 2.413,
      "step": 5172
    },
    {
      "epoch": 0.11495555555555556,
      "grad_norm": 1.3820561170578003,
      "learning_rate": 0.0001770482329406535,
      "loss": 1.6674,
      "step": 5173
    },
    {
      "epoch": 0.11497777777777778,
      "grad_norm": 1.2816036939620972,
      "learning_rate": 0.0001770437875083352,
      "loss": 1.932,
      "step": 5174
    },
    {
      "epoch": 0.115,
      "grad_norm": 1.36847722530365,
      "learning_rate": 0.0001770393420760169,
      "loss": 1.8278,
      "step": 5175
    },
    {
      "epoch": 0.11502222222222222,
      "grad_norm": 1.3932255506515503,
      "learning_rate": 0.00017703489664369862,
      "loss": 2.2157,
      "step": 5176
    },
    {
      "epoch": 0.11504444444444445,
      "grad_norm": 1.4876447916030884,
      "learning_rate": 0.0001770304512113803,
      "loss": 2.3558,
      "step": 5177
    },
    {
      "epoch": 0.11506666666666666,
      "grad_norm": 1.2136744260787964,
      "learning_rate": 0.00017702600577906204,
      "loss": 1.7443,
      "step": 5178
    },
    {
      "epoch": 0.1150888888888889,
      "grad_norm": 1.5207973718643188,
      "learning_rate": 0.00017702156034674372,
      "loss": 2.0723,
      "step": 5179
    },
    {
      "epoch": 0.11511111111111111,
      "grad_norm": 1.3015111684799194,
      "learning_rate": 0.00017701711491442543,
      "loss": 2.2076,
      "step": 5180
    },
    {
      "epoch": 0.11513333333333334,
      "grad_norm": 1.5062611103057861,
      "learning_rate": 0.00017701266948210714,
      "loss": 2.1418,
      "step": 5181
    },
    {
      "epoch": 0.11515555555555555,
      "grad_norm": 1.8087409734725952,
      "learning_rate": 0.00017700822404978885,
      "loss": 2.0195,
      "step": 5182
    },
    {
      "epoch": 0.11517777777777778,
      "grad_norm": 1.4706521034240723,
      "learning_rate": 0.00017700377861747056,
      "loss": 1.6799,
      "step": 5183
    },
    {
      "epoch": 0.1152,
      "grad_norm": 1.4113410711288452,
      "learning_rate": 0.00017699933318515227,
      "loss": 1.8843,
      "step": 5184
    },
    {
      "epoch": 0.11522222222222223,
      "grad_norm": 1.45929753780365,
      "learning_rate": 0.00017699488775283398,
      "loss": 1.8306,
      "step": 5185
    },
    {
      "epoch": 0.11524444444444444,
      "grad_norm": 1.672075629234314,
      "learning_rate": 0.00017699044232051566,
      "loss": 2.242,
      "step": 5186
    },
    {
      "epoch": 0.11526666666666667,
      "grad_norm": 1.6962487697601318,
      "learning_rate": 0.0001769859968881974,
      "loss": 1.8777,
      "step": 5187
    },
    {
      "epoch": 0.11528888888888889,
      "grad_norm": 1.319132685661316,
      "learning_rate": 0.00017698155145587908,
      "loss": 2.1278,
      "step": 5188
    },
    {
      "epoch": 0.11531111111111111,
      "grad_norm": 1.5326088666915894,
      "learning_rate": 0.0001769771060235608,
      "loss": 1.7215,
      "step": 5189
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 1.5363783836364746,
      "learning_rate": 0.0001769726605912425,
      "loss": 2.0541,
      "step": 5190
    },
    {
      "epoch": 0.11535555555555556,
      "grad_norm": 1.2948089838027954,
      "learning_rate": 0.0001769682151589242,
      "loss": 2.0474,
      "step": 5191
    },
    {
      "epoch": 0.11537777777777777,
      "grad_norm": 1.3851149082183838,
      "learning_rate": 0.00017696376972660592,
      "loss": 1.843,
      "step": 5192
    },
    {
      "epoch": 0.1154,
      "grad_norm": 1.3538228273391724,
      "learning_rate": 0.00017695932429428763,
      "loss": 1.7968,
      "step": 5193
    },
    {
      "epoch": 0.11542222222222222,
      "grad_norm": 1.6472325325012207,
      "learning_rate": 0.00017695487886196934,
      "loss": 1.8114,
      "step": 5194
    },
    {
      "epoch": 0.11544444444444445,
      "grad_norm": 1.3811627626419067,
      "learning_rate": 0.00017695043342965105,
      "loss": 1.7201,
      "step": 5195
    },
    {
      "epoch": 0.11546666666666666,
      "grad_norm": 1.5384825468063354,
      "learning_rate": 0.00017694598799733276,
      "loss": 1.9978,
      "step": 5196
    },
    {
      "epoch": 0.11548888888888889,
      "grad_norm": 1.9675087928771973,
      "learning_rate": 0.00017694154256501444,
      "loss": 2.404,
      "step": 5197
    },
    {
      "epoch": 0.1155111111111111,
      "grad_norm": 1.6311466693878174,
      "learning_rate": 0.00017693709713269618,
      "loss": 2.0487,
      "step": 5198
    },
    {
      "epoch": 0.11553333333333334,
      "grad_norm": 1.419085144996643,
      "learning_rate": 0.00017693265170037786,
      "loss": 1.5103,
      "step": 5199
    },
    {
      "epoch": 0.11555555555555555,
      "grad_norm": 1.436833143234253,
      "learning_rate": 0.00017692820626805957,
      "loss": 1.2621,
      "step": 5200
    },
    {
      "epoch": 0.11557777777777778,
      "grad_norm": 1.7125911712646484,
      "learning_rate": 0.0001769237608357413,
      "loss": 2.3713,
      "step": 5201
    },
    {
      "epoch": 0.1156,
      "grad_norm": 1.208587884902954,
      "learning_rate": 0.000176919315403423,
      "loss": 1.5143,
      "step": 5202
    },
    {
      "epoch": 0.11562222222222222,
      "grad_norm": 1.0701771974563599,
      "learning_rate": 0.0001769148699711047,
      "loss": 1.4549,
      "step": 5203
    },
    {
      "epoch": 0.11564444444444444,
      "grad_norm": 1.206648826599121,
      "learning_rate": 0.0001769104245387864,
      "loss": 2.4955,
      "step": 5204
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 1.4276528358459473,
      "learning_rate": 0.00017690597910646812,
      "loss": 2.8181,
      "step": 5205
    },
    {
      "epoch": 0.11568888888888888,
      "grad_norm": 1.6080312728881836,
      "learning_rate": 0.0001769015336741498,
      "loss": 1.225,
      "step": 5206
    },
    {
      "epoch": 0.11571111111111111,
      "grad_norm": 1.463745355606079,
      "learning_rate": 0.00017689708824183154,
      "loss": 2.6886,
      "step": 5207
    },
    {
      "epoch": 0.11573333333333333,
      "grad_norm": 1.1192656755447388,
      "learning_rate": 0.00017689264280951322,
      "loss": 2.0648,
      "step": 5208
    },
    {
      "epoch": 0.11575555555555556,
      "grad_norm": 1.1562447547912598,
      "learning_rate": 0.00017688819737719493,
      "loss": 1.8948,
      "step": 5209
    },
    {
      "epoch": 0.11577777777777777,
      "grad_norm": 1.1282368898391724,
      "learning_rate": 0.00017688375194487667,
      "loss": 2.0638,
      "step": 5210
    },
    {
      "epoch": 0.1158,
      "grad_norm": 1.4026782512664795,
      "learning_rate": 0.00017687930651255835,
      "loss": 2.2052,
      "step": 5211
    },
    {
      "epoch": 0.11582222222222222,
      "grad_norm": 1.343186855316162,
      "learning_rate": 0.00017687486108024006,
      "loss": 2.3928,
      "step": 5212
    },
    {
      "epoch": 0.11584444444444444,
      "grad_norm": 1.2502021789550781,
      "learning_rate": 0.00017687041564792177,
      "loss": 2.0399,
      "step": 5213
    },
    {
      "epoch": 0.11586666666666667,
      "grad_norm": 1.2560255527496338,
      "learning_rate": 0.00017686597021560348,
      "loss": 2.0743,
      "step": 5214
    },
    {
      "epoch": 0.11588888888888889,
      "grad_norm": 1.353940725326538,
      "learning_rate": 0.00017686152478328519,
      "loss": 1.2959,
      "step": 5215
    },
    {
      "epoch": 0.11591111111111112,
      "grad_norm": 1.4053024053573608,
      "learning_rate": 0.0001768570793509669,
      "loss": 2.0775,
      "step": 5216
    },
    {
      "epoch": 0.11593333333333333,
      "grad_norm": 1.4315170049667358,
      "learning_rate": 0.00017685263391864858,
      "loss": 2.5583,
      "step": 5217
    },
    {
      "epoch": 0.11595555555555556,
      "grad_norm": 1.5902637243270874,
      "learning_rate": 0.00017684818848633032,
      "loss": 2.4172,
      "step": 5218
    },
    {
      "epoch": 0.11597777777777778,
      "grad_norm": 1.2202812433242798,
      "learning_rate": 0.00017684374305401202,
      "loss": 2.273,
      "step": 5219
    },
    {
      "epoch": 0.116,
      "grad_norm": 1.3998098373413086,
      "learning_rate": 0.0001768392976216937,
      "loss": 1.8967,
      "step": 5220
    },
    {
      "epoch": 0.11602222222222222,
      "grad_norm": 1.4394017457962036,
      "learning_rate": 0.00017683485218937544,
      "loss": 2.2252,
      "step": 5221
    },
    {
      "epoch": 0.11604444444444445,
      "grad_norm": 1.703736662864685,
      "learning_rate": 0.00017683040675705713,
      "loss": 2.4351,
      "step": 5222
    },
    {
      "epoch": 0.11606666666666667,
      "grad_norm": 1.2506771087646484,
      "learning_rate": 0.00017682596132473884,
      "loss": 1.9546,
      "step": 5223
    },
    {
      "epoch": 0.1160888888888889,
      "grad_norm": 1.1843582391738892,
      "learning_rate": 0.00017682151589242055,
      "loss": 1.855,
      "step": 5224
    },
    {
      "epoch": 0.11611111111111111,
      "grad_norm": 1.354088544845581,
      "learning_rate": 0.00017681707046010226,
      "loss": 2.2087,
      "step": 5225
    },
    {
      "epoch": 0.11613333333333334,
      "grad_norm": 1.5052849054336548,
      "learning_rate": 0.00017681262502778394,
      "loss": 2.1304,
      "step": 5226
    },
    {
      "epoch": 0.11615555555555555,
      "grad_norm": 1.4373692274093628,
      "learning_rate": 0.00017680817959546567,
      "loss": 1.7612,
      "step": 5227
    },
    {
      "epoch": 0.11617777777777778,
      "grad_norm": 1.372807502746582,
      "learning_rate": 0.00017680373416314738,
      "loss": 2.113,
      "step": 5228
    },
    {
      "epoch": 0.1162,
      "grad_norm": 1.4685819149017334,
      "learning_rate": 0.00017679928873082907,
      "loss": 2.3191,
      "step": 5229
    },
    {
      "epoch": 0.11622222222222223,
      "grad_norm": 0.9249834418296814,
      "learning_rate": 0.0001767948432985108,
      "loss": 0.9481,
      "step": 5230
    },
    {
      "epoch": 0.11624444444444444,
      "grad_norm": 1.28183913230896,
      "learning_rate": 0.00017679039786619249,
      "loss": 2.0685,
      "step": 5231
    },
    {
      "epoch": 0.11626666666666667,
      "grad_norm": 1.3780369758605957,
      "learning_rate": 0.00017678595243387422,
      "loss": 1.9273,
      "step": 5232
    },
    {
      "epoch": 0.11628888888888889,
      "grad_norm": 1.1382513046264648,
      "learning_rate": 0.0001767815070015559,
      "loss": 1.2648,
      "step": 5233
    },
    {
      "epoch": 0.11631111111111112,
      "grad_norm": 1.3958821296691895,
      "learning_rate": 0.00017677706156923761,
      "loss": 1.6385,
      "step": 5234
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 1.5652148723602295,
      "learning_rate": 0.00017677261613691932,
      "loss": 1.8933,
      "step": 5235
    },
    {
      "epoch": 0.11635555555555556,
      "grad_norm": 1.658873200416565,
      "learning_rate": 0.00017676817070460103,
      "loss": 2.2772,
      "step": 5236
    },
    {
      "epoch": 0.11637777777777777,
      "grad_norm": 1.3864084482192993,
      "learning_rate": 0.00017676372527228274,
      "loss": 1.8876,
      "step": 5237
    },
    {
      "epoch": 0.1164,
      "grad_norm": 1.3601120710372925,
      "learning_rate": 0.00017675927983996445,
      "loss": 1.8901,
      "step": 5238
    },
    {
      "epoch": 0.11642222222222222,
      "grad_norm": 1.7698475122451782,
      "learning_rate": 0.00017675483440764616,
      "loss": 2.6691,
      "step": 5239
    },
    {
      "epoch": 0.11644444444444445,
      "grad_norm": 1.2242602109909058,
      "learning_rate": 0.00017675038897532785,
      "loss": 1.6645,
      "step": 5240
    },
    {
      "epoch": 0.11646666666666666,
      "grad_norm": 1.46024489402771,
      "learning_rate": 0.00017674594354300958,
      "loss": 2.2708,
      "step": 5241
    },
    {
      "epoch": 0.11648888888888889,
      "grad_norm": 1.3272480964660645,
      "learning_rate": 0.00017674149811069126,
      "loss": 1.8019,
      "step": 5242
    },
    {
      "epoch": 0.11651111111111111,
      "grad_norm": 1.4219785928726196,
      "learning_rate": 0.00017673705267837297,
      "loss": 1.5742,
      "step": 5243
    },
    {
      "epoch": 0.11653333333333334,
      "grad_norm": 1.5106430053710938,
      "learning_rate": 0.00017673260724605468,
      "loss": 1.9912,
      "step": 5244
    },
    {
      "epoch": 0.11655555555555555,
      "grad_norm": 1.6166303157806396,
      "learning_rate": 0.0001767281618137364,
      "loss": 1.8584,
      "step": 5245
    },
    {
      "epoch": 0.11657777777777778,
      "grad_norm": 1.3989131450653076,
      "learning_rate": 0.0001767237163814181,
      "loss": 1.7222,
      "step": 5246
    },
    {
      "epoch": 0.1166,
      "grad_norm": 1.415956974029541,
      "learning_rate": 0.0001767192709490998,
      "loss": 1.8758,
      "step": 5247
    },
    {
      "epoch": 0.11662222222222222,
      "grad_norm": 1.5311847925186157,
      "learning_rate": 0.00017671482551678152,
      "loss": 1.8034,
      "step": 5248
    },
    {
      "epoch": 0.11664444444444444,
      "grad_norm": 1.4344083070755005,
      "learning_rate": 0.0001767103800844632,
      "loss": 1.7672,
      "step": 5249
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 1.7364861965179443,
      "learning_rate": 0.00017670593465214494,
      "loss": 2.0678,
      "step": 5250
    },
    {
      "epoch": 0.11668888888888888,
      "grad_norm": 1.2366629838943481,
      "learning_rate": 0.00017670148921982662,
      "loss": 2.4973,
      "step": 5251
    },
    {
      "epoch": 0.11671111111111111,
      "grad_norm": 1.2939974069595337,
      "learning_rate": 0.00017669704378750836,
      "loss": 2.4819,
      "step": 5252
    },
    {
      "epoch": 0.11673333333333333,
      "grad_norm": 1.0338233709335327,
      "learning_rate": 0.00017669259835519004,
      "loss": 1.2469,
      "step": 5253
    },
    {
      "epoch": 0.11675555555555556,
      "grad_norm": 1.1910358667373657,
      "learning_rate": 0.00017668815292287175,
      "loss": 2.1841,
      "step": 5254
    },
    {
      "epoch": 0.11677777777777777,
      "grad_norm": 1.5190658569335938,
      "learning_rate": 0.00017668370749055346,
      "loss": 2.7294,
      "step": 5255
    },
    {
      "epoch": 0.1168,
      "grad_norm": 1.2800939083099365,
      "learning_rate": 0.00017667926205823517,
      "loss": 2.1872,
      "step": 5256
    },
    {
      "epoch": 0.11682222222222222,
      "grad_norm": 1.2707619667053223,
      "learning_rate": 0.00017667481662591688,
      "loss": 2.2905,
      "step": 5257
    },
    {
      "epoch": 0.11684444444444445,
      "grad_norm": 1.1399223804473877,
      "learning_rate": 0.0001766703711935986,
      "loss": 1.9066,
      "step": 5258
    },
    {
      "epoch": 0.11686666666666666,
      "grad_norm": 1.3521199226379395,
      "learning_rate": 0.0001766659257612803,
      "loss": 2.0635,
      "step": 5259
    },
    {
      "epoch": 0.11688888888888889,
      "grad_norm": 1.206725001335144,
      "learning_rate": 0.00017666148032896198,
      "loss": 1.8561,
      "step": 5260
    },
    {
      "epoch": 0.1169111111111111,
      "grad_norm": 1.1859785318374634,
      "learning_rate": 0.00017665703489664372,
      "loss": 1.7405,
      "step": 5261
    },
    {
      "epoch": 0.11693333333333333,
      "grad_norm": 1.5495471954345703,
      "learning_rate": 0.0001766525894643254,
      "loss": 1.875,
      "step": 5262
    },
    {
      "epoch": 0.11695555555555555,
      "grad_norm": 1.607490062713623,
      "learning_rate": 0.0001766481440320071,
      "loss": 2.5262,
      "step": 5263
    },
    {
      "epoch": 0.11697777777777778,
      "grad_norm": 1.6734461784362793,
      "learning_rate": 0.00017664369859968882,
      "loss": 2.5222,
      "step": 5264
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.9996095299720764,
      "learning_rate": 0.00017663925316737053,
      "loss": 0.9356,
      "step": 5265
    },
    {
      "epoch": 0.11702222222222222,
      "grad_norm": 1.3053362369537354,
      "learning_rate": 0.00017663480773505224,
      "loss": 1.7329,
      "step": 5266
    },
    {
      "epoch": 0.11704444444444445,
      "grad_norm": 1.0422918796539307,
      "learning_rate": 0.00017663036230273395,
      "loss": 1.0886,
      "step": 5267
    },
    {
      "epoch": 0.11706666666666667,
      "grad_norm": 1.3027781248092651,
      "learning_rate": 0.00017662591687041566,
      "loss": 1.4789,
      "step": 5268
    },
    {
      "epoch": 0.1170888888888889,
      "grad_norm": 1.366046667098999,
      "learning_rate": 0.00017662147143809737,
      "loss": 1.8959,
      "step": 5269
    },
    {
      "epoch": 0.11711111111111111,
      "grad_norm": 1.409434199333191,
      "learning_rate": 0.00017661702600577908,
      "loss": 2.1359,
      "step": 5270
    },
    {
      "epoch": 0.11713333333333334,
      "grad_norm": 1.6064685583114624,
      "learning_rate": 0.00017661258057346076,
      "loss": 2.1952,
      "step": 5271
    },
    {
      "epoch": 0.11715555555555555,
      "grad_norm": 1.2886254787445068,
      "learning_rate": 0.0001766081351411425,
      "loss": 2.2803,
      "step": 5272
    },
    {
      "epoch": 0.11717777777777778,
      "grad_norm": 1.4197932481765747,
      "learning_rate": 0.00017660368970882418,
      "loss": 1.8802,
      "step": 5273
    },
    {
      "epoch": 0.1172,
      "grad_norm": 1.3974491357803345,
      "learning_rate": 0.0001765992442765059,
      "loss": 2.303,
      "step": 5274
    },
    {
      "epoch": 0.11722222222222223,
      "grad_norm": 1.5798389911651611,
      "learning_rate": 0.00017659479884418763,
      "loss": 2.4673,
      "step": 5275
    },
    {
      "epoch": 0.11724444444444444,
      "grad_norm": 1.53900146484375,
      "learning_rate": 0.0001765903534118693,
      "loss": 2.3507,
      "step": 5276
    },
    {
      "epoch": 0.11726666666666667,
      "grad_norm": 1.4543373584747314,
      "learning_rate": 0.00017658590797955102,
      "loss": 2.0325,
      "step": 5277
    },
    {
      "epoch": 0.11728888888888889,
      "grad_norm": 1.7113488912582397,
      "learning_rate": 0.00017658146254723273,
      "loss": 2.3151,
      "step": 5278
    },
    {
      "epoch": 0.11731111111111112,
      "grad_norm": 1.389194130897522,
      "learning_rate": 0.00017657701711491444,
      "loss": 2.033,
      "step": 5279
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 1.2705212831497192,
      "learning_rate": 0.00017657257168259612,
      "loss": 1.9071,
      "step": 5280
    },
    {
      "epoch": 0.11735555555555556,
      "grad_norm": 1.4549663066864014,
      "learning_rate": 0.00017656812625027786,
      "loss": 1.7849,
      "step": 5281
    },
    {
      "epoch": 0.11737777777777778,
      "grad_norm": 1.4207614660263062,
      "learning_rate": 0.00017656368081795954,
      "loss": 1.8914,
      "step": 5282
    },
    {
      "epoch": 0.1174,
      "grad_norm": 1.6397193670272827,
      "learning_rate": 0.00017655923538564125,
      "loss": 2.0707,
      "step": 5283
    },
    {
      "epoch": 0.11742222222222222,
      "grad_norm": 1.652906060218811,
      "learning_rate": 0.000176554789953323,
      "loss": 2.2814,
      "step": 5284
    },
    {
      "epoch": 0.11744444444444445,
      "grad_norm": 1.5583537817001343,
      "learning_rate": 0.00017655034452100467,
      "loss": 1.9645,
      "step": 5285
    },
    {
      "epoch": 0.11746666666666666,
      "grad_norm": 1.617470145225525,
      "learning_rate": 0.00017654589908868638,
      "loss": 2.3568,
      "step": 5286
    },
    {
      "epoch": 0.11748888888888889,
      "grad_norm": 1.1242471933364868,
      "learning_rate": 0.0001765414536563681,
      "loss": 1.5103,
      "step": 5287
    },
    {
      "epoch": 0.11751111111111111,
      "grad_norm": 1.2432036399841309,
      "learning_rate": 0.0001765370082240498,
      "loss": 1.8405,
      "step": 5288
    },
    {
      "epoch": 0.11753333333333334,
      "grad_norm": 1.89714777469635,
      "learning_rate": 0.0001765325627917315,
      "loss": 1.9395,
      "step": 5289
    },
    {
      "epoch": 0.11755555555555555,
      "grad_norm": 1.605613350868225,
      "learning_rate": 0.00017652811735941322,
      "loss": 1.6508,
      "step": 5290
    },
    {
      "epoch": 0.11757777777777778,
      "grad_norm": 1.2117068767547607,
      "learning_rate": 0.0001765236719270949,
      "loss": 1.3842,
      "step": 5291
    },
    {
      "epoch": 0.1176,
      "grad_norm": 1.521615982055664,
      "learning_rate": 0.00017651922649477664,
      "loss": 1.7865,
      "step": 5292
    },
    {
      "epoch": 0.11762222222222223,
      "grad_norm": 1.4674835205078125,
      "learning_rate": 0.00017651478106245835,
      "loss": 1.8896,
      "step": 5293
    },
    {
      "epoch": 0.11764444444444444,
      "grad_norm": 1.7414501905441284,
      "learning_rate": 0.00017651033563014003,
      "loss": 1.7946,
      "step": 5294
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 1.5351295471191406,
      "learning_rate": 0.00017650589019782177,
      "loss": 2.1356,
      "step": 5295
    },
    {
      "epoch": 0.11768888888888888,
      "grad_norm": 1.5506839752197266,
      "learning_rate": 0.00017650144476550345,
      "loss": 1.665,
      "step": 5296
    },
    {
      "epoch": 0.11771111111111111,
      "grad_norm": 1.8029471635818481,
      "learning_rate": 0.00017649699933318516,
      "loss": 2.2883,
      "step": 5297
    },
    {
      "epoch": 0.11773333333333333,
      "grad_norm": 1.722137212753296,
      "learning_rate": 0.00017649255390086687,
      "loss": 1.9989,
      "step": 5298
    },
    {
      "epoch": 0.11775555555555556,
      "grad_norm": 1.1177178621292114,
      "learning_rate": 0.00017648810846854858,
      "loss": 0.9143,
      "step": 5299
    },
    {
      "epoch": 0.11777777777777777,
      "grad_norm": 2.0511486530303955,
      "learning_rate": 0.00017648366303623026,
      "loss": 1.5475,
      "step": 5300
    },
    {
      "epoch": 0.1178,
      "grad_norm": 1.1329748630523682,
      "learning_rate": 0.000176479217603912,
      "loss": 2.561,
      "step": 5301
    },
    {
      "epoch": 0.11782222222222222,
      "grad_norm": 1.1399606466293335,
      "learning_rate": 0.0001764747721715937,
      "loss": 2.5816,
      "step": 5302
    },
    {
      "epoch": 0.11784444444444445,
      "grad_norm": 1.2358503341674805,
      "learning_rate": 0.0001764703267392754,
      "loss": 2.7507,
      "step": 5303
    },
    {
      "epoch": 0.11786666666666666,
      "grad_norm": 1.2099177837371826,
      "learning_rate": 0.00017646588130695713,
      "loss": 2.2699,
      "step": 5304
    },
    {
      "epoch": 0.11788888888888889,
      "grad_norm": 1.4148722887039185,
      "learning_rate": 0.0001764614358746388,
      "loss": 2.21,
      "step": 5305
    },
    {
      "epoch": 0.1179111111111111,
      "grad_norm": 1.3210283517837524,
      "learning_rate": 0.00017645699044232052,
      "loss": 2.3632,
      "step": 5306
    },
    {
      "epoch": 0.11793333333333333,
      "grad_norm": 1.2683974504470825,
      "learning_rate": 0.00017645254501000223,
      "loss": 2.2202,
      "step": 5307
    },
    {
      "epoch": 0.11795555555555555,
      "grad_norm": 1.2240488529205322,
      "learning_rate": 0.00017644809957768394,
      "loss": 2.1375,
      "step": 5308
    },
    {
      "epoch": 0.11797777777777778,
      "grad_norm": 1.2785743474960327,
      "learning_rate": 0.00017644365414536565,
      "loss": 2.3544,
      "step": 5309
    },
    {
      "epoch": 0.118,
      "grad_norm": 1.1695648431777954,
      "learning_rate": 0.00017643920871304736,
      "loss": 1.6152,
      "step": 5310
    },
    {
      "epoch": 0.11802222222222222,
      "grad_norm": 1.2881643772125244,
      "learning_rate": 0.00017643476328072907,
      "loss": 2.0697,
      "step": 5311
    },
    {
      "epoch": 0.11804444444444444,
      "grad_norm": 1.5018974542617798,
      "learning_rate": 0.00017643031784841078,
      "loss": 2.2197,
      "step": 5312
    },
    {
      "epoch": 0.11806666666666667,
      "grad_norm": 1.4593993425369263,
      "learning_rate": 0.00017642587241609248,
      "loss": 1.8216,
      "step": 5313
    },
    {
      "epoch": 0.11808888888888888,
      "grad_norm": 1.315935730934143,
      "learning_rate": 0.00017642142698377417,
      "loss": 2.3698,
      "step": 5314
    },
    {
      "epoch": 0.11811111111111111,
      "grad_norm": 1.242400050163269,
      "learning_rate": 0.0001764169815514559,
      "loss": 1.7734,
      "step": 5315
    },
    {
      "epoch": 0.11813333333333334,
      "grad_norm": 1.2046672105789185,
      "learning_rate": 0.0001764125361191376,
      "loss": 2.058,
      "step": 5316
    },
    {
      "epoch": 0.11815555555555556,
      "grad_norm": 1.5521178245544434,
      "learning_rate": 0.0001764080906868193,
      "loss": 1.8642,
      "step": 5317
    },
    {
      "epoch": 0.11817777777777778,
      "grad_norm": 1.3548787832260132,
      "learning_rate": 0.000176403645254501,
      "loss": 1.8319,
      "step": 5318
    },
    {
      "epoch": 0.1182,
      "grad_norm": 1.2194868326187134,
      "learning_rate": 0.00017639919982218272,
      "loss": 1.9327,
      "step": 5319
    },
    {
      "epoch": 0.11822222222222223,
      "grad_norm": 1.486953616142273,
      "learning_rate": 0.00017639475438986443,
      "loss": 2.1188,
      "step": 5320
    },
    {
      "epoch": 0.11824444444444444,
      "grad_norm": 1.3464984893798828,
      "learning_rate": 0.00017639030895754613,
      "loss": 1.8698,
      "step": 5321
    },
    {
      "epoch": 0.11826666666666667,
      "grad_norm": 1.3133989572525024,
      "learning_rate": 0.00017638586352522784,
      "loss": 2.0739,
      "step": 5322
    },
    {
      "epoch": 0.11828888888888889,
      "grad_norm": 1.5383790731430054,
      "learning_rate": 0.00017638141809290953,
      "loss": 2.2934,
      "step": 5323
    },
    {
      "epoch": 0.11831111111111112,
      "grad_norm": 1.519073247909546,
      "learning_rate": 0.00017637697266059126,
      "loss": 2.2256,
      "step": 5324
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 1.5013478994369507,
      "learning_rate": 0.00017637252722827295,
      "loss": 2.0535,
      "step": 5325
    },
    {
      "epoch": 0.11835555555555556,
      "grad_norm": 1.590309739112854,
      "learning_rate": 0.00017636808179595468,
      "loss": 2.1103,
      "step": 5326
    },
    {
      "epoch": 0.11837777777777778,
      "grad_norm": 1.3759711980819702,
      "learning_rate": 0.00017636363636363637,
      "loss": 1.6379,
      "step": 5327
    },
    {
      "epoch": 0.1184,
      "grad_norm": 1.4251233339309692,
      "learning_rate": 0.00017635919093131808,
      "loss": 1.8206,
      "step": 5328
    },
    {
      "epoch": 0.11842222222222222,
      "grad_norm": 1.32326340675354,
      "learning_rate": 0.00017635474549899978,
      "loss": 2.0143,
      "step": 5329
    },
    {
      "epoch": 0.11844444444444445,
      "grad_norm": 1.4937288761138916,
      "learning_rate": 0.0001763503000666815,
      "loss": 1.9967,
      "step": 5330
    },
    {
      "epoch": 0.11846666666666666,
      "grad_norm": 1.4195647239685059,
      "learning_rate": 0.0001763458546343632,
      "loss": 1.9967,
      "step": 5331
    },
    {
      "epoch": 0.1184888888888889,
      "grad_norm": 1.2169235944747925,
      "learning_rate": 0.0001763414092020449,
      "loss": 1.7113,
      "step": 5332
    },
    {
      "epoch": 0.11851111111111111,
      "grad_norm": 1.279299020767212,
      "learning_rate": 0.00017633696376972662,
      "loss": 1.651,
      "step": 5333
    },
    {
      "epoch": 0.11853333333333334,
      "grad_norm": 1.337620496749878,
      "learning_rate": 0.0001763325183374083,
      "loss": 1.7411,
      "step": 5334
    },
    {
      "epoch": 0.11855555555555555,
      "grad_norm": 1.3059263229370117,
      "learning_rate": 0.00017632807290509004,
      "loss": 1.9643,
      "step": 5335
    },
    {
      "epoch": 0.11857777777777778,
      "grad_norm": 1.180927038192749,
      "learning_rate": 0.00017632362747277172,
      "loss": 1.6305,
      "step": 5336
    },
    {
      "epoch": 0.1186,
      "grad_norm": 1.709225058555603,
      "learning_rate": 0.00017631918204045343,
      "loss": 1.3351,
      "step": 5337
    },
    {
      "epoch": 0.11862222222222223,
      "grad_norm": 1.459447979927063,
      "learning_rate": 0.00017631473660813514,
      "loss": 1.5938,
      "step": 5338
    },
    {
      "epoch": 0.11864444444444444,
      "grad_norm": 1.4783196449279785,
      "learning_rate": 0.00017631029117581685,
      "loss": 2.0352,
      "step": 5339
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 1.7100448608398438,
      "learning_rate": 0.00017630584574349856,
      "loss": 2.2695,
      "step": 5340
    },
    {
      "epoch": 0.11868888888888889,
      "grad_norm": 1.6299489736557007,
      "learning_rate": 0.00017630140031118027,
      "loss": 2.0207,
      "step": 5341
    },
    {
      "epoch": 0.11871111111111111,
      "grad_norm": 1.300455927848816,
      "learning_rate": 0.00017629695487886198,
      "loss": 1.6338,
      "step": 5342
    },
    {
      "epoch": 0.11873333333333333,
      "grad_norm": 1.4826745986938477,
      "learning_rate": 0.00017629250944654367,
      "loss": 2.1268,
      "step": 5343
    },
    {
      "epoch": 0.11875555555555556,
      "grad_norm": 1.4010862112045288,
      "learning_rate": 0.0001762880640142254,
      "loss": 1.6763,
      "step": 5344
    },
    {
      "epoch": 0.11877777777777777,
      "grad_norm": 1.5481170415878296,
      "learning_rate": 0.00017628361858190708,
      "loss": 1.9606,
      "step": 5345
    },
    {
      "epoch": 0.1188,
      "grad_norm": 1.443782925605774,
      "learning_rate": 0.00017627917314958882,
      "loss": 1.8097,
      "step": 5346
    },
    {
      "epoch": 0.11882222222222222,
      "grad_norm": 1.6537758111953735,
      "learning_rate": 0.0001762747277172705,
      "loss": 2.1905,
      "step": 5347
    },
    {
      "epoch": 0.11884444444444445,
      "grad_norm": 1.1383209228515625,
      "learning_rate": 0.0001762702822849522,
      "loss": 0.9384,
      "step": 5348
    },
    {
      "epoch": 0.11886666666666666,
      "grad_norm": 1.6287567615509033,
      "learning_rate": 0.00017626583685263395,
      "loss": 1.8319,
      "step": 5349
    },
    {
      "epoch": 0.11888888888888889,
      "grad_norm": 1.591026782989502,
      "learning_rate": 0.00017626139142031563,
      "loss": 1.4961,
      "step": 5350
    },
    {
      "epoch": 0.1189111111111111,
      "grad_norm": 1.3136881589889526,
      "learning_rate": 0.00017625694598799734,
      "loss": 2.7104,
      "step": 5351
    },
    {
      "epoch": 0.11893333333333334,
      "grad_norm": 0.8935657143592834,
      "learning_rate": 0.00017625250055567905,
      "loss": 1.0035,
      "step": 5352
    },
    {
      "epoch": 0.11895555555555555,
      "grad_norm": 1.1173268556594849,
      "learning_rate": 0.00017624805512336076,
      "loss": 2.6667,
      "step": 5353
    },
    {
      "epoch": 0.11897777777777778,
      "grad_norm": 1.1806538105010986,
      "learning_rate": 0.00017624360969104244,
      "loss": 2.627,
      "step": 5354
    },
    {
      "epoch": 0.119,
      "grad_norm": 1.3073537349700928,
      "learning_rate": 0.00017623916425872418,
      "loss": 2.2361,
      "step": 5355
    },
    {
      "epoch": 0.11902222222222222,
      "grad_norm": 1.3068557977676392,
      "learning_rate": 0.00017623471882640586,
      "loss": 2.351,
      "step": 5356
    },
    {
      "epoch": 0.11904444444444444,
      "grad_norm": 1.3066822290420532,
      "learning_rate": 0.00017623027339408757,
      "loss": 2.3886,
      "step": 5357
    },
    {
      "epoch": 0.11906666666666667,
      "grad_norm": 1.5762578248977661,
      "learning_rate": 0.0001762258279617693,
      "loss": 2.8693,
      "step": 5358
    },
    {
      "epoch": 0.11908888888888888,
      "grad_norm": 1.3594423532485962,
      "learning_rate": 0.000176221382529451,
      "loss": 2.2211,
      "step": 5359
    },
    {
      "epoch": 0.11911111111111111,
      "grad_norm": 1.374115228652954,
      "learning_rate": 0.0001762169370971327,
      "loss": 2.3144,
      "step": 5360
    },
    {
      "epoch": 0.11913333333333333,
      "grad_norm": 1.1598597764968872,
      "learning_rate": 0.0001762124916648144,
      "loss": 2.0539,
      "step": 5361
    },
    {
      "epoch": 0.11915555555555556,
      "grad_norm": 1.3526229858398438,
      "learning_rate": 0.00017620804623249612,
      "loss": 2.2893,
      "step": 5362
    },
    {
      "epoch": 0.11917777777777777,
      "grad_norm": 1.18488609790802,
      "learning_rate": 0.0001762036008001778,
      "loss": 2.096,
      "step": 5363
    },
    {
      "epoch": 0.1192,
      "grad_norm": 1.5909847021102905,
      "learning_rate": 0.00017619915536785954,
      "loss": 1.7807,
      "step": 5364
    },
    {
      "epoch": 0.11922222222222222,
      "grad_norm": 1.1957515478134155,
      "learning_rate": 0.00017619470993554122,
      "loss": 1.8592,
      "step": 5365
    },
    {
      "epoch": 0.11924444444444444,
      "grad_norm": 1.3143359422683716,
      "learning_rate": 0.00017619026450322296,
      "loss": 2.542,
      "step": 5366
    },
    {
      "epoch": 0.11926666666666667,
      "grad_norm": 1.3081083297729492,
      "learning_rate": 0.00017618581907090467,
      "loss": 2.0713,
      "step": 5367
    },
    {
      "epoch": 0.11928888888888889,
      "grad_norm": 1.50722074508667,
      "learning_rate": 0.00017618137363858635,
      "loss": 2.0542,
      "step": 5368
    },
    {
      "epoch": 0.11931111111111112,
      "grad_norm": 1.3415404558181763,
      "learning_rate": 0.0001761769282062681,
      "loss": 1.9887,
      "step": 5369
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 1.4755011796951294,
      "learning_rate": 0.00017617248277394977,
      "loss": 2.0182,
      "step": 5370
    },
    {
      "epoch": 0.11935555555555556,
      "grad_norm": 2.152355194091797,
      "learning_rate": 0.00017616803734163148,
      "loss": 2.2724,
      "step": 5371
    },
    {
      "epoch": 0.11937777777777778,
      "grad_norm": 1.5270416736602783,
      "learning_rate": 0.0001761635919093132,
      "loss": 2.1434,
      "step": 5372
    },
    {
      "epoch": 0.1194,
      "grad_norm": 1.2348328828811646,
      "learning_rate": 0.0001761591464769949,
      "loss": 1.7284,
      "step": 5373
    },
    {
      "epoch": 0.11942222222222222,
      "grad_norm": 1.5608582496643066,
      "learning_rate": 0.00017615470104467658,
      "loss": 2.5933,
      "step": 5374
    },
    {
      "epoch": 0.11944444444444445,
      "grad_norm": 1.364562749862671,
      "learning_rate": 0.00017615025561235832,
      "loss": 1.3428,
      "step": 5375
    },
    {
      "epoch": 0.11946666666666667,
      "grad_norm": 1.2291452884674072,
      "learning_rate": 0.00017614581018004003,
      "loss": 1.7089,
      "step": 5376
    },
    {
      "epoch": 0.1194888888888889,
      "grad_norm": 1.4369453191757202,
      "learning_rate": 0.0001761413647477217,
      "loss": 1.8694,
      "step": 5377
    },
    {
      "epoch": 0.11951111111111111,
      "grad_norm": 1.707565188407898,
      "learning_rate": 0.00017613691931540345,
      "loss": 2.038,
      "step": 5378
    },
    {
      "epoch": 0.11953333333333334,
      "grad_norm": 1.57915198802948,
      "learning_rate": 0.00017613247388308513,
      "loss": 2.1948,
      "step": 5379
    },
    {
      "epoch": 0.11955555555555555,
      "grad_norm": 1.5299053192138672,
      "learning_rate": 0.00017612802845076684,
      "loss": 2.1036,
      "step": 5380
    },
    {
      "epoch": 0.11957777777777778,
      "grad_norm": 1.5348644256591797,
      "learning_rate": 0.00017612358301844855,
      "loss": 2.0143,
      "step": 5381
    },
    {
      "epoch": 0.1196,
      "grad_norm": 1.498921513557434,
      "learning_rate": 0.00017611913758613026,
      "loss": 2.2815,
      "step": 5382
    },
    {
      "epoch": 0.11962222222222223,
      "grad_norm": 1.3713126182556152,
      "learning_rate": 0.00017611469215381197,
      "loss": 2.0106,
      "step": 5383
    },
    {
      "epoch": 0.11964444444444444,
      "grad_norm": 1.3361093997955322,
      "learning_rate": 0.00017611024672149368,
      "loss": 1.5056,
      "step": 5384
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 1.526151418685913,
      "learning_rate": 0.0001761058012891754,
      "loss": 2.2409,
      "step": 5385
    },
    {
      "epoch": 0.11968888888888889,
      "grad_norm": 1.0747336149215698,
      "learning_rate": 0.0001761013558568571,
      "loss": 1.1673,
      "step": 5386
    },
    {
      "epoch": 0.11971111111111112,
      "grad_norm": 1.5327506065368652,
      "learning_rate": 0.0001760969104245388,
      "loss": 2.4346,
      "step": 5387
    },
    {
      "epoch": 0.11973333333333333,
      "grad_norm": 1.6524103879928589,
      "learning_rate": 0.0001760924649922205,
      "loss": 2.2578,
      "step": 5388
    },
    {
      "epoch": 0.11975555555555556,
      "grad_norm": 1.0503798723220825,
      "learning_rate": 0.00017608801955990223,
      "loss": 1.4011,
      "step": 5389
    },
    {
      "epoch": 0.11977777777777777,
      "grad_norm": 1.5487574338912964,
      "learning_rate": 0.0001760835741275839,
      "loss": 2.0102,
      "step": 5390
    },
    {
      "epoch": 0.1198,
      "grad_norm": 1.4952478408813477,
      "learning_rate": 0.00017607912869526562,
      "loss": 1.9899,
      "step": 5391
    },
    {
      "epoch": 0.11982222222222222,
      "grad_norm": 2.1977550983428955,
      "learning_rate": 0.00017607468326294733,
      "loss": 2.1104,
      "step": 5392
    },
    {
      "epoch": 0.11984444444444445,
      "grad_norm": 1.458886981010437,
      "learning_rate": 0.00017607023783062904,
      "loss": 2.0782,
      "step": 5393
    },
    {
      "epoch": 0.11986666666666666,
      "grad_norm": 1.487859845161438,
      "learning_rate": 0.00017606579239831075,
      "loss": 2.0878,
      "step": 5394
    },
    {
      "epoch": 0.11988888888888889,
      "grad_norm": 1.823037028312683,
      "learning_rate": 0.00017606134696599246,
      "loss": 2.1234,
      "step": 5395
    },
    {
      "epoch": 0.11991111111111111,
      "grad_norm": 1.6371210813522339,
      "learning_rate": 0.00017605690153367417,
      "loss": 1.8329,
      "step": 5396
    },
    {
      "epoch": 0.11993333333333334,
      "grad_norm": 1.652319312095642,
      "learning_rate": 0.00017605245610135585,
      "loss": 2.0011,
      "step": 5397
    },
    {
      "epoch": 0.11995555555555555,
      "grad_norm": 1.4988453388214111,
      "learning_rate": 0.00017604801066903759,
      "loss": 2.0832,
      "step": 5398
    },
    {
      "epoch": 0.11997777777777778,
      "grad_norm": 0.9742237329483032,
      "learning_rate": 0.00017604356523671927,
      "loss": 1.0062,
      "step": 5399
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6093817949295044,
      "learning_rate": 0.00017603911980440098,
      "loss": 1.8027,
      "step": 5400
    },
    {
      "epoch": 0.12002222222222222,
      "grad_norm": 1.105739951133728,
      "learning_rate": 0.0001760346743720827,
      "loss": 2.4526,
      "step": 5401
    },
    {
      "epoch": 0.12004444444444444,
      "grad_norm": 1.249966025352478,
      "learning_rate": 0.0001760302289397644,
      "loss": 2.3588,
      "step": 5402
    },
    {
      "epoch": 0.12006666666666667,
      "grad_norm": 1.2133911848068237,
      "learning_rate": 0.0001760257835074461,
      "loss": 2.1579,
      "step": 5403
    },
    {
      "epoch": 0.12008888888888888,
      "grad_norm": 1.3862272500991821,
      "learning_rate": 0.00017602133807512782,
      "loss": 2.2267,
      "step": 5404
    },
    {
      "epoch": 0.12011111111111111,
      "grad_norm": 1.221453309059143,
      "learning_rate": 0.00017601689264280953,
      "loss": 2.0619,
      "step": 5405
    },
    {
      "epoch": 0.12013333333333333,
      "grad_norm": 1.37450110912323,
      "learning_rate": 0.00017601244721049124,
      "loss": 2.4044,
      "step": 5406
    },
    {
      "epoch": 0.12015555555555556,
      "grad_norm": 1.2601813077926636,
      "learning_rate": 0.00017600800177817295,
      "loss": 2.2033,
      "step": 5407
    },
    {
      "epoch": 0.12017777777777777,
      "grad_norm": 1.2841092348098755,
      "learning_rate": 0.00017600355634585463,
      "loss": 2.3921,
      "step": 5408
    },
    {
      "epoch": 0.1202,
      "grad_norm": 1.7169899940490723,
      "learning_rate": 0.00017599911091353636,
      "loss": 2.5049,
      "step": 5409
    },
    {
      "epoch": 0.12022222222222222,
      "grad_norm": 1.2919684648513794,
      "learning_rate": 0.00017599466548121805,
      "loss": 2.3591,
      "step": 5410
    },
    {
      "epoch": 0.12024444444444445,
      "grad_norm": 1.6948210000991821,
      "learning_rate": 0.00017599022004889976,
      "loss": 1.8261,
      "step": 5411
    },
    {
      "epoch": 0.12026666666666666,
      "grad_norm": 1.2719382047653198,
      "learning_rate": 0.00017598577461658147,
      "loss": 1.9508,
      "step": 5412
    },
    {
      "epoch": 0.12028888888888889,
      "grad_norm": 1.1370006799697876,
      "learning_rate": 0.00017598132918426318,
      "loss": 1.9451,
      "step": 5413
    },
    {
      "epoch": 0.1203111111111111,
      "grad_norm": 1.375157117843628,
      "learning_rate": 0.00017597688375194489,
      "loss": 2.244,
      "step": 5414
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 1.4060500860214233,
      "learning_rate": 0.0001759724383196266,
      "loss": 1.9549,
      "step": 5415
    },
    {
      "epoch": 0.12035555555555555,
      "grad_norm": 1.2311173677444458,
      "learning_rate": 0.0001759679928873083,
      "loss": 1.4483,
      "step": 5416
    },
    {
      "epoch": 0.12037777777777778,
      "grad_norm": 0.7444687485694885,
      "learning_rate": 0.00017596354745499,
      "loss": 0.7464,
      "step": 5417
    },
    {
      "epoch": 0.1204,
      "grad_norm": 1.4108421802520752,
      "learning_rate": 0.00017595910202267172,
      "loss": 1.9773,
      "step": 5418
    },
    {
      "epoch": 0.12042222222222222,
      "grad_norm": 1.3470193147659302,
      "learning_rate": 0.0001759546565903534,
      "loss": 1.8855,
      "step": 5419
    },
    {
      "epoch": 0.12044444444444445,
      "grad_norm": 1.3168474435806274,
      "learning_rate": 0.00017595021115803512,
      "loss": 2.1228,
      "step": 5420
    },
    {
      "epoch": 0.12046666666666667,
      "grad_norm": 1.3302816152572632,
      "learning_rate": 0.00017594576572571683,
      "loss": 2.202,
      "step": 5421
    },
    {
      "epoch": 0.1204888888888889,
      "grad_norm": 1.541150689125061,
      "learning_rate": 0.00017594132029339854,
      "loss": 2.1493,
      "step": 5422
    },
    {
      "epoch": 0.12051111111111111,
      "grad_norm": 1.6791285276412964,
      "learning_rate": 0.00017593687486108027,
      "loss": 1.7648,
      "step": 5423
    },
    {
      "epoch": 0.12053333333333334,
      "grad_norm": 1.2824586629867554,
      "learning_rate": 0.00017593242942876195,
      "loss": 1.458,
      "step": 5424
    },
    {
      "epoch": 0.12055555555555555,
      "grad_norm": 1.273733377456665,
      "learning_rate": 0.00017592798399644366,
      "loss": 2.0712,
      "step": 5425
    },
    {
      "epoch": 0.12057777777777778,
      "grad_norm": 1.363002896308899,
      "learning_rate": 0.00017592353856412537,
      "loss": 1.9277,
      "step": 5426
    },
    {
      "epoch": 0.1206,
      "grad_norm": 1.3369234800338745,
      "learning_rate": 0.00017591909313180708,
      "loss": 1.7889,
      "step": 5427
    },
    {
      "epoch": 0.12062222222222223,
      "grad_norm": 1.3762807846069336,
      "learning_rate": 0.00017591464769948877,
      "loss": 1.9743,
      "step": 5428
    },
    {
      "epoch": 0.12064444444444444,
      "grad_norm": 1.2368000745773315,
      "learning_rate": 0.0001759102022671705,
      "loss": 2.1269,
      "step": 5429
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 1.4450563192367554,
      "learning_rate": 0.00017590575683485219,
      "loss": 1.9879,
      "step": 5430
    },
    {
      "epoch": 0.12068888888888889,
      "grad_norm": 1.5361896753311157,
      "learning_rate": 0.0001759013114025339,
      "loss": 1.8817,
      "step": 5431
    },
    {
      "epoch": 0.12071111111111112,
      "grad_norm": 1.3526053428649902,
      "learning_rate": 0.00017589686597021563,
      "loss": 2.0072,
      "step": 5432
    },
    {
      "epoch": 0.12073333333333333,
      "grad_norm": 2.2376511096954346,
      "learning_rate": 0.00017589242053789731,
      "loss": 2.4299,
      "step": 5433
    },
    {
      "epoch": 0.12075555555555556,
      "grad_norm": 1.4772059917449951,
      "learning_rate": 0.00017588797510557902,
      "loss": 2.2072,
      "step": 5434
    },
    {
      "epoch": 0.12077777777777778,
      "grad_norm": 1.3809669017791748,
      "learning_rate": 0.00017588352967326073,
      "loss": 1.879,
      "step": 5435
    },
    {
      "epoch": 0.1208,
      "grad_norm": 1.4751999378204346,
      "learning_rate": 0.00017587908424094244,
      "loss": 1.7229,
      "step": 5436
    },
    {
      "epoch": 0.12082222222222222,
      "grad_norm": 1.1723740100860596,
      "learning_rate": 0.00017587463880862413,
      "loss": 1.3956,
      "step": 5437
    },
    {
      "epoch": 0.12084444444444445,
      "grad_norm": 1.3456860780715942,
      "learning_rate": 0.00017587019337630586,
      "loss": 1.7406,
      "step": 5438
    },
    {
      "epoch": 0.12086666666666666,
      "grad_norm": 1.4577151536941528,
      "learning_rate": 0.00017586574794398754,
      "loss": 1.808,
      "step": 5439
    },
    {
      "epoch": 0.12088888888888889,
      "grad_norm": 1.4733655452728271,
      "learning_rate": 0.00017586130251166928,
      "loss": 2.4855,
      "step": 5440
    },
    {
      "epoch": 0.12091111111111111,
      "grad_norm": 1.699185848236084,
      "learning_rate": 0.000175856857079351,
      "loss": 2.1676,
      "step": 5441
    },
    {
      "epoch": 0.12093333333333334,
      "grad_norm": 1.5306462049484253,
      "learning_rate": 0.00017585241164703267,
      "loss": 2.2341,
      "step": 5442
    },
    {
      "epoch": 0.12095555555555555,
      "grad_norm": 1.4867432117462158,
      "learning_rate": 0.0001758479662147144,
      "loss": 1.5941,
      "step": 5443
    },
    {
      "epoch": 0.12097777777777778,
      "grad_norm": 2.0122742652893066,
      "learning_rate": 0.0001758435207823961,
      "loss": 2.196,
      "step": 5444
    },
    {
      "epoch": 0.121,
      "grad_norm": 1.6140018701553345,
      "learning_rate": 0.0001758390753500778,
      "loss": 1.801,
      "step": 5445
    },
    {
      "epoch": 0.12102222222222223,
      "grad_norm": 1.6128158569335938,
      "learning_rate": 0.0001758346299177595,
      "loss": 2.0166,
      "step": 5446
    },
    {
      "epoch": 0.12104444444444444,
      "grad_norm": 1.7852380275726318,
      "learning_rate": 0.00017583018448544122,
      "loss": 2.2222,
      "step": 5447
    },
    {
      "epoch": 0.12106666666666667,
      "grad_norm": 1.9921118021011353,
      "learning_rate": 0.0001758257390531229,
      "loss": 2.3276,
      "step": 5448
    },
    {
      "epoch": 0.12108888888888888,
      "grad_norm": 1.7859333753585815,
      "learning_rate": 0.00017582129362080464,
      "loss": 1.7207,
      "step": 5449
    },
    {
      "epoch": 0.12111111111111111,
      "grad_norm": 1.216085433959961,
      "learning_rate": 0.00017581684818848635,
      "loss": 0.9942,
      "step": 5450
    },
    {
      "epoch": 0.12113333333333333,
      "grad_norm": 1.2008804082870483,
      "learning_rate": 0.00017581240275616803,
      "loss": 2.599,
      "step": 5451
    },
    {
      "epoch": 0.12115555555555556,
      "grad_norm": 1.0224785804748535,
      "learning_rate": 0.00017580795732384977,
      "loss": 2.5537,
      "step": 5452
    },
    {
      "epoch": 0.12117777777777777,
      "grad_norm": 1.2087600231170654,
      "learning_rate": 0.00017580351189153145,
      "loss": 2.2786,
      "step": 5453
    },
    {
      "epoch": 0.1212,
      "grad_norm": 1.0628563165664673,
      "learning_rate": 0.00017579906645921316,
      "loss": 2.0963,
      "step": 5454
    },
    {
      "epoch": 0.12122222222222222,
      "grad_norm": 1.2996944189071655,
      "learning_rate": 0.00017579462102689487,
      "loss": 2.7285,
      "step": 5455
    },
    {
      "epoch": 0.12124444444444445,
      "grad_norm": 1.0638445615768433,
      "learning_rate": 0.00017579017559457658,
      "loss": 2.1639,
      "step": 5456
    },
    {
      "epoch": 0.12126666666666666,
      "grad_norm": 1.104348063468933,
      "learning_rate": 0.0001757857301622583,
      "loss": 2.1658,
      "step": 5457
    },
    {
      "epoch": 0.12128888888888889,
      "grad_norm": 1.0810750722885132,
      "learning_rate": 0.00017578128472994,
      "loss": 2.0366,
      "step": 5458
    },
    {
      "epoch": 0.1213111111111111,
      "grad_norm": 1.2350605726242065,
      "learning_rate": 0.0001757768392976217,
      "loss": 2.366,
      "step": 5459
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 1.0856024026870728,
      "learning_rate": 0.00017577239386530342,
      "loss": 1.5948,
      "step": 5460
    },
    {
      "epoch": 0.12135555555555555,
      "grad_norm": 1.4158234596252441,
      "learning_rate": 0.00017576794843298513,
      "loss": 2.2516,
      "step": 5461
    },
    {
      "epoch": 0.12137777777777778,
      "grad_norm": 1.260646939277649,
      "learning_rate": 0.0001757635030006668,
      "loss": 2.05,
      "step": 5462
    },
    {
      "epoch": 0.1214,
      "grad_norm": 1.3939595222473145,
      "learning_rate": 0.00017575905756834855,
      "loss": 2.312,
      "step": 5463
    },
    {
      "epoch": 0.12142222222222222,
      "grad_norm": 1.3360390663146973,
      "learning_rate": 0.00017575461213603023,
      "loss": 1.9976,
      "step": 5464
    },
    {
      "epoch": 0.12144444444444444,
      "grad_norm": 1.3607547283172607,
      "learning_rate": 0.00017575016670371194,
      "loss": 2.1337,
      "step": 5465
    },
    {
      "epoch": 0.12146666666666667,
      "grad_norm": 1.398349642753601,
      "learning_rate": 0.00017574572127139365,
      "loss": 1.9801,
      "step": 5466
    },
    {
      "epoch": 0.12148888888888888,
      "grad_norm": 1.452897548675537,
      "learning_rate": 0.00017574127583907536,
      "loss": 1.8836,
      "step": 5467
    },
    {
      "epoch": 0.12151111111111111,
      "grad_norm": 1.2694931030273438,
      "learning_rate": 0.00017573683040675707,
      "loss": 2.1528,
      "step": 5468
    },
    {
      "epoch": 0.12153333333333333,
      "grad_norm": 1.4725255966186523,
      "learning_rate": 0.00017573238497443878,
      "loss": 2.3822,
      "step": 5469
    },
    {
      "epoch": 0.12155555555555556,
      "grad_norm": 1.8824690580368042,
      "learning_rate": 0.0001757279395421205,
      "loss": 2.414,
      "step": 5470
    },
    {
      "epoch": 0.12157777777777778,
      "grad_norm": 1.3713783025741577,
      "learning_rate": 0.00017572349410980217,
      "loss": 2.1578,
      "step": 5471
    },
    {
      "epoch": 0.1216,
      "grad_norm": 1.2440859079360962,
      "learning_rate": 0.0001757190486774839,
      "loss": 2.1013,
      "step": 5472
    },
    {
      "epoch": 0.12162222222222223,
      "grad_norm": 1.2553967237472534,
      "learning_rate": 0.0001757146032451656,
      "loss": 1.6495,
      "step": 5473
    },
    {
      "epoch": 0.12164444444444444,
      "grad_norm": 1.4948015213012695,
      "learning_rate": 0.0001757101578128473,
      "loss": 2.359,
      "step": 5474
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 1.1163078546524048,
      "learning_rate": 0.000175705712380529,
      "loss": 1.6343,
      "step": 5475
    },
    {
      "epoch": 0.12168888888888889,
      "grad_norm": 1.3653656244277954,
      "learning_rate": 0.00017570126694821072,
      "loss": 2.0001,
      "step": 5476
    },
    {
      "epoch": 0.12171111111111112,
      "grad_norm": 1.4548579454421997,
      "learning_rate": 0.00017569682151589243,
      "loss": 2.032,
      "step": 5477
    },
    {
      "epoch": 0.12173333333333333,
      "grad_norm": 1.5494674444198608,
      "learning_rate": 0.00017569237608357414,
      "loss": 2.1675,
      "step": 5478
    },
    {
      "epoch": 0.12175555555555556,
      "grad_norm": 1.6519051790237427,
      "learning_rate": 0.00017568793065125585,
      "loss": 2.2705,
      "step": 5479
    },
    {
      "epoch": 0.12177777777777778,
      "grad_norm": 1.0206865072250366,
      "learning_rate": 0.00017568348521893756,
      "loss": 0.8433,
      "step": 5480
    },
    {
      "epoch": 0.1218,
      "grad_norm": 0.9601181149482727,
      "learning_rate": 0.00017567903978661927,
      "loss": 0.7836,
      "step": 5481
    },
    {
      "epoch": 0.12182222222222222,
      "grad_norm": 1.3735986948013306,
      "learning_rate": 0.00017567459435430095,
      "loss": 2.1409,
      "step": 5482
    },
    {
      "epoch": 0.12184444444444445,
      "grad_norm": 1.5324476957321167,
      "learning_rate": 0.0001756701489219827,
      "loss": 1.963,
      "step": 5483
    },
    {
      "epoch": 0.12186666666666666,
      "grad_norm": 1.361390233039856,
      "learning_rate": 0.00017566570348966437,
      "loss": 1.9292,
      "step": 5484
    },
    {
      "epoch": 0.1218888888888889,
      "grad_norm": 1.3053042888641357,
      "learning_rate": 0.00017566125805734608,
      "loss": 1.8367,
      "step": 5485
    },
    {
      "epoch": 0.12191111111111111,
      "grad_norm": 0.8746700882911682,
      "learning_rate": 0.0001756568126250278,
      "loss": 0.7686,
      "step": 5486
    },
    {
      "epoch": 0.12193333333333334,
      "grad_norm": 1.5314648151397705,
      "learning_rate": 0.0001756523671927095,
      "loss": 2.0364,
      "step": 5487
    },
    {
      "epoch": 0.12195555555555555,
      "grad_norm": 1.5319647789001465,
      "learning_rate": 0.0001756479217603912,
      "loss": 2.1162,
      "step": 5488
    },
    {
      "epoch": 0.12197777777777778,
      "grad_norm": 1.3921022415161133,
      "learning_rate": 0.00017564347632807292,
      "loss": 1.9808,
      "step": 5489
    },
    {
      "epoch": 0.122,
      "grad_norm": 1.0672045946121216,
      "learning_rate": 0.00017563903089575463,
      "loss": 0.9565,
      "step": 5490
    },
    {
      "epoch": 0.12202222222222223,
      "grad_norm": 1.5345335006713867,
      "learning_rate": 0.0001756345854634363,
      "loss": 2.0686,
      "step": 5491
    },
    {
      "epoch": 0.12204444444444444,
      "grad_norm": 1.4220714569091797,
      "learning_rate": 0.00017563014003111805,
      "loss": 2.0589,
      "step": 5492
    },
    {
      "epoch": 0.12206666666666667,
      "grad_norm": 1.6933677196502686,
      "learning_rate": 0.00017562569459879973,
      "loss": 1.8398,
      "step": 5493
    },
    {
      "epoch": 0.12208888888888889,
      "grad_norm": 1.4287419319152832,
      "learning_rate": 0.00017562124916648144,
      "loss": 1.8575,
      "step": 5494
    },
    {
      "epoch": 0.12211111111111111,
      "grad_norm": 1.642154335975647,
      "learning_rate": 0.00017561680373416315,
      "loss": 1.9961,
      "step": 5495
    },
    {
      "epoch": 0.12213333333333333,
      "grad_norm": 1.3125642538070679,
      "learning_rate": 0.00017561235830184486,
      "loss": 1.4908,
      "step": 5496
    },
    {
      "epoch": 0.12215555555555556,
      "grad_norm": 1.5679808855056763,
      "learning_rate": 0.0001756079128695266,
      "loss": 1.7275,
      "step": 5497
    },
    {
      "epoch": 0.12217777777777777,
      "grad_norm": 2.044746160507202,
      "learning_rate": 0.00017560346743720828,
      "loss": 2.0774,
      "step": 5498
    },
    {
      "epoch": 0.1222,
      "grad_norm": 2.1605594158172607,
      "learning_rate": 0.00017559902200488999,
      "loss": 1.5302,
      "step": 5499
    },
    {
      "epoch": 0.12222222222222222,
      "grad_norm": 2.2942299842834473,
      "learning_rate": 0.0001755945765725717,
      "loss": 2.3454,
      "step": 5500
    },
    {
      "epoch": 0.12224444444444445,
      "grad_norm": 1.1898412704467773,
      "learning_rate": 0.0001755901311402534,
      "loss": 2.5329,
      "step": 5501
    },
    {
      "epoch": 0.12226666666666666,
      "grad_norm": 1.3529235124588013,
      "learning_rate": 0.0001755856857079351,
      "loss": 2.7181,
      "step": 5502
    },
    {
      "epoch": 0.12228888888888889,
      "grad_norm": 1.090880036354065,
      "learning_rate": 0.00017558124027561682,
      "loss": 2.4493,
      "step": 5503
    },
    {
      "epoch": 0.1223111111111111,
      "grad_norm": 1.2829734086990356,
      "learning_rate": 0.0001755767948432985,
      "loss": 2.839,
      "step": 5504
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 1.4062142372131348,
      "learning_rate": 0.00017557234941098022,
      "loss": 2.2182,
      "step": 5505
    },
    {
      "epoch": 0.12235555555555555,
      "grad_norm": 1.2428535223007202,
      "learning_rate": 0.00017556790397866195,
      "loss": 2.4321,
      "step": 5506
    },
    {
      "epoch": 0.12237777777777778,
      "grad_norm": 1.204148769378662,
      "learning_rate": 0.00017556345854634364,
      "loss": 2.1346,
      "step": 5507
    },
    {
      "epoch": 0.1224,
      "grad_norm": 1.606303095817566,
      "learning_rate": 0.00017555901311402535,
      "loss": 2.1029,
      "step": 5508
    },
    {
      "epoch": 0.12242222222222222,
      "grad_norm": 1.212436556816101,
      "learning_rate": 0.00017555456768170706,
      "loss": 2.184,
      "step": 5509
    },
    {
      "epoch": 0.12244444444444444,
      "grad_norm": 1.508344292640686,
      "learning_rate": 0.00017555012224938876,
      "loss": 1.8455,
      "step": 5510
    },
    {
      "epoch": 0.12246666666666667,
      "grad_norm": 1.1843526363372803,
      "learning_rate": 0.00017554567681707045,
      "loss": 1.2215,
      "step": 5511
    },
    {
      "epoch": 0.12248888888888888,
      "grad_norm": 1.2476683855056763,
      "learning_rate": 0.00017554123138475218,
      "loss": 1.9554,
      "step": 5512
    },
    {
      "epoch": 0.12251111111111111,
      "grad_norm": 1.2678171396255493,
      "learning_rate": 0.00017553678595243387,
      "loss": 1.9971,
      "step": 5513
    },
    {
      "epoch": 0.12253333333333333,
      "grad_norm": 1.3948583602905273,
      "learning_rate": 0.00017553234052011558,
      "loss": 2.3417,
      "step": 5514
    },
    {
      "epoch": 0.12255555555555556,
      "grad_norm": 1.2471293210983276,
      "learning_rate": 0.0001755278950877973,
      "loss": 2.0791,
      "step": 5515
    },
    {
      "epoch": 0.12257777777777777,
      "grad_norm": 1.2362476587295532,
      "learning_rate": 0.000175523449655479,
      "loss": 2.0801,
      "step": 5516
    },
    {
      "epoch": 0.1226,
      "grad_norm": 1.2476346492767334,
      "learning_rate": 0.00017551900422316073,
      "loss": 1.9745,
      "step": 5517
    },
    {
      "epoch": 0.12262222222222222,
      "grad_norm": 1.5372158288955688,
      "learning_rate": 0.00017551455879084241,
      "loss": 2.2629,
      "step": 5518
    },
    {
      "epoch": 0.12264444444444444,
      "grad_norm": 1.5773589611053467,
      "learning_rate": 0.00017551011335852412,
      "loss": 1.5542,
      "step": 5519
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 1.5273064374923706,
      "learning_rate": 0.00017550566792620583,
      "loss": 2.1919,
      "step": 5520
    },
    {
      "epoch": 0.12268888888888889,
      "grad_norm": 1.3893784284591675,
      "learning_rate": 0.00017550122249388754,
      "loss": 1.9537,
      "step": 5521
    },
    {
      "epoch": 0.12271111111111112,
      "grad_norm": 1.297458529472351,
      "learning_rate": 0.00017549677706156925,
      "loss": 1.496,
      "step": 5522
    },
    {
      "epoch": 0.12273333333333333,
      "grad_norm": 1.320982575416565,
      "learning_rate": 0.00017549233162925096,
      "loss": 1.6325,
      "step": 5523
    },
    {
      "epoch": 0.12275555555555556,
      "grad_norm": 1.5002436637878418,
      "learning_rate": 0.00017548788619693267,
      "loss": 2.1625,
      "step": 5524
    },
    {
      "epoch": 0.12277777777777778,
      "grad_norm": 1.3214778900146484,
      "learning_rate": 0.00017548344076461435,
      "loss": 1.4594,
      "step": 5525
    },
    {
      "epoch": 0.1228,
      "grad_norm": 1.4548455476760864,
      "learning_rate": 0.0001754789953322961,
      "loss": 2.3312,
      "step": 5526
    },
    {
      "epoch": 0.12282222222222222,
      "grad_norm": 1.2994675636291504,
      "learning_rate": 0.00017547454989997777,
      "loss": 1.8627,
      "step": 5527
    },
    {
      "epoch": 0.12284444444444445,
      "grad_norm": 1.6357507705688477,
      "learning_rate": 0.00017547010446765948,
      "loss": 2.5065,
      "step": 5528
    },
    {
      "epoch": 0.12286666666666667,
      "grad_norm": 1.5679765939712524,
      "learning_rate": 0.0001754656590353412,
      "loss": 2.1545,
      "step": 5529
    },
    {
      "epoch": 0.1228888888888889,
      "grad_norm": 1.0177266597747803,
      "learning_rate": 0.0001754612136030229,
      "loss": 0.8907,
      "step": 5530
    },
    {
      "epoch": 0.12291111111111111,
      "grad_norm": 1.397829294204712,
      "learning_rate": 0.0001754567681707046,
      "loss": 2.1316,
      "step": 5531
    },
    {
      "epoch": 0.12293333333333334,
      "grad_norm": 1.4420441389083862,
      "learning_rate": 0.00017545232273838632,
      "loss": 1.8244,
      "step": 5532
    },
    {
      "epoch": 0.12295555555555555,
      "grad_norm": 1.2789305448532104,
      "learning_rate": 0.00017544787730606803,
      "loss": 0.5136,
      "step": 5533
    },
    {
      "epoch": 0.12297777777777778,
      "grad_norm": 1.3508515357971191,
      "learning_rate": 0.00017544343187374971,
      "loss": 2.1134,
      "step": 5534
    },
    {
      "epoch": 0.123,
      "grad_norm": 1.593056321144104,
      "learning_rate": 0.00017543898644143145,
      "loss": 2.2884,
      "step": 5535
    },
    {
      "epoch": 0.12302222222222223,
      "grad_norm": 1.4233072996139526,
      "learning_rate": 0.00017543454100911313,
      "loss": 1.7037,
      "step": 5536
    },
    {
      "epoch": 0.12304444444444444,
      "grad_norm": 1.241795539855957,
      "learning_rate": 0.00017543009557679487,
      "loss": 1.7391,
      "step": 5537
    },
    {
      "epoch": 0.12306666666666667,
      "grad_norm": 1.4280420541763306,
      "learning_rate": 0.00017542565014447655,
      "loss": 1.7776,
      "step": 5538
    },
    {
      "epoch": 0.12308888888888889,
      "grad_norm": 1.4493541717529297,
      "learning_rate": 0.00017542120471215826,
      "loss": 2.025,
      "step": 5539
    },
    {
      "epoch": 0.12311111111111112,
      "grad_norm": 1.5032904148101807,
      "learning_rate": 0.00017541675927983997,
      "loss": 2.1521,
      "step": 5540
    },
    {
      "epoch": 0.12313333333333333,
      "grad_norm": 1.6326850652694702,
      "learning_rate": 0.00017541231384752168,
      "loss": 2.0642,
      "step": 5541
    },
    {
      "epoch": 0.12315555555555556,
      "grad_norm": 1.5551992654800415,
      "learning_rate": 0.0001754078684152034,
      "loss": 2.0963,
      "step": 5542
    },
    {
      "epoch": 0.12317777777777777,
      "grad_norm": 1.2672920227050781,
      "learning_rate": 0.0001754034229828851,
      "loss": 1.7997,
      "step": 5543
    },
    {
      "epoch": 0.1232,
      "grad_norm": 1.3069703578948975,
      "learning_rate": 0.0001753989775505668,
      "loss": 1.7009,
      "step": 5544
    },
    {
      "epoch": 0.12322222222222222,
      "grad_norm": 1.53996741771698,
      "learning_rate": 0.0001753945321182485,
      "loss": 2.2766,
      "step": 5545
    },
    {
      "epoch": 0.12324444444444445,
      "grad_norm": 1.918146014213562,
      "learning_rate": 0.00017539008668593023,
      "loss": 2.3069,
      "step": 5546
    },
    {
      "epoch": 0.12326666666666666,
      "grad_norm": 1.3843355178833008,
      "learning_rate": 0.0001753856412536119,
      "loss": 1.3433,
      "step": 5547
    },
    {
      "epoch": 0.12328888888888889,
      "grad_norm": 1.8016844987869263,
      "learning_rate": 0.00017538119582129362,
      "loss": 1.6065,
      "step": 5548
    },
    {
      "epoch": 0.12331111111111111,
      "grad_norm": 2.0672948360443115,
      "learning_rate": 0.00017537675038897533,
      "loss": 1.8696,
      "step": 5549
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 1.262266755104065,
      "learning_rate": 0.00017537230495665704,
      "loss": 0.7664,
      "step": 5550
    },
    {
      "epoch": 0.12335555555555555,
      "grad_norm": 1.263838291168213,
      "learning_rate": 0.00017536785952433875,
      "loss": 2.5259,
      "step": 5551
    },
    {
      "epoch": 0.12337777777777778,
      "grad_norm": 1.145696759223938,
      "learning_rate": 0.00017536341409202046,
      "loss": 2.3146,
      "step": 5552
    },
    {
      "epoch": 0.1234,
      "grad_norm": 1.6538240909576416,
      "learning_rate": 0.00017535896865970217,
      "loss": 2.6363,
      "step": 5553
    },
    {
      "epoch": 0.12342222222222222,
      "grad_norm": 1.4110262393951416,
      "learning_rate": 0.00017535452322738388,
      "loss": 1.8777,
      "step": 5554
    },
    {
      "epoch": 0.12344444444444444,
      "grad_norm": 1.7406866550445557,
      "learning_rate": 0.0001753500777950656,
      "loss": 2.4502,
      "step": 5555
    },
    {
      "epoch": 0.12346666666666667,
      "grad_norm": 1.4730703830718994,
      "learning_rate": 0.00017534563236274727,
      "loss": 2.4575,
      "step": 5556
    },
    {
      "epoch": 0.12348888888888888,
      "grad_norm": 1.2191765308380127,
      "learning_rate": 0.000175341186930429,
      "loss": 2.4485,
      "step": 5557
    },
    {
      "epoch": 0.12351111111111111,
      "grad_norm": 1.225536823272705,
      "learning_rate": 0.0001753367414981107,
      "loss": 1.5829,
      "step": 5558
    },
    {
      "epoch": 0.12353333333333333,
      "grad_norm": 1.6812405586242676,
      "learning_rate": 0.0001753322960657924,
      "loss": 2.5125,
      "step": 5559
    },
    {
      "epoch": 0.12355555555555556,
      "grad_norm": 1.3172119855880737,
      "learning_rate": 0.0001753278506334741,
      "loss": 2.2774,
      "step": 5560
    },
    {
      "epoch": 0.12357777777777777,
      "grad_norm": 1.128119707107544,
      "learning_rate": 0.00017532340520115582,
      "loss": 2.0729,
      "step": 5561
    },
    {
      "epoch": 0.1236,
      "grad_norm": 1.3518903255462646,
      "learning_rate": 0.00017531895976883753,
      "loss": 2.1868,
      "step": 5562
    },
    {
      "epoch": 0.12362222222222222,
      "grad_norm": 1.2843396663665771,
      "learning_rate": 0.00017531451433651924,
      "loss": 2.1178,
      "step": 5563
    },
    {
      "epoch": 0.12364444444444445,
      "grad_norm": 1.6962554454803467,
      "learning_rate": 0.00017531006890420095,
      "loss": 2.7859,
      "step": 5564
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 1.39037024974823,
      "learning_rate": 0.00017530562347188263,
      "loss": 0.9517,
      "step": 5565
    },
    {
      "epoch": 0.12368888888888889,
      "grad_norm": 1.3994905948638916,
      "learning_rate": 0.00017530117803956437,
      "loss": 1.1271,
      "step": 5566
    },
    {
      "epoch": 0.1237111111111111,
      "grad_norm": 1.3816806077957153,
      "learning_rate": 0.00017529673260724605,
      "loss": 2.3538,
      "step": 5567
    },
    {
      "epoch": 0.12373333333333333,
      "grad_norm": 1.4070844650268555,
      "learning_rate": 0.00017529228717492776,
      "loss": 2.2335,
      "step": 5568
    },
    {
      "epoch": 0.12375555555555555,
      "grad_norm": 1.7435976266860962,
      "learning_rate": 0.00017528784174260947,
      "loss": 2.9034,
      "step": 5569
    },
    {
      "epoch": 0.12377777777777778,
      "grad_norm": 1.4617513418197632,
      "learning_rate": 0.00017528339631029118,
      "loss": 2.3546,
      "step": 5570
    },
    {
      "epoch": 0.1238,
      "grad_norm": 1.2517194747924805,
      "learning_rate": 0.0001752789508779729,
      "loss": 2.0545,
      "step": 5571
    },
    {
      "epoch": 0.12382222222222222,
      "grad_norm": 1.3142790794372559,
      "learning_rate": 0.0001752745054456546,
      "loss": 2.0001,
      "step": 5572
    },
    {
      "epoch": 0.12384444444444444,
      "grad_norm": 1.403201937675476,
      "learning_rate": 0.0001752700600133363,
      "loss": 1.5594,
      "step": 5573
    },
    {
      "epoch": 0.12386666666666667,
      "grad_norm": 1.4722726345062256,
      "learning_rate": 0.00017526561458101802,
      "loss": 2.3288,
      "step": 5574
    },
    {
      "epoch": 0.1238888888888889,
      "grad_norm": 1.3147118091583252,
      "learning_rate": 0.00017526116914869973,
      "loss": 1.8143,
      "step": 5575
    },
    {
      "epoch": 0.12391111111111111,
      "grad_norm": 1.4892735481262207,
      "learning_rate": 0.0001752567237163814,
      "loss": 2.0731,
      "step": 5576
    },
    {
      "epoch": 0.12393333333333334,
      "grad_norm": 1.1926380395889282,
      "learning_rate": 0.00017525227828406315,
      "loss": 1.5403,
      "step": 5577
    },
    {
      "epoch": 0.12395555555555555,
      "grad_norm": 1.4471919536590576,
      "learning_rate": 0.00017524783285174483,
      "loss": 2.0241,
      "step": 5578
    },
    {
      "epoch": 0.12397777777777778,
      "grad_norm": 1.2679141759872437,
      "learning_rate": 0.00017524338741942654,
      "loss": 1.8155,
      "step": 5579
    },
    {
      "epoch": 0.124,
      "grad_norm": 1.5664700269699097,
      "learning_rate": 0.00017523894198710828,
      "loss": 1.582,
      "step": 5580
    },
    {
      "epoch": 0.12402222222222223,
      "grad_norm": 1.4573606252670288,
      "learning_rate": 0.00017523449655478996,
      "loss": 2.0214,
      "step": 5581
    },
    {
      "epoch": 0.12404444444444444,
      "grad_norm": 1.2685518264770508,
      "learning_rate": 0.00017523005112247167,
      "loss": 1.5448,
      "step": 5582
    },
    {
      "epoch": 0.12406666666666667,
      "grad_norm": 1.3405053615570068,
      "learning_rate": 0.00017522560569015338,
      "loss": 1.7267,
      "step": 5583
    },
    {
      "epoch": 0.12408888888888889,
      "grad_norm": 1.4064459800720215,
      "learning_rate": 0.0001752211602578351,
      "loss": 1.8651,
      "step": 5584
    },
    {
      "epoch": 0.12411111111111112,
      "grad_norm": 0.9873499870300293,
      "learning_rate": 0.00017521671482551677,
      "loss": 0.7986,
      "step": 5585
    },
    {
      "epoch": 0.12413333333333333,
      "grad_norm": 1.5355665683746338,
      "learning_rate": 0.0001752122693931985,
      "loss": 1.7129,
      "step": 5586
    },
    {
      "epoch": 0.12415555555555556,
      "grad_norm": 1.4674732685089111,
      "learning_rate": 0.0001752078239608802,
      "loss": 1.9447,
      "step": 5587
    },
    {
      "epoch": 0.12417777777777778,
      "grad_norm": 1.5433334112167358,
      "learning_rate": 0.0001752033785285619,
      "loss": 1.6862,
      "step": 5588
    },
    {
      "epoch": 0.1242,
      "grad_norm": 1.4175511598587036,
      "learning_rate": 0.00017519893309624364,
      "loss": 1.7727,
      "step": 5589
    },
    {
      "epoch": 0.12422222222222222,
      "grad_norm": 1.3545511960983276,
      "learning_rate": 0.00017519448766392532,
      "loss": 1.673,
      "step": 5590
    },
    {
      "epoch": 0.12424444444444445,
      "grad_norm": 1.2962809801101685,
      "learning_rate": 0.00017519004223160703,
      "loss": 1.3908,
      "step": 5591
    },
    {
      "epoch": 0.12426666666666666,
      "grad_norm": 1.5203526020050049,
      "learning_rate": 0.00017518559679928874,
      "loss": 1.9575,
      "step": 5592
    },
    {
      "epoch": 0.1242888888888889,
      "grad_norm": 1.8077372312545776,
      "learning_rate": 0.00017518115136697045,
      "loss": 1.9586,
      "step": 5593
    },
    {
      "epoch": 0.12431111111111111,
      "grad_norm": 1.4325571060180664,
      "learning_rate": 0.00017517670593465216,
      "loss": 1.9035,
      "step": 5594
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 1.838845133781433,
      "learning_rate": 0.00017517226050233387,
      "loss": 2.0158,
      "step": 5595
    },
    {
      "epoch": 0.12435555555555555,
      "grad_norm": 1.5776580572128296,
      "learning_rate": 0.00017516781507001558,
      "loss": 2.3898,
      "step": 5596
    },
    {
      "epoch": 0.12437777777777778,
      "grad_norm": 1.581351399421692,
      "learning_rate": 0.00017516336963769728,
      "loss": 1.9518,
      "step": 5597
    },
    {
      "epoch": 0.1244,
      "grad_norm": 1.7316114902496338,
      "learning_rate": 0.000175158924205379,
      "loss": 2.0506,
      "step": 5598
    },
    {
      "epoch": 0.12442222222222223,
      "grad_norm": 1.2986865043640137,
      "learning_rate": 0.00017515447877306068,
      "loss": 1.3872,
      "step": 5599
    },
    {
      "epoch": 0.12444444444444444,
      "grad_norm": 1.8480247259140015,
      "learning_rate": 0.00017515003334074241,
      "loss": 1.2068,
      "step": 5600
    },
    {
      "epoch": 0.12446666666666667,
      "grad_norm": 1.1554691791534424,
      "learning_rate": 0.0001751455879084241,
      "loss": 2.3399,
      "step": 5601
    },
    {
      "epoch": 0.12448888888888889,
      "grad_norm": 1.1009700298309326,
      "learning_rate": 0.0001751411424761058,
      "loss": 2.3709,
      "step": 5602
    },
    {
      "epoch": 0.12451111111111111,
      "grad_norm": 1.1815723180770874,
      "learning_rate": 0.00017513669704378752,
      "loss": 2.1367,
      "step": 5603
    },
    {
      "epoch": 0.12453333333333333,
      "grad_norm": 1.2675548791885376,
      "learning_rate": 0.00017513225161146923,
      "loss": 2.1888,
      "step": 5604
    },
    {
      "epoch": 0.12455555555555556,
      "grad_norm": 1.29246187210083,
      "learning_rate": 0.00017512780617915093,
      "loss": 2.0825,
      "step": 5605
    },
    {
      "epoch": 0.12457777777777777,
      "grad_norm": 1.3408089876174927,
      "learning_rate": 0.00017512336074683264,
      "loss": 2.042,
      "step": 5606
    },
    {
      "epoch": 0.1246,
      "grad_norm": 1.1609662771224976,
      "learning_rate": 0.00017511891531451435,
      "loss": 1.4483,
      "step": 5607
    },
    {
      "epoch": 0.12462222222222222,
      "grad_norm": 1.4096444845199585,
      "learning_rate": 0.00017511446988219604,
      "loss": 2.7778,
      "step": 5608
    },
    {
      "epoch": 0.12464444444444445,
      "grad_norm": 1.3765106201171875,
      "learning_rate": 0.00017511002444987777,
      "loss": 2.2117,
      "step": 5609
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 1.2838667631149292,
      "learning_rate": 0.00017510557901755946,
      "loss": 1.889,
      "step": 5610
    },
    {
      "epoch": 0.12468888888888889,
      "grad_norm": 1.4060777425765991,
      "learning_rate": 0.0001751011335852412,
      "loss": 1.615,
      "step": 5611
    },
    {
      "epoch": 0.1247111111111111,
      "grad_norm": 1.3454495668411255,
      "learning_rate": 0.00017509668815292287,
      "loss": 2.0181,
      "step": 5612
    },
    {
      "epoch": 0.12473333333333333,
      "grad_norm": 1.3491783142089844,
      "learning_rate": 0.00017509224272060458,
      "loss": 2.4404,
      "step": 5613
    },
    {
      "epoch": 0.12475555555555555,
      "grad_norm": 1.3474476337432861,
      "learning_rate": 0.0001750877972882863,
      "loss": 1.7523,
      "step": 5614
    },
    {
      "epoch": 0.12477777777777778,
      "grad_norm": 1.4427753686904907,
      "learning_rate": 0.000175083351855968,
      "loss": 2.3525,
      "step": 5615
    },
    {
      "epoch": 0.1248,
      "grad_norm": 1.2155635356903076,
      "learning_rate": 0.0001750789064236497,
      "loss": 1.7656,
      "step": 5616
    },
    {
      "epoch": 0.12482222222222222,
      "grad_norm": 1.5385109186172485,
      "learning_rate": 0.00017507446099133142,
      "loss": 2.5681,
      "step": 5617
    },
    {
      "epoch": 0.12484444444444444,
      "grad_norm": 1.1123380661010742,
      "learning_rate": 0.00017507001555901313,
      "loss": 1.6964,
      "step": 5618
    },
    {
      "epoch": 0.12486666666666667,
      "grad_norm": 1.6388368606567383,
      "learning_rate": 0.00017506557012669482,
      "loss": 2.3069,
      "step": 5619
    },
    {
      "epoch": 0.12488888888888888,
      "grad_norm": 1.2603936195373535,
      "learning_rate": 0.00017506112469437655,
      "loss": 1.796,
      "step": 5620
    },
    {
      "epoch": 0.12491111111111111,
      "grad_norm": 1.4935747385025024,
      "learning_rate": 0.00017505667926205823,
      "loss": 2.2355,
      "step": 5621
    },
    {
      "epoch": 0.12493333333333333,
      "grad_norm": 1.2452763319015503,
      "learning_rate": 0.00017505223382973994,
      "loss": 2.0526,
      "step": 5622
    },
    {
      "epoch": 0.12495555555555556,
      "grad_norm": 1.4680092334747314,
      "learning_rate": 0.00017504778839742165,
      "loss": 1.8794,
      "step": 5623
    },
    {
      "epoch": 0.12497777777777777,
      "grad_norm": 1.3453837633132935,
      "learning_rate": 0.00017504334296510336,
      "loss": 1.6111,
      "step": 5624
    },
    {
      "epoch": 0.125,
      "grad_norm": 1.3878018856048584,
      "learning_rate": 0.00017503889753278507,
      "loss": 1.7941,
      "step": 5625
    },
    {
      "epoch": 0.12502222222222223,
      "grad_norm": 1.32447350025177,
      "learning_rate": 0.00017503445210046678,
      "loss": 2.0648,
      "step": 5626
    },
    {
      "epoch": 0.12504444444444446,
      "grad_norm": 1.2922803163528442,
      "learning_rate": 0.0001750300066681485,
      "loss": 1.6514,
      "step": 5627
    },
    {
      "epoch": 0.12506666666666666,
      "grad_norm": 1.2003867626190186,
      "learning_rate": 0.00017502556123583017,
      "loss": 1.8823,
      "step": 5628
    },
    {
      "epoch": 0.1250888888888889,
      "grad_norm": 1.251010775566101,
      "learning_rate": 0.0001750211158035119,
      "loss": 0.8894,
      "step": 5629
    },
    {
      "epoch": 0.12511111111111112,
      "grad_norm": 1.4717659950256348,
      "learning_rate": 0.0001750166703711936,
      "loss": 1.85,
      "step": 5630
    },
    {
      "epoch": 0.12513333333333335,
      "grad_norm": 1.444066047668457,
      "learning_rate": 0.00017501222493887533,
      "loss": 1.8179,
      "step": 5631
    },
    {
      "epoch": 0.12515555555555555,
      "grad_norm": 1.3397969007492065,
      "learning_rate": 0.000175007779506557,
      "loss": 2.3503,
      "step": 5632
    },
    {
      "epoch": 0.12517777777777778,
      "grad_norm": 1.2435551881790161,
      "learning_rate": 0.00017500333407423872,
      "loss": 1.7343,
      "step": 5633
    },
    {
      "epoch": 0.1252,
      "grad_norm": 1.340319275856018,
      "learning_rate": 0.00017499888864192043,
      "loss": 2.442,
      "step": 5634
    },
    {
      "epoch": 0.12522222222222223,
      "grad_norm": 1.6481389999389648,
      "learning_rate": 0.00017499444320960214,
      "loss": 1.9268,
      "step": 5635
    },
    {
      "epoch": 0.12524444444444444,
      "grad_norm": 1.2578202486038208,
      "learning_rate": 0.00017498999777728385,
      "loss": 1.5495,
      "step": 5636
    },
    {
      "epoch": 0.12526666666666667,
      "grad_norm": 1.3880035877227783,
      "learning_rate": 0.00017498555234496556,
      "loss": 2.012,
      "step": 5637
    },
    {
      "epoch": 0.1252888888888889,
      "grad_norm": 1.7943434715270996,
      "learning_rate": 0.00017498110691264727,
      "loss": 2.3951,
      "step": 5638
    },
    {
      "epoch": 0.12531111111111112,
      "grad_norm": 1.432497262954712,
      "learning_rate": 0.00017497666148032895,
      "loss": 1.6659,
      "step": 5639
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 1.5830163955688477,
      "learning_rate": 0.0001749722160480107,
      "loss": 2.1436,
      "step": 5640
    },
    {
      "epoch": 0.12535555555555555,
      "grad_norm": 1.9178270101547241,
      "learning_rate": 0.00017496777061569237,
      "loss": 1.7504,
      "step": 5641
    },
    {
      "epoch": 0.12537777777777778,
      "grad_norm": 1.244876503944397,
      "learning_rate": 0.00017496332518337408,
      "loss": 1.423,
      "step": 5642
    },
    {
      "epoch": 0.1254,
      "grad_norm": 1.665562629699707,
      "learning_rate": 0.0001749588797510558,
      "loss": 2.6989,
      "step": 5643
    },
    {
      "epoch": 0.1254222222222222,
      "grad_norm": 1.467307448387146,
      "learning_rate": 0.0001749544343187375,
      "loss": 1.9933,
      "step": 5644
    },
    {
      "epoch": 0.12544444444444444,
      "grad_norm": 1.3970017433166504,
      "learning_rate": 0.0001749499888864192,
      "loss": 1.7574,
      "step": 5645
    },
    {
      "epoch": 0.12546666666666667,
      "grad_norm": 1.2529869079589844,
      "learning_rate": 0.00017494554345410092,
      "loss": 1.4183,
      "step": 5646
    },
    {
      "epoch": 0.1254888888888889,
      "grad_norm": 1.492161750793457,
      "learning_rate": 0.00017494109802178263,
      "loss": 1.9287,
      "step": 5647
    },
    {
      "epoch": 0.1255111111111111,
      "grad_norm": 1.6123820543289185,
      "learning_rate": 0.00017493665258946434,
      "loss": 2.0276,
      "step": 5648
    },
    {
      "epoch": 0.12553333333333333,
      "grad_norm": 1.6050125360488892,
      "learning_rate": 0.00017493220715714605,
      "loss": 1.8672,
      "step": 5649
    },
    {
      "epoch": 0.12555555555555556,
      "grad_norm": 1.1837483644485474,
      "learning_rate": 0.00017492776172482773,
      "loss": 1.2564,
      "step": 5650
    },
    {
      "epoch": 0.1255777777777778,
      "grad_norm": 0.9859636425971985,
      "learning_rate": 0.00017492331629250947,
      "loss": 1.3075,
      "step": 5651
    },
    {
      "epoch": 0.1256,
      "grad_norm": 1.270276427268982,
      "learning_rate": 0.00017491887086019115,
      "loss": 2.4883,
      "step": 5652
    },
    {
      "epoch": 0.12562222222222222,
      "grad_norm": 1.4219893217086792,
      "learning_rate": 0.00017491442542787286,
      "loss": 2.4055,
      "step": 5653
    },
    {
      "epoch": 0.12564444444444445,
      "grad_norm": 1.1231905221939087,
      "learning_rate": 0.0001749099799955546,
      "loss": 2.3508,
      "step": 5654
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 1.222298264503479,
      "learning_rate": 0.00017490553456323628,
      "loss": 2.1651,
      "step": 5655
    },
    {
      "epoch": 0.12568888888888888,
      "grad_norm": 1.3160547018051147,
      "learning_rate": 0.000174901089130918,
      "loss": 1.9723,
      "step": 5656
    },
    {
      "epoch": 0.1257111111111111,
      "grad_norm": 1.28353750705719,
      "learning_rate": 0.0001748966436985997,
      "loss": 2.4279,
      "step": 5657
    },
    {
      "epoch": 0.12573333333333334,
      "grad_norm": 1.0793629884719849,
      "learning_rate": 0.0001748921982662814,
      "loss": 1.917,
      "step": 5658
    },
    {
      "epoch": 0.12575555555555556,
      "grad_norm": 1.4064956903457642,
      "learning_rate": 0.0001748877528339631,
      "loss": 2.6192,
      "step": 5659
    },
    {
      "epoch": 0.12577777777777777,
      "grad_norm": 1.5167148113250732,
      "learning_rate": 0.00017488330740164483,
      "loss": 1.1035,
      "step": 5660
    },
    {
      "epoch": 0.1258,
      "grad_norm": 1.1188480854034424,
      "learning_rate": 0.0001748788619693265,
      "loss": 1.8767,
      "step": 5661
    },
    {
      "epoch": 0.12582222222222222,
      "grad_norm": 1.3050625324249268,
      "learning_rate": 0.00017487441653700822,
      "loss": 1.9758,
      "step": 5662
    },
    {
      "epoch": 0.12584444444444445,
      "grad_norm": 1.2979668378829956,
      "learning_rate": 0.00017486997110468996,
      "loss": 2.4602,
      "step": 5663
    },
    {
      "epoch": 0.12586666666666665,
      "grad_norm": 1.4902077913284302,
      "learning_rate": 0.00017486552567237164,
      "loss": 2.2668,
      "step": 5664
    },
    {
      "epoch": 0.12588888888888888,
      "grad_norm": 1.2040460109710693,
      "learning_rate": 0.00017486108024005335,
      "loss": 1.9845,
      "step": 5665
    },
    {
      "epoch": 0.1259111111111111,
      "grad_norm": 1.2659567594528198,
      "learning_rate": 0.00017485663480773506,
      "loss": 1.6693,
      "step": 5666
    },
    {
      "epoch": 0.12593333333333334,
      "grad_norm": 1.4649814367294312,
      "learning_rate": 0.00017485218937541677,
      "loss": 1.2028,
      "step": 5667
    },
    {
      "epoch": 0.12595555555555554,
      "grad_norm": 1.4225382804870605,
      "learning_rate": 0.00017484774394309848,
      "loss": 2.0558,
      "step": 5668
    },
    {
      "epoch": 0.12597777777777777,
      "grad_norm": 1.6161012649536133,
      "learning_rate": 0.0001748432985107802,
      "loss": 2.6007,
      "step": 5669
    },
    {
      "epoch": 0.126,
      "grad_norm": 1.2339191436767578,
      "learning_rate": 0.0001748388530784619,
      "loss": 1.7181,
      "step": 5670
    },
    {
      "epoch": 0.12602222222222223,
      "grad_norm": 1.5905213356018066,
      "learning_rate": 0.0001748344076461436,
      "loss": 2.2491,
      "step": 5671
    },
    {
      "epoch": 0.12604444444444443,
      "grad_norm": 1.281411051750183,
      "learning_rate": 0.00017482996221382532,
      "loss": 2.184,
      "step": 5672
    },
    {
      "epoch": 0.12606666666666666,
      "grad_norm": 1.5183099508285522,
      "learning_rate": 0.000174825516781507,
      "loss": 2.5162,
      "step": 5673
    },
    {
      "epoch": 0.1260888888888889,
      "grad_norm": 1.4571453332901,
      "learning_rate": 0.00017482107134918874,
      "loss": 2.1332,
      "step": 5674
    },
    {
      "epoch": 0.12611111111111112,
      "grad_norm": 1.1583943367004395,
      "learning_rate": 0.00017481662591687042,
      "loss": 1.3377,
      "step": 5675
    },
    {
      "epoch": 0.12613333333333332,
      "grad_norm": 1.3335894346237183,
      "learning_rate": 0.00017481218048455213,
      "loss": 1.8467,
      "step": 5676
    },
    {
      "epoch": 0.12615555555555555,
      "grad_norm": 1.658795952796936,
      "learning_rate": 0.00017480773505223384,
      "loss": 1.9171,
      "step": 5677
    },
    {
      "epoch": 0.12617777777777778,
      "grad_norm": 1.3655024766921997,
      "learning_rate": 0.00017480328961991555,
      "loss": 2.0734,
      "step": 5678
    },
    {
      "epoch": 0.1262,
      "grad_norm": 1.485266089439392,
      "learning_rate": 0.00017479884418759726,
      "loss": 1.6708,
      "step": 5679
    },
    {
      "epoch": 0.12622222222222224,
      "grad_norm": 1.1231489181518555,
      "learning_rate": 0.00017479439875527897,
      "loss": 1.702,
      "step": 5680
    },
    {
      "epoch": 0.12624444444444444,
      "grad_norm": 1.2257604598999023,
      "learning_rate": 0.00017478995332296068,
      "loss": 1.8189,
      "step": 5681
    },
    {
      "epoch": 0.12626666666666667,
      "grad_norm": 1.9117774963378906,
      "learning_rate": 0.00017478550789064236,
      "loss": 2.2944,
      "step": 5682
    },
    {
      "epoch": 0.1262888888888889,
      "grad_norm": 1.56260347366333,
      "learning_rate": 0.0001747810624583241,
      "loss": 2.0265,
      "step": 5683
    },
    {
      "epoch": 0.12631111111111112,
      "grad_norm": 1.4228105545043945,
      "learning_rate": 0.00017477661702600578,
      "loss": 2.084,
      "step": 5684
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 1.749485731124878,
      "learning_rate": 0.0001747721715936875,
      "loss": 2.4238,
      "step": 5685
    },
    {
      "epoch": 0.12635555555555555,
      "grad_norm": 1.3979926109313965,
      "learning_rate": 0.0001747677261613692,
      "loss": 2.123,
      "step": 5686
    },
    {
      "epoch": 0.12637777777777778,
      "grad_norm": 1.4133498668670654,
      "learning_rate": 0.0001747632807290509,
      "loss": 1.8232,
      "step": 5687
    },
    {
      "epoch": 0.1264,
      "grad_norm": 1.4298222064971924,
      "learning_rate": 0.00017475883529673262,
      "loss": 1.8259,
      "step": 5688
    },
    {
      "epoch": 0.1264222222222222,
      "grad_norm": 1.7088358402252197,
      "learning_rate": 0.00017475438986441433,
      "loss": 1.9642,
      "step": 5689
    },
    {
      "epoch": 0.12644444444444444,
      "grad_norm": 1.2366960048675537,
      "learning_rate": 0.00017474994443209604,
      "loss": 1.7612,
      "step": 5690
    },
    {
      "epoch": 0.12646666666666667,
      "grad_norm": 1.4116284847259521,
      "learning_rate": 0.00017474549899977775,
      "loss": 1.8173,
      "step": 5691
    },
    {
      "epoch": 0.1264888888888889,
      "grad_norm": 1.3367598056793213,
      "learning_rate": 0.00017474105356745945,
      "loss": 1.4131,
      "step": 5692
    },
    {
      "epoch": 0.1265111111111111,
      "grad_norm": 1.7444196939468384,
      "learning_rate": 0.00017473660813514114,
      "loss": 2.2808,
      "step": 5693
    },
    {
      "epoch": 0.12653333333333333,
      "grad_norm": 1.5630006790161133,
      "learning_rate": 0.00017473216270282287,
      "loss": 2.0813,
      "step": 5694
    },
    {
      "epoch": 0.12655555555555556,
      "grad_norm": 1.3817442655563354,
      "learning_rate": 0.00017472771727050456,
      "loss": 1.9838,
      "step": 5695
    },
    {
      "epoch": 0.1265777777777778,
      "grad_norm": 1.4987117052078247,
      "learning_rate": 0.00017472327183818627,
      "loss": 1.714,
      "step": 5696
    },
    {
      "epoch": 0.1266,
      "grad_norm": 1.3252463340759277,
      "learning_rate": 0.00017471882640586798,
      "loss": 1.4337,
      "step": 5697
    },
    {
      "epoch": 0.12662222222222222,
      "grad_norm": 1.5293314456939697,
      "learning_rate": 0.00017471438097354969,
      "loss": 1.9132,
      "step": 5698
    },
    {
      "epoch": 0.12664444444444445,
      "grad_norm": 1.5196831226348877,
      "learning_rate": 0.0001747099355412314,
      "loss": 1.5369,
      "step": 5699
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 1.1171616315841675,
      "learning_rate": 0.0001747054901089131,
      "loss": 0.6601,
      "step": 5700
    },
    {
      "epoch": 0.12668888888888888,
      "grad_norm": 0.8548260927200317,
      "learning_rate": 0.00017470104467659481,
      "loss": 1.282,
      "step": 5701
    },
    {
      "epoch": 0.1267111111111111,
      "grad_norm": 1.0234487056732178,
      "learning_rate": 0.0001746965992442765,
      "loss": 2.1841,
      "step": 5702
    },
    {
      "epoch": 0.12673333333333334,
      "grad_norm": 1.2224704027175903,
      "learning_rate": 0.00017469215381195823,
      "loss": 2.086,
      "step": 5703
    },
    {
      "epoch": 0.12675555555555557,
      "grad_norm": 2.247406005859375,
      "learning_rate": 0.00017468770837963992,
      "loss": 0.4119,
      "step": 5704
    },
    {
      "epoch": 0.12677777777777777,
      "grad_norm": 1.2592318058013916,
      "learning_rate": 0.00017468326294732165,
      "loss": 2.2043,
      "step": 5705
    },
    {
      "epoch": 0.1268,
      "grad_norm": 1.4544188976287842,
      "learning_rate": 0.00017467881751500334,
      "loss": 2.3558,
      "step": 5706
    },
    {
      "epoch": 0.12682222222222223,
      "grad_norm": 1.2465884685516357,
      "learning_rate": 0.00017467437208268504,
      "loss": 1.7657,
      "step": 5707
    },
    {
      "epoch": 0.12684444444444445,
      "grad_norm": 1.2935315370559692,
      "learning_rate": 0.00017466992665036675,
      "loss": 2.436,
      "step": 5708
    },
    {
      "epoch": 0.12686666666666666,
      "grad_norm": 1.8609745502471924,
      "learning_rate": 0.00017466548121804846,
      "loss": 2.1779,
      "step": 5709
    },
    {
      "epoch": 0.12688888888888888,
      "grad_norm": 1.39966881275177,
      "learning_rate": 0.00017466103578573017,
      "loss": 2.3686,
      "step": 5710
    },
    {
      "epoch": 0.1269111111111111,
      "grad_norm": 1.4322154521942139,
      "learning_rate": 0.00017465659035341188,
      "loss": 2.1971,
      "step": 5711
    },
    {
      "epoch": 0.12693333333333334,
      "grad_norm": 1.2276723384857178,
      "learning_rate": 0.0001746521449210936,
      "loss": 2.0378,
      "step": 5712
    },
    {
      "epoch": 0.12695555555555554,
      "grad_norm": 1.3721132278442383,
      "learning_rate": 0.00017464769948877528,
      "loss": 1.7852,
      "step": 5713
    },
    {
      "epoch": 0.12697777777777777,
      "grad_norm": 1.1246585845947266,
      "learning_rate": 0.000174643254056457,
      "loss": 1.485,
      "step": 5714
    },
    {
      "epoch": 0.127,
      "grad_norm": 1.863649845123291,
      "learning_rate": 0.0001746388086241387,
      "loss": 1.9031,
      "step": 5715
    },
    {
      "epoch": 0.12702222222222223,
      "grad_norm": 1.007349967956543,
      "learning_rate": 0.0001746343631918204,
      "loss": 0.6972,
      "step": 5716
    },
    {
      "epoch": 0.12704444444444443,
      "grad_norm": 1.3016713857650757,
      "learning_rate": 0.00017462991775950211,
      "loss": 1.7436,
      "step": 5717
    },
    {
      "epoch": 0.12706666666666666,
      "grad_norm": 1.1990535259246826,
      "learning_rate": 0.00017462547232718382,
      "loss": 1.9186,
      "step": 5718
    },
    {
      "epoch": 0.1270888888888889,
      "grad_norm": 1.4891319274902344,
      "learning_rate": 0.00017462102689486553,
      "loss": 2.2642,
      "step": 5719
    },
    {
      "epoch": 0.12711111111111112,
      "grad_norm": 1.592060923576355,
      "learning_rate": 0.00017461658146254724,
      "loss": 2.4022,
      "step": 5720
    },
    {
      "epoch": 0.12713333333333332,
      "grad_norm": 1.246298909187317,
      "learning_rate": 0.00017461213603022895,
      "loss": 1.6837,
      "step": 5721
    },
    {
      "epoch": 0.12715555555555555,
      "grad_norm": 1.3858442306518555,
      "learning_rate": 0.00017460769059791063,
      "loss": 1.92,
      "step": 5722
    },
    {
      "epoch": 0.12717777777777778,
      "grad_norm": 1.1966246366500854,
      "learning_rate": 0.00017460324516559237,
      "loss": 1.8242,
      "step": 5723
    },
    {
      "epoch": 0.1272,
      "grad_norm": 1.3637505769729614,
      "learning_rate": 0.00017459879973327405,
      "loss": 1.9654,
      "step": 5724
    },
    {
      "epoch": 0.1272222222222222,
      "grad_norm": 1.3356260061264038,
      "learning_rate": 0.0001745943543009558,
      "loss": 1.7001,
      "step": 5725
    },
    {
      "epoch": 0.12724444444444444,
      "grad_norm": 1.2423428297042847,
      "learning_rate": 0.00017458990886863747,
      "loss": 1.841,
      "step": 5726
    },
    {
      "epoch": 0.12726666666666667,
      "grad_norm": 1.2116599082946777,
      "learning_rate": 0.00017458546343631918,
      "loss": 1.728,
      "step": 5727
    },
    {
      "epoch": 0.1272888888888889,
      "grad_norm": 0.9820432662963867,
      "learning_rate": 0.00017458101800400092,
      "loss": 0.9864,
      "step": 5728
    },
    {
      "epoch": 0.12731111111111112,
      "grad_norm": 1.6580275297164917,
      "learning_rate": 0.0001745765725716826,
      "loss": 1.908,
      "step": 5729
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 1.388711929321289,
      "learning_rate": 0.0001745721271393643,
      "loss": 2.2112,
      "step": 5730
    },
    {
      "epoch": 0.12735555555555556,
      "grad_norm": 1.5588699579238892,
      "learning_rate": 0.00017456768170704602,
      "loss": 1.9679,
      "step": 5731
    },
    {
      "epoch": 0.12737777777777778,
      "grad_norm": 1.3349595069885254,
      "learning_rate": 0.00017456323627472773,
      "loss": 1.1531,
      "step": 5732
    },
    {
      "epoch": 0.1274,
      "grad_norm": 1.3178058862686157,
      "learning_rate": 0.00017455879084240941,
      "loss": 1.6923,
      "step": 5733
    },
    {
      "epoch": 0.12742222222222221,
      "grad_norm": 1.3763810396194458,
      "learning_rate": 0.00017455434541009115,
      "loss": 1.9262,
      "step": 5734
    },
    {
      "epoch": 0.12744444444444444,
      "grad_norm": 1.4838379621505737,
      "learning_rate": 0.00017454989997777283,
      "loss": 1.9825,
      "step": 5735
    },
    {
      "epoch": 0.12746666666666667,
      "grad_norm": 1.4604012966156006,
      "learning_rate": 0.00017454545454545454,
      "loss": 1.8241,
      "step": 5736
    },
    {
      "epoch": 0.1274888888888889,
      "grad_norm": 1.4428293704986572,
      "learning_rate": 0.00017454100911313628,
      "loss": 1.752,
      "step": 5737
    },
    {
      "epoch": 0.1275111111111111,
      "grad_norm": 1.3808954954147339,
      "learning_rate": 0.00017453656368081796,
      "loss": 1.6706,
      "step": 5738
    },
    {
      "epoch": 0.12753333333333333,
      "grad_norm": 1.3404817581176758,
      "learning_rate": 0.00017453211824849967,
      "loss": 2.0471,
      "step": 5739
    },
    {
      "epoch": 0.12755555555555556,
      "grad_norm": 1.535815954208374,
      "learning_rate": 0.00017452767281618138,
      "loss": 1.8609,
      "step": 5740
    },
    {
      "epoch": 0.1275777777777778,
      "grad_norm": 1.353824496269226,
      "learning_rate": 0.0001745232273838631,
      "loss": 1.566,
      "step": 5741
    },
    {
      "epoch": 0.1276,
      "grad_norm": 1.4524425268173218,
      "learning_rate": 0.00017451878195154477,
      "loss": 2.0024,
      "step": 5742
    },
    {
      "epoch": 0.12762222222222222,
      "grad_norm": 1.4418065547943115,
      "learning_rate": 0.0001745143365192265,
      "loss": 1.9677,
      "step": 5743
    },
    {
      "epoch": 0.12764444444444445,
      "grad_norm": 1.6568843126296997,
      "learning_rate": 0.00017450989108690822,
      "loss": 2.1207,
      "step": 5744
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 1.729270339012146,
      "learning_rate": 0.00017450544565458993,
      "loss": 2.3396,
      "step": 5745
    },
    {
      "epoch": 0.12768888888888888,
      "grad_norm": 1.4565987586975098,
      "learning_rate": 0.00017450100022227164,
      "loss": 1.7854,
      "step": 5746
    },
    {
      "epoch": 0.1277111111111111,
      "grad_norm": 1.5686922073364258,
      "learning_rate": 0.00017449655478995332,
      "loss": 1.8578,
      "step": 5747
    },
    {
      "epoch": 0.12773333333333334,
      "grad_norm": 1.6681082248687744,
      "learning_rate": 0.00017449210935763506,
      "loss": 2.1134,
      "step": 5748
    },
    {
      "epoch": 0.12775555555555557,
      "grad_norm": 0.9536815285682678,
      "learning_rate": 0.00017448766392531674,
      "loss": 0.701,
      "step": 5749
    },
    {
      "epoch": 0.12777777777777777,
      "grad_norm": 1.206300973892212,
      "learning_rate": 0.00017448321849299845,
      "loss": 0.6979,
      "step": 5750
    },
    {
      "epoch": 0.1278,
      "grad_norm": 1.1366671323776245,
      "learning_rate": 0.00017447877306068016,
      "loss": 2.6716,
      "step": 5751
    },
    {
      "epoch": 0.12782222222222223,
      "grad_norm": 1.1714504957199097,
      "learning_rate": 0.00017447432762836187,
      "loss": 2.3506,
      "step": 5752
    },
    {
      "epoch": 0.12784444444444445,
      "grad_norm": 1.3449691534042358,
      "learning_rate": 0.00017446988219604358,
      "loss": 2.5345,
      "step": 5753
    },
    {
      "epoch": 0.12786666666666666,
      "grad_norm": 1.1803572177886963,
      "learning_rate": 0.0001744654367637253,
      "loss": 2.5681,
      "step": 5754
    },
    {
      "epoch": 0.12788888888888889,
      "grad_norm": 1.1625077724456787,
      "learning_rate": 0.000174460991331407,
      "loss": 1.3604,
      "step": 5755
    },
    {
      "epoch": 0.12791111111111111,
      "grad_norm": 1.4910690784454346,
      "learning_rate": 0.00017445654589908868,
      "loss": 2.4467,
      "step": 5756
    },
    {
      "epoch": 0.12793333333333334,
      "grad_norm": 1.3377621173858643,
      "learning_rate": 0.00017445210046677042,
      "loss": 2.271,
      "step": 5757
    },
    {
      "epoch": 0.12795555555555554,
      "grad_norm": 1.1938903331756592,
      "learning_rate": 0.0001744476550344521,
      "loss": 2.4412,
      "step": 5758
    },
    {
      "epoch": 0.12797777777777777,
      "grad_norm": 1.1061168909072876,
      "learning_rate": 0.0001744432096021338,
      "loss": 1.7531,
      "step": 5759
    },
    {
      "epoch": 0.128,
      "grad_norm": 1.417630672454834,
      "learning_rate": 0.00017443876416981552,
      "loss": 2.4469,
      "step": 5760
    },
    {
      "epoch": 0.12802222222222223,
      "grad_norm": 1.1521904468536377,
      "learning_rate": 0.00017443431873749723,
      "loss": 1.8047,
      "step": 5761
    },
    {
      "epoch": 0.12804444444444443,
      "grad_norm": 1.7337590456008911,
      "learning_rate": 0.00017442987330517894,
      "loss": 2.221,
      "step": 5762
    },
    {
      "epoch": 0.12806666666666666,
      "grad_norm": 1.6317033767700195,
      "learning_rate": 0.00017442542787286065,
      "loss": 2.2241,
      "step": 5763
    },
    {
      "epoch": 0.1280888888888889,
      "grad_norm": 1.4833351373672485,
      "learning_rate": 0.00017442098244054236,
      "loss": 2.1997,
      "step": 5764
    },
    {
      "epoch": 0.12811111111111112,
      "grad_norm": 1.441938877105713,
      "learning_rate": 0.00017441653700822407,
      "loss": 1.7768,
      "step": 5765
    },
    {
      "epoch": 0.12813333333333332,
      "grad_norm": 1.3607019186019897,
      "learning_rate": 0.00017441209157590578,
      "loss": 2.5212,
      "step": 5766
    },
    {
      "epoch": 0.12815555555555555,
      "grad_norm": 1.2401902675628662,
      "learning_rate": 0.00017440764614358746,
      "loss": 2.0873,
      "step": 5767
    },
    {
      "epoch": 0.12817777777777778,
      "grad_norm": 1.4003397226333618,
      "learning_rate": 0.0001744032007112692,
      "loss": 2.1596,
      "step": 5768
    },
    {
      "epoch": 0.1282,
      "grad_norm": 1.3606904745101929,
      "learning_rate": 0.00017439875527895088,
      "loss": 1.8499,
      "step": 5769
    },
    {
      "epoch": 0.1282222222222222,
      "grad_norm": 1.5322309732437134,
      "learning_rate": 0.0001743943098466326,
      "loss": 2.0933,
      "step": 5770
    },
    {
      "epoch": 0.12824444444444444,
      "grad_norm": 1.3329631090164185,
      "learning_rate": 0.0001743898644143143,
      "loss": 1.7444,
      "step": 5771
    },
    {
      "epoch": 0.12826666666666667,
      "grad_norm": 1.1920417547225952,
      "learning_rate": 0.000174385418981996,
      "loss": 1.465,
      "step": 5772
    },
    {
      "epoch": 0.1282888888888889,
      "grad_norm": 1.5946143865585327,
      "learning_rate": 0.00017438097354967772,
      "loss": 2.545,
      "step": 5773
    },
    {
      "epoch": 0.1283111111111111,
      "grad_norm": 1.639721393585205,
      "learning_rate": 0.00017437652811735943,
      "loss": 2.3076,
      "step": 5774
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 1.4471663236618042,
      "learning_rate": 0.00017437208268504114,
      "loss": 2.2089,
      "step": 5775
    },
    {
      "epoch": 0.12835555555555556,
      "grad_norm": 1.3973207473754883,
      "learning_rate": 0.00017436763725272282,
      "loss": 2.3201,
      "step": 5776
    },
    {
      "epoch": 0.12837777777777779,
      "grad_norm": 1.5253500938415527,
      "learning_rate": 0.00017436319182040456,
      "loss": 1.8374,
      "step": 5777
    },
    {
      "epoch": 0.1284,
      "grad_norm": 1.5299882888793945,
      "learning_rate": 0.00017435874638808624,
      "loss": 2.253,
      "step": 5778
    },
    {
      "epoch": 0.12842222222222222,
      "grad_norm": 1.6791884899139404,
      "learning_rate": 0.00017435430095576795,
      "loss": 2.7154,
      "step": 5779
    },
    {
      "epoch": 0.12844444444444444,
      "grad_norm": 1.4997586011886597,
      "learning_rate": 0.00017434985552344966,
      "loss": 2.1779,
      "step": 5780
    },
    {
      "epoch": 0.12846666666666667,
      "grad_norm": 1.5819966793060303,
      "learning_rate": 0.00017434541009113137,
      "loss": 2.3172,
      "step": 5781
    },
    {
      "epoch": 0.1284888888888889,
      "grad_norm": 1.341585397720337,
      "learning_rate": 0.00017434096465881308,
      "loss": 1.6999,
      "step": 5782
    },
    {
      "epoch": 0.1285111111111111,
      "grad_norm": 1.770176887512207,
      "learning_rate": 0.00017433651922649479,
      "loss": 2.4294,
      "step": 5783
    },
    {
      "epoch": 0.12853333333333333,
      "grad_norm": 1.7093064785003662,
      "learning_rate": 0.0001743320737941765,
      "loss": 1.8818,
      "step": 5784
    },
    {
      "epoch": 0.12855555555555556,
      "grad_norm": 1.3413512706756592,
      "learning_rate": 0.0001743276283618582,
      "loss": 1.9677,
      "step": 5785
    },
    {
      "epoch": 0.1285777777777778,
      "grad_norm": 1.0439172983169556,
      "learning_rate": 0.00017432318292953992,
      "loss": 1.4016,
      "step": 5786
    },
    {
      "epoch": 0.1286,
      "grad_norm": 1.5279650688171387,
      "learning_rate": 0.0001743187374972216,
      "loss": 1.8879,
      "step": 5787
    },
    {
      "epoch": 0.12862222222222222,
      "grad_norm": 1.457094430923462,
      "learning_rate": 0.00017431429206490333,
      "loss": 2.2473,
      "step": 5788
    },
    {
      "epoch": 0.12864444444444445,
      "grad_norm": 1.3381301164627075,
      "learning_rate": 0.00017430984663258502,
      "loss": 1.8098,
      "step": 5789
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 1.4591048955917358,
      "learning_rate": 0.00017430540120026673,
      "loss": 1.5343,
      "step": 5790
    },
    {
      "epoch": 0.12868888888888888,
      "grad_norm": 1.7824079990386963,
      "learning_rate": 0.00017430095576794844,
      "loss": 2.1238,
      "step": 5791
    },
    {
      "epoch": 0.1287111111111111,
      "grad_norm": 1.3695539236068726,
      "learning_rate": 0.00017429651033563015,
      "loss": 1.8747,
      "step": 5792
    },
    {
      "epoch": 0.12873333333333334,
      "grad_norm": 1.4238947629928589,
      "learning_rate": 0.00017429206490331186,
      "loss": 1.6448,
      "step": 5793
    },
    {
      "epoch": 0.12875555555555557,
      "grad_norm": 1.7112618684768677,
      "learning_rate": 0.00017428761947099356,
      "loss": 1.7545,
      "step": 5794
    },
    {
      "epoch": 0.12877777777777777,
      "grad_norm": 1.51031494140625,
      "learning_rate": 0.00017428317403867527,
      "loss": 1.729,
      "step": 5795
    },
    {
      "epoch": 0.1288,
      "grad_norm": 1.4723308086395264,
      "learning_rate": 0.00017427872860635696,
      "loss": 2.1134,
      "step": 5796
    },
    {
      "epoch": 0.12882222222222223,
      "grad_norm": 1.8274844884872437,
      "learning_rate": 0.0001742742831740387,
      "loss": 2.4451,
      "step": 5797
    },
    {
      "epoch": 0.12884444444444446,
      "grad_norm": 1.5449602603912354,
      "learning_rate": 0.00017426983774172038,
      "loss": 2.0138,
      "step": 5798
    },
    {
      "epoch": 0.12886666666666666,
      "grad_norm": 1.4991848468780518,
      "learning_rate": 0.00017426539230940209,
      "loss": 1.8951,
      "step": 5799
    },
    {
      "epoch": 0.1288888888888889,
      "grad_norm": 1.7310969829559326,
      "learning_rate": 0.0001742609468770838,
      "loss": 1.8328,
      "step": 5800
    },
    {
      "epoch": 0.12891111111111112,
      "grad_norm": 1.2821555137634277,
      "learning_rate": 0.0001742565014447655,
      "loss": 2.1338,
      "step": 5801
    },
    {
      "epoch": 0.12893333333333334,
      "grad_norm": 1.1537357568740845,
      "learning_rate": 0.00017425205601244724,
      "loss": 2.4687,
      "step": 5802
    },
    {
      "epoch": 0.12895555555555555,
      "grad_norm": 1.0585927963256836,
      "learning_rate": 0.00017424761058012892,
      "loss": 2.3825,
      "step": 5803
    },
    {
      "epoch": 0.12897777777777777,
      "grad_norm": 1.015887975692749,
      "learning_rate": 0.00017424316514781063,
      "loss": 1.3074,
      "step": 5804
    },
    {
      "epoch": 0.129,
      "grad_norm": 1.0089713335037231,
      "learning_rate": 0.00017423871971549234,
      "loss": 1.3921,
      "step": 5805
    },
    {
      "epoch": 0.12902222222222223,
      "grad_norm": 2.0923283100128174,
      "learning_rate": 0.00017423427428317405,
      "loss": 3.028,
      "step": 5806
    },
    {
      "epoch": 0.12904444444444443,
      "grad_norm": 1.2115881443023682,
      "learning_rate": 0.00017422982885085574,
      "loss": 2.6132,
      "step": 5807
    },
    {
      "epoch": 0.12906666666666666,
      "grad_norm": 1.1650668382644653,
      "learning_rate": 0.00017422538341853747,
      "loss": 2.4938,
      "step": 5808
    },
    {
      "epoch": 0.1290888888888889,
      "grad_norm": 1.2053987979888916,
      "learning_rate": 0.00017422093798621915,
      "loss": 2.2582,
      "step": 5809
    },
    {
      "epoch": 0.12911111111111112,
      "grad_norm": 1.1626508235931396,
      "learning_rate": 0.00017421649255390086,
      "loss": 2.3671,
      "step": 5810
    },
    {
      "epoch": 0.12913333333333332,
      "grad_norm": 1.2868865728378296,
      "learning_rate": 0.0001742120471215826,
      "loss": 2.122,
      "step": 5811
    },
    {
      "epoch": 0.12915555555555555,
      "grad_norm": 1.3350272178649902,
      "learning_rate": 0.00017420760168926428,
      "loss": 2.3619,
      "step": 5812
    },
    {
      "epoch": 0.12917777777777778,
      "grad_norm": 1.2547812461853027,
      "learning_rate": 0.000174203156256946,
      "loss": 1.9787,
      "step": 5813
    },
    {
      "epoch": 0.1292,
      "grad_norm": 1.2544087171554565,
      "learning_rate": 0.0001741987108246277,
      "loss": 2.5139,
      "step": 5814
    },
    {
      "epoch": 0.1292222222222222,
      "grad_norm": 1.3552483320236206,
      "learning_rate": 0.0001741942653923094,
      "loss": 1.9481,
      "step": 5815
    },
    {
      "epoch": 0.12924444444444444,
      "grad_norm": 1.2575082778930664,
      "learning_rate": 0.0001741898199599911,
      "loss": 1.8286,
      "step": 5816
    },
    {
      "epoch": 0.12926666666666667,
      "grad_norm": 1.3732028007507324,
      "learning_rate": 0.00017418537452767283,
      "loss": 2.3015,
      "step": 5817
    },
    {
      "epoch": 0.1292888888888889,
      "grad_norm": 1.1847659349441528,
      "learning_rate": 0.00017418092909535454,
      "loss": 1.8487,
      "step": 5818
    },
    {
      "epoch": 0.1293111111111111,
      "grad_norm": 1.2791310548782349,
      "learning_rate": 0.00017417648366303625,
      "loss": 1.9271,
      "step": 5819
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 1.3513518571853638,
      "learning_rate": 0.00017417203823071796,
      "loss": 2.1845,
      "step": 5820
    },
    {
      "epoch": 0.12935555555555556,
      "grad_norm": 1.3759609460830688,
      "learning_rate": 0.00017416759279839964,
      "loss": 1.7224,
      "step": 5821
    },
    {
      "epoch": 0.12937777777777779,
      "grad_norm": 1.2914146184921265,
      "learning_rate": 0.00017416314736608138,
      "loss": 2.0738,
      "step": 5822
    },
    {
      "epoch": 0.1294,
      "grad_norm": 1.2434320449829102,
      "learning_rate": 0.00017415870193376306,
      "loss": 1.8823,
      "step": 5823
    },
    {
      "epoch": 0.12942222222222222,
      "grad_norm": 1.423130750656128,
      "learning_rate": 0.00017415425650144477,
      "loss": 2.0399,
      "step": 5824
    },
    {
      "epoch": 0.12944444444444445,
      "grad_norm": 1.4306811094284058,
      "learning_rate": 0.00017414981106912648,
      "loss": 2.0042,
      "step": 5825
    },
    {
      "epoch": 0.12946666666666667,
      "grad_norm": 1.2354391813278198,
      "learning_rate": 0.0001741453656368082,
      "loss": 1.639,
      "step": 5826
    },
    {
      "epoch": 0.12948888888888888,
      "grad_norm": 1.2916228771209717,
      "learning_rate": 0.0001741409202044899,
      "loss": 1.597,
      "step": 5827
    },
    {
      "epoch": 0.1295111111111111,
      "grad_norm": 1.5801453590393066,
      "learning_rate": 0.0001741364747721716,
      "loss": 1.7896,
      "step": 5828
    },
    {
      "epoch": 0.12953333333333333,
      "grad_norm": 1.2764277458190918,
      "learning_rate": 0.00017413202933985332,
      "loss": 1.5765,
      "step": 5829
    },
    {
      "epoch": 0.12955555555555556,
      "grad_norm": 1.6395337581634521,
      "learning_rate": 0.000174127583907535,
      "loss": 1.7934,
      "step": 5830
    },
    {
      "epoch": 0.12957777777777776,
      "grad_norm": 1.661357045173645,
      "learning_rate": 0.00017412313847521674,
      "loss": 2.3593,
      "step": 5831
    },
    {
      "epoch": 0.1296,
      "grad_norm": 1.1561899185180664,
      "learning_rate": 0.00017411869304289842,
      "loss": 1.1634,
      "step": 5832
    },
    {
      "epoch": 0.12962222222222222,
      "grad_norm": 1.1962158679962158,
      "learning_rate": 0.00017411424761058013,
      "loss": 1.9147,
      "step": 5833
    },
    {
      "epoch": 0.12964444444444445,
      "grad_norm": 1.1239736080169678,
      "learning_rate": 0.00017410980217826184,
      "loss": 1.6386,
      "step": 5834
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 1.2254462242126465,
      "learning_rate": 0.00017410535674594355,
      "loss": 1.7308,
      "step": 5835
    },
    {
      "epoch": 0.12968888888888888,
      "grad_norm": 1.448202133178711,
      "learning_rate": 0.00017410091131362526,
      "loss": 1.7957,
      "step": 5836
    },
    {
      "epoch": 0.1297111111111111,
      "grad_norm": 1.542291522026062,
      "learning_rate": 0.00017409646588130697,
      "loss": 2.4048,
      "step": 5837
    },
    {
      "epoch": 0.12973333333333334,
      "grad_norm": 1.8515287637710571,
      "learning_rate": 0.00017409202044898868,
      "loss": 2.4799,
      "step": 5838
    },
    {
      "epoch": 0.12975555555555557,
      "grad_norm": 1.489200472831726,
      "learning_rate": 0.0001740875750166704,
      "loss": 1.9255,
      "step": 5839
    },
    {
      "epoch": 0.12977777777777777,
      "grad_norm": 1.7465959787368774,
      "learning_rate": 0.0001740831295843521,
      "loss": 2.4424,
      "step": 5840
    },
    {
      "epoch": 0.1298,
      "grad_norm": 1.3409146070480347,
      "learning_rate": 0.00017407868415203378,
      "loss": 1.7338,
      "step": 5841
    },
    {
      "epoch": 0.12982222222222223,
      "grad_norm": 1.404278039932251,
      "learning_rate": 0.00017407423871971552,
      "loss": 2.041,
      "step": 5842
    },
    {
      "epoch": 0.12984444444444446,
      "grad_norm": 1.34409499168396,
      "learning_rate": 0.0001740697932873972,
      "loss": 1.6668,
      "step": 5843
    },
    {
      "epoch": 0.12986666666666666,
      "grad_norm": 1.4173370599746704,
      "learning_rate": 0.0001740653478550789,
      "loss": 2.0786,
      "step": 5844
    },
    {
      "epoch": 0.1298888888888889,
      "grad_norm": 1.3975915908813477,
      "learning_rate": 0.00017406090242276062,
      "loss": 1.869,
      "step": 5845
    },
    {
      "epoch": 0.12991111111111112,
      "grad_norm": 1.3868449926376343,
      "learning_rate": 0.00017405645699044233,
      "loss": 1.7771,
      "step": 5846
    },
    {
      "epoch": 0.12993333333333335,
      "grad_norm": 1.4914348125457764,
      "learning_rate": 0.00017405201155812404,
      "loss": 1.9103,
      "step": 5847
    },
    {
      "epoch": 0.12995555555555555,
      "grad_norm": 1.4541730880737305,
      "learning_rate": 0.00017404756612580575,
      "loss": 1.6199,
      "step": 5848
    },
    {
      "epoch": 0.12997777777777778,
      "grad_norm": 1.569798231124878,
      "learning_rate": 0.00017404312069348746,
      "loss": 1.4052,
      "step": 5849
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7265369892120361,
      "learning_rate": 0.00017403867526116914,
      "loss": 1.76,
      "step": 5850
    },
    {
      "epoch": 0.13002222222222223,
      "grad_norm": 1.1950243711471558,
      "learning_rate": 0.00017403422982885088,
      "loss": 2.6252,
      "step": 5851
    },
    {
      "epoch": 0.13004444444444443,
      "grad_norm": 0.835064172744751,
      "learning_rate": 0.00017402978439653256,
      "loss": 1.0914,
      "step": 5852
    },
    {
      "epoch": 0.13006666666666666,
      "grad_norm": 1.0959346294403076,
      "learning_rate": 0.00017402533896421427,
      "loss": 2.2326,
      "step": 5853
    },
    {
      "epoch": 0.1300888888888889,
      "grad_norm": 1.4580689668655396,
      "learning_rate": 0.00017402089353189598,
      "loss": 1.5869,
      "step": 5854
    },
    {
      "epoch": 0.13011111111111112,
      "grad_norm": 1.0781501531600952,
      "learning_rate": 0.0001740164480995777,
      "loss": 2.0697,
      "step": 5855
    },
    {
      "epoch": 0.13013333333333332,
      "grad_norm": 1.1460869312286377,
      "learning_rate": 0.0001740120026672594,
      "loss": 2.4391,
      "step": 5856
    },
    {
      "epoch": 0.13015555555555555,
      "grad_norm": 1.2581290006637573,
      "learning_rate": 0.0001740075572349411,
      "loss": 2.5998,
      "step": 5857
    },
    {
      "epoch": 0.13017777777777778,
      "grad_norm": 1.3568263053894043,
      "learning_rate": 0.00017400311180262282,
      "loss": 2.5402,
      "step": 5858
    },
    {
      "epoch": 0.1302,
      "grad_norm": 1.3128252029418945,
      "learning_rate": 0.00017399866637030453,
      "loss": 2.2157,
      "step": 5859
    },
    {
      "epoch": 0.1302222222222222,
      "grad_norm": 1.4173604249954224,
      "learning_rate": 0.00017399422093798624,
      "loss": 2.6155,
      "step": 5860
    },
    {
      "epoch": 0.13024444444444444,
      "grad_norm": 1.2546993494033813,
      "learning_rate": 0.00017398977550566792,
      "loss": 2.1344,
      "step": 5861
    },
    {
      "epoch": 0.13026666666666667,
      "grad_norm": 1.3102223873138428,
      "learning_rate": 0.00017398533007334966,
      "loss": 2.2767,
      "step": 5862
    },
    {
      "epoch": 0.1302888888888889,
      "grad_norm": 1.1766836643218994,
      "learning_rate": 0.00017398088464103134,
      "loss": 1.6997,
      "step": 5863
    },
    {
      "epoch": 0.1303111111111111,
      "grad_norm": 1.151132345199585,
      "learning_rate": 0.00017397643920871305,
      "loss": 2.6299,
      "step": 5864
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 1.1754570007324219,
      "learning_rate": 0.00017397199377639476,
      "loss": 1.6025,
      "step": 5865
    },
    {
      "epoch": 0.13035555555555556,
      "grad_norm": 1.1520590782165527,
      "learning_rate": 0.00017396754834407647,
      "loss": 1.5693,
      "step": 5866
    },
    {
      "epoch": 0.1303777777777778,
      "grad_norm": 1.3933134078979492,
      "learning_rate": 0.00017396310291175818,
      "loss": 2.1217,
      "step": 5867
    },
    {
      "epoch": 0.1304,
      "grad_norm": 1.6359554529190063,
      "learning_rate": 0.0001739586574794399,
      "loss": 2.0311,
      "step": 5868
    },
    {
      "epoch": 0.13042222222222222,
      "grad_norm": 1.4008256196975708,
      "learning_rate": 0.0001739542120471216,
      "loss": 2.1377,
      "step": 5869
    },
    {
      "epoch": 0.13044444444444445,
      "grad_norm": 1.290570855140686,
      "learning_rate": 0.00017394976661480328,
      "loss": 2.0775,
      "step": 5870
    },
    {
      "epoch": 0.13046666666666668,
      "grad_norm": 1.6139116287231445,
      "learning_rate": 0.00017394532118248502,
      "loss": 1.6498,
      "step": 5871
    },
    {
      "epoch": 0.13048888888888888,
      "grad_norm": 1.3753902912139893,
      "learning_rate": 0.0001739408757501667,
      "loss": 1.7102,
      "step": 5872
    },
    {
      "epoch": 0.1305111111111111,
      "grad_norm": 1.3524566888809204,
      "learning_rate": 0.0001739364303178484,
      "loss": 2.0512,
      "step": 5873
    },
    {
      "epoch": 0.13053333333333333,
      "grad_norm": 1.2327014207839966,
      "learning_rate": 0.00017393198488553012,
      "loss": 1.7732,
      "step": 5874
    },
    {
      "epoch": 0.13055555555555556,
      "grad_norm": 1.3942232131958008,
      "learning_rate": 0.00017392753945321183,
      "loss": 2.2871,
      "step": 5875
    },
    {
      "epoch": 0.13057777777777776,
      "grad_norm": 1.3325653076171875,
      "learning_rate": 0.00017392309402089356,
      "loss": 2.1334,
      "step": 5876
    },
    {
      "epoch": 0.1306,
      "grad_norm": 0.33583521842956543,
      "learning_rate": 0.00017391864858857525,
      "loss": 0.0306,
      "step": 5877
    },
    {
      "epoch": 0.13062222222222222,
      "grad_norm": 1.5733877420425415,
      "learning_rate": 0.00017391420315625696,
      "loss": 2.2011,
      "step": 5878
    },
    {
      "epoch": 0.13064444444444445,
      "grad_norm": 1.3523035049438477,
      "learning_rate": 0.00017390975772393867,
      "loss": 1.7201,
      "step": 5879
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 2.012310028076172,
      "learning_rate": 0.00017390531229162038,
      "loss": 2.057,
      "step": 5880
    },
    {
      "epoch": 0.13068888888888888,
      "grad_norm": 1.7583308219909668,
      "learning_rate": 0.00017390086685930206,
      "loss": 1.9908,
      "step": 5881
    },
    {
      "epoch": 0.1307111111111111,
      "grad_norm": 1.4828201532363892,
      "learning_rate": 0.0001738964214269838,
      "loss": 2.22,
      "step": 5882
    },
    {
      "epoch": 0.13073333333333334,
      "grad_norm": 1.9058947563171387,
      "learning_rate": 0.00017389197599466548,
      "loss": 2.2507,
      "step": 5883
    },
    {
      "epoch": 0.13075555555555557,
      "grad_norm": 1.5859402418136597,
      "learning_rate": 0.0001738875305623472,
      "loss": 2.2566,
      "step": 5884
    },
    {
      "epoch": 0.13077777777777777,
      "grad_norm": 1.8370769023895264,
      "learning_rate": 0.00017388308513002892,
      "loss": 2.202,
      "step": 5885
    },
    {
      "epoch": 0.1308,
      "grad_norm": 1.7642792463302612,
      "learning_rate": 0.0001738786396977106,
      "loss": 1.9622,
      "step": 5886
    },
    {
      "epoch": 0.13082222222222223,
      "grad_norm": 1.7493022680282593,
      "learning_rate": 0.00017387419426539232,
      "loss": 2.2245,
      "step": 5887
    },
    {
      "epoch": 0.13084444444444446,
      "grad_norm": 1.4027382135391235,
      "learning_rate": 0.00017386974883307403,
      "loss": 1.6775,
      "step": 5888
    },
    {
      "epoch": 0.13086666666666666,
      "grad_norm": 1.511749029159546,
      "learning_rate": 0.00017386530340075573,
      "loss": 2.2315,
      "step": 5889
    },
    {
      "epoch": 0.1308888888888889,
      "grad_norm": 1.4984736442565918,
      "learning_rate": 0.00017386085796843742,
      "loss": 1.9122,
      "step": 5890
    },
    {
      "epoch": 0.13091111111111112,
      "grad_norm": 1.6162736415863037,
      "learning_rate": 0.00017385641253611915,
      "loss": 2.1191,
      "step": 5891
    },
    {
      "epoch": 0.13093333333333335,
      "grad_norm": 1.3730100393295288,
      "learning_rate": 0.00017385196710380086,
      "loss": 1.8235,
      "step": 5892
    },
    {
      "epoch": 0.13095555555555555,
      "grad_norm": 1.5951364040374756,
      "learning_rate": 0.00017384752167148255,
      "loss": 2.2246,
      "step": 5893
    },
    {
      "epoch": 0.13097777777777778,
      "grad_norm": 1.486070990562439,
      "learning_rate": 0.00017384307623916428,
      "loss": 1.9634,
      "step": 5894
    },
    {
      "epoch": 0.131,
      "grad_norm": 1.328918695449829,
      "learning_rate": 0.00017383863080684597,
      "loss": 1.687,
      "step": 5895
    },
    {
      "epoch": 0.13102222222222223,
      "grad_norm": 1.9642128944396973,
      "learning_rate": 0.0001738341853745277,
      "loss": 2.4054,
      "step": 5896
    },
    {
      "epoch": 0.13104444444444444,
      "grad_norm": 1.0542999505996704,
      "learning_rate": 0.00017382973994220938,
      "loss": 0.944,
      "step": 5897
    },
    {
      "epoch": 0.13106666666666666,
      "grad_norm": 1.310486078262329,
      "learning_rate": 0.0001738252945098911,
      "loss": 1.8076,
      "step": 5898
    },
    {
      "epoch": 0.1310888888888889,
      "grad_norm": 1.2146053314208984,
      "learning_rate": 0.0001738208490775728,
      "loss": 1.2167,
      "step": 5899
    },
    {
      "epoch": 0.13111111111111112,
      "grad_norm": 1.2526252269744873,
      "learning_rate": 0.0001738164036452545,
      "loss": 1.0347,
      "step": 5900
    },
    {
      "epoch": 0.13113333333333332,
      "grad_norm": 1.3288379907608032,
      "learning_rate": 0.00017381195821293622,
      "loss": 2.6409,
      "step": 5901
    },
    {
      "epoch": 0.13115555555555555,
      "grad_norm": 1.107824444770813,
      "learning_rate": 0.00017380751278061793,
      "loss": 2.7594,
      "step": 5902
    },
    {
      "epoch": 0.13117777777777778,
      "grad_norm": 1.1194252967834473,
      "learning_rate": 0.00017380306734829964,
      "loss": 1.2461,
      "step": 5903
    },
    {
      "epoch": 0.1312,
      "grad_norm": 1.1515024900436401,
      "learning_rate": 0.00017379862191598132,
      "loss": 2.2034,
      "step": 5904
    },
    {
      "epoch": 0.1312222222222222,
      "grad_norm": 1.0447148084640503,
      "learning_rate": 0.00017379417648366306,
      "loss": 2.1205,
      "step": 5905
    },
    {
      "epoch": 0.13124444444444444,
      "grad_norm": 1.1578493118286133,
      "learning_rate": 0.00017378973105134474,
      "loss": 2.562,
      "step": 5906
    },
    {
      "epoch": 0.13126666666666667,
      "grad_norm": 1.3891160488128662,
      "learning_rate": 0.00017378528561902645,
      "loss": 2.5894,
      "step": 5907
    },
    {
      "epoch": 0.1312888888888889,
      "grad_norm": 1.295999526977539,
      "learning_rate": 0.00017378084018670816,
      "loss": 2.3429,
      "step": 5908
    },
    {
      "epoch": 0.1313111111111111,
      "grad_norm": 1.3091723918914795,
      "learning_rate": 0.00017377639475438987,
      "loss": 2.0571,
      "step": 5909
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 1.3764132261276245,
      "learning_rate": 0.00017377194932207158,
      "loss": 2.1901,
      "step": 5910
    },
    {
      "epoch": 0.13135555555555556,
      "grad_norm": 1.2906633615493774,
      "learning_rate": 0.0001737675038897533,
      "loss": 2.1703,
      "step": 5911
    },
    {
      "epoch": 0.1313777777777778,
      "grad_norm": 1.3131294250488281,
      "learning_rate": 0.000173763058457435,
      "loss": 2.169,
      "step": 5912
    },
    {
      "epoch": 0.1314,
      "grad_norm": 1.2404680252075195,
      "learning_rate": 0.00017375861302511668,
      "loss": 1.9933,
      "step": 5913
    },
    {
      "epoch": 0.13142222222222222,
      "grad_norm": 1.3794121742248535,
      "learning_rate": 0.00017375416759279842,
      "loss": 1.9353,
      "step": 5914
    },
    {
      "epoch": 0.13144444444444445,
      "grad_norm": 0.8892806768417358,
      "learning_rate": 0.0001737497221604801,
      "loss": 1.0278,
      "step": 5915
    },
    {
      "epoch": 0.13146666666666668,
      "grad_norm": 0.9884451031684875,
      "learning_rate": 0.00017374527672816184,
      "loss": 0.9478,
      "step": 5916
    },
    {
      "epoch": 0.13148888888888888,
      "grad_norm": 1.375540852546692,
      "learning_rate": 0.00017374083129584352,
      "loss": 1.8248,
      "step": 5917
    },
    {
      "epoch": 0.1315111111111111,
      "grad_norm": 1.5170341730117798,
      "learning_rate": 0.00017373638586352523,
      "loss": 2.4242,
      "step": 5918
    },
    {
      "epoch": 0.13153333333333334,
      "grad_norm": 1.177659034729004,
      "learning_rate": 0.00017373194043120694,
      "loss": 1.7898,
      "step": 5919
    },
    {
      "epoch": 0.13155555555555556,
      "grad_norm": 1.319135308265686,
      "learning_rate": 0.00017372749499888865,
      "loss": 1.6881,
      "step": 5920
    },
    {
      "epoch": 0.13157777777777777,
      "grad_norm": 1.4119229316711426,
      "learning_rate": 0.00017372304956657036,
      "loss": 1.9344,
      "step": 5921
    },
    {
      "epoch": 0.1316,
      "grad_norm": 1.4122519493103027,
      "learning_rate": 0.00017371860413425207,
      "loss": 2.1556,
      "step": 5922
    },
    {
      "epoch": 0.13162222222222222,
      "grad_norm": 1.2417348623275757,
      "learning_rate": 0.00017371415870193378,
      "loss": 1.8826,
      "step": 5923
    },
    {
      "epoch": 0.13164444444444445,
      "grad_norm": 1.2680243253707886,
      "learning_rate": 0.00017370971326961546,
      "loss": 1.5277,
      "step": 5924
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 1.46183443069458,
      "learning_rate": 0.0001737052678372972,
      "loss": 2.1598,
      "step": 5925
    },
    {
      "epoch": 0.13168888888888888,
      "grad_norm": 1.356905221939087,
      "learning_rate": 0.00017370082240497888,
      "loss": 1.9352,
      "step": 5926
    },
    {
      "epoch": 0.1317111111111111,
      "grad_norm": 1.3467260599136353,
      "learning_rate": 0.0001736963769726606,
      "loss": 1.7859,
      "step": 5927
    },
    {
      "epoch": 0.13173333333333334,
      "grad_norm": 1.602432370185852,
      "learning_rate": 0.0001736919315403423,
      "loss": 2.2635,
      "step": 5928
    },
    {
      "epoch": 0.13175555555555554,
      "grad_norm": 1.5359892845153809,
      "learning_rate": 0.000173687486108024,
      "loss": 1.9419,
      "step": 5929
    },
    {
      "epoch": 0.13177777777777777,
      "grad_norm": 1.615331768989563,
      "learning_rate": 0.00017368304067570572,
      "loss": 2.088,
      "step": 5930
    },
    {
      "epoch": 0.1318,
      "grad_norm": 1.371079921722412,
      "learning_rate": 0.00017367859524338743,
      "loss": 2.1472,
      "step": 5931
    },
    {
      "epoch": 0.13182222222222223,
      "grad_norm": 1.9555275440216064,
      "learning_rate": 0.00017367414981106914,
      "loss": 2.1871,
      "step": 5932
    },
    {
      "epoch": 0.13184444444444443,
      "grad_norm": 1.5031315088272095,
      "learning_rate": 0.00017366970437875085,
      "loss": 2.0323,
      "step": 5933
    },
    {
      "epoch": 0.13186666666666666,
      "grad_norm": 1.3420469760894775,
      "learning_rate": 0.00017366525894643256,
      "loss": 1.831,
      "step": 5934
    },
    {
      "epoch": 0.1318888888888889,
      "grad_norm": 1.831050992012024,
      "learning_rate": 0.00017366081351411424,
      "loss": 1.9686,
      "step": 5935
    },
    {
      "epoch": 0.13191111111111112,
      "grad_norm": 1.529524326324463,
      "learning_rate": 0.00017365636808179598,
      "loss": 2.0531,
      "step": 5936
    },
    {
      "epoch": 0.13193333333333335,
      "grad_norm": 1.3597081899642944,
      "learning_rate": 0.00017365192264947766,
      "loss": 1.9466,
      "step": 5937
    },
    {
      "epoch": 0.13195555555555555,
      "grad_norm": 1.712200403213501,
      "learning_rate": 0.00017364747721715937,
      "loss": 2.1307,
      "step": 5938
    },
    {
      "epoch": 0.13197777777777778,
      "grad_norm": 1.292341947555542,
      "learning_rate": 0.00017364303178484108,
      "loss": 1.6849,
      "step": 5939
    },
    {
      "epoch": 0.132,
      "grad_norm": 1.4372371435165405,
      "learning_rate": 0.0001736385863525228,
      "loss": 1.9472,
      "step": 5940
    },
    {
      "epoch": 0.13202222222222224,
      "grad_norm": 1.6036138534545898,
      "learning_rate": 0.0001736341409202045,
      "loss": 1.9617,
      "step": 5941
    },
    {
      "epoch": 0.13204444444444444,
      "grad_norm": 1.5970768928527832,
      "learning_rate": 0.0001736296954878862,
      "loss": 1.8045,
      "step": 5942
    },
    {
      "epoch": 0.13206666666666667,
      "grad_norm": 1.305377721786499,
      "learning_rate": 0.00017362525005556792,
      "loss": 1.6453,
      "step": 5943
    },
    {
      "epoch": 0.1320888888888889,
      "grad_norm": 1.4688489437103271,
      "learning_rate": 0.0001736208046232496,
      "loss": 1.8234,
      "step": 5944
    },
    {
      "epoch": 0.13211111111111112,
      "grad_norm": 1.4619224071502686,
      "learning_rate": 0.00017361635919093134,
      "loss": 1.7528,
      "step": 5945
    },
    {
      "epoch": 0.13213333333333332,
      "grad_norm": 1.5177655220031738,
      "learning_rate": 0.00017361191375861302,
      "loss": 1.6448,
      "step": 5946
    },
    {
      "epoch": 0.13215555555555555,
      "grad_norm": 1.8674092292785645,
      "learning_rate": 0.00017360746832629473,
      "loss": 1.9761,
      "step": 5947
    },
    {
      "epoch": 0.13217777777777778,
      "grad_norm": 1.6070690155029297,
      "learning_rate": 0.00017360302289397644,
      "loss": 1.5757,
      "step": 5948
    },
    {
      "epoch": 0.1322,
      "grad_norm": 1.4443459510803223,
      "learning_rate": 0.00017359857746165815,
      "loss": 1.7031,
      "step": 5949
    },
    {
      "epoch": 0.1322222222222222,
      "grad_norm": 1.7476154565811157,
      "learning_rate": 0.00017359413202933986,
      "loss": 1.9241,
      "step": 5950
    },
    {
      "epoch": 0.13224444444444444,
      "grad_norm": 1.0571792125701904,
      "learning_rate": 0.00017358968659702157,
      "loss": 2.2383,
      "step": 5951
    },
    {
      "epoch": 0.13226666666666667,
      "grad_norm": 1.1717239618301392,
      "learning_rate": 0.00017358524116470328,
      "loss": 2.5808,
      "step": 5952
    },
    {
      "epoch": 0.1322888888888889,
      "grad_norm": 1.5508183240890503,
      "learning_rate": 0.000173580795732385,
      "loss": 0.7755,
      "step": 5953
    },
    {
      "epoch": 0.1323111111111111,
      "grad_norm": 1.4841219186782837,
      "learning_rate": 0.0001735763503000667,
      "loss": 2.6949,
      "step": 5954
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 1.1823827028274536,
      "learning_rate": 0.00017357190486774838,
      "loss": 1.8828,
      "step": 5955
    },
    {
      "epoch": 0.13235555555555556,
      "grad_norm": 1.3462332487106323,
      "learning_rate": 0.00017356745943543012,
      "loss": 2.5204,
      "step": 5956
    },
    {
      "epoch": 0.1323777777777778,
      "grad_norm": 1.2501152753829956,
      "learning_rate": 0.0001735630140031118,
      "loss": 2.2226,
      "step": 5957
    },
    {
      "epoch": 0.1324,
      "grad_norm": 1.0521576404571533,
      "learning_rate": 0.0001735585685707935,
      "loss": 2.0323,
      "step": 5958
    },
    {
      "epoch": 0.13242222222222222,
      "grad_norm": 1.7680922746658325,
      "learning_rate": 0.00017355412313847525,
      "loss": 1.3233,
      "step": 5959
    },
    {
      "epoch": 0.13244444444444445,
      "grad_norm": 1.423680305480957,
      "learning_rate": 0.00017354967770615693,
      "loss": 2.036,
      "step": 5960
    },
    {
      "epoch": 0.13246666666666668,
      "grad_norm": 1.5435497760772705,
      "learning_rate": 0.00017354523227383864,
      "loss": 2.0562,
      "step": 5961
    },
    {
      "epoch": 0.13248888888888888,
      "grad_norm": 1.3481789827346802,
      "learning_rate": 0.00017354078684152035,
      "loss": 1.6952,
      "step": 5962
    },
    {
      "epoch": 0.1325111111111111,
      "grad_norm": 1.1555250883102417,
      "learning_rate": 0.00017353634140920206,
      "loss": 1.8487,
      "step": 5963
    },
    {
      "epoch": 0.13253333333333334,
      "grad_norm": 1.2118476629257202,
      "learning_rate": 0.00017353189597688374,
      "loss": 1.8466,
      "step": 5964
    },
    {
      "epoch": 0.13255555555555557,
      "grad_norm": 1.5024305582046509,
      "learning_rate": 0.00017352745054456548,
      "loss": 2.1697,
      "step": 5965
    },
    {
      "epoch": 0.13257777777777777,
      "grad_norm": 1.3033941984176636,
      "learning_rate": 0.00017352300511224719,
      "loss": 1.7943,
      "step": 5966
    },
    {
      "epoch": 0.1326,
      "grad_norm": 0.977668821811676,
      "learning_rate": 0.00017351855967992887,
      "loss": 0.9452,
      "step": 5967
    },
    {
      "epoch": 0.13262222222222222,
      "grad_norm": 1.4166936874389648,
      "learning_rate": 0.0001735141142476106,
      "loss": 1.6235,
      "step": 5968
    },
    {
      "epoch": 0.13264444444444445,
      "grad_norm": 1.4866496324539185,
      "learning_rate": 0.0001735096688152923,
      "loss": 2.0742,
      "step": 5969
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 1.5072613954544067,
      "learning_rate": 0.000173505223382974,
      "loss": 1.8772,
      "step": 5970
    },
    {
      "epoch": 0.13268888888888888,
      "grad_norm": 1.3013734817504883,
      "learning_rate": 0.0001735007779506557,
      "loss": 1.9933,
      "step": 5971
    },
    {
      "epoch": 0.1327111111111111,
      "grad_norm": 1.290247917175293,
      "learning_rate": 0.00017349633251833742,
      "loss": 2.3075,
      "step": 5972
    },
    {
      "epoch": 0.13273333333333334,
      "grad_norm": 1.4151265621185303,
      "learning_rate": 0.00017349188708601913,
      "loss": 1.9017,
      "step": 5973
    },
    {
      "epoch": 0.13275555555555554,
      "grad_norm": 1.3580652475357056,
      "learning_rate": 0.00017348744165370084,
      "loss": 1.5098,
      "step": 5974
    },
    {
      "epoch": 0.13277777777777777,
      "grad_norm": 1.224225640296936,
      "learning_rate": 0.00017348299622138255,
      "loss": 1.4404,
      "step": 5975
    },
    {
      "epoch": 0.1328,
      "grad_norm": 1.8204468488693237,
      "learning_rate": 0.00017347855078906425,
      "loss": 2.0913,
      "step": 5976
    },
    {
      "epoch": 0.13282222222222223,
      "grad_norm": 1.624272108078003,
      "learning_rate": 0.00017347410535674596,
      "loss": 2.6739,
      "step": 5977
    },
    {
      "epoch": 0.13284444444444443,
      "grad_norm": 1.3209208250045776,
      "learning_rate": 0.00017346965992442765,
      "loss": 1.9274,
      "step": 5978
    },
    {
      "epoch": 0.13286666666666666,
      "grad_norm": 1.6007224321365356,
      "learning_rate": 0.00017346521449210938,
      "loss": 2.1149,
      "step": 5979
    },
    {
      "epoch": 0.1328888888888889,
      "grad_norm": 1.372113823890686,
      "learning_rate": 0.00017346076905979107,
      "loss": 2.0642,
      "step": 5980
    },
    {
      "epoch": 0.13291111111111112,
      "grad_norm": 1.3989249467849731,
      "learning_rate": 0.00017345632362747278,
      "loss": 1.5526,
      "step": 5981
    },
    {
      "epoch": 0.13293333333333332,
      "grad_norm": 1.4639713764190674,
      "learning_rate": 0.00017345187819515449,
      "loss": 2.4002,
      "step": 5982
    },
    {
      "epoch": 0.13295555555555555,
      "grad_norm": 1.7868260145187378,
      "learning_rate": 0.0001734474327628362,
      "loss": 1.7835,
      "step": 5983
    },
    {
      "epoch": 0.13297777777777778,
      "grad_norm": 1.4045000076293945,
      "learning_rate": 0.0001734429873305179,
      "loss": 1.8709,
      "step": 5984
    },
    {
      "epoch": 0.133,
      "grad_norm": 1.7546249628067017,
      "learning_rate": 0.00017343854189819961,
      "loss": 2.6865,
      "step": 5985
    },
    {
      "epoch": 0.1330222222222222,
      "grad_norm": 1.4675512313842773,
      "learning_rate": 0.00017343409646588132,
      "loss": 2.1802,
      "step": 5986
    },
    {
      "epoch": 0.13304444444444444,
      "grad_norm": 1.7371679544448853,
      "learning_rate": 0.000173429651033563,
      "loss": 2.3008,
      "step": 5987
    },
    {
      "epoch": 0.13306666666666667,
      "grad_norm": 1.2966742515563965,
      "learning_rate": 0.00017342520560124474,
      "loss": 1.7624,
      "step": 5988
    },
    {
      "epoch": 0.1330888888888889,
      "grad_norm": 1.5061606168746948,
      "learning_rate": 0.00017342076016892643,
      "loss": 2.128,
      "step": 5989
    },
    {
      "epoch": 0.13311111111111112,
      "grad_norm": 1.4874566793441772,
      "learning_rate": 0.00017341631473660816,
      "loss": 2.2129,
      "step": 5990
    },
    {
      "epoch": 0.13313333333333333,
      "grad_norm": 1.4650120735168457,
      "learning_rate": 0.00017341186930428984,
      "loss": 2.0822,
      "step": 5991
    },
    {
      "epoch": 0.13315555555555555,
      "grad_norm": 1.5025899410247803,
      "learning_rate": 0.00017340742387197155,
      "loss": 2.3581,
      "step": 5992
    },
    {
      "epoch": 0.13317777777777778,
      "grad_norm": 1.3367918729782104,
      "learning_rate": 0.00017340297843965326,
      "loss": 1.6086,
      "step": 5993
    },
    {
      "epoch": 0.1332,
      "grad_norm": 1.4371507167816162,
      "learning_rate": 0.00017339853300733497,
      "loss": 1.7458,
      "step": 5994
    },
    {
      "epoch": 0.13322222222222221,
      "grad_norm": 1.6526460647583008,
      "learning_rate": 0.00017339408757501668,
      "loss": 2.0714,
      "step": 5995
    },
    {
      "epoch": 0.13324444444444444,
      "grad_norm": 1.9171574115753174,
      "learning_rate": 0.0001733896421426984,
      "loss": 2.2671,
      "step": 5996
    },
    {
      "epoch": 0.13326666666666667,
      "grad_norm": 0.4594983458518982,
      "learning_rate": 0.0001733851967103801,
      "loss": 0.0446,
      "step": 5997
    },
    {
      "epoch": 0.1332888888888889,
      "grad_norm": 1.5690319538116455,
      "learning_rate": 0.00017338075127806179,
      "loss": 1.8496,
      "step": 5998
    },
    {
      "epoch": 0.1333111111111111,
      "grad_norm": 1.5101208686828613,
      "learning_rate": 0.00017337630584574352,
      "loss": 1.675,
      "step": 5999
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 1.4686651229858398,
      "learning_rate": 0.0001733718604134252,
      "loss": 1.7213,
      "step": 6000
    },
    {
      "epoch": 0.13335555555555556,
      "grad_norm": 0.8386424779891968,
      "learning_rate": 0.00017336741498110691,
      "loss": 1.2516,
      "step": 6001
    },
    {
      "epoch": 0.1333777777777778,
      "grad_norm": 1.2057859897613525,
      "learning_rate": 0.00017336296954878862,
      "loss": 2.3383,
      "step": 6002
    },
    {
      "epoch": 0.1334,
      "grad_norm": 1.2555567026138306,
      "learning_rate": 0.00017335852411647033,
      "loss": 2.3533,
      "step": 6003
    },
    {
      "epoch": 0.13342222222222222,
      "grad_norm": 1.196885585784912,
      "learning_rate": 0.00017335407868415204,
      "loss": 2.576,
      "step": 6004
    },
    {
      "epoch": 0.13344444444444445,
      "grad_norm": 1.150669813156128,
      "learning_rate": 0.00017334963325183375,
      "loss": 2.2969,
      "step": 6005
    },
    {
      "epoch": 0.13346666666666668,
      "grad_norm": 1.3348448276519775,
      "learning_rate": 0.00017334518781951546,
      "loss": 1.6837,
      "step": 6006
    },
    {
      "epoch": 0.13348888888888888,
      "grad_norm": 1.298392653465271,
      "learning_rate": 0.00017334074238719714,
      "loss": 2.4574,
      "step": 6007
    },
    {
      "epoch": 0.1335111111111111,
      "grad_norm": 1.361768126487732,
      "learning_rate": 0.00017333629695487888,
      "loss": 1.9637,
      "step": 6008
    },
    {
      "epoch": 0.13353333333333334,
      "grad_norm": 1.4550423622131348,
      "learning_rate": 0.00017333185152256056,
      "loss": 2.2781,
      "step": 6009
    },
    {
      "epoch": 0.13355555555555557,
      "grad_norm": 1.2260345220565796,
      "learning_rate": 0.0001733274060902423,
      "loss": 2.257,
      "step": 6010
    },
    {
      "epoch": 0.13357777777777777,
      "grad_norm": 1.2118206024169922,
      "learning_rate": 0.00017332296065792398,
      "loss": 1.5176,
      "step": 6011
    },
    {
      "epoch": 0.1336,
      "grad_norm": 1.3140944242477417,
      "learning_rate": 0.0001733185152256057,
      "loss": 2.2999,
      "step": 6012
    },
    {
      "epoch": 0.13362222222222223,
      "grad_norm": 1.3165638446807861,
      "learning_rate": 0.0001733140697932874,
      "loss": 2.4627,
      "step": 6013
    },
    {
      "epoch": 0.13364444444444445,
      "grad_norm": 1.132668137550354,
      "learning_rate": 0.0001733096243609691,
      "loss": 1.915,
      "step": 6014
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 1.1605331897735596,
      "learning_rate": 0.00017330517892865082,
      "loss": 2.1422,
      "step": 6015
    },
    {
      "epoch": 0.13368888888888888,
      "grad_norm": 1.5925589799880981,
      "learning_rate": 0.00017330073349633253,
      "loss": 2.061,
      "step": 6016
    },
    {
      "epoch": 0.13371111111111111,
      "grad_norm": 1.3047559261322021,
      "learning_rate": 0.00017329628806401424,
      "loss": 2.3052,
      "step": 6017
    },
    {
      "epoch": 0.13373333333333334,
      "grad_norm": 1.6283490657806396,
      "learning_rate": 0.00017329184263169592,
      "loss": 1.8279,
      "step": 6018
    },
    {
      "epoch": 0.13375555555555554,
      "grad_norm": 1.5139881372451782,
      "learning_rate": 0.00017328739719937766,
      "loss": 2.1454,
      "step": 6019
    },
    {
      "epoch": 0.13377777777777777,
      "grad_norm": 1.467419147491455,
      "learning_rate": 0.00017328295176705934,
      "loss": 1.8716,
      "step": 6020
    },
    {
      "epoch": 0.1338,
      "grad_norm": 1.3558454513549805,
      "learning_rate": 0.00017327850633474105,
      "loss": 1.8941,
      "step": 6021
    },
    {
      "epoch": 0.13382222222222223,
      "grad_norm": 1.4771108627319336,
      "learning_rate": 0.00017327406090242276,
      "loss": 2.3503,
      "step": 6022
    },
    {
      "epoch": 0.13384444444444443,
      "grad_norm": 1.5703336000442505,
      "learning_rate": 0.00017326961547010447,
      "loss": 2.8202,
      "step": 6023
    },
    {
      "epoch": 0.13386666666666666,
      "grad_norm": 1.3055346012115479,
      "learning_rate": 0.00017326517003778618,
      "loss": 2.0139,
      "step": 6024
    },
    {
      "epoch": 0.1338888888888889,
      "grad_norm": 1.580645203590393,
      "learning_rate": 0.0001732607246054679,
      "loss": 1.931,
      "step": 6025
    },
    {
      "epoch": 0.13391111111111112,
      "grad_norm": 1.4740029573440552,
      "learning_rate": 0.0001732562791731496,
      "loss": 1.6793,
      "step": 6026
    },
    {
      "epoch": 0.13393333333333332,
      "grad_norm": 1.2166857719421387,
      "learning_rate": 0.0001732518337408313,
      "loss": 1.757,
      "step": 6027
    },
    {
      "epoch": 0.13395555555555555,
      "grad_norm": 1.553368091583252,
      "learning_rate": 0.00017324738830851302,
      "loss": 2.0874,
      "step": 6028
    },
    {
      "epoch": 0.13397777777777778,
      "grad_norm": 1.3911256790161133,
      "learning_rate": 0.0001732429428761947,
      "loss": 1.7492,
      "step": 6029
    },
    {
      "epoch": 0.134,
      "grad_norm": 1.40644109249115,
      "learning_rate": 0.00017323849744387644,
      "loss": 1.8654,
      "step": 6030
    },
    {
      "epoch": 0.1340222222222222,
      "grad_norm": 1.5268436670303345,
      "learning_rate": 0.00017323405201155812,
      "loss": 2.0177,
      "step": 6031
    },
    {
      "epoch": 0.13404444444444444,
      "grad_norm": 1.4300051927566528,
      "learning_rate": 0.00017322960657923983,
      "loss": 2.1438,
      "step": 6032
    },
    {
      "epoch": 0.13406666666666667,
      "grad_norm": 1.622955083847046,
      "learning_rate": 0.00017322516114692157,
      "loss": 1.2577,
      "step": 6033
    },
    {
      "epoch": 0.1340888888888889,
      "grad_norm": 1.7753167152404785,
      "learning_rate": 0.00017322071571460325,
      "loss": 2.3788,
      "step": 6034
    },
    {
      "epoch": 0.1341111111111111,
      "grad_norm": 1.6572976112365723,
      "learning_rate": 0.00017321627028228496,
      "loss": 2.0806,
      "step": 6035
    },
    {
      "epoch": 0.13413333333333333,
      "grad_norm": 1.527376651763916,
      "learning_rate": 0.00017321182484996667,
      "loss": 1.757,
      "step": 6036
    },
    {
      "epoch": 0.13415555555555556,
      "grad_norm": 1.3934730291366577,
      "learning_rate": 0.00017320737941764838,
      "loss": 1.8247,
      "step": 6037
    },
    {
      "epoch": 0.13417777777777778,
      "grad_norm": 1.5186538696289062,
      "learning_rate": 0.00017320293398533006,
      "loss": 2.0569,
      "step": 6038
    },
    {
      "epoch": 0.1342,
      "grad_norm": 1.1559666395187378,
      "learning_rate": 0.0001731984885530118,
      "loss": 0.8024,
      "step": 6039
    },
    {
      "epoch": 0.13422222222222221,
      "grad_norm": 1.9649080038070679,
      "learning_rate": 0.0001731940431206935,
      "loss": 2.3374,
      "step": 6040
    },
    {
      "epoch": 0.13424444444444444,
      "grad_norm": 1.380423665046692,
      "learning_rate": 0.0001731895976883752,
      "loss": 2.0268,
      "step": 6041
    },
    {
      "epoch": 0.13426666666666667,
      "grad_norm": 1.6306055784225464,
      "learning_rate": 0.00017318515225605693,
      "loss": 1.9289,
      "step": 6042
    },
    {
      "epoch": 0.1342888888888889,
      "grad_norm": 1.2307765483856201,
      "learning_rate": 0.0001731807068237386,
      "loss": 1.6301,
      "step": 6043
    },
    {
      "epoch": 0.1343111111111111,
      "grad_norm": 1.6819902658462524,
      "learning_rate": 0.00017317626139142032,
      "loss": 1.8614,
      "step": 6044
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 1.4936010837554932,
      "learning_rate": 0.00017317181595910203,
      "loss": 2.0839,
      "step": 6045
    },
    {
      "epoch": 0.13435555555555556,
      "grad_norm": 1.2631219625473022,
      "learning_rate": 0.00017316737052678374,
      "loss": 1.8215,
      "step": 6046
    },
    {
      "epoch": 0.1343777777777778,
      "grad_norm": 1.803135871887207,
      "learning_rate": 0.00017316292509446545,
      "loss": 2.2928,
      "step": 6047
    },
    {
      "epoch": 0.1344,
      "grad_norm": 1.3757370710372925,
      "learning_rate": 0.00017315847966214716,
      "loss": 1.8766,
      "step": 6048
    },
    {
      "epoch": 0.13442222222222222,
      "grad_norm": 1.4053303003311157,
      "learning_rate": 0.00017315403422982887,
      "loss": 1.4473,
      "step": 6049
    },
    {
      "epoch": 0.13444444444444445,
      "grad_norm": 1.6834968328475952,
      "learning_rate": 0.00017314958879751058,
      "loss": 1.178,
      "step": 6050
    },
    {
      "epoch": 0.13446666666666668,
      "grad_norm": 0.9010146856307983,
      "learning_rate": 0.00017314514336519229,
      "loss": 1.3412,
      "step": 6051
    },
    {
      "epoch": 0.13448888888888888,
      "grad_norm": 1.120653510093689,
      "learning_rate": 0.00017314069793287397,
      "loss": 2.3732,
      "step": 6052
    },
    {
      "epoch": 0.1345111111111111,
      "grad_norm": 1.0497796535491943,
      "learning_rate": 0.0001731362525005557,
      "loss": 2.2472,
      "step": 6053
    },
    {
      "epoch": 0.13453333333333334,
      "grad_norm": 1.150866150856018,
      "learning_rate": 0.0001731318070682374,
      "loss": 2.2529,
      "step": 6054
    },
    {
      "epoch": 0.13455555555555557,
      "grad_norm": 1.2301979064941406,
      "learning_rate": 0.0001731273616359191,
      "loss": 2.2871,
      "step": 6055
    },
    {
      "epoch": 0.13457777777777777,
      "grad_norm": 1.4712224006652832,
      "learning_rate": 0.0001731229162036008,
      "loss": 2.5,
      "step": 6056
    },
    {
      "epoch": 0.1346,
      "grad_norm": 1.2380586862564087,
      "learning_rate": 0.00017311847077128252,
      "loss": 2.373,
      "step": 6057
    },
    {
      "epoch": 0.13462222222222223,
      "grad_norm": 1.3051798343658447,
      "learning_rate": 0.00017311402533896423,
      "loss": 2.1523,
      "step": 6058
    },
    {
      "epoch": 0.13464444444444446,
      "grad_norm": 1.4973798990249634,
      "learning_rate": 0.00017310957990664594,
      "loss": 2.5957,
      "step": 6059
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 1.2358478307724,
      "learning_rate": 0.00017310513447432765,
      "loss": 0.8943,
      "step": 6060
    },
    {
      "epoch": 0.13468888888888889,
      "grad_norm": 1.4517512321472168,
      "learning_rate": 0.00017310068904200933,
      "loss": 2.5167,
      "step": 6061
    },
    {
      "epoch": 0.13471111111111111,
      "grad_norm": 1.2816959619522095,
      "learning_rate": 0.00017309624360969107,
      "loss": 2.13,
      "step": 6062
    },
    {
      "epoch": 0.13473333333333334,
      "grad_norm": 1.4524623155593872,
      "learning_rate": 0.00017309179817737275,
      "loss": 2.0949,
      "step": 6063
    },
    {
      "epoch": 0.13475555555555555,
      "grad_norm": 2.000112533569336,
      "learning_rate": 0.00017308735274505446,
      "loss": 1.9528,
      "step": 6064
    },
    {
      "epoch": 0.13477777777777777,
      "grad_norm": 1.623329758644104,
      "learning_rate": 0.00017308290731273617,
      "loss": 2.3229,
      "step": 6065
    },
    {
      "epoch": 0.1348,
      "grad_norm": 1.4324922561645508,
      "learning_rate": 0.00017307846188041788,
      "loss": 2.2324,
      "step": 6066
    },
    {
      "epoch": 0.13482222222222223,
      "grad_norm": 1.1216648817062378,
      "learning_rate": 0.00017307401644809959,
      "loss": 1.8416,
      "step": 6067
    },
    {
      "epoch": 0.13484444444444443,
      "grad_norm": 1.3132973909378052,
      "learning_rate": 0.0001730695710157813,
      "loss": 2.6024,
      "step": 6068
    },
    {
      "epoch": 0.13486666666666666,
      "grad_norm": 1.3245750665664673,
      "learning_rate": 0.000173065125583463,
      "loss": 1.7867,
      "step": 6069
    },
    {
      "epoch": 0.1348888888888889,
      "grad_norm": 1.3158694505691528,
      "learning_rate": 0.00017306068015114471,
      "loss": 2.1301,
      "step": 6070
    },
    {
      "epoch": 0.13491111111111112,
      "grad_norm": 1.2616420984268188,
      "learning_rate": 0.00017305623471882642,
      "loss": 2.3758,
      "step": 6071
    },
    {
      "epoch": 0.13493333333333332,
      "grad_norm": 1.4616761207580566,
      "learning_rate": 0.0001730517892865081,
      "loss": 2.1618,
      "step": 6072
    },
    {
      "epoch": 0.13495555555555555,
      "grad_norm": 1.3128453493118286,
      "learning_rate": 0.00017304734385418984,
      "loss": 1.8283,
      "step": 6073
    },
    {
      "epoch": 0.13497777777777778,
      "grad_norm": 1.6216306686401367,
      "learning_rate": 0.00017304289842187153,
      "loss": 1.5927,
      "step": 6074
    },
    {
      "epoch": 0.135,
      "grad_norm": 1.3182789087295532,
      "learning_rate": 0.00017303845298955324,
      "loss": 1.9459,
      "step": 6075
    },
    {
      "epoch": 0.1350222222222222,
      "grad_norm": 1.1769824028015137,
      "learning_rate": 0.00017303400755723495,
      "loss": 0.8591,
      "step": 6076
    },
    {
      "epoch": 0.13504444444444444,
      "grad_norm": 1.1638365983963013,
      "learning_rate": 0.00017302956212491666,
      "loss": 0.7686,
      "step": 6077
    },
    {
      "epoch": 0.13506666666666667,
      "grad_norm": 1.4377998113632202,
      "learning_rate": 0.00017302511669259836,
      "loss": 2.0105,
      "step": 6078
    },
    {
      "epoch": 0.1350888888888889,
      "grad_norm": 1.5630053281784058,
      "learning_rate": 0.00017302067126028007,
      "loss": 1.7209,
      "step": 6079
    },
    {
      "epoch": 0.1351111111111111,
      "grad_norm": 1.3804802894592285,
      "learning_rate": 0.00017301622582796178,
      "loss": 1.8701,
      "step": 6080
    },
    {
      "epoch": 0.13513333333333333,
      "grad_norm": 0.9086868166923523,
      "learning_rate": 0.00017301178039564347,
      "loss": 0.0343,
      "step": 6081
    },
    {
      "epoch": 0.13515555555555556,
      "grad_norm": 1.5393544435501099,
      "learning_rate": 0.0001730073349633252,
      "loss": 1.6528,
      "step": 6082
    },
    {
      "epoch": 0.13517777777777779,
      "grad_norm": 1.383422613143921,
      "learning_rate": 0.00017300288953100689,
      "loss": 1.7067,
      "step": 6083
    },
    {
      "epoch": 0.1352,
      "grad_norm": 1.6597692966461182,
      "learning_rate": 0.00017299844409868862,
      "loss": 1.697,
      "step": 6084
    },
    {
      "epoch": 0.13522222222222222,
      "grad_norm": 1.3249397277832031,
      "learning_rate": 0.0001729939986663703,
      "loss": 1.6975,
      "step": 6085
    },
    {
      "epoch": 0.13524444444444444,
      "grad_norm": 1.9521217346191406,
      "learning_rate": 0.00017298955323405201,
      "loss": 2.4414,
      "step": 6086
    },
    {
      "epoch": 0.13526666666666667,
      "grad_norm": 1.6412107944488525,
      "learning_rate": 0.00017298510780173372,
      "loss": 1.9036,
      "step": 6087
    },
    {
      "epoch": 0.13528888888888888,
      "grad_norm": 1.5741181373596191,
      "learning_rate": 0.00017298066236941543,
      "loss": 2.0328,
      "step": 6088
    },
    {
      "epoch": 0.1353111111111111,
      "grad_norm": 1.329379677772522,
      "learning_rate": 0.00017297621693709714,
      "loss": 1.8884,
      "step": 6089
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 1.4284145832061768,
      "learning_rate": 0.00017297177150477885,
      "loss": 1.7856,
      "step": 6090
    },
    {
      "epoch": 0.13535555555555556,
      "grad_norm": 2.0355911254882812,
      "learning_rate": 0.00017296732607246056,
      "loss": 2.231,
      "step": 6091
    },
    {
      "epoch": 0.1353777777777778,
      "grad_norm": 1.5346561670303345,
      "learning_rate": 0.00017296288064014225,
      "loss": 1.5692,
      "step": 6092
    },
    {
      "epoch": 0.1354,
      "grad_norm": 1.634334683418274,
      "learning_rate": 0.00017295843520782398,
      "loss": 2.051,
      "step": 6093
    },
    {
      "epoch": 0.13542222222222222,
      "grad_norm": 1.3322654962539673,
      "learning_rate": 0.00017295398977550566,
      "loss": 1.6784,
      "step": 6094
    },
    {
      "epoch": 0.13544444444444445,
      "grad_norm": 1.4076318740844727,
      "learning_rate": 0.00017294954434318737,
      "loss": 1.4875,
      "step": 6095
    },
    {
      "epoch": 0.13546666666666668,
      "grad_norm": 2.0322635173797607,
      "learning_rate": 0.00017294509891086908,
      "loss": 2.0464,
      "step": 6096
    },
    {
      "epoch": 0.13548888888888888,
      "grad_norm": 1.4554277658462524,
      "learning_rate": 0.0001729406534785508,
      "loss": 2.0673,
      "step": 6097
    },
    {
      "epoch": 0.1355111111111111,
      "grad_norm": 1.5845863819122314,
      "learning_rate": 0.0001729362080462325,
      "loss": 1.8677,
      "step": 6098
    },
    {
      "epoch": 0.13553333333333334,
      "grad_norm": 2.3804385662078857,
      "learning_rate": 0.0001729317626139142,
      "loss": 1.7277,
      "step": 6099
    },
    {
      "epoch": 0.13555555555555557,
      "grad_norm": 1.4212021827697754,
      "learning_rate": 0.00017292731718159592,
      "loss": 1.6064,
      "step": 6100
    },
    {
      "epoch": 0.13557777777777777,
      "grad_norm": 0.7694593071937561,
      "learning_rate": 0.0001729228717492776,
      "loss": 0.9575,
      "step": 6101
    },
    {
      "epoch": 0.1356,
      "grad_norm": 1.159364938735962,
      "learning_rate": 0.00017291842631695934,
      "loss": 1.9207,
      "step": 6102
    },
    {
      "epoch": 0.13562222222222223,
      "grad_norm": 1.4298447370529175,
      "learning_rate": 0.00017291398088464102,
      "loss": 1.1025,
      "step": 6103
    },
    {
      "epoch": 0.13564444444444446,
      "grad_norm": 1.3821437358856201,
      "learning_rate": 0.00017290953545232276,
      "loss": 2.1769,
      "step": 6104
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 1.2759398221969604,
      "learning_rate": 0.00017290509002000444,
      "loss": 2.2788,
      "step": 6105
    },
    {
      "epoch": 0.1356888888888889,
      "grad_norm": 1.1691207885742188,
      "learning_rate": 0.00017290064458768615,
      "loss": 1.9396,
      "step": 6106
    },
    {
      "epoch": 0.13571111111111112,
      "grad_norm": 1.2714877128601074,
      "learning_rate": 0.0001728961991553679,
      "loss": 2.2589,
      "step": 6107
    },
    {
      "epoch": 0.13573333333333334,
      "grad_norm": 1.358504295349121,
      "learning_rate": 0.00017289175372304957,
      "loss": 2.163,
      "step": 6108
    },
    {
      "epoch": 0.13575555555555555,
      "grad_norm": 1.5786659717559814,
      "learning_rate": 0.00017288730829073128,
      "loss": 2.42,
      "step": 6109
    },
    {
      "epoch": 0.13577777777777778,
      "grad_norm": 1.0951048135757446,
      "learning_rate": 0.000172882862858413,
      "loss": 1.2232,
      "step": 6110
    },
    {
      "epoch": 0.1358,
      "grad_norm": 1.1754788160324097,
      "learning_rate": 0.0001728784174260947,
      "loss": 2.1123,
      "step": 6111
    },
    {
      "epoch": 0.13582222222222223,
      "grad_norm": 1.1702611446380615,
      "learning_rate": 0.00017287397199377638,
      "loss": 2.0726,
      "step": 6112
    },
    {
      "epoch": 0.13584444444444443,
      "grad_norm": 1.2020940780639648,
      "learning_rate": 0.00017286952656145812,
      "loss": 1.8343,
      "step": 6113
    },
    {
      "epoch": 0.13586666666666666,
      "grad_norm": 2.1810081005096436,
      "learning_rate": 0.00017286508112913983,
      "loss": 1.332,
      "step": 6114
    },
    {
      "epoch": 0.1358888888888889,
      "grad_norm": 1.1802977323532104,
      "learning_rate": 0.0001728606356968215,
      "loss": 1.3705,
      "step": 6115
    },
    {
      "epoch": 0.13591111111111112,
      "grad_norm": 1.2485874891281128,
      "learning_rate": 0.00017285619026450325,
      "loss": 2.2086,
      "step": 6116
    },
    {
      "epoch": 0.13593333333333332,
      "grad_norm": 1.2061305046081543,
      "learning_rate": 0.00017285174483218493,
      "loss": 2.1785,
      "step": 6117
    },
    {
      "epoch": 0.13595555555555555,
      "grad_norm": 1.2820281982421875,
      "learning_rate": 0.00017284729939986664,
      "loss": 1.5819,
      "step": 6118
    },
    {
      "epoch": 0.13597777777777778,
      "grad_norm": 1.577001690864563,
      "learning_rate": 0.00017284285396754835,
      "loss": 2.1702,
      "step": 6119
    },
    {
      "epoch": 0.136,
      "grad_norm": 1.5839650630950928,
      "learning_rate": 0.00017283840853523006,
      "loss": 1.8426,
      "step": 6120
    },
    {
      "epoch": 0.1360222222222222,
      "grad_norm": 1.3217182159423828,
      "learning_rate": 0.00017283396310291174,
      "loss": 1.8918,
      "step": 6121
    },
    {
      "epoch": 0.13604444444444444,
      "grad_norm": 1.733766794204712,
      "learning_rate": 0.00017282951767059348,
      "loss": 2.1573,
      "step": 6122
    },
    {
      "epoch": 0.13606666666666667,
      "grad_norm": 1.7560551166534424,
      "learning_rate": 0.0001728250722382752,
      "loss": 2.1368,
      "step": 6123
    },
    {
      "epoch": 0.1360888888888889,
      "grad_norm": 1.4171364307403564,
      "learning_rate": 0.0001728206268059569,
      "loss": 1.9717,
      "step": 6124
    },
    {
      "epoch": 0.1361111111111111,
      "grad_norm": 1.3882994651794434,
      "learning_rate": 0.0001728161813736386,
      "loss": 1.7883,
      "step": 6125
    },
    {
      "epoch": 0.13613333333333333,
      "grad_norm": 1.3331663608551025,
      "learning_rate": 0.0001728117359413203,
      "loss": 1.9999,
      "step": 6126
    },
    {
      "epoch": 0.13615555555555556,
      "grad_norm": 1.4660427570343018,
      "learning_rate": 0.00017280729050900203,
      "loss": 2.1634,
      "step": 6127
    },
    {
      "epoch": 0.1361777777777778,
      "grad_norm": 1.4811375141143799,
      "learning_rate": 0.0001728028450766837,
      "loss": 2.4464,
      "step": 6128
    },
    {
      "epoch": 0.1362,
      "grad_norm": 1.3506404161453247,
      "learning_rate": 0.00017279839964436542,
      "loss": 1.8135,
      "step": 6129
    },
    {
      "epoch": 0.13622222222222222,
      "grad_norm": 1.495604157447815,
      "learning_rate": 0.00017279395421204713,
      "loss": 2.5441,
      "step": 6130
    },
    {
      "epoch": 0.13624444444444445,
      "grad_norm": 1.3457316160202026,
      "learning_rate": 0.00017278950877972884,
      "loss": 1.8232,
      "step": 6131
    },
    {
      "epoch": 0.13626666666666667,
      "grad_norm": 1.535245418548584,
      "learning_rate": 0.00017278506334741055,
      "loss": 2.163,
      "step": 6132
    },
    {
      "epoch": 0.13628888888888888,
      "grad_norm": 1.2471979856491089,
      "learning_rate": 0.00017278061791509226,
      "loss": 2.0013,
      "step": 6133
    },
    {
      "epoch": 0.1363111111111111,
      "grad_norm": 1.5332839488983154,
      "learning_rate": 0.00017277617248277397,
      "loss": 2.5804,
      "step": 6134
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 1.097852349281311,
      "learning_rate": 0.00017277172705045565,
      "loss": 0.9165,
      "step": 6135
    },
    {
      "epoch": 0.13635555555555556,
      "grad_norm": 1.5214734077453613,
      "learning_rate": 0.0001727672816181374,
      "loss": 1.8516,
      "step": 6136
    },
    {
      "epoch": 0.13637777777777776,
      "grad_norm": 1.9820271730422974,
      "learning_rate": 0.00017276283618581907,
      "loss": 2.3136,
      "step": 6137
    },
    {
      "epoch": 0.1364,
      "grad_norm": 2.3661203384399414,
      "learning_rate": 0.00017275839075350078,
      "loss": 1.8188,
      "step": 6138
    },
    {
      "epoch": 0.13642222222222222,
      "grad_norm": 1.6035078763961792,
      "learning_rate": 0.0001727539453211825,
      "loss": 2.1809,
      "step": 6139
    },
    {
      "epoch": 0.13644444444444445,
      "grad_norm": 1.3476135730743408,
      "learning_rate": 0.0001727494998888642,
      "loss": 1.8384,
      "step": 6140
    },
    {
      "epoch": 0.13646666666666665,
      "grad_norm": 1.777919888496399,
      "learning_rate": 0.0001727450544565459,
      "loss": 2.2047,
      "step": 6141
    },
    {
      "epoch": 0.13648888888888888,
      "grad_norm": 1.3766177892684937,
      "learning_rate": 0.00017274060902422762,
      "loss": 1.652,
      "step": 6142
    },
    {
      "epoch": 0.1365111111111111,
      "grad_norm": 1.7053489685058594,
      "learning_rate": 0.00017273616359190933,
      "loss": 2.314,
      "step": 6143
    },
    {
      "epoch": 0.13653333333333334,
      "grad_norm": 1.3314590454101562,
      "learning_rate": 0.00017273171815959104,
      "loss": 1.933,
      "step": 6144
    },
    {
      "epoch": 0.13655555555555557,
      "grad_norm": 1.548521637916565,
      "learning_rate": 0.00017272727272727275,
      "loss": 1.6405,
      "step": 6145
    },
    {
      "epoch": 0.13657777777777777,
      "grad_norm": 1.7645683288574219,
      "learning_rate": 0.00017272282729495443,
      "loss": 1.7477,
      "step": 6146
    },
    {
      "epoch": 0.1366,
      "grad_norm": 1.3934235572814941,
      "learning_rate": 0.00017271838186263617,
      "loss": 1.1712,
      "step": 6147
    },
    {
      "epoch": 0.13662222222222223,
      "grad_norm": 1.462316632270813,
      "learning_rate": 0.00017271393643031785,
      "loss": 1.9649,
      "step": 6148
    },
    {
      "epoch": 0.13664444444444446,
      "grad_norm": 1.8819767236709595,
      "learning_rate": 0.00017270949099799956,
      "loss": 1.6236,
      "step": 6149
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 1.5894324779510498,
      "learning_rate": 0.00017270504556568127,
      "loss": 1.2173,
      "step": 6150
    },
    {
      "epoch": 0.1366888888888889,
      "grad_norm": 0.9522481560707092,
      "learning_rate": 0.00017270060013336298,
      "loss": 1.3943,
      "step": 6151
    },
    {
      "epoch": 0.13671111111111112,
      "grad_norm": 1.2321193218231201,
      "learning_rate": 0.0001726961547010447,
      "loss": 2.4739,
      "step": 6152
    },
    {
      "epoch": 0.13673333333333335,
      "grad_norm": 1.360954761505127,
      "learning_rate": 0.0001726917092687264,
      "loss": 2.4456,
      "step": 6153
    },
    {
      "epoch": 0.13675555555555555,
      "grad_norm": 1.5189580917358398,
      "learning_rate": 0.0001726872638364081,
      "loss": 2.5376,
      "step": 6154
    },
    {
      "epoch": 0.13677777777777778,
      "grad_norm": 1.3442612886428833,
      "learning_rate": 0.0001726828184040898,
      "loss": 1.9712,
      "step": 6155
    },
    {
      "epoch": 0.1368,
      "grad_norm": 1.3368451595306396,
      "learning_rate": 0.00017267837297177153,
      "loss": 2.3639,
      "step": 6156
    },
    {
      "epoch": 0.13682222222222223,
      "grad_norm": 1.2102830410003662,
      "learning_rate": 0.0001726739275394532,
      "loss": 1.7812,
      "step": 6157
    },
    {
      "epoch": 0.13684444444444444,
      "grad_norm": 1.3078978061676025,
      "learning_rate": 0.00017266948210713492,
      "loss": 2.0241,
      "step": 6158
    },
    {
      "epoch": 0.13686666666666666,
      "grad_norm": 1.3368607759475708,
      "learning_rate": 0.00017266503667481663,
      "loss": 2.2884,
      "step": 6159
    },
    {
      "epoch": 0.1368888888888889,
      "grad_norm": 1.359755039215088,
      "learning_rate": 0.00017266059124249834,
      "loss": 2.4541,
      "step": 6160
    },
    {
      "epoch": 0.13691111111111112,
      "grad_norm": 1.2246410846710205,
      "learning_rate": 0.00017265614581018005,
      "loss": 2.1825,
      "step": 6161
    },
    {
      "epoch": 0.13693333333333332,
      "grad_norm": 1.6359953880310059,
      "learning_rate": 0.00017265170037786176,
      "loss": 2.3822,
      "step": 6162
    },
    {
      "epoch": 0.13695555555555555,
      "grad_norm": 1.5090357065200806,
      "learning_rate": 0.00017264725494554347,
      "loss": 2.645,
      "step": 6163
    },
    {
      "epoch": 0.13697777777777778,
      "grad_norm": 1.2483727931976318,
      "learning_rate": 0.00017264280951322518,
      "loss": 2.0035,
      "step": 6164
    },
    {
      "epoch": 0.137,
      "grad_norm": 1.4320539236068726,
      "learning_rate": 0.00017263836408090688,
      "loss": 1.9112,
      "step": 6165
    },
    {
      "epoch": 0.1370222222222222,
      "grad_norm": 1.2830597162246704,
      "learning_rate": 0.00017263391864858857,
      "loss": 2.0121,
      "step": 6166
    },
    {
      "epoch": 0.13704444444444444,
      "grad_norm": 1.4597357511520386,
      "learning_rate": 0.0001726294732162703,
      "loss": 1.4642,
      "step": 6167
    },
    {
      "epoch": 0.13706666666666667,
      "grad_norm": 1.4566251039505005,
      "learning_rate": 0.000172625027783952,
      "loss": 1.9997,
      "step": 6168
    },
    {
      "epoch": 0.1370888888888889,
      "grad_norm": 1.552114486694336,
      "learning_rate": 0.0001726205823516337,
      "loss": 2.0463,
      "step": 6169
    },
    {
      "epoch": 0.1371111111111111,
      "grad_norm": 1.6129940748214722,
      "learning_rate": 0.0001726161369193154,
      "loss": 2.3129,
      "step": 6170
    },
    {
      "epoch": 0.13713333333333333,
      "grad_norm": 1.5588405132293701,
      "learning_rate": 0.00017261169148699712,
      "loss": 2.2221,
      "step": 6171
    },
    {
      "epoch": 0.13715555555555556,
      "grad_norm": 1.4585798978805542,
      "learning_rate": 0.00017260724605467883,
      "loss": 2.4329,
      "step": 6172
    },
    {
      "epoch": 0.1371777777777778,
      "grad_norm": 1.9739426374435425,
      "learning_rate": 0.00017260280062236053,
      "loss": 2.6995,
      "step": 6173
    },
    {
      "epoch": 0.1372,
      "grad_norm": 1.5034465789794922,
      "learning_rate": 0.00017259835519004224,
      "loss": 2.2126,
      "step": 6174
    },
    {
      "epoch": 0.13722222222222222,
      "grad_norm": 1.326669454574585,
      "learning_rate": 0.00017259390975772393,
      "loss": 1.5746,
      "step": 6175
    },
    {
      "epoch": 0.13724444444444445,
      "grad_norm": 1.4568864107131958,
      "learning_rate": 0.00017258946432540566,
      "loss": 1.9911,
      "step": 6176
    },
    {
      "epoch": 0.13726666666666668,
      "grad_norm": 1.2044105529785156,
      "learning_rate": 0.00017258501889308735,
      "loss": 1.5809,
      "step": 6177
    },
    {
      "epoch": 0.13728888888888888,
      "grad_norm": 1.4710407257080078,
      "learning_rate": 0.00017258057346076906,
      "loss": 1.9902,
      "step": 6178
    },
    {
      "epoch": 0.1373111111111111,
      "grad_norm": 1.2484543323516846,
      "learning_rate": 0.00017257612802845077,
      "loss": 1.8222,
      "step": 6179
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 1.9154318571090698,
      "learning_rate": 0.00017257168259613247,
      "loss": 2.0693,
      "step": 6180
    },
    {
      "epoch": 0.13735555555555556,
      "grad_norm": 1.479528784751892,
      "learning_rate": 0.0001725672371638142,
      "loss": 2.4271,
      "step": 6181
    },
    {
      "epoch": 0.13737777777777777,
      "grad_norm": 1.7766116857528687,
      "learning_rate": 0.0001725627917314959,
      "loss": 2.1894,
      "step": 6182
    },
    {
      "epoch": 0.1374,
      "grad_norm": 1.6520802974700928,
      "learning_rate": 0.0001725583462991776,
      "loss": 1.9276,
      "step": 6183
    },
    {
      "epoch": 0.13742222222222222,
      "grad_norm": 0.8705781698226929,
      "learning_rate": 0.0001725539008668593,
      "loss": 0.8208,
      "step": 6184
    },
    {
      "epoch": 0.13744444444444445,
      "grad_norm": 1.055971622467041,
      "learning_rate": 0.00017254945543454102,
      "loss": 0.9686,
      "step": 6185
    },
    {
      "epoch": 0.13746666666666665,
      "grad_norm": 1.4241210222244263,
      "learning_rate": 0.0001725450100022227,
      "loss": 2.1582,
      "step": 6186
    },
    {
      "epoch": 0.13748888888888888,
      "grad_norm": 1.6400477886199951,
      "learning_rate": 0.00017254056456990444,
      "loss": 2.0106,
      "step": 6187
    },
    {
      "epoch": 0.1375111111111111,
      "grad_norm": 1.4592480659484863,
      "learning_rate": 0.00017253611913758615,
      "loss": 1.8908,
      "step": 6188
    },
    {
      "epoch": 0.13753333333333334,
      "grad_norm": 1.609931230545044,
      "learning_rate": 0.00017253167370526783,
      "loss": 2.1105,
      "step": 6189
    },
    {
      "epoch": 0.13755555555555554,
      "grad_norm": 2.115751028060913,
      "learning_rate": 0.00017252722827294957,
      "loss": 2.5045,
      "step": 6190
    },
    {
      "epoch": 0.13757777777777777,
      "grad_norm": 1.4989339113235474,
      "learning_rate": 0.00017252278284063125,
      "loss": 2.012,
      "step": 6191
    },
    {
      "epoch": 0.1376,
      "grad_norm": 1.7276995182037354,
      "learning_rate": 0.00017251833740831296,
      "loss": 2.1561,
      "step": 6192
    },
    {
      "epoch": 0.13762222222222223,
      "grad_norm": 1.754865288734436,
      "learning_rate": 0.00017251389197599467,
      "loss": 2.2816,
      "step": 6193
    },
    {
      "epoch": 0.13764444444444446,
      "grad_norm": 1.6751964092254639,
      "learning_rate": 0.00017250944654367638,
      "loss": 2.577,
      "step": 6194
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 1.5767077207565308,
      "learning_rate": 0.00017250500111135806,
      "loss": 1.9465,
      "step": 6195
    },
    {
      "epoch": 0.1376888888888889,
      "grad_norm": 1.3078786134719849,
      "learning_rate": 0.0001725005556790398,
      "loss": 2.1159,
      "step": 6196
    },
    {
      "epoch": 0.13771111111111112,
      "grad_norm": 1.6041009426116943,
      "learning_rate": 0.0001724961102467215,
      "loss": 1.7341,
      "step": 6197
    },
    {
      "epoch": 0.13773333333333335,
      "grad_norm": 1.567850947380066,
      "learning_rate": 0.00017249166481440322,
      "loss": 2.04,
      "step": 6198
    },
    {
      "epoch": 0.13775555555555555,
      "grad_norm": 1.7411574125289917,
      "learning_rate": 0.00017248721938208493,
      "loss": 2.1409,
      "step": 6199
    },
    {
      "epoch": 0.13777777777777778,
      "grad_norm": 1.763441801071167,
      "learning_rate": 0.0001724827739497666,
      "loss": 1.8956,
      "step": 6200
    },
    {
      "epoch": 0.1378,
      "grad_norm": 1.1711511611938477,
      "learning_rate": 0.00017247832851744835,
      "loss": 2.6135,
      "step": 6201
    },
    {
      "epoch": 0.13782222222222223,
      "grad_norm": 1.1170638799667358,
      "learning_rate": 0.00017247388308513003,
      "loss": 2.2616,
      "step": 6202
    },
    {
      "epoch": 0.13784444444444444,
      "grad_norm": 1.3439037799835205,
      "learning_rate": 0.00017246943765281174,
      "loss": 2.7212,
      "step": 6203
    },
    {
      "epoch": 0.13786666666666667,
      "grad_norm": 1.2265435457229614,
      "learning_rate": 0.00017246499222049345,
      "loss": 2.4534,
      "step": 6204
    },
    {
      "epoch": 0.1378888888888889,
      "grad_norm": 1.2874995470046997,
      "learning_rate": 0.00017246054678817516,
      "loss": 2.9497,
      "step": 6205
    },
    {
      "epoch": 0.13791111111111112,
      "grad_norm": 1.2838168144226074,
      "learning_rate": 0.00017245610135585687,
      "loss": 2.3889,
      "step": 6206
    },
    {
      "epoch": 0.13793333333333332,
      "grad_norm": 1.1754167079925537,
      "learning_rate": 0.00017245165592353858,
      "loss": 2.36,
      "step": 6207
    },
    {
      "epoch": 0.13795555555555555,
      "grad_norm": 1.3053425550460815,
      "learning_rate": 0.0001724472104912203,
      "loss": 2.0316,
      "step": 6208
    },
    {
      "epoch": 0.13797777777777778,
      "grad_norm": 1.0301417112350464,
      "learning_rate": 0.00017244276505890197,
      "loss": 1.1293,
      "step": 6209
    },
    {
      "epoch": 0.138,
      "grad_norm": 2.8750462532043457,
      "learning_rate": 0.0001724383196265837,
      "loss": 2.3781,
      "step": 6210
    },
    {
      "epoch": 0.1380222222222222,
      "grad_norm": 1.6055442094802856,
      "learning_rate": 0.0001724338741942654,
      "loss": 1.9684,
      "step": 6211
    },
    {
      "epoch": 0.13804444444444444,
      "grad_norm": 1.4475237131118774,
      "learning_rate": 0.0001724294287619471,
      "loss": 2.0875,
      "step": 6212
    },
    {
      "epoch": 0.13806666666666667,
      "grad_norm": 1.1911262273788452,
      "learning_rate": 0.0001724249833296288,
      "loss": 1.9358,
      "step": 6213
    },
    {
      "epoch": 0.1380888888888889,
      "grad_norm": 1.5236046314239502,
      "learning_rate": 0.00017242053789731052,
      "loss": 1.9314,
      "step": 6214
    },
    {
      "epoch": 0.1381111111111111,
      "grad_norm": 1.3269716501235962,
      "learning_rate": 0.00017241609246499223,
      "loss": 2.3399,
      "step": 6215
    },
    {
      "epoch": 0.13813333333333333,
      "grad_norm": 1.252060055732727,
      "learning_rate": 0.00017241164703267394,
      "loss": 2.0287,
      "step": 6216
    },
    {
      "epoch": 0.13815555555555556,
      "grad_norm": 1.2700409889221191,
      "learning_rate": 0.00017240720160035565,
      "loss": 1.3355,
      "step": 6217
    },
    {
      "epoch": 0.1381777777777778,
      "grad_norm": 1.3257523775100708,
      "learning_rate": 0.00017240275616803736,
      "loss": 1.9773,
      "step": 6218
    },
    {
      "epoch": 0.1382,
      "grad_norm": 1.2208232879638672,
      "learning_rate": 0.00017239831073571907,
      "loss": 1.8295,
      "step": 6219
    },
    {
      "epoch": 0.13822222222222222,
      "grad_norm": 1.712463140487671,
      "learning_rate": 0.00017239386530340075,
      "loss": 2.3633,
      "step": 6220
    },
    {
      "epoch": 0.13824444444444445,
      "grad_norm": 1.2354621887207031,
      "learning_rate": 0.0001723894198710825,
      "loss": 1.8783,
      "step": 6221
    },
    {
      "epoch": 0.13826666666666668,
      "grad_norm": 1.3349426984786987,
      "learning_rate": 0.00017238497443876417,
      "loss": 2.092,
      "step": 6222
    },
    {
      "epoch": 0.13828888888888888,
      "grad_norm": 1.4572248458862305,
      "learning_rate": 0.00017238052900644588,
      "loss": 2.1677,
      "step": 6223
    },
    {
      "epoch": 0.1383111111111111,
      "grad_norm": 1.3298401832580566,
      "learning_rate": 0.0001723760835741276,
      "loss": 1.9582,
      "step": 6224
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 1.4434176683425903,
      "learning_rate": 0.0001723716381418093,
      "loss": 1.9967,
      "step": 6225
    },
    {
      "epoch": 0.13835555555555556,
      "grad_norm": 1.3350802659988403,
      "learning_rate": 0.000172367192709491,
      "loss": 1.8132,
      "step": 6226
    },
    {
      "epoch": 0.13837777777777777,
      "grad_norm": 1.8188179731369019,
      "learning_rate": 0.00017236274727717272,
      "loss": 2.5744,
      "step": 6227
    },
    {
      "epoch": 0.1384,
      "grad_norm": 1.4558366537094116,
      "learning_rate": 0.00017235830184485443,
      "loss": 2.3227,
      "step": 6228
    },
    {
      "epoch": 0.13842222222222222,
      "grad_norm": 1.4522922039031982,
      "learning_rate": 0.0001723538564125361,
      "loss": 2.3079,
      "step": 6229
    },
    {
      "epoch": 0.13844444444444445,
      "grad_norm": 0.9722754955291748,
      "learning_rate": 0.00017234941098021785,
      "loss": 0.956,
      "step": 6230
    },
    {
      "epoch": 0.13846666666666665,
      "grad_norm": 1.3793952465057373,
      "learning_rate": 0.00017234496554789953,
      "loss": 1.4852,
      "step": 6231
    },
    {
      "epoch": 0.13848888888888888,
      "grad_norm": 1.228073239326477,
      "learning_rate": 0.00017234052011558124,
      "loss": 1.6997,
      "step": 6232
    },
    {
      "epoch": 0.1385111111111111,
      "grad_norm": 1.5085586309432983,
      "learning_rate": 0.00017233607468326295,
      "loss": 2.253,
      "step": 6233
    },
    {
      "epoch": 0.13853333333333334,
      "grad_norm": 1.352896809577942,
      "learning_rate": 0.00017233162925094466,
      "loss": 1.475,
      "step": 6234
    },
    {
      "epoch": 0.13855555555555554,
      "grad_norm": 1.7097082138061523,
      "learning_rate": 0.00017232718381862637,
      "loss": 2.2776,
      "step": 6235
    },
    {
      "epoch": 0.13857777777777777,
      "grad_norm": 1.508142113685608,
      "learning_rate": 0.00017232273838630808,
      "loss": 2.0657,
      "step": 6236
    },
    {
      "epoch": 0.1386,
      "grad_norm": 1.606174111366272,
      "learning_rate": 0.0001723182929539898,
      "loss": 2.1959,
      "step": 6237
    },
    {
      "epoch": 0.13862222222222223,
      "grad_norm": 1.4166737794876099,
      "learning_rate": 0.0001723138475216715,
      "loss": 1.6956,
      "step": 6238
    },
    {
      "epoch": 0.13864444444444443,
      "grad_norm": 1.5200018882751465,
      "learning_rate": 0.0001723094020893532,
      "loss": 2.1214,
      "step": 6239
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 1.2464971542358398,
      "learning_rate": 0.0001723049566570349,
      "loss": 1.5666,
      "step": 6240
    },
    {
      "epoch": 0.1386888888888889,
      "grad_norm": 1.7175798416137695,
      "learning_rate": 0.00017230051122471663,
      "loss": 1.5913,
      "step": 6241
    },
    {
      "epoch": 0.13871111111111112,
      "grad_norm": 1.2949937582015991,
      "learning_rate": 0.0001722960657923983,
      "loss": 1.6781,
      "step": 6242
    },
    {
      "epoch": 0.13873333333333332,
      "grad_norm": 1.6890144348144531,
      "learning_rate": 0.00017229162036008002,
      "loss": 2.103,
      "step": 6243
    },
    {
      "epoch": 0.13875555555555555,
      "grad_norm": 1.8007228374481201,
      "learning_rate": 0.00017228717492776173,
      "loss": 1.9006,
      "step": 6244
    },
    {
      "epoch": 0.13877777777777778,
      "grad_norm": 1.416709542274475,
      "learning_rate": 0.00017228272949544344,
      "loss": 1.8212,
      "step": 6245
    },
    {
      "epoch": 0.1388,
      "grad_norm": 1.2916539907455444,
      "learning_rate": 0.00017227828406312515,
      "loss": 1.4333,
      "step": 6246
    },
    {
      "epoch": 0.13882222222222224,
      "grad_norm": 1.4648747444152832,
      "learning_rate": 0.00017227383863080686,
      "loss": 1.7251,
      "step": 6247
    },
    {
      "epoch": 0.13884444444444444,
      "grad_norm": 1.921541452407837,
      "learning_rate": 0.00017226939319848857,
      "loss": 2.2288,
      "step": 6248
    },
    {
      "epoch": 0.13886666666666667,
      "grad_norm": 1.567901372909546,
      "learning_rate": 0.00017226494776617025,
      "loss": 1.955,
      "step": 6249
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 1.2832289934158325,
      "learning_rate": 0.00017226050233385199,
      "loss": 1.4363,
      "step": 6250
    },
    {
      "epoch": 0.13891111111111112,
      "grad_norm": 0.9068308472633362,
      "learning_rate": 0.00017225605690153367,
      "loss": 1.4563,
      "step": 6251
    },
    {
      "epoch": 0.13893333333333333,
      "grad_norm": 1.4190828800201416,
      "learning_rate": 0.00017225161146921538,
      "loss": 2.545,
      "step": 6252
    },
    {
      "epoch": 0.13895555555555555,
      "grad_norm": 1.6786552667617798,
      "learning_rate": 0.0001722471660368971,
      "loss": 0.8796,
      "step": 6253
    },
    {
      "epoch": 0.13897777777777778,
      "grad_norm": 0.8011616468429565,
      "learning_rate": 0.0001722427206045788,
      "loss": 1.0635,
      "step": 6254
    },
    {
      "epoch": 0.139,
      "grad_norm": 1.2863126993179321,
      "learning_rate": 0.00017223827517226053,
      "loss": 2.3548,
      "step": 6255
    },
    {
      "epoch": 0.1390222222222222,
      "grad_norm": 1.3004066944122314,
      "learning_rate": 0.00017223382973994222,
      "loss": 1.9557,
      "step": 6256
    },
    {
      "epoch": 0.13904444444444444,
      "grad_norm": 1.2208961248397827,
      "learning_rate": 0.00017222938430762393,
      "loss": 2.0643,
      "step": 6257
    },
    {
      "epoch": 0.13906666666666667,
      "grad_norm": 1.297334909439087,
      "learning_rate": 0.00017222493887530564,
      "loss": 1.9812,
      "step": 6258
    },
    {
      "epoch": 0.1390888888888889,
      "grad_norm": 1.2425563335418701,
      "learning_rate": 0.00017222049344298735,
      "loss": 2.3546,
      "step": 6259
    },
    {
      "epoch": 0.1391111111111111,
      "grad_norm": 1.222100853919983,
      "learning_rate": 0.00017221604801066903,
      "loss": 1.8895,
      "step": 6260
    },
    {
      "epoch": 0.13913333333333333,
      "grad_norm": 1.3294686079025269,
      "learning_rate": 0.00017221160257835076,
      "loss": 2.0852,
      "step": 6261
    },
    {
      "epoch": 0.13915555555555556,
      "grad_norm": 1.417776346206665,
      "learning_rate": 0.00017220715714603247,
      "loss": 2.3576,
      "step": 6262
    },
    {
      "epoch": 0.1391777777777778,
      "grad_norm": 1.2860459089279175,
      "learning_rate": 0.00017220271171371416,
      "loss": 2.0269,
      "step": 6263
    },
    {
      "epoch": 0.1392,
      "grad_norm": 1.336887240409851,
      "learning_rate": 0.0001721982662813959,
      "loss": 2.1251,
      "step": 6264
    },
    {
      "epoch": 0.13922222222222222,
      "grad_norm": 1.1539074182510376,
      "learning_rate": 0.00017219382084907758,
      "loss": 2.0511,
      "step": 6265
    },
    {
      "epoch": 0.13924444444444445,
      "grad_norm": 1.3618991374969482,
      "learning_rate": 0.00017218937541675929,
      "loss": 1.4931,
      "step": 6266
    },
    {
      "epoch": 0.13926666666666668,
      "grad_norm": 1.358060359954834,
      "learning_rate": 0.000172184929984441,
      "loss": 2.191,
      "step": 6267
    },
    {
      "epoch": 0.13928888888888888,
      "grad_norm": 1.3606977462768555,
      "learning_rate": 0.0001721804845521227,
      "loss": 1.8404,
      "step": 6268
    },
    {
      "epoch": 0.1393111111111111,
      "grad_norm": 1.2377973794937134,
      "learning_rate": 0.0001721760391198044,
      "loss": 1.4331,
      "step": 6269
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 1.2660199403762817,
      "learning_rate": 0.00017217159368748612,
      "loss": 2.1021,
      "step": 6270
    },
    {
      "epoch": 0.13935555555555557,
      "grad_norm": 1.179971694946289,
      "learning_rate": 0.00017216714825516783,
      "loss": 1.702,
      "step": 6271
    },
    {
      "epoch": 0.13937777777777777,
      "grad_norm": 1.1812962293624878,
      "learning_rate": 0.00017216270282284952,
      "loss": 1.7327,
      "step": 6272
    },
    {
      "epoch": 0.1394,
      "grad_norm": 1.3146041631698608,
      "learning_rate": 0.00017215825739053125,
      "loss": 2.2512,
      "step": 6273
    },
    {
      "epoch": 0.13942222222222223,
      "grad_norm": 1.368468165397644,
      "learning_rate": 0.00017215381195821294,
      "loss": 2.0418,
      "step": 6274
    },
    {
      "epoch": 0.13944444444444445,
      "grad_norm": 1.5288372039794922,
      "learning_rate": 0.00017214936652589467,
      "loss": 1.9969,
      "step": 6275
    },
    {
      "epoch": 0.13946666666666666,
      "grad_norm": 1.2897751331329346,
      "learning_rate": 0.00017214492109357635,
      "loss": 2.2496,
      "step": 6276
    },
    {
      "epoch": 0.13948888888888888,
      "grad_norm": 1.382972002029419,
      "learning_rate": 0.00017214047566125806,
      "loss": 2.1998,
      "step": 6277
    },
    {
      "epoch": 0.1395111111111111,
      "grad_norm": 1.3396408557891846,
      "learning_rate": 0.00017213603022893977,
      "loss": 1.9427,
      "step": 6278
    },
    {
      "epoch": 0.13953333333333334,
      "grad_norm": 1.4813123941421509,
      "learning_rate": 0.00017213158479662148,
      "loss": 2.3234,
      "step": 6279
    },
    {
      "epoch": 0.13955555555555554,
      "grad_norm": 1.33100163936615,
      "learning_rate": 0.0001721271393643032,
      "loss": 1.7539,
      "step": 6280
    },
    {
      "epoch": 0.13957777777777777,
      "grad_norm": 1.6085807085037231,
      "learning_rate": 0.0001721226939319849,
      "loss": 1.0015,
      "step": 6281
    },
    {
      "epoch": 0.1396,
      "grad_norm": 1.0203481912612915,
      "learning_rate": 0.0001721182484996666,
      "loss": 1.032,
      "step": 6282
    },
    {
      "epoch": 0.13962222222222223,
      "grad_norm": 1.1552417278289795,
      "learning_rate": 0.0001721138030673483,
      "loss": 1.7869,
      "step": 6283
    },
    {
      "epoch": 0.13964444444444443,
      "grad_norm": 1.3363745212554932,
      "learning_rate": 0.00017210935763503003,
      "loss": 1.8075,
      "step": 6284
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 1.4158891439437866,
      "learning_rate": 0.00017210491220271171,
      "loss": 2.0069,
      "step": 6285
    },
    {
      "epoch": 0.1396888888888889,
      "grad_norm": 1.2783228158950806,
      "learning_rate": 0.00017210046677039342,
      "loss": 2.1174,
      "step": 6286
    },
    {
      "epoch": 0.13971111111111112,
      "grad_norm": 1.3518686294555664,
      "learning_rate": 0.00017209602133807513,
      "loss": 2.0011,
      "step": 6287
    },
    {
      "epoch": 0.13973333333333332,
      "grad_norm": 1.2606843709945679,
      "learning_rate": 0.00017209157590575684,
      "loss": 0.8517,
      "step": 6288
    },
    {
      "epoch": 0.13975555555555555,
      "grad_norm": 1.6720058917999268,
      "learning_rate": 0.00017208713047343855,
      "loss": 1.964,
      "step": 6289
    },
    {
      "epoch": 0.13977777777777778,
      "grad_norm": 1.5297801494598389,
      "learning_rate": 0.00017208268504112026,
      "loss": 2.1601,
      "step": 6290
    },
    {
      "epoch": 0.1398,
      "grad_norm": 2.5300819873809814,
      "learning_rate": 0.00017207823960880197,
      "loss": 2.2646,
      "step": 6291
    },
    {
      "epoch": 0.1398222222222222,
      "grad_norm": 1.5818508863449097,
      "learning_rate": 0.00017207379417648365,
      "loss": 2.1319,
      "step": 6292
    },
    {
      "epoch": 0.13984444444444444,
      "grad_norm": 1.517150640487671,
      "learning_rate": 0.0001720693487441654,
      "loss": 1.9332,
      "step": 6293
    },
    {
      "epoch": 0.13986666666666667,
      "grad_norm": 1.674838900566101,
      "learning_rate": 0.00017206490331184707,
      "loss": 2.2409,
      "step": 6294
    },
    {
      "epoch": 0.1398888888888889,
      "grad_norm": 1.5698024034500122,
      "learning_rate": 0.0001720604578795288,
      "loss": 1.8201,
      "step": 6295
    },
    {
      "epoch": 0.13991111111111112,
      "grad_norm": 1.5731778144836426,
      "learning_rate": 0.0001720560124472105,
      "loss": 1.6387,
      "step": 6296
    },
    {
      "epoch": 0.13993333333333333,
      "grad_norm": 1.7627016305923462,
      "learning_rate": 0.0001720515670148922,
      "loss": 2.0457,
      "step": 6297
    },
    {
      "epoch": 0.13995555555555556,
      "grad_norm": 1.2118239402770996,
      "learning_rate": 0.0001720471215825739,
      "loss": 1.3509,
      "step": 6298
    },
    {
      "epoch": 0.13997777777777778,
      "grad_norm": 1.49949049949646,
      "learning_rate": 0.00017204267615025562,
      "loss": 2.0413,
      "step": 6299
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.636894941329956,
      "learning_rate": 0.00017203823071793733,
      "loss": 1.606,
      "step": 6300
    },
    {
      "epoch": 0.14002222222222221,
      "grad_norm": 1.4345746040344238,
      "learning_rate": 0.00017203378528561904,
      "loss": 3.0027,
      "step": 6301
    },
    {
      "epoch": 0.14004444444444444,
      "grad_norm": 1.3508832454681396,
      "learning_rate": 0.00017202933985330075,
      "loss": 2.217,
      "step": 6302
    },
    {
      "epoch": 0.14006666666666667,
      "grad_norm": 1.233397364616394,
      "learning_rate": 0.00017202489442098243,
      "loss": 2.4328,
      "step": 6303
    },
    {
      "epoch": 0.1400888888888889,
      "grad_norm": 1.3113088607788086,
      "learning_rate": 0.00017202044898866417,
      "loss": 2.3842,
      "step": 6304
    },
    {
      "epoch": 0.1401111111111111,
      "grad_norm": 1.3453176021575928,
      "learning_rate": 0.00017201600355634585,
      "loss": 2.2902,
      "step": 6305
    },
    {
      "epoch": 0.14013333333333333,
      "grad_norm": 1.3119596242904663,
      "learning_rate": 0.00017201155812402756,
      "loss": 2.5902,
      "step": 6306
    },
    {
      "epoch": 0.14015555555555556,
      "grad_norm": 0.9943264722824097,
      "learning_rate": 0.00017200711269170927,
      "loss": 1.0739,
      "step": 6307
    },
    {
      "epoch": 0.1401777777777778,
      "grad_norm": 0.8957837820053101,
      "learning_rate": 0.00017200266725939098,
      "loss": 1.3433,
      "step": 6308
    },
    {
      "epoch": 0.1402,
      "grad_norm": 1.152598261833191,
      "learning_rate": 0.0001719982218270727,
      "loss": 1.8956,
      "step": 6309
    },
    {
      "epoch": 0.14022222222222222,
      "grad_norm": 1.6216270923614502,
      "learning_rate": 0.0001719937763947544,
      "loss": 2.3584,
      "step": 6310
    },
    {
      "epoch": 0.14024444444444445,
      "grad_norm": 1.4978652000427246,
      "learning_rate": 0.0001719893309624361,
      "loss": 2.2605,
      "step": 6311
    },
    {
      "epoch": 0.14026666666666668,
      "grad_norm": 1.3223735094070435,
      "learning_rate": 0.00017198488553011782,
      "loss": 2.2952,
      "step": 6312
    },
    {
      "epoch": 0.14028888888888888,
      "grad_norm": 1.4719687700271606,
      "learning_rate": 0.00017198044009779953,
      "loss": 2.2921,
      "step": 6313
    },
    {
      "epoch": 0.1403111111111111,
      "grad_norm": 1.6443774700164795,
      "learning_rate": 0.0001719759946654812,
      "loss": 2.1626,
      "step": 6314
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 1.492553949356079,
      "learning_rate": 0.00017197154923316295,
      "loss": 2.5808,
      "step": 6315
    },
    {
      "epoch": 0.14035555555555557,
      "grad_norm": 1.2990572452545166,
      "learning_rate": 0.00017196710380084463,
      "loss": 1.9349,
      "step": 6316
    },
    {
      "epoch": 0.14037777777777777,
      "grad_norm": 1.5642223358154297,
      "learning_rate": 0.00017196265836852634,
      "loss": 2.6503,
      "step": 6317
    },
    {
      "epoch": 0.1404,
      "grad_norm": 1.372537612915039,
      "learning_rate": 0.00017195821293620805,
      "loss": 2.0972,
      "step": 6318
    },
    {
      "epoch": 0.14042222222222223,
      "grad_norm": 1.262314796447754,
      "learning_rate": 0.00017195376750388976,
      "loss": 1.0672,
      "step": 6319
    },
    {
      "epoch": 0.14044444444444446,
      "grad_norm": 1.5807808637619019,
      "learning_rate": 0.00017194932207157147,
      "loss": 2.1407,
      "step": 6320
    },
    {
      "epoch": 0.14046666666666666,
      "grad_norm": 1.294112205505371,
      "learning_rate": 0.00017194487663925318,
      "loss": 1.9265,
      "step": 6321
    },
    {
      "epoch": 0.14048888888888889,
      "grad_norm": 1.8711540699005127,
      "learning_rate": 0.0001719404312069349,
      "loss": 2.085,
      "step": 6322
    },
    {
      "epoch": 0.14051111111111111,
      "grad_norm": 1.3451906442642212,
      "learning_rate": 0.00017193598577461657,
      "loss": 2.024,
      "step": 6323
    },
    {
      "epoch": 0.14053333333333334,
      "grad_norm": 1.730846881866455,
      "learning_rate": 0.0001719315403422983,
      "loss": 2.7213,
      "step": 6324
    },
    {
      "epoch": 0.14055555555555554,
      "grad_norm": 2.0842294692993164,
      "learning_rate": 0.00017192709490998,
      "loss": 2.0371,
      "step": 6325
    },
    {
      "epoch": 0.14057777777777777,
      "grad_norm": 1.5009407997131348,
      "learning_rate": 0.0001719226494776617,
      "loss": 2.4125,
      "step": 6326
    },
    {
      "epoch": 0.1406,
      "grad_norm": 1.236298680305481,
      "learning_rate": 0.0001719182040453434,
      "loss": 1.7034,
      "step": 6327
    },
    {
      "epoch": 0.14062222222222223,
      "grad_norm": 1.582383155822754,
      "learning_rate": 0.00017191375861302512,
      "loss": 2.3239,
      "step": 6328
    },
    {
      "epoch": 0.14064444444444443,
      "grad_norm": 1.4326595067977905,
      "learning_rate": 0.00017190931318070683,
      "loss": 2.0626,
      "step": 6329
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 1.5973889827728271,
      "learning_rate": 0.00017190486774838854,
      "loss": 1.9656,
      "step": 6330
    },
    {
      "epoch": 0.1406888888888889,
      "grad_norm": 1.3664498329162598,
      "learning_rate": 0.00017190042231607025,
      "loss": 2.1834,
      "step": 6331
    },
    {
      "epoch": 0.14071111111111112,
      "grad_norm": 1.5705684423446655,
      "learning_rate": 0.00017189597688375196,
      "loss": 2.0885,
      "step": 6332
    },
    {
      "epoch": 0.14073333333333332,
      "grad_norm": 1.1028826236724854,
      "learning_rate": 0.00017189153145143367,
      "loss": 1.0129,
      "step": 6333
    },
    {
      "epoch": 0.14075555555555555,
      "grad_norm": 1.4278831481933594,
      "learning_rate": 0.00017188708601911535,
      "loss": 2.4138,
      "step": 6334
    },
    {
      "epoch": 0.14077777777777778,
      "grad_norm": 1.4882386922836304,
      "learning_rate": 0.00017188264058679709,
      "loss": 2.0194,
      "step": 6335
    },
    {
      "epoch": 0.1408,
      "grad_norm": 1.3816194534301758,
      "learning_rate": 0.0001718781951544788,
      "loss": 1.8995,
      "step": 6336
    },
    {
      "epoch": 0.1408222222222222,
      "grad_norm": 1.4510467052459717,
      "learning_rate": 0.00017187374972216048,
      "loss": 1.9454,
      "step": 6337
    },
    {
      "epoch": 0.14084444444444444,
      "grad_norm": 1.3371890783309937,
      "learning_rate": 0.00017186930428984222,
      "loss": 1.839,
      "step": 6338
    },
    {
      "epoch": 0.14086666666666667,
      "grad_norm": 1.5163404941558838,
      "learning_rate": 0.0001718648588575239,
      "loss": 2.0713,
      "step": 6339
    },
    {
      "epoch": 0.1408888888888889,
      "grad_norm": 1.6216706037521362,
      "learning_rate": 0.0001718604134252056,
      "loss": 1.6155,
      "step": 6340
    },
    {
      "epoch": 0.1409111111111111,
      "grad_norm": 1.3443362712860107,
      "learning_rate": 0.00017185596799288732,
      "loss": 1.5052,
      "step": 6341
    },
    {
      "epoch": 0.14093333333333333,
      "grad_norm": 1.209653377532959,
      "learning_rate": 0.00017185152256056903,
      "loss": 1.456,
      "step": 6342
    },
    {
      "epoch": 0.14095555555555556,
      "grad_norm": 1.6321805715560913,
      "learning_rate": 0.0001718470771282507,
      "loss": 1.6536,
      "step": 6343
    },
    {
      "epoch": 0.14097777777777779,
      "grad_norm": 1.3959439992904663,
      "learning_rate": 0.00017184263169593245,
      "loss": 1.8297,
      "step": 6344
    },
    {
      "epoch": 0.141,
      "grad_norm": 1.8678394556045532,
      "learning_rate": 0.00017183818626361416,
      "loss": 1.8467,
      "step": 6345
    },
    {
      "epoch": 0.14102222222222222,
      "grad_norm": 1.5214052200317383,
      "learning_rate": 0.00017183374083129584,
      "loss": 1.7534,
      "step": 6346
    },
    {
      "epoch": 0.14104444444444444,
      "grad_norm": 1.6416958570480347,
      "learning_rate": 0.00017182929539897757,
      "loss": 2.0977,
      "step": 6347
    },
    {
      "epoch": 0.14106666666666667,
      "grad_norm": 1.0590013265609741,
      "learning_rate": 0.00017182484996665926,
      "loss": 1.0397,
      "step": 6348
    },
    {
      "epoch": 0.1410888888888889,
      "grad_norm": 1.7508652210235596,
      "learning_rate": 0.00017182040453434097,
      "loss": 1.9135,
      "step": 6349
    },
    {
      "epoch": 0.1411111111111111,
      "grad_norm": 1.5858982801437378,
      "learning_rate": 0.00017181595910202268,
      "loss": 1.7514,
      "step": 6350
    },
    {
      "epoch": 0.14113333333333333,
      "grad_norm": 1.1860896348953247,
      "learning_rate": 0.00017181151366970439,
      "loss": 2.5182,
      "step": 6351
    },
    {
      "epoch": 0.14115555555555556,
      "grad_norm": 1.0585676431655884,
      "learning_rate": 0.0001718070682373861,
      "loss": 1.4152,
      "step": 6352
    },
    {
      "epoch": 0.1411777777777778,
      "grad_norm": 1.196221113204956,
      "learning_rate": 0.0001718026228050678,
      "loss": 2.4741,
      "step": 6353
    },
    {
      "epoch": 0.1412,
      "grad_norm": 1.4940119981765747,
      "learning_rate": 0.00017179817737274951,
      "loss": 2.5724,
      "step": 6354
    },
    {
      "epoch": 0.14122222222222222,
      "grad_norm": 1.2255417108535767,
      "learning_rate": 0.00017179373194043122,
      "loss": 2.2999,
      "step": 6355
    },
    {
      "epoch": 0.14124444444444445,
      "grad_norm": 1.1797388792037964,
      "learning_rate": 0.00017178928650811293,
      "loss": 2.4888,
      "step": 6356
    },
    {
      "epoch": 0.14126666666666668,
      "grad_norm": 1.392138957977295,
      "learning_rate": 0.00017178484107579462,
      "loss": 2.3966,
      "step": 6357
    },
    {
      "epoch": 0.14128888888888888,
      "grad_norm": 1.380902886390686,
      "learning_rate": 0.00017178039564347635,
      "loss": 2.2552,
      "step": 6358
    },
    {
      "epoch": 0.1413111111111111,
      "grad_norm": 1.2824431657791138,
      "learning_rate": 0.00017177595021115804,
      "loss": 2.0238,
      "step": 6359
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 1.2834157943725586,
      "learning_rate": 0.00017177150477883975,
      "loss": 2.5145,
      "step": 6360
    },
    {
      "epoch": 0.14135555555555557,
      "grad_norm": 1.3652353286743164,
      "learning_rate": 0.00017176705934652146,
      "loss": 2.7118,
      "step": 6361
    },
    {
      "epoch": 0.14137777777777777,
      "grad_norm": 1.142411708831787,
      "learning_rate": 0.00017176261391420316,
      "loss": 2.2678,
      "step": 6362
    },
    {
      "epoch": 0.1414,
      "grad_norm": 0.4134311079978943,
      "learning_rate": 0.00017175816848188487,
      "loss": 0.0218,
      "step": 6363
    },
    {
      "epoch": 0.14142222222222223,
      "grad_norm": 1.1162919998168945,
      "learning_rate": 0.00017175372304956658,
      "loss": 2.0646,
      "step": 6364
    },
    {
      "epoch": 0.14144444444444446,
      "grad_norm": 1.1634480953216553,
      "learning_rate": 0.0001717492776172483,
      "loss": 2.0251,
      "step": 6365
    },
    {
      "epoch": 0.14146666666666666,
      "grad_norm": 1.4055490493774414,
      "learning_rate": 0.00017174483218492998,
      "loss": 2.2639,
      "step": 6366
    },
    {
      "epoch": 0.1414888888888889,
      "grad_norm": 1.5048850774765015,
      "learning_rate": 0.0001717403867526117,
      "loss": 2.2682,
      "step": 6367
    },
    {
      "epoch": 0.14151111111111112,
      "grad_norm": 1.3866077661514282,
      "learning_rate": 0.0001717359413202934,
      "loss": 2.2656,
      "step": 6368
    },
    {
      "epoch": 0.14153333333333334,
      "grad_norm": 1.2333159446716309,
      "learning_rate": 0.00017173149588797513,
      "loss": 0.9032,
      "step": 6369
    },
    {
      "epoch": 0.14155555555555555,
      "grad_norm": 1.599289059638977,
      "learning_rate": 0.00017172705045565681,
      "loss": 1.9354,
      "step": 6370
    },
    {
      "epoch": 0.14157777777777777,
      "grad_norm": 1.1438753604888916,
      "learning_rate": 0.00017172260502333852,
      "loss": 1.6136,
      "step": 6371
    },
    {
      "epoch": 0.1416,
      "grad_norm": 1.4577842950820923,
      "learning_rate": 0.00017171815959102023,
      "loss": 2.0385,
      "step": 6372
    },
    {
      "epoch": 0.14162222222222223,
      "grad_norm": 1.265341877937317,
      "learning_rate": 0.00017171371415870194,
      "loss": 1.7094,
      "step": 6373
    },
    {
      "epoch": 0.14164444444444443,
      "grad_norm": 1.458952784538269,
      "learning_rate": 0.00017170926872638365,
      "loss": 2.3241,
      "step": 6374
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 1.5001044273376465,
      "learning_rate": 0.00017170482329406536,
      "loss": 2.1819,
      "step": 6375
    },
    {
      "epoch": 0.1416888888888889,
      "grad_norm": 1.4157963991165161,
      "learning_rate": 0.00017170037786174707,
      "loss": 1.7483,
      "step": 6376
    },
    {
      "epoch": 0.14171111111111112,
      "grad_norm": 1.38914155960083,
      "learning_rate": 0.00017169593242942875,
      "loss": 1.4989,
      "step": 6377
    },
    {
      "epoch": 0.14173333333333332,
      "grad_norm": 1.2987775802612305,
      "learning_rate": 0.0001716914869971105,
      "loss": 1.449,
      "step": 6378
    },
    {
      "epoch": 0.14175555555555555,
      "grad_norm": 1.42268705368042,
      "learning_rate": 0.00017168704156479217,
      "loss": 1.7884,
      "step": 6379
    },
    {
      "epoch": 0.14177777777777778,
      "grad_norm": 1.8608249425888062,
      "learning_rate": 0.00017168259613247388,
      "loss": 1.2325,
      "step": 6380
    },
    {
      "epoch": 0.1418,
      "grad_norm": 1.28651762008667,
      "learning_rate": 0.0001716781507001556,
      "loss": 1.7985,
      "step": 6381
    },
    {
      "epoch": 0.1418222222222222,
      "grad_norm": 1.6009470224380493,
      "learning_rate": 0.0001716737052678373,
      "loss": 2.2556,
      "step": 6382
    },
    {
      "epoch": 0.14184444444444444,
      "grad_norm": 1.6749303340911865,
      "learning_rate": 0.000171669259835519,
      "loss": 1.9638,
      "step": 6383
    },
    {
      "epoch": 0.14186666666666667,
      "grad_norm": 1.3620963096618652,
      "learning_rate": 0.00017166481440320072,
      "loss": 1.5384,
      "step": 6384
    },
    {
      "epoch": 0.1418888888888889,
      "grad_norm": 1.1588212251663208,
      "learning_rate": 0.00017166036897088243,
      "loss": 1.7373,
      "step": 6385
    },
    {
      "epoch": 0.1419111111111111,
      "grad_norm": 1.3959845304489136,
      "learning_rate": 0.00017165592353856411,
      "loss": 1.7694,
      "step": 6386
    },
    {
      "epoch": 0.14193333333333333,
      "grad_norm": 1.423761010169983,
      "learning_rate": 0.00017165147810624585,
      "loss": 1.9679,
      "step": 6387
    },
    {
      "epoch": 0.14195555555555556,
      "grad_norm": 1.6713687181472778,
      "learning_rate": 0.00017164703267392753,
      "loss": 2.3001,
      "step": 6388
    },
    {
      "epoch": 0.14197777777777779,
      "grad_norm": 1.5711969137191772,
      "learning_rate": 0.00017164258724160927,
      "loss": 1.9727,
      "step": 6389
    },
    {
      "epoch": 0.142,
      "grad_norm": 1.6032333374023438,
      "learning_rate": 0.00017163814180929095,
      "loss": 1.6679,
      "step": 6390
    },
    {
      "epoch": 0.14202222222222222,
      "grad_norm": 1.4597996473312378,
      "learning_rate": 0.00017163369637697266,
      "loss": 2.1256,
      "step": 6391
    },
    {
      "epoch": 0.14204444444444445,
      "grad_norm": 1.6789052486419678,
      "learning_rate": 0.00017162925094465437,
      "loss": 2.1783,
      "step": 6392
    },
    {
      "epoch": 0.14206666666666667,
      "grad_norm": 1.4368501901626587,
      "learning_rate": 0.00017162480551233608,
      "loss": 1.7681,
      "step": 6393
    },
    {
      "epoch": 0.14208888888888888,
      "grad_norm": 1.37461256980896,
      "learning_rate": 0.0001716203600800178,
      "loss": 2.0055,
      "step": 6394
    },
    {
      "epoch": 0.1421111111111111,
      "grad_norm": 1.4783525466918945,
      "learning_rate": 0.0001716159146476995,
      "loss": 1.8339,
      "step": 6395
    },
    {
      "epoch": 0.14213333333333333,
      "grad_norm": 1.363395094871521,
      "learning_rate": 0.0001716114692153812,
      "loss": 1.861,
      "step": 6396
    },
    {
      "epoch": 0.14215555555555556,
      "grad_norm": 1.83102285861969,
      "learning_rate": 0.0001716070237830629,
      "loss": 2.3166,
      "step": 6397
    },
    {
      "epoch": 0.14217777777777776,
      "grad_norm": 1.4391119480133057,
      "learning_rate": 0.00017160257835074463,
      "loss": 1.8334,
      "step": 6398
    },
    {
      "epoch": 0.1422,
      "grad_norm": 1.8057390451431274,
      "learning_rate": 0.0001715981329184263,
      "loss": 2.2001,
      "step": 6399
    },
    {
      "epoch": 0.14222222222222222,
      "grad_norm": 1.3032159805297852,
      "learning_rate": 0.00017159368748610802,
      "loss": 1.5563,
      "step": 6400
    },
    {
      "epoch": 0.14224444444444445,
      "grad_norm": 1.308532953262329,
      "learning_rate": 0.00017158924205378973,
      "loss": 2.5995,
      "step": 6401
    },
    {
      "epoch": 0.14226666666666668,
      "grad_norm": 0.955657958984375,
      "learning_rate": 0.00017158479662147144,
      "loss": 2.1358,
      "step": 6402
    },
    {
      "epoch": 0.14228888888888888,
      "grad_norm": 1.0376174449920654,
      "learning_rate": 0.00017158035118915315,
      "loss": 2.3081,
      "step": 6403
    },
    {
      "epoch": 0.1423111111111111,
      "grad_norm": 1.291641354560852,
      "learning_rate": 0.00017157590575683486,
      "loss": 2.691,
      "step": 6404
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 1.1856223344802856,
      "learning_rate": 0.00017157146032451657,
      "loss": 2.4328,
      "step": 6405
    },
    {
      "epoch": 0.14235555555555557,
      "grad_norm": 1.3023476600646973,
      "learning_rate": 0.00017156701489219825,
      "loss": 2.176,
      "step": 6406
    },
    {
      "epoch": 0.14237777777777777,
      "grad_norm": 1.178720474243164,
      "learning_rate": 0.00017156256945988,
      "loss": 2.3879,
      "step": 6407
    },
    {
      "epoch": 0.1424,
      "grad_norm": 0.9049201011657715,
      "learning_rate": 0.00017155812402756167,
      "loss": 0.8481,
      "step": 6408
    },
    {
      "epoch": 0.14242222222222223,
      "grad_norm": 1.4784457683563232,
      "learning_rate": 0.0001715536785952434,
      "loss": 1.6326,
      "step": 6409
    },
    {
      "epoch": 0.14244444444444446,
      "grad_norm": 1.360579252243042,
      "learning_rate": 0.00017154923316292512,
      "loss": 2.3376,
      "step": 6410
    },
    {
      "epoch": 0.14246666666666666,
      "grad_norm": 1.3992152214050293,
      "learning_rate": 0.0001715447877306068,
      "loss": 1.7777,
      "step": 6411
    },
    {
      "epoch": 0.1424888888888889,
      "grad_norm": 1.5168521404266357,
      "learning_rate": 0.00017154034229828854,
      "loss": 1.695,
      "step": 6412
    },
    {
      "epoch": 0.14251111111111112,
      "grad_norm": 1.3958462476730347,
      "learning_rate": 0.00017153589686597022,
      "loss": 2.0866,
      "step": 6413
    },
    {
      "epoch": 0.14253333333333335,
      "grad_norm": 1.5664721727371216,
      "learning_rate": 0.00017153145143365193,
      "loss": 2.1305,
      "step": 6414
    },
    {
      "epoch": 0.14255555555555555,
      "grad_norm": 1.1385037899017334,
      "learning_rate": 0.00017152700600133364,
      "loss": 1.9942,
      "step": 6415
    },
    {
      "epoch": 0.14257777777777778,
      "grad_norm": 1.175958514213562,
      "learning_rate": 0.00017152256056901535,
      "loss": 1.0988,
      "step": 6416
    },
    {
      "epoch": 0.1426,
      "grad_norm": 1.3036803007125854,
      "learning_rate": 0.00017151811513669703,
      "loss": 2.1048,
      "step": 6417
    },
    {
      "epoch": 0.14262222222222223,
      "grad_norm": 1.1859546899795532,
      "learning_rate": 0.00017151366970437877,
      "loss": 1.9299,
      "step": 6418
    },
    {
      "epoch": 0.14264444444444443,
      "grad_norm": 1.3251312971115112,
      "learning_rate": 0.00017150922427206048,
      "loss": 1.7449,
      "step": 6419
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 1.293270468711853,
      "learning_rate": 0.00017150477883974216,
      "loss": 2.1634,
      "step": 6420
    },
    {
      "epoch": 0.1426888888888889,
      "grad_norm": 1.422785758972168,
      "learning_rate": 0.0001715003334074239,
      "loss": 2.0117,
      "step": 6421
    },
    {
      "epoch": 0.14271111111111112,
      "grad_norm": 1.3726825714111328,
      "learning_rate": 0.00017149588797510558,
      "loss": 1.74,
      "step": 6422
    },
    {
      "epoch": 0.14273333333333332,
      "grad_norm": 1.5476785898208618,
      "learning_rate": 0.0001714914425427873,
      "loss": 1.9002,
      "step": 6423
    },
    {
      "epoch": 0.14275555555555555,
      "grad_norm": 1.584140658378601,
      "learning_rate": 0.000171486997110469,
      "loss": 2.1941,
      "step": 6424
    },
    {
      "epoch": 0.14277777777777778,
      "grad_norm": 1.6741814613342285,
      "learning_rate": 0.0001714825516781507,
      "loss": 2.0785,
      "step": 6425
    },
    {
      "epoch": 0.1428,
      "grad_norm": 1.4078946113586426,
      "learning_rate": 0.00017147810624583242,
      "loss": 2.1914,
      "step": 6426
    },
    {
      "epoch": 0.1428222222222222,
      "grad_norm": 1.4642229080200195,
      "learning_rate": 0.00017147366081351413,
      "loss": 1.9687,
      "step": 6427
    },
    {
      "epoch": 0.14284444444444444,
      "grad_norm": 1.232739806175232,
      "learning_rate": 0.00017146921538119584,
      "loss": 1.605,
      "step": 6428
    },
    {
      "epoch": 0.14286666666666667,
      "grad_norm": 1.5493800640106201,
      "learning_rate": 0.00017146476994887755,
      "loss": 2.1871,
      "step": 6429
    },
    {
      "epoch": 0.1428888888888889,
      "grad_norm": 1.1256365776062012,
      "learning_rate": 0.00017146032451655926,
      "loss": 0.7656,
      "step": 6430
    },
    {
      "epoch": 0.1429111111111111,
      "grad_norm": 1.6439855098724365,
      "learning_rate": 0.00017145587908424094,
      "loss": 2.1797,
      "step": 6431
    },
    {
      "epoch": 0.14293333333333333,
      "grad_norm": 1.2901256084442139,
      "learning_rate": 0.00017145143365192268,
      "loss": 1.7439,
      "step": 6432
    },
    {
      "epoch": 0.14295555555555556,
      "grad_norm": 2.0549938678741455,
      "learning_rate": 0.00017144698821960436,
      "loss": 2.1436,
      "step": 6433
    },
    {
      "epoch": 0.1429777777777778,
      "grad_norm": 1.3508315086364746,
      "learning_rate": 0.00017144254278728607,
      "loss": 1.9328,
      "step": 6434
    },
    {
      "epoch": 0.143,
      "grad_norm": 1.505046010017395,
      "learning_rate": 0.00017143809735496778,
      "loss": 2.1839,
      "step": 6435
    },
    {
      "epoch": 0.14302222222222222,
      "grad_norm": 1.455722689628601,
      "learning_rate": 0.0001714336519226495,
      "loss": 2.0466,
      "step": 6436
    },
    {
      "epoch": 0.14304444444444445,
      "grad_norm": 1.5254878997802734,
      "learning_rate": 0.0001714292064903312,
      "loss": 1.9829,
      "step": 6437
    },
    {
      "epoch": 0.14306666666666668,
      "grad_norm": 1.3741180896759033,
      "learning_rate": 0.0001714247610580129,
      "loss": 1.4484,
      "step": 6438
    },
    {
      "epoch": 0.14308888888888888,
      "grad_norm": 1.474798321723938,
      "learning_rate": 0.00017142031562569462,
      "loss": 1.7298,
      "step": 6439
    },
    {
      "epoch": 0.1431111111111111,
      "grad_norm": 1.5183626413345337,
      "learning_rate": 0.0001714158701933763,
      "loss": 1.7976,
      "step": 6440
    },
    {
      "epoch": 0.14313333333333333,
      "grad_norm": 1.3570499420166016,
      "learning_rate": 0.00017141142476105803,
      "loss": 1.5349,
      "step": 6441
    },
    {
      "epoch": 0.14315555555555556,
      "grad_norm": 1.3697468042373657,
      "learning_rate": 0.00017140697932873972,
      "loss": 1.6776,
      "step": 6442
    },
    {
      "epoch": 0.14317777777777776,
      "grad_norm": 1.665611982345581,
      "learning_rate": 0.00017140253389642143,
      "loss": 2.1204,
      "step": 6443
    },
    {
      "epoch": 0.1432,
      "grad_norm": 1.8595855236053467,
      "learning_rate": 0.00017139808846410314,
      "loss": 1.9114,
      "step": 6444
    },
    {
      "epoch": 0.14322222222222222,
      "grad_norm": 1.5170398950576782,
      "learning_rate": 0.00017139364303178485,
      "loss": 1.6634,
      "step": 6445
    },
    {
      "epoch": 0.14324444444444445,
      "grad_norm": 1.435350775718689,
      "learning_rate": 0.00017138919759946656,
      "loss": 1.9287,
      "step": 6446
    },
    {
      "epoch": 0.14326666666666665,
      "grad_norm": 1.367702841758728,
      "learning_rate": 0.00017138475216714827,
      "loss": 1.6319,
      "step": 6447
    },
    {
      "epoch": 0.14328888888888888,
      "grad_norm": 1.7461832761764526,
      "learning_rate": 0.00017138030673482998,
      "loss": 1.8804,
      "step": 6448
    },
    {
      "epoch": 0.1433111111111111,
      "grad_norm": 1.7319310903549194,
      "learning_rate": 0.00017137586130251168,
      "loss": 1.8126,
      "step": 6449
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 1.6491307020187378,
      "learning_rate": 0.0001713714158701934,
      "loss": 1.7689,
      "step": 6450
    },
    {
      "epoch": 0.14335555555555557,
      "grad_norm": 1.2975939512252808,
      "learning_rate": 0.00017136697043787508,
      "loss": 2.6729,
      "step": 6451
    },
    {
      "epoch": 0.14337777777777777,
      "grad_norm": 1.0719304084777832,
      "learning_rate": 0.00017136252500555681,
      "loss": 2.436,
      "step": 6452
    },
    {
      "epoch": 0.1434,
      "grad_norm": 1.2489172220230103,
      "learning_rate": 0.0001713580795732385,
      "loss": 1.2783,
      "step": 6453
    },
    {
      "epoch": 0.14342222222222223,
      "grad_norm": 1.9127284288406372,
      "learning_rate": 0.0001713536341409202,
      "loss": 1.1594,
      "step": 6454
    },
    {
      "epoch": 0.14344444444444446,
      "grad_norm": 1.2442072629928589,
      "learning_rate": 0.00017134918870860192,
      "loss": 2.7141,
      "step": 6455
    },
    {
      "epoch": 0.14346666666666666,
      "grad_norm": 1.3302963972091675,
      "learning_rate": 0.00017134474327628362,
      "loss": 2.1758,
      "step": 6456
    },
    {
      "epoch": 0.1434888888888889,
      "grad_norm": 1.5176328420639038,
      "learning_rate": 0.00017134029784396533,
      "loss": 1.8722,
      "step": 6457
    },
    {
      "epoch": 0.14351111111111112,
      "grad_norm": 1.4547690153121948,
      "learning_rate": 0.00017133585241164704,
      "loss": 2.4275,
      "step": 6458
    },
    {
      "epoch": 0.14353333333333335,
      "grad_norm": 1.092998743057251,
      "learning_rate": 0.00017133140697932875,
      "loss": 1.45,
      "step": 6459
    },
    {
      "epoch": 0.14355555555555555,
      "grad_norm": 1.5628018379211426,
      "learning_rate": 0.00017132696154701044,
      "loss": 2.324,
      "step": 6460
    },
    {
      "epoch": 0.14357777777777778,
      "grad_norm": 1.4498285055160522,
      "learning_rate": 0.00017132251611469217,
      "loss": 2.4793,
      "step": 6461
    },
    {
      "epoch": 0.1436,
      "grad_norm": 1.3251694440841675,
      "learning_rate": 0.00017131807068237386,
      "loss": 1.7257,
      "step": 6462
    },
    {
      "epoch": 0.14362222222222223,
      "grad_norm": 1.2513221502304077,
      "learning_rate": 0.0001713136252500556,
      "loss": 1.8578,
      "step": 6463
    },
    {
      "epoch": 0.14364444444444444,
      "grad_norm": 1.3229801654815674,
      "learning_rate": 0.00017130917981773727,
      "loss": 1.9282,
      "step": 6464
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 1.3557308912277222,
      "learning_rate": 0.00017130473438541898,
      "loss": 2.1622,
      "step": 6465
    },
    {
      "epoch": 0.1436888888888889,
      "grad_norm": 1.322674036026001,
      "learning_rate": 0.0001713002889531007,
      "loss": 2.075,
      "step": 6466
    },
    {
      "epoch": 0.14371111111111112,
      "grad_norm": 1.4732072353363037,
      "learning_rate": 0.0001712958435207824,
      "loss": 2.5964,
      "step": 6467
    },
    {
      "epoch": 0.14373333333333332,
      "grad_norm": 1.2716755867004395,
      "learning_rate": 0.0001712913980884641,
      "loss": 1.7887,
      "step": 6468
    },
    {
      "epoch": 0.14375555555555555,
      "grad_norm": 1.3196855783462524,
      "learning_rate": 0.00017128695265614582,
      "loss": 2.072,
      "step": 6469
    },
    {
      "epoch": 0.14377777777777778,
      "grad_norm": 1.2494111061096191,
      "learning_rate": 0.00017128250722382753,
      "loss": 2.1574,
      "step": 6470
    },
    {
      "epoch": 0.1438,
      "grad_norm": 1.0528645515441895,
      "learning_rate": 0.00017127806179150922,
      "loss": 1.2438,
      "step": 6471
    },
    {
      "epoch": 0.1438222222222222,
      "grad_norm": 1.4365743398666382,
      "learning_rate": 0.00017127361635919095,
      "loss": 2.1682,
      "step": 6472
    },
    {
      "epoch": 0.14384444444444444,
      "grad_norm": 1.3086607456207275,
      "learning_rate": 0.00017126917092687263,
      "loss": 0.5451,
      "step": 6473
    },
    {
      "epoch": 0.14386666666666667,
      "grad_norm": 1.4389568567276,
      "learning_rate": 0.00017126472549455434,
      "loss": 2.0282,
      "step": 6474
    },
    {
      "epoch": 0.1438888888888889,
      "grad_norm": 1.4139090776443481,
      "learning_rate": 0.00017126028006223605,
      "loss": 2.0423,
      "step": 6475
    },
    {
      "epoch": 0.1439111111111111,
      "grad_norm": 1.3041236400604248,
      "learning_rate": 0.00017125583462991776,
      "loss": 1.6783,
      "step": 6476
    },
    {
      "epoch": 0.14393333333333333,
      "grad_norm": 1.5700433254241943,
      "learning_rate": 0.00017125138919759947,
      "loss": 2.1192,
      "step": 6477
    },
    {
      "epoch": 0.14395555555555556,
      "grad_norm": 1.5098508596420288,
      "learning_rate": 0.00017124694376528118,
      "loss": 1.961,
      "step": 6478
    },
    {
      "epoch": 0.1439777777777778,
      "grad_norm": 1.5648012161254883,
      "learning_rate": 0.0001712424983329629,
      "loss": 2.2192,
      "step": 6479
    },
    {
      "epoch": 0.144,
      "grad_norm": 1.3777740001678467,
      "learning_rate": 0.00017123805290064457,
      "loss": 2.0997,
      "step": 6480
    },
    {
      "epoch": 0.14402222222222222,
      "grad_norm": 1.4238154888153076,
      "learning_rate": 0.0001712336074683263,
      "loss": 2.0032,
      "step": 6481
    },
    {
      "epoch": 0.14404444444444445,
      "grad_norm": 1.2922841310501099,
      "learning_rate": 0.000171229162036008,
      "loss": 1.7128,
      "step": 6482
    },
    {
      "epoch": 0.14406666666666668,
      "grad_norm": 1.9521499872207642,
      "learning_rate": 0.00017122471660368973,
      "loss": 2.1505,
      "step": 6483
    },
    {
      "epoch": 0.14408888888888888,
      "grad_norm": 1.3580574989318848,
      "learning_rate": 0.00017122027117137144,
      "loss": 1.7666,
      "step": 6484
    },
    {
      "epoch": 0.1441111111111111,
      "grad_norm": 1.259042501449585,
      "learning_rate": 0.00017121582573905312,
      "loss": 1.4562,
      "step": 6485
    },
    {
      "epoch": 0.14413333333333334,
      "grad_norm": 1.979103446006775,
      "learning_rate": 0.00017121138030673486,
      "loss": 2.2162,
      "step": 6486
    },
    {
      "epoch": 0.14415555555555556,
      "grad_norm": 1.5835599899291992,
      "learning_rate": 0.00017120693487441654,
      "loss": 2.3538,
      "step": 6487
    },
    {
      "epoch": 0.14417777777777777,
      "grad_norm": 1.479540467262268,
      "learning_rate": 0.00017120248944209825,
      "loss": 2.0122,
      "step": 6488
    },
    {
      "epoch": 0.1442,
      "grad_norm": 1.5795981884002686,
      "learning_rate": 0.00017119804400977996,
      "loss": 1.9744,
      "step": 6489
    },
    {
      "epoch": 0.14422222222222222,
      "grad_norm": 1.3878554105758667,
      "learning_rate": 0.00017119359857746167,
      "loss": 1.5051,
      "step": 6490
    },
    {
      "epoch": 0.14424444444444445,
      "grad_norm": 1.393032431602478,
      "learning_rate": 0.00017118915314514335,
      "loss": 1.9275,
      "step": 6491
    },
    {
      "epoch": 0.14426666666666665,
      "grad_norm": 1.3081799745559692,
      "learning_rate": 0.0001711847077128251,
      "loss": 1.7382,
      "step": 6492
    },
    {
      "epoch": 0.14428888888888888,
      "grad_norm": 1.3810497522354126,
      "learning_rate": 0.0001711802622805068,
      "loss": 1.7206,
      "step": 6493
    },
    {
      "epoch": 0.1443111111111111,
      "grad_norm": 1.4364395141601562,
      "learning_rate": 0.00017117581684818848,
      "loss": 1.6523,
      "step": 6494
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 1.4535343647003174,
      "learning_rate": 0.00017117137141587022,
      "loss": 1.8763,
      "step": 6495
    },
    {
      "epoch": 0.14435555555555554,
      "grad_norm": 1.5293962955474854,
      "learning_rate": 0.0001711669259835519,
      "loss": 1.9884,
      "step": 6496
    },
    {
      "epoch": 0.14437777777777777,
      "grad_norm": 1.4963687658309937,
      "learning_rate": 0.0001711624805512336,
      "loss": 2.1567,
      "step": 6497
    },
    {
      "epoch": 0.1444,
      "grad_norm": 1.2419980764389038,
      "learning_rate": 0.00017115803511891532,
      "loss": 1.5612,
      "step": 6498
    },
    {
      "epoch": 0.14442222222222223,
      "grad_norm": 1.942420482635498,
      "learning_rate": 0.00017115358968659703,
      "loss": 2.2128,
      "step": 6499
    },
    {
      "epoch": 0.14444444444444443,
      "grad_norm": 1.6699939966201782,
      "learning_rate": 0.0001711491442542787,
      "loss": 0.8568,
      "step": 6500
    },
    {
      "epoch": 0.14446666666666666,
      "grad_norm": 1.61417555809021,
      "learning_rate": 0.00017114469882196045,
      "loss": 2.6319,
      "step": 6501
    },
    {
      "epoch": 0.1444888888888889,
      "grad_norm": 1.198546051979065,
      "learning_rate": 0.00017114025338964216,
      "loss": 2.2359,
      "step": 6502
    },
    {
      "epoch": 0.14451111111111112,
      "grad_norm": 1.2430469989776611,
      "learning_rate": 0.00017113580795732387,
      "loss": 2.3127,
      "step": 6503
    },
    {
      "epoch": 0.14453333333333335,
      "grad_norm": 1.3825210332870483,
      "learning_rate": 0.00017113136252500558,
      "loss": 2.4324,
      "step": 6504
    },
    {
      "epoch": 0.14455555555555555,
      "grad_norm": 1.3671704530715942,
      "learning_rate": 0.00017112691709268726,
      "loss": 2.5116,
      "step": 6505
    },
    {
      "epoch": 0.14457777777777778,
      "grad_norm": 1.2730413675308228,
      "learning_rate": 0.000171122471660369,
      "loss": 2.5093,
      "step": 6506
    },
    {
      "epoch": 0.1446,
      "grad_norm": 1.251482605934143,
      "learning_rate": 0.00017111802622805068,
      "loss": 2.1699,
      "step": 6507
    },
    {
      "epoch": 0.14462222222222224,
      "grad_norm": 1.3263310194015503,
      "learning_rate": 0.0001711135807957324,
      "loss": 1.8327,
      "step": 6508
    },
    {
      "epoch": 0.14464444444444444,
      "grad_norm": 1.1543875932693481,
      "learning_rate": 0.0001711091353634141,
      "loss": 2.0455,
      "step": 6509
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 1.3578791618347168,
      "learning_rate": 0.0001711046899310958,
      "loss": 2.2174,
      "step": 6510
    },
    {
      "epoch": 0.1446888888888889,
      "grad_norm": 1.5944766998291016,
      "learning_rate": 0.00017110024449877752,
      "loss": 2.2322,
      "step": 6511
    },
    {
      "epoch": 0.14471111111111112,
      "grad_norm": 1.4142224788665771,
      "learning_rate": 0.00017109579906645923,
      "loss": 2.2343,
      "step": 6512
    },
    {
      "epoch": 0.14473333333333332,
      "grad_norm": 1.2749924659729004,
      "learning_rate": 0.00017109135363414094,
      "loss": 2.2627,
      "step": 6513
    },
    {
      "epoch": 0.14475555555555555,
      "grad_norm": 1.5921608209609985,
      "learning_rate": 0.00017108690820182262,
      "loss": 2.4486,
      "step": 6514
    },
    {
      "epoch": 0.14477777777777778,
      "grad_norm": 1.3052433729171753,
      "learning_rate": 0.00017108246276950436,
      "loss": 2.627,
      "step": 6515
    },
    {
      "epoch": 0.1448,
      "grad_norm": 1.448623776435852,
      "learning_rate": 0.00017107801733718604,
      "loss": 2.0161,
      "step": 6516
    },
    {
      "epoch": 0.1448222222222222,
      "grad_norm": 1.161187767982483,
      "learning_rate": 0.00017107357190486775,
      "loss": 1.9937,
      "step": 6517
    },
    {
      "epoch": 0.14484444444444444,
      "grad_norm": 1.3909258842468262,
      "learning_rate": 0.00017106912647254946,
      "loss": 2.0519,
      "step": 6518
    },
    {
      "epoch": 0.14486666666666667,
      "grad_norm": 1.474343180656433,
      "learning_rate": 0.00017106468104023117,
      "loss": 2.0917,
      "step": 6519
    },
    {
      "epoch": 0.1448888888888889,
      "grad_norm": 1.3509738445281982,
      "learning_rate": 0.00017106023560791288,
      "loss": 1.8503,
      "step": 6520
    },
    {
      "epoch": 0.1449111111111111,
      "grad_norm": 1.3377095460891724,
      "learning_rate": 0.0001710557901755946,
      "loss": 1.756,
      "step": 6521
    },
    {
      "epoch": 0.14493333333333333,
      "grad_norm": 1.4103927612304688,
      "learning_rate": 0.0001710513447432763,
      "loss": 2.0297,
      "step": 6522
    },
    {
      "epoch": 0.14495555555555556,
      "grad_norm": 1.2734349966049194,
      "learning_rate": 0.000171046899310958,
      "loss": 1.6644,
      "step": 6523
    },
    {
      "epoch": 0.1449777777777778,
      "grad_norm": 1.5616048574447632,
      "learning_rate": 0.00017104245387863972,
      "loss": 2.1915,
      "step": 6524
    },
    {
      "epoch": 0.145,
      "grad_norm": 1.516397476196289,
      "learning_rate": 0.0001710380084463214,
      "loss": 1.9634,
      "step": 6525
    },
    {
      "epoch": 0.14502222222222222,
      "grad_norm": 1.2383527755737305,
      "learning_rate": 0.00017103356301400314,
      "loss": 1.658,
      "step": 6526
    },
    {
      "epoch": 0.14504444444444445,
      "grad_norm": 1.379538655281067,
      "learning_rate": 0.00017102911758168482,
      "loss": 1.7139,
      "step": 6527
    },
    {
      "epoch": 0.14506666666666668,
      "grad_norm": 1.681567907333374,
      "learning_rate": 0.00017102467214936653,
      "loss": 2.4861,
      "step": 6528
    },
    {
      "epoch": 0.14508888888888888,
      "grad_norm": 1.61463463306427,
      "learning_rate": 0.00017102022671704824,
      "loss": 2.1988,
      "step": 6529
    },
    {
      "epoch": 0.1451111111111111,
      "grad_norm": 1.3066997528076172,
      "learning_rate": 0.00017101578128472995,
      "loss": 1.9423,
      "step": 6530
    },
    {
      "epoch": 0.14513333333333334,
      "grad_norm": 1.2473667860031128,
      "learning_rate": 0.00017101133585241166,
      "loss": 1.6138,
      "step": 6531
    },
    {
      "epoch": 0.14515555555555557,
      "grad_norm": 0.3118528723716736,
      "learning_rate": 0.00017100689042009337,
      "loss": 0.0314,
      "step": 6532
    },
    {
      "epoch": 0.14517777777777777,
      "grad_norm": 1.6405709981918335,
      "learning_rate": 0.00017100244498777508,
      "loss": 2.4648,
      "step": 6533
    },
    {
      "epoch": 0.1452,
      "grad_norm": 1.6004595756530762,
      "learning_rate": 0.00017099799955545676,
      "loss": 1.9222,
      "step": 6534
    },
    {
      "epoch": 0.14522222222222222,
      "grad_norm": 1.402908205986023,
      "learning_rate": 0.0001709935541231385,
      "loss": 1.743,
      "step": 6535
    },
    {
      "epoch": 0.14524444444444445,
      "grad_norm": 1.4541854858398438,
      "learning_rate": 0.00017098910869082018,
      "loss": 1.3462,
      "step": 6536
    },
    {
      "epoch": 0.14526666666666666,
      "grad_norm": 1.2795051336288452,
      "learning_rate": 0.0001709846632585019,
      "loss": 2.0509,
      "step": 6537
    },
    {
      "epoch": 0.14528888888888888,
      "grad_norm": 1.2728703022003174,
      "learning_rate": 0.0001709802178261836,
      "loss": 1.9265,
      "step": 6538
    },
    {
      "epoch": 0.1453111111111111,
      "grad_norm": 1.6976991891860962,
      "learning_rate": 0.0001709757723938653,
      "loss": 1.8717,
      "step": 6539
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 1.4831618070602417,
      "learning_rate": 0.00017097132696154702,
      "loss": 2.1002,
      "step": 6540
    },
    {
      "epoch": 0.14535555555555554,
      "grad_norm": 1.6058900356292725,
      "learning_rate": 0.00017096688152922873,
      "loss": 2.3553,
      "step": 6541
    },
    {
      "epoch": 0.14537777777777777,
      "grad_norm": 1.2485507726669312,
      "learning_rate": 0.00017096243609691044,
      "loss": 1.343,
      "step": 6542
    },
    {
      "epoch": 0.1454,
      "grad_norm": 1.5363019704818726,
      "learning_rate": 0.00017095799066459214,
      "loss": 1.7248,
      "step": 6543
    },
    {
      "epoch": 0.14542222222222223,
      "grad_norm": 1.755113124847412,
      "learning_rate": 0.00017095354523227385,
      "loss": 2.2962,
      "step": 6544
    },
    {
      "epoch": 0.14544444444444443,
      "grad_norm": 1.5134806632995605,
      "learning_rate": 0.00017094909979995554,
      "loss": 1.6555,
      "step": 6545
    },
    {
      "epoch": 0.14546666666666666,
      "grad_norm": 1.934243083000183,
      "learning_rate": 0.00017094465436763727,
      "loss": 2.2451,
      "step": 6546
    },
    {
      "epoch": 0.1454888888888889,
      "grad_norm": 1.27800452709198,
      "learning_rate": 0.00017094020893531896,
      "loss": 1.1623,
      "step": 6547
    },
    {
      "epoch": 0.14551111111111112,
      "grad_norm": 1.0722432136535645,
      "learning_rate": 0.00017093576350300067,
      "loss": 0.9164,
      "step": 6548
    },
    {
      "epoch": 0.14553333333333332,
      "grad_norm": 1.8146679401397705,
      "learning_rate": 0.00017093131807068238,
      "loss": 1.9206,
      "step": 6549
    },
    {
      "epoch": 0.14555555555555555,
      "grad_norm": 1.6593753099441528,
      "learning_rate": 0.00017092687263836409,
      "loss": 1.758,
      "step": 6550
    },
    {
      "epoch": 0.14557777777777778,
      "grad_norm": 1.4554665088653564,
      "learning_rate": 0.0001709224272060458,
      "loss": 2.3816,
      "step": 6551
    },
    {
      "epoch": 0.1456,
      "grad_norm": 1.3813952207565308,
      "learning_rate": 0.0001709179817737275,
      "loss": 2.5861,
      "step": 6552
    },
    {
      "epoch": 0.1456222222222222,
      "grad_norm": 0.8809400796890259,
      "learning_rate": 0.00017091353634140921,
      "loss": 0.9851,
      "step": 6553
    },
    {
      "epoch": 0.14564444444444444,
      "grad_norm": 1.2282109260559082,
      "learning_rate": 0.0001709090909090909,
      "loss": 2.5076,
      "step": 6554
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 1.4116830825805664,
      "learning_rate": 0.00017090464547677263,
      "loss": 2.7654,
      "step": 6555
    },
    {
      "epoch": 0.1456888888888889,
      "grad_norm": 1.0846772193908691,
      "learning_rate": 0.00017090020004445432,
      "loss": 2.0006,
      "step": 6556
    },
    {
      "epoch": 0.14571111111111112,
      "grad_norm": 1.3437151908874512,
      "learning_rate": 0.00017089575461213603,
      "loss": 2.346,
      "step": 6557
    },
    {
      "epoch": 0.14573333333333333,
      "grad_norm": 1.2698731422424316,
      "learning_rate": 0.00017089130917981776,
      "loss": 2.4684,
      "step": 6558
    },
    {
      "epoch": 0.14575555555555555,
      "grad_norm": 1.352717399597168,
      "learning_rate": 0.00017088686374749944,
      "loss": 2.2098,
      "step": 6559
    },
    {
      "epoch": 0.14577777777777778,
      "grad_norm": 1.232581377029419,
      "learning_rate": 0.00017088241831518118,
      "loss": 2.3894,
      "step": 6560
    },
    {
      "epoch": 0.1458,
      "grad_norm": 1.293322205543518,
      "learning_rate": 0.00017087797288286286,
      "loss": 1.9646,
      "step": 6561
    },
    {
      "epoch": 0.14582222222222221,
      "grad_norm": 1.2456510066986084,
      "learning_rate": 0.00017087352745054457,
      "loss": 2.2852,
      "step": 6562
    },
    {
      "epoch": 0.14584444444444444,
      "grad_norm": 1.5330156087875366,
      "learning_rate": 0.00017086908201822628,
      "loss": 2.1261,
      "step": 6563
    },
    {
      "epoch": 0.14586666666666667,
      "grad_norm": 1.1204355955123901,
      "learning_rate": 0.000170864636585908,
      "loss": 1.5561,
      "step": 6564
    },
    {
      "epoch": 0.1458888888888889,
      "grad_norm": 1.339698076248169,
      "learning_rate": 0.00017086019115358968,
      "loss": 2.0907,
      "step": 6565
    },
    {
      "epoch": 0.1459111111111111,
      "grad_norm": 1.2591701745986938,
      "learning_rate": 0.0001708557457212714,
      "loss": 1.9254,
      "step": 6566
    },
    {
      "epoch": 0.14593333333333333,
      "grad_norm": 1.425971269607544,
      "learning_rate": 0.00017085130028895312,
      "loss": 1.8549,
      "step": 6567
    },
    {
      "epoch": 0.14595555555555556,
      "grad_norm": 1.5057941675186157,
      "learning_rate": 0.0001708468548566348,
      "loss": 2.2777,
      "step": 6568
    },
    {
      "epoch": 0.1459777777777778,
      "grad_norm": 1.4332094192504883,
      "learning_rate": 0.00017084240942431654,
      "loss": 2.1468,
      "step": 6569
    },
    {
      "epoch": 0.146,
      "grad_norm": 1.3054448366165161,
      "learning_rate": 0.00017083796399199822,
      "loss": 1.8414,
      "step": 6570
    },
    {
      "epoch": 0.14602222222222222,
      "grad_norm": 1.2327290773391724,
      "learning_rate": 0.00017083351855967993,
      "loss": 2.0641,
      "step": 6571
    },
    {
      "epoch": 0.14604444444444445,
      "grad_norm": 1.2476434707641602,
      "learning_rate": 0.00017082907312736164,
      "loss": 1.9987,
      "step": 6572
    },
    {
      "epoch": 0.14606666666666668,
      "grad_norm": 1.4757068157196045,
      "learning_rate": 0.00017082462769504335,
      "loss": 2.5828,
      "step": 6573
    },
    {
      "epoch": 0.14608888888888888,
      "grad_norm": 1.2905229330062866,
      "learning_rate": 0.00017082018226272503,
      "loss": 2.0415,
      "step": 6574
    },
    {
      "epoch": 0.1461111111111111,
      "grad_norm": 1.4803798198699951,
      "learning_rate": 0.00017081573683040677,
      "loss": 1.5898,
      "step": 6575
    },
    {
      "epoch": 0.14613333333333334,
      "grad_norm": 1.5500882863998413,
      "learning_rate": 0.00017081129139808848,
      "loss": 1.9437,
      "step": 6576
    },
    {
      "epoch": 0.14615555555555557,
      "grad_norm": 1.294568657875061,
      "learning_rate": 0.0001708068459657702,
      "loss": 1.3968,
      "step": 6577
    },
    {
      "epoch": 0.14617777777777777,
      "grad_norm": 1.2354167699813843,
      "learning_rate": 0.0001708024005334519,
      "loss": 1.8183,
      "step": 6578
    },
    {
      "epoch": 0.1462,
      "grad_norm": 1.2453315258026123,
      "learning_rate": 0.00017079795510113358,
      "loss": 1.1729,
      "step": 6579
    },
    {
      "epoch": 0.14622222222222223,
      "grad_norm": 1.642651915550232,
      "learning_rate": 0.00017079350966881532,
      "loss": 2.1665,
      "step": 6580
    },
    {
      "epoch": 0.14624444444444445,
      "grad_norm": 1.0046173334121704,
      "learning_rate": 0.000170789064236497,
      "loss": 1.136,
      "step": 6581
    },
    {
      "epoch": 0.14626666666666666,
      "grad_norm": 1.5823538303375244,
      "learning_rate": 0.0001707846188041787,
      "loss": 2.0283,
      "step": 6582
    },
    {
      "epoch": 0.14628888888888888,
      "grad_norm": 1.3169423341751099,
      "learning_rate": 0.00017078017337186042,
      "loss": 1.5836,
      "step": 6583
    },
    {
      "epoch": 0.14631111111111111,
      "grad_norm": 1.7131805419921875,
      "learning_rate": 0.00017077572793954213,
      "loss": 1.7534,
      "step": 6584
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 1.3595463037490845,
      "learning_rate": 0.00017077128250722384,
      "loss": 2.1406,
      "step": 6585
    },
    {
      "epoch": 0.14635555555555554,
      "grad_norm": 1.3302655220031738,
      "learning_rate": 0.00017076683707490555,
      "loss": 1.851,
      "step": 6586
    },
    {
      "epoch": 0.14637777777777777,
      "grad_norm": 1.5265792608261108,
      "learning_rate": 0.00017076239164258726,
      "loss": 1.9097,
      "step": 6587
    },
    {
      "epoch": 0.1464,
      "grad_norm": 1.423032522201538,
      "learning_rate": 0.00017075794621026894,
      "loss": 1.8227,
      "step": 6588
    },
    {
      "epoch": 0.14642222222222223,
      "grad_norm": 1.7153247594833374,
      "learning_rate": 0.00017075350077795068,
      "loss": 2.1832,
      "step": 6589
    },
    {
      "epoch": 0.14644444444444443,
      "grad_norm": 1.716869831085205,
      "learning_rate": 0.00017074905534563236,
      "loss": 2.0646,
      "step": 6590
    },
    {
      "epoch": 0.14646666666666666,
      "grad_norm": 1.4176619052886963,
      "learning_rate": 0.00017074460991331407,
      "loss": 1.7976,
      "step": 6591
    },
    {
      "epoch": 0.1464888888888889,
      "grad_norm": 1.4771078824996948,
      "learning_rate": 0.00017074016448099578,
      "loss": 1.7551,
      "step": 6592
    },
    {
      "epoch": 0.14651111111111112,
      "grad_norm": 1.6324247121810913,
      "learning_rate": 0.0001707357190486775,
      "loss": 1.5969,
      "step": 6593
    },
    {
      "epoch": 0.14653333333333332,
      "grad_norm": 1.7034099102020264,
      "learning_rate": 0.0001707312736163592,
      "loss": 1.7732,
      "step": 6594
    },
    {
      "epoch": 0.14655555555555555,
      "grad_norm": 1.3985241651535034,
      "learning_rate": 0.0001707268281840409,
      "loss": 1.4765,
      "step": 6595
    },
    {
      "epoch": 0.14657777777777778,
      "grad_norm": 1.4447040557861328,
      "learning_rate": 0.00017072238275172262,
      "loss": 1.7639,
      "step": 6596
    },
    {
      "epoch": 0.1466,
      "grad_norm": 1.581063985824585,
      "learning_rate": 0.00017071793731940433,
      "loss": 1.521,
      "step": 6597
    },
    {
      "epoch": 0.1466222222222222,
      "grad_norm": 1.5472064018249512,
      "learning_rate": 0.00017071349188708604,
      "loss": 1.8657,
      "step": 6598
    },
    {
      "epoch": 0.14664444444444444,
      "grad_norm": 0.9093078374862671,
      "learning_rate": 0.00017070904645476772,
      "loss": 0.5501,
      "step": 6599
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 1.5909526348114014,
      "learning_rate": 0.00017070460102244946,
      "loss": 1.1638,
      "step": 6600
    },
    {
      "epoch": 0.1466888888888889,
      "grad_norm": 1.1388137340545654,
      "learning_rate": 0.00017070015559013114,
      "loss": 2.4521,
      "step": 6601
    },
    {
      "epoch": 0.1467111111111111,
      "grad_norm": 1.3243910074234009,
      "learning_rate": 0.00017069571015781285,
      "loss": 2.4264,
      "step": 6602
    },
    {
      "epoch": 0.14673333333333333,
      "grad_norm": 0.9479836225509644,
      "learning_rate": 0.00017069126472549456,
      "loss": 1.0135,
      "step": 6603
    },
    {
      "epoch": 0.14675555555555556,
      "grad_norm": 1.0726125240325928,
      "learning_rate": 0.00017068681929317627,
      "loss": 2.2396,
      "step": 6604
    },
    {
      "epoch": 0.14677777777777778,
      "grad_norm": 1.1763577461242676,
      "learning_rate": 0.00017068237386085798,
      "loss": 2.3306,
      "step": 6605
    },
    {
      "epoch": 0.1468,
      "grad_norm": 1.8076072931289673,
      "learning_rate": 0.0001706779284285397,
      "loss": 2.3422,
      "step": 6606
    },
    {
      "epoch": 0.14682222222222222,
      "grad_norm": 1.2891464233398438,
      "learning_rate": 0.0001706734829962214,
      "loss": 2.5233,
      "step": 6607
    },
    {
      "epoch": 0.14684444444444444,
      "grad_norm": 1.3789364099502563,
      "learning_rate": 0.00017066903756390308,
      "loss": 2.0135,
      "step": 6608
    },
    {
      "epoch": 0.14686666666666667,
      "grad_norm": 1.2406977415084839,
      "learning_rate": 0.00017066459213158482,
      "loss": 1.863,
      "step": 6609
    },
    {
      "epoch": 0.1468888888888889,
      "grad_norm": 1.291493535041809,
      "learning_rate": 0.0001706601466992665,
      "loss": 2.1771,
      "step": 6610
    },
    {
      "epoch": 0.1469111111111111,
      "grad_norm": 1.3501697778701782,
      "learning_rate": 0.0001706557012669482,
      "loss": 2.2485,
      "step": 6611
    },
    {
      "epoch": 0.14693333333333333,
      "grad_norm": 1.3430501222610474,
      "learning_rate": 0.00017065125583462992,
      "loss": 2.2242,
      "step": 6612
    },
    {
      "epoch": 0.14695555555555556,
      "grad_norm": 1.2935148477554321,
      "learning_rate": 0.00017064681040231163,
      "loss": 1.9005,
      "step": 6613
    },
    {
      "epoch": 0.1469777777777778,
      "grad_norm": 1.3075611591339111,
      "learning_rate": 0.00017064236496999334,
      "loss": 2.0821,
      "step": 6614
    },
    {
      "epoch": 0.147,
      "grad_norm": 1.373634696006775,
      "learning_rate": 0.00017063791953767505,
      "loss": 1.9473,
      "step": 6615
    },
    {
      "epoch": 0.14702222222222222,
      "grad_norm": 1.271706461906433,
      "learning_rate": 0.00017063347410535676,
      "loss": 2.238,
      "step": 6616
    },
    {
      "epoch": 0.14704444444444445,
      "grad_norm": 0.9048104286193848,
      "learning_rate": 0.00017062902867303847,
      "loss": 1.0652,
      "step": 6617
    },
    {
      "epoch": 0.14706666666666668,
      "grad_norm": 1.3423422574996948,
      "learning_rate": 0.00017062458324072018,
      "loss": 1.9282,
      "step": 6618
    },
    {
      "epoch": 0.14708888888888888,
      "grad_norm": 1.4037312269210815,
      "learning_rate": 0.00017062013780840186,
      "loss": 2.4744,
      "step": 6619
    },
    {
      "epoch": 0.1471111111111111,
      "grad_norm": 1.4690353870391846,
      "learning_rate": 0.0001706156923760836,
      "loss": 1.8201,
      "step": 6620
    },
    {
      "epoch": 0.14713333333333334,
      "grad_norm": 1.5424578189849854,
      "learning_rate": 0.00017061124694376528,
      "loss": 2.3124,
      "step": 6621
    },
    {
      "epoch": 0.14715555555555557,
      "grad_norm": 1.3136346340179443,
      "learning_rate": 0.000170606801511447,
      "loss": 2.116,
      "step": 6622
    },
    {
      "epoch": 0.14717777777777777,
      "grad_norm": 1.6060938835144043,
      "learning_rate": 0.00017060235607912872,
      "loss": 2.1472,
      "step": 6623
    },
    {
      "epoch": 0.1472,
      "grad_norm": 1.26988685131073,
      "learning_rate": 0.0001705979106468104,
      "loss": 1.9159,
      "step": 6624
    },
    {
      "epoch": 0.14722222222222223,
      "grad_norm": 1.7609361410140991,
      "learning_rate": 0.00017059346521449212,
      "loss": 2.4231,
      "step": 6625
    },
    {
      "epoch": 0.14724444444444446,
      "grad_norm": 1.228412389755249,
      "learning_rate": 0.00017058901978217383,
      "loss": 1.8605,
      "step": 6626
    },
    {
      "epoch": 0.14726666666666666,
      "grad_norm": 1.5945549011230469,
      "learning_rate": 0.00017058457434985554,
      "loss": 2.2031,
      "step": 6627
    },
    {
      "epoch": 0.14728888888888889,
      "grad_norm": 1.640560507774353,
      "learning_rate": 0.00017058012891753722,
      "loss": 2.1429,
      "step": 6628
    },
    {
      "epoch": 0.14731111111111111,
      "grad_norm": 1.2881789207458496,
      "learning_rate": 0.00017057568348521896,
      "loss": 1.6879,
      "step": 6629
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 1.9993897676467896,
      "learning_rate": 0.00017057123805290064,
      "loss": 1.8804,
      "step": 6630
    },
    {
      "epoch": 0.14735555555555555,
      "grad_norm": 1.644742727279663,
      "learning_rate": 0.00017056679262058235,
      "loss": 2.0023,
      "step": 6631
    },
    {
      "epoch": 0.14737777777777777,
      "grad_norm": 0.2608675956726074,
      "learning_rate": 0.00017056234718826408,
      "loss": 0.0281,
      "step": 6632
    },
    {
      "epoch": 0.1474,
      "grad_norm": 0.1403668075799942,
      "learning_rate": 0.00017055790175594577,
      "loss": 0.0251,
      "step": 6633
    },
    {
      "epoch": 0.14742222222222223,
      "grad_norm": 1.304910659790039,
      "learning_rate": 0.0001705534563236275,
      "loss": 1.5233,
      "step": 6634
    },
    {
      "epoch": 0.14744444444444443,
      "grad_norm": 1.4173777103424072,
      "learning_rate": 0.00017054901089130919,
      "loss": 1.8007,
      "step": 6635
    },
    {
      "epoch": 0.14746666666666666,
      "grad_norm": 1.5613011121749878,
      "learning_rate": 0.0001705445654589909,
      "loss": 1.7733,
      "step": 6636
    },
    {
      "epoch": 0.1474888888888889,
      "grad_norm": 1.8425148725509644,
      "learning_rate": 0.0001705401200266726,
      "loss": 2.0634,
      "step": 6637
    },
    {
      "epoch": 0.14751111111111112,
      "grad_norm": 1.4089335203170776,
      "learning_rate": 0.00017053567459435431,
      "loss": 2.2254,
      "step": 6638
    },
    {
      "epoch": 0.14753333333333332,
      "grad_norm": 1.391985297203064,
      "learning_rate": 0.000170531229162036,
      "loss": 1.7695,
      "step": 6639
    },
    {
      "epoch": 0.14755555555555555,
      "grad_norm": 1.4352182149887085,
      "learning_rate": 0.00017052678372971773,
      "loss": 2.0159,
      "step": 6640
    },
    {
      "epoch": 0.14757777777777778,
      "grad_norm": 1.9069645404815674,
      "learning_rate": 0.00017052233829739944,
      "loss": 2.2163,
      "step": 6641
    },
    {
      "epoch": 0.1476,
      "grad_norm": 1.8276376724243164,
      "learning_rate": 0.00017051789286508113,
      "loss": 2.1406,
      "step": 6642
    },
    {
      "epoch": 0.1476222222222222,
      "grad_norm": 1.3488929271697998,
      "learning_rate": 0.00017051344743276286,
      "loss": 1.7577,
      "step": 6643
    },
    {
      "epoch": 0.14764444444444444,
      "grad_norm": 1.1767189502716064,
      "learning_rate": 0.00017050900200044455,
      "loss": 1.2692,
      "step": 6644
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 2.540332555770874,
      "learning_rate": 0.00017050455656812626,
      "loss": 2.3774,
      "step": 6645
    },
    {
      "epoch": 0.1476888888888889,
      "grad_norm": 1.6190736293792725,
      "learning_rate": 0.00017050011113580796,
      "loss": 1.8715,
      "step": 6646
    },
    {
      "epoch": 0.1477111111111111,
      "grad_norm": 1.4106723070144653,
      "learning_rate": 0.00017049566570348967,
      "loss": 1.5015,
      "step": 6647
    },
    {
      "epoch": 0.14773333333333333,
      "grad_norm": 1.377027153968811,
      "learning_rate": 0.00017049122027117136,
      "loss": 1.7878,
      "step": 6648
    },
    {
      "epoch": 0.14775555555555556,
      "grad_norm": 1.3445922136306763,
      "learning_rate": 0.0001704867748388531,
      "loss": 0.9514,
      "step": 6649
    },
    {
      "epoch": 0.14777777777777779,
      "grad_norm": 1.27971613407135,
      "learning_rate": 0.0001704823294065348,
      "loss": 1.3315,
      "step": 6650
    },
    {
      "epoch": 0.1478,
      "grad_norm": 1.5683321952819824,
      "learning_rate": 0.00017047788397421649,
      "loss": 2.2206,
      "step": 6651
    },
    {
      "epoch": 0.14782222222222222,
      "grad_norm": 1.0216249227523804,
      "learning_rate": 0.00017047343854189822,
      "loss": 1.338,
      "step": 6652
    },
    {
      "epoch": 0.14784444444444444,
      "grad_norm": 1.2956533432006836,
      "learning_rate": 0.0001704689931095799,
      "loss": 2.2908,
      "step": 6653
    },
    {
      "epoch": 0.14786666666666667,
      "grad_norm": 1.7356582880020142,
      "learning_rate": 0.00017046454767726164,
      "loss": 2.8338,
      "step": 6654
    },
    {
      "epoch": 0.14788888888888888,
      "grad_norm": 1.2243435382843018,
      "learning_rate": 0.00017046010224494332,
      "loss": 2.0691,
      "step": 6655
    },
    {
      "epoch": 0.1479111111111111,
      "grad_norm": 1.3385850191116333,
      "learning_rate": 0.00017045565681262503,
      "loss": 1.8465,
      "step": 6656
    },
    {
      "epoch": 0.14793333333333333,
      "grad_norm": 1.0324764251708984,
      "learning_rate": 0.00017045121138030674,
      "loss": 1.0352,
      "step": 6657
    },
    {
      "epoch": 0.14795555555555556,
      "grad_norm": 0.8863195776939392,
      "learning_rate": 0.00017044676594798845,
      "loss": 0.9737,
      "step": 6658
    },
    {
      "epoch": 0.1479777777777778,
      "grad_norm": 1.628570318222046,
      "learning_rate": 0.00017044232051567016,
      "loss": 2.027,
      "step": 6659
    },
    {
      "epoch": 0.148,
      "grad_norm": 1.5587459802627563,
      "learning_rate": 0.00017043787508335187,
      "loss": 2.5432,
      "step": 6660
    },
    {
      "epoch": 0.14802222222222222,
      "grad_norm": 1.3141955137252808,
      "learning_rate": 0.00017043342965103358,
      "loss": 1.9461,
      "step": 6661
    },
    {
      "epoch": 0.14804444444444445,
      "grad_norm": 1.517204761505127,
      "learning_rate": 0.00017042898421871526,
      "loss": 2.4348,
      "step": 6662
    },
    {
      "epoch": 0.14806666666666668,
      "grad_norm": 1.7226537466049194,
      "learning_rate": 0.000170424538786397,
      "loss": 2.2104,
      "step": 6663
    },
    {
      "epoch": 0.14808888888888888,
      "grad_norm": 1.5649981498718262,
      "learning_rate": 0.00017042009335407868,
      "loss": 2.1351,
      "step": 6664
    },
    {
      "epoch": 0.1481111111111111,
      "grad_norm": 1.278430700302124,
      "learning_rate": 0.0001704156479217604,
      "loss": 1.5505,
      "step": 6665
    },
    {
      "epoch": 0.14813333333333334,
      "grad_norm": 1.2916650772094727,
      "learning_rate": 0.0001704112024894421,
      "loss": 1.7784,
      "step": 6666
    },
    {
      "epoch": 0.14815555555555557,
      "grad_norm": 1.2194395065307617,
      "learning_rate": 0.0001704067570571238,
      "loss": 1.1556,
      "step": 6667
    },
    {
      "epoch": 0.14817777777777777,
      "grad_norm": 1.433333158493042,
      "learning_rate": 0.00017040231162480552,
      "loss": 2.1498,
      "step": 6668
    },
    {
      "epoch": 0.1482,
      "grad_norm": 1.500998854637146,
      "learning_rate": 0.00017039786619248723,
      "loss": 1.8572,
      "step": 6669
    },
    {
      "epoch": 0.14822222222222223,
      "grad_norm": 1.6247141361236572,
      "learning_rate": 0.00017039342076016894,
      "loss": 2.219,
      "step": 6670
    },
    {
      "epoch": 0.14824444444444446,
      "grad_norm": 1.4477386474609375,
      "learning_rate": 0.00017038897532785062,
      "loss": 2.7966,
      "step": 6671
    },
    {
      "epoch": 0.14826666666666666,
      "grad_norm": 1.3754936456680298,
      "learning_rate": 0.00017038452989553236,
      "loss": 2.1461,
      "step": 6672
    },
    {
      "epoch": 0.1482888888888889,
      "grad_norm": 1.2989048957824707,
      "learning_rate": 0.00017038008446321404,
      "loss": 2.4597,
      "step": 6673
    },
    {
      "epoch": 0.14831111111111112,
      "grad_norm": 1.543658971786499,
      "learning_rate": 0.00017037563903089578,
      "loss": 2.1607,
      "step": 6674
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 1.3515057563781738,
      "learning_rate": 0.00017037119359857746,
      "loss": 2.0504,
      "step": 6675
    },
    {
      "epoch": 0.14835555555555555,
      "grad_norm": 1.2156152725219727,
      "learning_rate": 0.00017036674816625917,
      "loss": 1.5602,
      "step": 6676
    },
    {
      "epoch": 0.14837777777777778,
      "grad_norm": 1.4288909435272217,
      "learning_rate": 0.00017036230273394088,
      "loss": 2.3641,
      "step": 6677
    },
    {
      "epoch": 0.1484,
      "grad_norm": 1.630391001701355,
      "learning_rate": 0.0001703578573016226,
      "loss": 1.7483,
      "step": 6678
    },
    {
      "epoch": 0.14842222222222223,
      "grad_norm": 1.2105300426483154,
      "learning_rate": 0.0001703534118693043,
      "loss": 1.8282,
      "step": 6679
    },
    {
      "epoch": 0.14844444444444443,
      "grad_norm": 1.4584065675735474,
      "learning_rate": 0.000170348966436986,
      "loss": 2.0932,
      "step": 6680
    },
    {
      "epoch": 0.14846666666666666,
      "grad_norm": 1.5600744485855103,
      "learning_rate": 0.00017034452100466772,
      "loss": 1.5569,
      "step": 6681
    },
    {
      "epoch": 0.1484888888888889,
      "grad_norm": 1.6692712306976318,
      "learning_rate": 0.0001703400755723494,
      "loss": 2.1815,
      "step": 6682
    },
    {
      "epoch": 0.14851111111111112,
      "grad_norm": 1.3339685201644897,
      "learning_rate": 0.00017033563014003114,
      "loss": 1.3506,
      "step": 6683
    },
    {
      "epoch": 0.14853333333333332,
      "grad_norm": 2.1338093280792236,
      "learning_rate": 0.00017033118470771282,
      "loss": 1.7775,
      "step": 6684
    },
    {
      "epoch": 0.14855555555555555,
      "grad_norm": 1.6328257322311401,
      "learning_rate": 0.00017032673927539453,
      "loss": 2.101,
      "step": 6685
    },
    {
      "epoch": 0.14857777777777778,
      "grad_norm": 1.6402589082717896,
      "learning_rate": 0.00017032229384307624,
      "loss": 1.8871,
      "step": 6686
    },
    {
      "epoch": 0.1486,
      "grad_norm": 1.5717154741287231,
      "learning_rate": 0.00017031784841075795,
      "loss": 2.2298,
      "step": 6687
    },
    {
      "epoch": 0.1486222222222222,
      "grad_norm": 1.6534276008605957,
      "learning_rate": 0.00017031340297843966,
      "loss": 1.9977,
      "step": 6688
    },
    {
      "epoch": 0.14864444444444444,
      "grad_norm": 1.5109775066375732,
      "learning_rate": 0.00017030895754612137,
      "loss": 1.7237,
      "step": 6689
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 1.5316839218139648,
      "learning_rate": 0.00017030451211380308,
      "loss": 1.4297,
      "step": 6690
    },
    {
      "epoch": 0.1486888888888889,
      "grad_norm": 1.603642463684082,
      "learning_rate": 0.0001703000666814848,
      "loss": 1.8404,
      "step": 6691
    },
    {
      "epoch": 0.1487111111111111,
      "grad_norm": 1.494205117225647,
      "learning_rate": 0.0001702956212491665,
      "loss": 1.8451,
      "step": 6692
    },
    {
      "epoch": 0.14873333333333333,
      "grad_norm": 1.239698886871338,
      "learning_rate": 0.00017029117581684818,
      "loss": 1.354,
      "step": 6693
    },
    {
      "epoch": 0.14875555555555556,
      "grad_norm": 1.6456923484802246,
      "learning_rate": 0.00017028673038452992,
      "loss": 1.7434,
      "step": 6694
    },
    {
      "epoch": 0.1487777777777778,
      "grad_norm": 1.9662874937057495,
      "learning_rate": 0.0001702822849522116,
      "loss": 2.2686,
      "step": 6695
    },
    {
      "epoch": 0.1488,
      "grad_norm": 1.5698357820510864,
      "learning_rate": 0.0001702778395198933,
      "loss": 1.9414,
      "step": 6696
    },
    {
      "epoch": 0.14882222222222222,
      "grad_norm": 1.697949767112732,
      "learning_rate": 0.00017027339408757505,
      "loss": 1.8111,
      "step": 6697
    },
    {
      "epoch": 0.14884444444444445,
      "grad_norm": 1.7370072603225708,
      "learning_rate": 0.00017026894865525673,
      "loss": 1.7663,
      "step": 6698
    },
    {
      "epoch": 0.14886666666666667,
      "grad_norm": 1.277313232421875,
      "learning_rate": 0.00017026450322293844,
      "loss": 1.3857,
      "step": 6699
    },
    {
      "epoch": 0.14888888888888888,
      "grad_norm": 2.1581270694732666,
      "learning_rate": 0.00017026005779062015,
      "loss": 1.2748,
      "step": 6700
    },
    {
      "epoch": 0.1489111111111111,
      "grad_norm": 1.186749815940857,
      "learning_rate": 0.00017025561235830186,
      "loss": 2.3933,
      "step": 6701
    },
    {
      "epoch": 0.14893333333333333,
      "grad_norm": 1.5558185577392578,
      "learning_rate": 0.00017025116692598354,
      "loss": 2.9394,
      "step": 6702
    },
    {
      "epoch": 0.14895555555555556,
      "grad_norm": 1.1373177766799927,
      "learning_rate": 0.00017024672149366528,
      "loss": 1.8412,
      "step": 6703
    },
    {
      "epoch": 0.14897777777777776,
      "grad_norm": 1.4096384048461914,
      "learning_rate": 0.00017024227606134696,
      "loss": 2.1766,
      "step": 6704
    },
    {
      "epoch": 0.149,
      "grad_norm": 1.211259126663208,
      "learning_rate": 0.00017023783062902867,
      "loss": 2.0888,
      "step": 6705
    },
    {
      "epoch": 0.14902222222222222,
      "grad_norm": 1.41176176071167,
      "learning_rate": 0.0001702333851967104,
      "loss": 2.7174,
      "step": 6706
    },
    {
      "epoch": 0.14904444444444445,
      "grad_norm": 1.3536298274993896,
      "learning_rate": 0.0001702289397643921,
      "loss": 2.0052,
      "step": 6707
    },
    {
      "epoch": 0.14906666666666665,
      "grad_norm": 1.5491554737091064,
      "learning_rate": 0.0001702244943320738,
      "loss": 2.2809,
      "step": 6708
    },
    {
      "epoch": 0.14908888888888888,
      "grad_norm": 1.3913965225219727,
      "learning_rate": 0.0001702200488997555,
      "loss": 2.1811,
      "step": 6709
    },
    {
      "epoch": 0.1491111111111111,
      "grad_norm": 1.3296453952789307,
      "learning_rate": 0.00017021560346743722,
      "loss": 1.9401,
      "step": 6710
    },
    {
      "epoch": 0.14913333333333334,
      "grad_norm": 1.21726655960083,
      "learning_rate": 0.00017021115803511893,
      "loss": 2.0165,
      "step": 6711
    },
    {
      "epoch": 0.14915555555555557,
      "grad_norm": 1.4922713041305542,
      "learning_rate": 0.00017020671260280064,
      "loss": 2.1032,
      "step": 6712
    },
    {
      "epoch": 0.14917777777777777,
      "grad_norm": 1.3770451545715332,
      "learning_rate": 0.00017020226717048232,
      "loss": 2.2697,
      "step": 6713
    },
    {
      "epoch": 0.1492,
      "grad_norm": 1.3279670476913452,
      "learning_rate": 0.00017019782173816406,
      "loss": 1.8666,
      "step": 6714
    },
    {
      "epoch": 0.14922222222222223,
      "grad_norm": 1.2717597484588623,
      "learning_rate": 0.00017019337630584577,
      "loss": 1.7912,
      "step": 6715
    },
    {
      "epoch": 0.14924444444444446,
      "grad_norm": 1.3791956901550293,
      "learning_rate": 0.00017018893087352745,
      "loss": 1.6717,
      "step": 6716
    },
    {
      "epoch": 0.14926666666666666,
      "grad_norm": 1.3830513954162598,
      "learning_rate": 0.00017018448544120918,
      "loss": 1.89,
      "step": 6717
    },
    {
      "epoch": 0.1492888888888889,
      "grad_norm": 1.5410813093185425,
      "learning_rate": 0.00017018004000889087,
      "loss": 2.3975,
      "step": 6718
    },
    {
      "epoch": 0.14931111111111112,
      "grad_norm": 1.3024448156356812,
      "learning_rate": 0.00017017559457657258,
      "loss": 1.6307,
      "step": 6719
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 1.4351106882095337,
      "learning_rate": 0.0001701711491442543,
      "loss": 1.8088,
      "step": 6720
    },
    {
      "epoch": 0.14935555555555555,
      "grad_norm": 1.5192508697509766,
      "learning_rate": 0.000170166703711936,
      "loss": 2.2135,
      "step": 6721
    },
    {
      "epoch": 0.14937777777777778,
      "grad_norm": 1.3405381441116333,
      "learning_rate": 0.00017016225827961768,
      "loss": 2.0643,
      "step": 6722
    },
    {
      "epoch": 0.1494,
      "grad_norm": 1.8473323583602905,
      "learning_rate": 0.00017015781284729942,
      "loss": 2.3784,
      "step": 6723
    },
    {
      "epoch": 0.14942222222222223,
      "grad_norm": 1.938373327255249,
      "learning_rate": 0.00017015336741498113,
      "loss": 2.4962,
      "step": 6724
    },
    {
      "epoch": 0.14944444444444444,
      "grad_norm": 1.5627977848052979,
      "learning_rate": 0.0001701489219826628,
      "loss": 2.3419,
      "step": 6725
    },
    {
      "epoch": 0.14946666666666666,
      "grad_norm": 1.4593071937561035,
      "learning_rate": 0.00017014447655034454,
      "loss": 1.8044,
      "step": 6726
    },
    {
      "epoch": 0.1494888888888889,
      "grad_norm": 1.5428873300552368,
      "learning_rate": 0.00017014003111802623,
      "loss": 2.3019,
      "step": 6727
    },
    {
      "epoch": 0.14951111111111112,
      "grad_norm": 1.4468404054641724,
      "learning_rate": 0.00017013558568570794,
      "loss": 2.1031,
      "step": 6728
    },
    {
      "epoch": 0.14953333333333332,
      "grad_norm": 1.8720792531967163,
      "learning_rate": 0.00017013114025338965,
      "loss": 2.3083,
      "step": 6729
    },
    {
      "epoch": 0.14955555555555555,
      "grad_norm": 1.6453827619552612,
      "learning_rate": 0.00017012669482107136,
      "loss": 2.1787,
      "step": 6730
    },
    {
      "epoch": 0.14957777777777778,
      "grad_norm": 1.347731113433838,
      "learning_rate": 0.00017012224938875307,
      "loss": 1.9224,
      "step": 6731
    },
    {
      "epoch": 0.1496,
      "grad_norm": 1.2479963302612305,
      "learning_rate": 0.00017011780395643478,
      "loss": 1.8502,
      "step": 6732
    },
    {
      "epoch": 0.1496222222222222,
      "grad_norm": 1.42824125289917,
      "learning_rate": 0.00017011335852411648,
      "loss": 2.1793,
      "step": 6733
    },
    {
      "epoch": 0.14964444444444444,
      "grad_norm": 1.627131700515747,
      "learning_rate": 0.0001701089130917982,
      "loss": 2.2537,
      "step": 6734
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 1.593784213066101,
      "learning_rate": 0.0001701044676594799,
      "loss": 1.9793,
      "step": 6735
    },
    {
      "epoch": 0.1496888888888889,
      "grad_norm": 1.5035276412963867,
      "learning_rate": 0.00017010002222716159,
      "loss": 2.2011,
      "step": 6736
    },
    {
      "epoch": 0.1497111111111111,
      "grad_norm": 1.3292913436889648,
      "learning_rate": 0.00017009557679484332,
      "loss": 1.9045,
      "step": 6737
    },
    {
      "epoch": 0.14973333333333333,
      "grad_norm": 1.5627071857452393,
      "learning_rate": 0.000170091131362525,
      "loss": 1.9021,
      "step": 6738
    },
    {
      "epoch": 0.14975555555555556,
      "grad_norm": 3.141303300857544,
      "learning_rate": 0.00017008668593020672,
      "loss": 1.1261,
      "step": 6739
    },
    {
      "epoch": 0.1497777777777778,
      "grad_norm": 1.3148369789123535,
      "learning_rate": 0.00017008224049788842,
      "loss": 1.5348,
      "step": 6740
    },
    {
      "epoch": 0.1498,
      "grad_norm": 1.4272749423980713,
      "learning_rate": 0.00017007779506557013,
      "loss": 1.5276,
      "step": 6741
    },
    {
      "epoch": 0.14982222222222222,
      "grad_norm": 1.7458128929138184,
      "learning_rate": 0.00017007334963325184,
      "loss": 1.9583,
      "step": 6742
    },
    {
      "epoch": 0.14984444444444445,
      "grad_norm": 1.562856674194336,
      "learning_rate": 0.00017006890420093355,
      "loss": 1.8675,
      "step": 6743
    },
    {
      "epoch": 0.14986666666666668,
      "grad_norm": 1.7921479940414429,
      "learning_rate": 0.00017006445876861526,
      "loss": 2.3959,
      "step": 6744
    },
    {
      "epoch": 0.14988888888888888,
      "grad_norm": 1.450354814529419,
      "learning_rate": 0.00017006001333629695,
      "loss": 1.7074,
      "step": 6745
    },
    {
      "epoch": 0.1499111111111111,
      "grad_norm": 1.4739431142807007,
      "learning_rate": 0.00017005556790397868,
      "loss": 2.0168,
      "step": 6746
    },
    {
      "epoch": 0.14993333333333334,
      "grad_norm": 1.5892977714538574,
      "learning_rate": 0.00017005112247166037,
      "loss": 1.8081,
      "step": 6747
    },
    {
      "epoch": 0.14995555555555556,
      "grad_norm": 1.7268074750900269,
      "learning_rate": 0.0001700466770393421,
      "loss": 2.0553,
      "step": 6748
    },
    {
      "epoch": 0.14997777777777777,
      "grad_norm": 1.6824064254760742,
      "learning_rate": 0.00017004223160702378,
      "loss": 1.7392,
      "step": 6749
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4600120782852173,
      "learning_rate": 0.0001700377861747055,
      "loss": 1.1704,
      "step": 6750
    },
    {
      "epoch": 0.15002222222222222,
      "grad_norm": 1.6311231851577759,
      "learning_rate": 0.0001700333407423872,
      "loss": 1.3473,
      "step": 6751
    },
    {
      "epoch": 0.15004444444444445,
      "grad_norm": 0.8076052069664001,
      "learning_rate": 0.0001700288953100689,
      "loss": 1.3652,
      "step": 6752
    },
    {
      "epoch": 0.15006666666666665,
      "grad_norm": 1.2481831312179565,
      "learning_rate": 0.00017002444987775062,
      "loss": 1.991,
      "step": 6753
    },
    {
      "epoch": 0.15008888888888888,
      "grad_norm": 1.461873173713684,
      "learning_rate": 0.00017002000444543233,
      "loss": 2.8904,
      "step": 6754
    },
    {
      "epoch": 0.1501111111111111,
      "grad_norm": 1.3447104692459106,
      "learning_rate": 0.00017001555901311404,
      "loss": 2.4676,
      "step": 6755
    },
    {
      "epoch": 0.15013333333333334,
      "grad_norm": 1.354591965675354,
      "learning_rate": 0.00017001111358079572,
      "loss": 2.5447,
      "step": 6756
    },
    {
      "epoch": 0.15015555555555554,
      "grad_norm": 1.183656930923462,
      "learning_rate": 0.00017000666814847746,
      "loss": 2.102,
      "step": 6757
    },
    {
      "epoch": 0.15017777777777777,
      "grad_norm": 1.1446791887283325,
      "learning_rate": 0.00017000222271615914,
      "loss": 2.0402,
      "step": 6758
    },
    {
      "epoch": 0.1502,
      "grad_norm": 1.3941009044647217,
      "learning_rate": 0.00016999777728384085,
      "loss": 2.3244,
      "step": 6759
    },
    {
      "epoch": 0.15022222222222223,
      "grad_norm": 1.5088584423065186,
      "learning_rate": 0.00016999333185152256,
      "loss": 2.0171,
      "step": 6760
    },
    {
      "epoch": 0.15024444444444446,
      "grad_norm": 1.2893965244293213,
      "learning_rate": 0.00016998888641920427,
      "loss": 2.183,
      "step": 6761
    },
    {
      "epoch": 0.15026666666666666,
      "grad_norm": 1.4257621765136719,
      "learning_rate": 0.00016998444098688598,
      "loss": 1.8473,
      "step": 6762
    },
    {
      "epoch": 0.1502888888888889,
      "grad_norm": 1.4817800521850586,
      "learning_rate": 0.0001699799955545677,
      "loss": 2.3357,
      "step": 6763
    },
    {
      "epoch": 0.15031111111111112,
      "grad_norm": 1.3960968255996704,
      "learning_rate": 0.0001699755501222494,
      "loss": 2.1939,
      "step": 6764
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 1.318750023841858,
      "learning_rate": 0.00016997110468993108,
      "loss": 2.2086,
      "step": 6765
    },
    {
      "epoch": 0.15035555555555555,
      "grad_norm": 1.2229820489883423,
      "learning_rate": 0.00016996665925761282,
      "loss": 2.2214,
      "step": 6766
    },
    {
      "epoch": 0.15037777777777778,
      "grad_norm": 2.0221893787384033,
      "learning_rate": 0.0001699622138252945,
      "loss": 1.8564,
      "step": 6767
    },
    {
      "epoch": 0.1504,
      "grad_norm": 1.339050531387329,
      "learning_rate": 0.00016995776839297624,
      "loss": 1.72,
      "step": 6768
    },
    {
      "epoch": 0.15042222222222223,
      "grad_norm": 2.300415277481079,
      "learning_rate": 0.00016995332296065792,
      "loss": 1.8788,
      "step": 6769
    },
    {
      "epoch": 0.15044444444444444,
      "grad_norm": 1.5073379278182983,
      "learning_rate": 0.00016994887752833963,
      "loss": 2.0586,
      "step": 6770
    },
    {
      "epoch": 0.15046666666666667,
      "grad_norm": 1.4974249601364136,
      "learning_rate": 0.00016994443209602137,
      "loss": 2.0659,
      "step": 6771
    },
    {
      "epoch": 0.1504888888888889,
      "grad_norm": 1.277830958366394,
      "learning_rate": 0.00016993998666370305,
      "loss": 1.8894,
      "step": 6772
    },
    {
      "epoch": 0.15051111111111112,
      "grad_norm": 1.1960283517837524,
      "learning_rate": 0.00016993554123138476,
      "loss": 1.6838,
      "step": 6773
    },
    {
      "epoch": 0.15053333333333332,
      "grad_norm": 1.3088852167129517,
      "learning_rate": 0.00016993109579906647,
      "loss": 2.0476,
      "step": 6774
    },
    {
      "epoch": 0.15055555555555555,
      "grad_norm": 1.5801222324371338,
      "learning_rate": 0.00016992665036674818,
      "loss": 1.0976,
      "step": 6775
    },
    {
      "epoch": 0.15057777777777778,
      "grad_norm": 1.4506888389587402,
      "learning_rate": 0.00016992220493442986,
      "loss": 2.2453,
      "step": 6776
    },
    {
      "epoch": 0.1506,
      "grad_norm": 0.9679280519485474,
      "learning_rate": 0.0001699177595021116,
      "loss": 1.0892,
      "step": 6777
    },
    {
      "epoch": 0.1506222222222222,
      "grad_norm": 0.21252408623695374,
      "learning_rate": 0.00016991331406979328,
      "loss": 0.026,
      "step": 6778
    },
    {
      "epoch": 0.15064444444444444,
      "grad_norm": 1.767977237701416,
      "learning_rate": 0.000169908868637475,
      "loss": 2.2265,
      "step": 6779
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 1.9237648248672485,
      "learning_rate": 0.00016990442320515673,
      "loss": 2.399,
      "step": 6780
    },
    {
      "epoch": 0.1506888888888889,
      "grad_norm": 1.3486382961273193,
      "learning_rate": 0.0001698999777728384,
      "loss": 1.7719,
      "step": 6781
    },
    {
      "epoch": 0.1507111111111111,
      "grad_norm": 1.672643780708313,
      "learning_rate": 0.00016989553234052012,
      "loss": 2.1967,
      "step": 6782
    },
    {
      "epoch": 0.15073333333333333,
      "grad_norm": 1.5503689050674438,
      "learning_rate": 0.00016989108690820183,
      "loss": 2.091,
      "step": 6783
    },
    {
      "epoch": 0.15075555555555556,
      "grad_norm": 1.3903626203536987,
      "learning_rate": 0.00016988664147588354,
      "loss": 1.8232,
      "step": 6784
    },
    {
      "epoch": 0.1507777777777778,
      "grad_norm": 1.8250102996826172,
      "learning_rate": 0.00016988219604356522,
      "loss": 2.0249,
      "step": 6785
    },
    {
      "epoch": 0.1508,
      "grad_norm": 1.4100735187530518,
      "learning_rate": 0.00016987775061124696,
      "loss": 2.1542,
      "step": 6786
    },
    {
      "epoch": 0.15082222222222222,
      "grad_norm": 1.471866250038147,
      "learning_rate": 0.00016987330517892864,
      "loss": 2.4633,
      "step": 6787
    },
    {
      "epoch": 0.15084444444444445,
      "grad_norm": 1.651534080505371,
      "learning_rate": 0.00016986885974661038,
      "loss": 1.9224,
      "step": 6788
    },
    {
      "epoch": 0.15086666666666668,
      "grad_norm": 1.6137325763702393,
      "learning_rate": 0.0001698644143142921,
      "loss": 1.604,
      "step": 6789
    },
    {
      "epoch": 0.15088888888888888,
      "grad_norm": 1.3462358713150024,
      "learning_rate": 0.00016985996888197377,
      "loss": 1.9798,
      "step": 6790
    },
    {
      "epoch": 0.1509111111111111,
      "grad_norm": 1.705025315284729,
      "learning_rate": 0.0001698555234496555,
      "loss": 2.0418,
      "step": 6791
    },
    {
      "epoch": 0.15093333333333334,
      "grad_norm": 1.523659110069275,
      "learning_rate": 0.0001698510780173372,
      "loss": 1.9929,
      "step": 6792
    },
    {
      "epoch": 0.15095555555555557,
      "grad_norm": 1.4822601079940796,
      "learning_rate": 0.0001698466325850189,
      "loss": 2.2264,
      "step": 6793
    },
    {
      "epoch": 0.15097777777777777,
      "grad_norm": 1.3038630485534668,
      "learning_rate": 0.0001698421871527006,
      "loss": 1.5729,
      "step": 6794
    },
    {
      "epoch": 0.151,
      "grad_norm": 1.6138744354248047,
      "learning_rate": 0.00016983774172038232,
      "loss": 2.2203,
      "step": 6795
    },
    {
      "epoch": 0.15102222222222222,
      "grad_norm": 1.6162532567977905,
      "learning_rate": 0.000169833296288064,
      "loss": 1.9103,
      "step": 6796
    },
    {
      "epoch": 0.15104444444444445,
      "grad_norm": 1.460396409034729,
      "learning_rate": 0.00016982885085574574,
      "loss": 1.9826,
      "step": 6797
    },
    {
      "epoch": 0.15106666666666665,
      "grad_norm": 1.3515535593032837,
      "learning_rate": 0.00016982440542342745,
      "loss": 1.5934,
      "step": 6798
    },
    {
      "epoch": 0.15108888888888888,
      "grad_norm": 1.5065934658050537,
      "learning_rate": 0.00016981995999110913,
      "loss": 1.5424,
      "step": 6799
    },
    {
      "epoch": 0.1511111111111111,
      "grad_norm": 1.4904578924179077,
      "learning_rate": 0.00016981551455879087,
      "loss": 1.0547,
      "step": 6800
    },
    {
      "epoch": 0.15113333333333334,
      "grad_norm": 1.0596176385879517,
      "learning_rate": 0.00016981106912647255,
      "loss": 2.1958,
      "step": 6801
    },
    {
      "epoch": 0.15115555555555554,
      "grad_norm": 1.1686122417449951,
      "learning_rate": 0.00016980662369415426,
      "loss": 2.1035,
      "step": 6802
    },
    {
      "epoch": 0.15117777777777777,
      "grad_norm": 1.2182008028030396,
      "learning_rate": 0.00016980217826183597,
      "loss": 2.1809,
      "step": 6803
    },
    {
      "epoch": 0.1512,
      "grad_norm": 1.3184936046600342,
      "learning_rate": 0.00016979773282951768,
      "loss": 2.3886,
      "step": 6804
    },
    {
      "epoch": 0.15122222222222223,
      "grad_norm": 1.3936223983764648,
      "learning_rate": 0.0001697932873971994,
      "loss": 2.7432,
      "step": 6805
    },
    {
      "epoch": 0.15124444444444443,
      "grad_norm": 1.3947540521621704,
      "learning_rate": 0.0001697888419648811,
      "loss": 2.161,
      "step": 6806
    },
    {
      "epoch": 0.15126666666666666,
      "grad_norm": 1.313176155090332,
      "learning_rate": 0.0001697843965325628,
      "loss": 2.1685,
      "step": 6807
    },
    {
      "epoch": 0.1512888888888889,
      "grad_norm": 1.5082099437713623,
      "learning_rate": 0.00016977995110024452,
      "loss": 2.2212,
      "step": 6808
    },
    {
      "epoch": 0.15131111111111112,
      "grad_norm": 1.3159555196762085,
      "learning_rate": 0.00016977550566792623,
      "loss": 2.3264,
      "step": 6809
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 1.4397680759429932,
      "learning_rate": 0.0001697710602356079,
      "loss": 2.5804,
      "step": 6810
    },
    {
      "epoch": 0.15135555555555555,
      "grad_norm": 1.3122655153274536,
      "learning_rate": 0.00016976661480328965,
      "loss": 2.2583,
      "step": 6811
    },
    {
      "epoch": 0.15137777777777778,
      "grad_norm": 1.1538348197937012,
      "learning_rate": 0.00016976216937097133,
      "loss": 2.0062,
      "step": 6812
    },
    {
      "epoch": 0.1514,
      "grad_norm": 1.3784266710281372,
      "learning_rate": 0.00016975772393865304,
      "loss": 1.5888,
      "step": 6813
    },
    {
      "epoch": 0.15142222222222224,
      "grad_norm": 1.358240008354187,
      "learning_rate": 0.00016975327850633475,
      "loss": 2.2131,
      "step": 6814
    },
    {
      "epoch": 0.15144444444444444,
      "grad_norm": 1.227087378501892,
      "learning_rate": 0.00016974883307401646,
      "loss": 1.6981,
      "step": 6815
    },
    {
      "epoch": 0.15146666666666667,
      "grad_norm": 1.541685938835144,
      "learning_rate": 0.00016974438764169817,
      "loss": 2.2223,
      "step": 6816
    },
    {
      "epoch": 0.1514888888888889,
      "grad_norm": 1.363860845565796,
      "learning_rate": 0.00016973994220937988,
      "loss": 1.8861,
      "step": 6817
    },
    {
      "epoch": 0.15151111111111112,
      "grad_norm": 1.4190964698791504,
      "learning_rate": 0.00016973549677706159,
      "loss": 1.7801,
      "step": 6818
    },
    {
      "epoch": 0.15153333333333333,
      "grad_norm": 1.6030021905899048,
      "learning_rate": 0.00016973105134474327,
      "loss": 2.3918,
      "step": 6819
    },
    {
      "epoch": 0.15155555555555555,
      "grad_norm": 1.4680219888687134,
      "learning_rate": 0.000169726605912425,
      "loss": 2.2803,
      "step": 6820
    },
    {
      "epoch": 0.15157777777777778,
      "grad_norm": 1.5968509912490845,
      "learning_rate": 0.0001697221604801067,
      "loss": 2.3831,
      "step": 6821
    },
    {
      "epoch": 0.1516,
      "grad_norm": 1.347729206085205,
      "learning_rate": 0.0001697177150477884,
      "loss": 1.418,
      "step": 6822
    },
    {
      "epoch": 0.1516222222222222,
      "grad_norm": 1.2936956882476807,
      "learning_rate": 0.0001697132696154701,
      "loss": 1.6317,
      "step": 6823
    },
    {
      "epoch": 0.15164444444444444,
      "grad_norm": 1.575217366218567,
      "learning_rate": 0.00016970882418315182,
      "loss": 1.7302,
      "step": 6824
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 14.764122009277344,
      "learning_rate": 0.00016970437875083353,
      "loss": 0.1295,
      "step": 6825
    },
    {
      "epoch": 0.1516888888888889,
      "grad_norm": 1.5483427047729492,
      "learning_rate": 0.00016969993331851524,
      "loss": 2.3731,
      "step": 6826
    },
    {
      "epoch": 0.1517111111111111,
      "grad_norm": 1.5372315645217896,
      "learning_rate": 0.00016969548788619694,
      "loss": 2.217,
      "step": 6827
    },
    {
      "epoch": 0.15173333333333333,
      "grad_norm": 1.6508359909057617,
      "learning_rate": 0.00016969104245387865,
      "loss": 2.0399,
      "step": 6828
    },
    {
      "epoch": 0.15175555555555556,
      "grad_norm": 1.559952974319458,
      "learning_rate": 0.00016968659702156036,
      "loss": 2.2346,
      "step": 6829
    },
    {
      "epoch": 0.1517777777777778,
      "grad_norm": 1.4735808372497559,
      "learning_rate": 0.00016968215158924205,
      "loss": 2.1112,
      "step": 6830
    },
    {
      "epoch": 0.1518,
      "grad_norm": 1.3887380361557007,
      "learning_rate": 0.00016967770615692378,
      "loss": 1.75,
      "step": 6831
    },
    {
      "epoch": 0.15182222222222222,
      "grad_norm": 1.4911023378372192,
      "learning_rate": 0.00016967326072460547,
      "loss": 1.6943,
      "step": 6832
    },
    {
      "epoch": 0.15184444444444445,
      "grad_norm": 1.4949568510055542,
      "learning_rate": 0.00016966881529228718,
      "loss": 1.9024,
      "step": 6833
    },
    {
      "epoch": 0.15186666666666668,
      "grad_norm": 1.6781331300735474,
      "learning_rate": 0.00016966436985996889,
      "loss": 1.9936,
      "step": 6834
    },
    {
      "epoch": 0.15188888888888888,
      "grad_norm": 1.0059226751327515,
      "learning_rate": 0.0001696599244276506,
      "loss": 0.8189,
      "step": 6835
    },
    {
      "epoch": 0.1519111111111111,
      "grad_norm": 1.5935173034667969,
      "learning_rate": 0.0001696554789953323,
      "loss": 1.877,
      "step": 6836
    },
    {
      "epoch": 0.15193333333333334,
      "grad_norm": 1.3865233659744263,
      "learning_rate": 0.00016965103356301401,
      "loss": 1.9159,
      "step": 6837
    },
    {
      "epoch": 0.15195555555555557,
      "grad_norm": 1.373193383216858,
      "learning_rate": 0.00016964658813069572,
      "loss": 1.6198,
      "step": 6838
    },
    {
      "epoch": 0.15197777777777777,
      "grad_norm": 1.5005197525024414,
      "learning_rate": 0.0001696421426983774,
      "loss": 2.0243,
      "step": 6839
    },
    {
      "epoch": 0.152,
      "grad_norm": 1.6734477281570435,
      "learning_rate": 0.00016963769726605914,
      "loss": 2.4333,
      "step": 6840
    },
    {
      "epoch": 0.15202222222222223,
      "grad_norm": 1.5978621244430542,
      "learning_rate": 0.00016963325183374083,
      "loss": 2.0487,
      "step": 6841
    },
    {
      "epoch": 0.15204444444444445,
      "grad_norm": 1.2721762657165527,
      "learning_rate": 0.00016962880640142256,
      "loss": 1.595,
      "step": 6842
    },
    {
      "epoch": 0.15206666666666666,
      "grad_norm": 1.5377081632614136,
      "learning_rate": 0.00016962436096910424,
      "loss": 1.9506,
      "step": 6843
    },
    {
      "epoch": 0.15208888888888888,
      "grad_norm": 1.2855829000473022,
      "learning_rate": 0.00016961991553678595,
      "loss": 1.4952,
      "step": 6844
    },
    {
      "epoch": 0.1521111111111111,
      "grad_norm": 1.4329155683517456,
      "learning_rate": 0.0001696154701044677,
      "loss": 1.9188,
      "step": 6845
    },
    {
      "epoch": 0.15213333333333334,
      "grad_norm": 1.4710180759429932,
      "learning_rate": 0.00016961102467214937,
      "loss": 1.8768,
      "step": 6846
    },
    {
      "epoch": 0.15215555555555554,
      "grad_norm": 1.9196407794952393,
      "learning_rate": 0.00016960657923983108,
      "loss": 1.8435,
      "step": 6847
    },
    {
      "epoch": 0.15217777777777777,
      "grad_norm": 1.723222255706787,
      "learning_rate": 0.0001696021338075128,
      "loss": 1.9062,
      "step": 6848
    },
    {
      "epoch": 0.1522,
      "grad_norm": 1.5312267541885376,
      "learning_rate": 0.0001695976883751945,
      "loss": 1.1994,
      "step": 6849
    },
    {
      "epoch": 0.15222222222222223,
      "grad_norm": 1.2574142217636108,
      "learning_rate": 0.00016959324294287618,
      "loss": 0.9329,
      "step": 6850
    },
    {
      "epoch": 0.15224444444444443,
      "grad_norm": 1.2640678882598877,
      "learning_rate": 0.00016958879751055792,
      "loss": 2.2491,
      "step": 6851
    },
    {
      "epoch": 0.15226666666666666,
      "grad_norm": 1.1847047805786133,
      "learning_rate": 0.0001695843520782396,
      "loss": 2.5142,
      "step": 6852
    },
    {
      "epoch": 0.1522888888888889,
      "grad_norm": 1.1265963315963745,
      "learning_rate": 0.00016957990664592131,
      "loss": 2.421,
      "step": 6853
    },
    {
      "epoch": 0.15231111111111112,
      "grad_norm": 1.1980180740356445,
      "learning_rate": 0.00016957546121360305,
      "loss": 1.3098,
      "step": 6854
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 1.4940353631973267,
      "learning_rate": 0.00016957101578128473,
      "loss": 2.2983,
      "step": 6855
    },
    {
      "epoch": 0.15235555555555555,
      "grad_norm": 1.4003055095672607,
      "learning_rate": 0.00016956657034896644,
      "loss": 2.2767,
      "step": 6856
    },
    {
      "epoch": 0.15237777777777778,
      "grad_norm": 1.3334945440292358,
      "learning_rate": 0.00016956212491664815,
      "loss": 2.7705,
      "step": 6857
    },
    {
      "epoch": 0.1524,
      "grad_norm": 1.2642390727996826,
      "learning_rate": 0.00016955767948432986,
      "loss": 2.215,
      "step": 6858
    },
    {
      "epoch": 0.1524222222222222,
      "grad_norm": 1.5524604320526123,
      "learning_rate": 0.00016955323405201154,
      "loss": 2.2971,
      "step": 6859
    },
    {
      "epoch": 0.15244444444444444,
      "grad_norm": 1.2808566093444824,
      "learning_rate": 0.00016954878861969328,
      "loss": 2.3961,
      "step": 6860
    },
    {
      "epoch": 0.15246666666666667,
      "grad_norm": 1.234553575515747,
      "learning_rate": 0.00016954434318737496,
      "loss": 0.032,
      "step": 6861
    },
    {
      "epoch": 0.1524888888888889,
      "grad_norm": 1.2333391904830933,
      "learning_rate": 0.0001695398977550567,
      "loss": 2.25,
      "step": 6862
    },
    {
      "epoch": 0.1525111111111111,
      "grad_norm": 1.3151731491088867,
      "learning_rate": 0.0001695354523227384,
      "loss": 1.9446,
      "step": 6863
    },
    {
      "epoch": 0.15253333333333333,
      "grad_norm": 1.2527989149093628,
      "learning_rate": 0.0001695310068904201,
      "loss": 1.8235,
      "step": 6864
    },
    {
      "epoch": 0.15255555555555556,
      "grad_norm": 1.603735089302063,
      "learning_rate": 0.00016952656145810183,
      "loss": 2.1913,
      "step": 6865
    },
    {
      "epoch": 0.15257777777777778,
      "grad_norm": 1.182815432548523,
      "learning_rate": 0.0001695221160257835,
      "loss": 1.9549,
      "step": 6866
    },
    {
      "epoch": 0.1526,
      "grad_norm": 1.4405378103256226,
      "learning_rate": 0.00016951767059346522,
      "loss": 2.2755,
      "step": 6867
    },
    {
      "epoch": 0.15262222222222221,
      "grad_norm": 1.2058157920837402,
      "learning_rate": 0.00016951322516114693,
      "loss": 2.2211,
      "step": 6868
    },
    {
      "epoch": 0.15264444444444444,
      "grad_norm": 1.3689773082733154,
      "learning_rate": 0.00016950877972882864,
      "loss": 2.563,
      "step": 6869
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 1.5208547115325928,
      "learning_rate": 0.00016950433429651032,
      "loss": 1.0614,
      "step": 6870
    },
    {
      "epoch": 0.1526888888888889,
      "grad_norm": 1.3754627704620361,
      "learning_rate": 0.00016949988886419206,
      "loss": 2.0768,
      "step": 6871
    },
    {
      "epoch": 0.1527111111111111,
      "grad_norm": 1.4003698825836182,
      "learning_rate": 0.00016949544343187377,
      "loss": 1.8768,
      "step": 6872
    },
    {
      "epoch": 0.15273333333333333,
      "grad_norm": 1.2554478645324707,
      "learning_rate": 0.00016949099799955545,
      "loss": 2.1363,
      "step": 6873
    },
    {
      "epoch": 0.15275555555555556,
      "grad_norm": 1.2140860557556152,
      "learning_rate": 0.0001694865525672372,
      "loss": 1.9014,
      "step": 6874
    },
    {
      "epoch": 0.1527777777777778,
      "grad_norm": 1.307154655456543,
      "learning_rate": 0.00016948210713491887,
      "loss": 1.9224,
      "step": 6875
    },
    {
      "epoch": 0.1528,
      "grad_norm": 1.3596714735031128,
      "learning_rate": 0.00016947766170260058,
      "loss": 1.8518,
      "step": 6876
    },
    {
      "epoch": 0.15282222222222222,
      "grad_norm": 1.4660354852676392,
      "learning_rate": 0.0001694732162702823,
      "loss": 2.1653,
      "step": 6877
    },
    {
      "epoch": 0.15284444444444445,
      "grad_norm": 1.275715708732605,
      "learning_rate": 0.000169468770837964,
      "loss": 2.0168,
      "step": 6878
    },
    {
      "epoch": 0.15286666666666668,
      "grad_norm": 1.705159068107605,
      "learning_rate": 0.0001694643254056457,
      "loss": 1.4216,
      "step": 6879
    },
    {
      "epoch": 0.15288888888888888,
      "grad_norm": 1.3380540609359741,
      "learning_rate": 0.00016945987997332742,
      "loss": 2.0518,
      "step": 6880
    },
    {
      "epoch": 0.1529111111111111,
      "grad_norm": 1.7157375812530518,
      "learning_rate": 0.00016945543454100913,
      "loss": 2.076,
      "step": 6881
    },
    {
      "epoch": 0.15293333333333334,
      "grad_norm": 1.0103063583374023,
      "learning_rate": 0.00016945098910869084,
      "loss": 0.6386,
      "step": 6882
    },
    {
      "epoch": 0.15295555555555557,
      "grad_norm": 1.080812931060791,
      "learning_rate": 0.00016944654367637255,
      "loss": 1.1117,
      "step": 6883
    },
    {
      "epoch": 0.15297777777777777,
      "grad_norm": 1.5235449075698853,
      "learning_rate": 0.00016944209824405423,
      "loss": 2.317,
      "step": 6884
    },
    {
      "epoch": 0.153,
      "grad_norm": 1.4528274536132812,
      "learning_rate": 0.00016943765281173597,
      "loss": 1.8594,
      "step": 6885
    },
    {
      "epoch": 0.15302222222222223,
      "grad_norm": 1.5423728227615356,
      "learning_rate": 0.00016943320737941765,
      "loss": 2.003,
      "step": 6886
    },
    {
      "epoch": 0.15304444444444446,
      "grad_norm": 1.55413818359375,
      "learning_rate": 0.00016942876194709936,
      "loss": 2.2798,
      "step": 6887
    },
    {
      "epoch": 0.15306666666666666,
      "grad_norm": 1.370926022529602,
      "learning_rate": 0.00016942431651478107,
      "loss": 1.7219,
      "step": 6888
    },
    {
      "epoch": 0.15308888888888889,
      "grad_norm": 1.333479404449463,
      "learning_rate": 0.00016941987108246278,
      "loss": 1.8365,
      "step": 6889
    },
    {
      "epoch": 0.15311111111111111,
      "grad_norm": 1.5679283142089844,
      "learning_rate": 0.0001694154256501445,
      "loss": 1.8068,
      "step": 6890
    },
    {
      "epoch": 0.15313333333333334,
      "grad_norm": 1.285895824432373,
      "learning_rate": 0.0001694109802178262,
      "loss": 1.659,
      "step": 6891
    },
    {
      "epoch": 0.15315555555555554,
      "grad_norm": 1.4053288698196411,
      "learning_rate": 0.0001694065347855079,
      "loss": 1.5426,
      "step": 6892
    },
    {
      "epoch": 0.15317777777777777,
      "grad_norm": 1.5222963094711304,
      "learning_rate": 0.0001694020893531896,
      "loss": 1.9195,
      "step": 6893
    },
    {
      "epoch": 0.1532,
      "grad_norm": 1.7173439264297485,
      "learning_rate": 0.00016939764392087133,
      "loss": 2.3668,
      "step": 6894
    },
    {
      "epoch": 0.15322222222222223,
      "grad_norm": 1.26564621925354,
      "learning_rate": 0.000169393198488553,
      "loss": 1.5519,
      "step": 6895
    },
    {
      "epoch": 0.15324444444444443,
      "grad_norm": 1.5005394220352173,
      "learning_rate": 0.00016938875305623472,
      "loss": 1.8346,
      "step": 6896
    },
    {
      "epoch": 0.15326666666666666,
      "grad_norm": 1.553726315498352,
      "learning_rate": 0.00016938430762391643,
      "loss": 1.9291,
      "step": 6897
    },
    {
      "epoch": 0.1532888888888889,
      "grad_norm": 1.4863026142120361,
      "learning_rate": 0.00016937986219159814,
      "loss": 2.0752,
      "step": 6898
    },
    {
      "epoch": 0.15331111111111112,
      "grad_norm": 1.5711445808410645,
      "learning_rate": 0.00016937541675927985,
      "loss": 2.2127,
      "step": 6899
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 1.4654184579849243,
      "learning_rate": 0.00016937097132696156,
      "loss": 1.6765,
      "step": 6900
    },
    {
      "epoch": 0.15335555555555555,
      "grad_norm": 2.3174710273742676,
      "learning_rate": 0.00016936652589464327,
      "loss": 1.3576,
      "step": 6901
    },
    {
      "epoch": 0.15337777777777778,
      "grad_norm": 1.38711678981781,
      "learning_rate": 0.00016936208046232498,
      "loss": 1.4194,
      "step": 6902
    },
    {
      "epoch": 0.1534,
      "grad_norm": 1.3937782049179077,
      "learning_rate": 0.00016935763503000669,
      "loss": 2.5436,
      "step": 6903
    },
    {
      "epoch": 0.1534222222222222,
      "grad_norm": 1.143100380897522,
      "learning_rate": 0.00016935318959768837,
      "loss": 0.0334,
      "step": 6904
    },
    {
      "epoch": 0.15344444444444444,
      "grad_norm": 1.3305059671401978,
      "learning_rate": 0.0001693487441653701,
      "loss": 2.2944,
      "step": 6905
    },
    {
      "epoch": 0.15346666666666667,
      "grad_norm": 1.4922428131103516,
      "learning_rate": 0.0001693442987330518,
      "loss": 2.4683,
      "step": 6906
    },
    {
      "epoch": 0.1534888888888889,
      "grad_norm": 1.225356101989746,
      "learning_rate": 0.0001693398533007335,
      "loss": 2.075,
      "step": 6907
    },
    {
      "epoch": 0.1535111111111111,
      "grad_norm": 1.1249796152114868,
      "learning_rate": 0.0001693354078684152,
      "loss": 1.8395,
      "step": 6908
    },
    {
      "epoch": 0.15353333333333333,
      "grad_norm": 1.350643277168274,
      "learning_rate": 0.00016933096243609692,
      "loss": 2.4892,
      "step": 6909
    },
    {
      "epoch": 0.15355555555555556,
      "grad_norm": 1.8700460195541382,
      "learning_rate": 0.00016932651700377863,
      "loss": 2.9241,
      "step": 6910
    },
    {
      "epoch": 0.15357777777777779,
      "grad_norm": 1.3995648622512817,
      "learning_rate": 0.00016932207157146034,
      "loss": 2.024,
      "step": 6911
    },
    {
      "epoch": 0.1536,
      "grad_norm": 1.4248446226119995,
      "learning_rate": 0.00016931762613914205,
      "loss": 2.4811,
      "step": 6912
    },
    {
      "epoch": 0.15362222222222222,
      "grad_norm": 1.240273118019104,
      "learning_rate": 0.00016931318070682373,
      "loss": 2.3951,
      "step": 6913
    },
    {
      "epoch": 0.15364444444444444,
      "grad_norm": 1.2467833757400513,
      "learning_rate": 0.00016930873527450546,
      "loss": 2.1386,
      "step": 6914
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 1.5637972354888916,
      "learning_rate": 0.00016930428984218715,
      "loss": 1.8349,
      "step": 6915
    },
    {
      "epoch": 0.1536888888888889,
      "grad_norm": 1.3431156873703003,
      "learning_rate": 0.00016929984440986886,
      "loss": 2.3412,
      "step": 6916
    },
    {
      "epoch": 0.1537111111111111,
      "grad_norm": 1.390584945678711,
      "learning_rate": 0.00016929539897755057,
      "loss": 2.2856,
      "step": 6917
    },
    {
      "epoch": 0.15373333333333333,
      "grad_norm": 1.310897707939148,
      "learning_rate": 0.00016929095354523228,
      "loss": 0.8511,
      "step": 6918
    },
    {
      "epoch": 0.15375555555555556,
      "grad_norm": 1.6327213048934937,
      "learning_rate": 0.000169286508112914,
      "loss": 2.5866,
      "step": 6919
    },
    {
      "epoch": 0.1537777777777778,
      "grad_norm": 1.4411664009094238,
      "learning_rate": 0.0001692820626805957,
      "loss": 1.8125,
      "step": 6920
    },
    {
      "epoch": 0.1538,
      "grad_norm": 1.4081103801727295,
      "learning_rate": 0.0001692776172482774,
      "loss": 2.6789,
      "step": 6921
    },
    {
      "epoch": 0.15382222222222222,
      "grad_norm": 1.3833121061325073,
      "learning_rate": 0.00016927317181595911,
      "loss": 1.7219,
      "step": 6922
    },
    {
      "epoch": 0.15384444444444445,
      "grad_norm": 1.725785732269287,
      "learning_rate": 0.00016926872638364082,
      "loss": 2.4257,
      "step": 6923
    },
    {
      "epoch": 0.15386666666666668,
      "grad_norm": 1.4047024250030518,
      "learning_rate": 0.0001692642809513225,
      "loss": 1.8233,
      "step": 6924
    },
    {
      "epoch": 0.15388888888888888,
      "grad_norm": 1.3227201700210571,
      "learning_rate": 0.00016925983551900424,
      "loss": 2.1628,
      "step": 6925
    },
    {
      "epoch": 0.1539111111111111,
      "grad_norm": 1.2694854736328125,
      "learning_rate": 0.00016925539008668593,
      "loss": 1.8372,
      "step": 6926
    },
    {
      "epoch": 0.15393333333333334,
      "grad_norm": 1.511398196220398,
      "learning_rate": 0.00016925094465436764,
      "loss": 1.7465,
      "step": 6927
    },
    {
      "epoch": 0.15395555555555557,
      "grad_norm": 1.4573781490325928,
      "learning_rate": 0.00016924649922204937,
      "loss": 2.5462,
      "step": 6928
    },
    {
      "epoch": 0.15397777777777777,
      "grad_norm": 1.482893705368042,
      "learning_rate": 0.00016924205378973106,
      "loss": 2.0685,
      "step": 6929
    },
    {
      "epoch": 0.154,
      "grad_norm": 1.3909357786178589,
      "learning_rate": 0.00016923760835741276,
      "loss": 1.755,
      "step": 6930
    },
    {
      "epoch": 0.15402222222222223,
      "grad_norm": 1.2862350940704346,
      "learning_rate": 0.00016923316292509447,
      "loss": 1.6596,
      "step": 6931
    },
    {
      "epoch": 0.15404444444444446,
      "grad_norm": 1.2519901990890503,
      "learning_rate": 0.00016922871749277618,
      "loss": 1.0178,
      "step": 6932
    },
    {
      "epoch": 0.15406666666666666,
      "grad_norm": 1.6345007419586182,
      "learning_rate": 0.00016922427206045787,
      "loss": 1.8048,
      "step": 6933
    },
    {
      "epoch": 0.1540888888888889,
      "grad_norm": 1.633400797843933,
      "learning_rate": 0.0001692198266281396,
      "loss": 2.0158,
      "step": 6934
    },
    {
      "epoch": 0.15411111111111112,
      "grad_norm": 1.4876536130905151,
      "learning_rate": 0.00016921538119582129,
      "loss": 2.1299,
      "step": 6935
    },
    {
      "epoch": 0.15413333333333334,
      "grad_norm": 1.3657249212265015,
      "learning_rate": 0.000169210935763503,
      "loss": 1.9501,
      "step": 6936
    },
    {
      "epoch": 0.15415555555555555,
      "grad_norm": 1.29475998878479,
      "learning_rate": 0.00016920649033118473,
      "loss": 1.9388,
      "step": 6937
    },
    {
      "epoch": 0.15417777777777777,
      "grad_norm": 1.448150634765625,
      "learning_rate": 0.00016920204489886641,
      "loss": 2.1069,
      "step": 6938
    },
    {
      "epoch": 0.1542,
      "grad_norm": 1.6100858449935913,
      "learning_rate": 0.00016919759946654815,
      "loss": 2.2174,
      "step": 6939
    },
    {
      "epoch": 0.15422222222222223,
      "grad_norm": 1.5422800779342651,
      "learning_rate": 0.00016919315403422983,
      "loss": 2.1116,
      "step": 6940
    },
    {
      "epoch": 0.15424444444444443,
      "grad_norm": 1.4122941493988037,
      "learning_rate": 0.00016918870860191154,
      "loss": 1.6591,
      "step": 6941
    },
    {
      "epoch": 0.15426666666666666,
      "grad_norm": 1.603590965270996,
      "learning_rate": 0.00016918426316959325,
      "loss": 1.9793,
      "step": 6942
    },
    {
      "epoch": 0.1542888888888889,
      "grad_norm": 1.548937439918518,
      "learning_rate": 0.00016917981773727496,
      "loss": 1.7771,
      "step": 6943
    },
    {
      "epoch": 0.15431111111111112,
      "grad_norm": 1.3265517950057983,
      "learning_rate": 0.00016917537230495665,
      "loss": 1.441,
      "step": 6944
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 1.3864303827285767,
      "learning_rate": 0.00016917092687263838,
      "loss": 1.6825,
      "step": 6945
    },
    {
      "epoch": 0.15435555555555555,
      "grad_norm": 2.1858699321746826,
      "learning_rate": 0.0001691664814403201,
      "loss": 2.1497,
      "step": 6946
    },
    {
      "epoch": 0.15437777777777778,
      "grad_norm": 1.549801230430603,
      "learning_rate": 0.00016916203600800177,
      "loss": 2.0692,
      "step": 6947
    },
    {
      "epoch": 0.1544,
      "grad_norm": 1.3899685144424438,
      "learning_rate": 0.0001691575905756835,
      "loss": 1.9102,
      "step": 6948
    },
    {
      "epoch": 0.1544222222222222,
      "grad_norm": 1.5043220520019531,
      "learning_rate": 0.0001691531451433652,
      "loss": 1.7754,
      "step": 6949
    },
    {
      "epoch": 0.15444444444444444,
      "grad_norm": 1.9214950799942017,
      "learning_rate": 0.0001691486997110469,
      "loss": 1.665,
      "step": 6950
    },
    {
      "epoch": 0.15446666666666667,
      "grad_norm": 1.1153554916381836,
      "learning_rate": 0.0001691442542787286,
      "loss": 2.3691,
      "step": 6951
    },
    {
      "epoch": 0.1544888888888889,
      "grad_norm": 1.6202548742294312,
      "learning_rate": 0.00016913980884641032,
      "loss": 1.4758,
      "step": 6952
    },
    {
      "epoch": 0.1545111111111111,
      "grad_norm": 1.2584246397018433,
      "learning_rate": 0.00016913536341409203,
      "loss": 2.2213,
      "step": 6953
    },
    {
      "epoch": 0.15453333333333333,
      "grad_norm": 1.4047155380249023,
      "learning_rate": 0.00016913091798177374,
      "loss": 2.4398,
      "step": 6954
    },
    {
      "epoch": 0.15455555555555556,
      "grad_norm": 1.1235949993133545,
      "learning_rate": 0.00016912647254945545,
      "loss": 1.9065,
      "step": 6955
    },
    {
      "epoch": 0.1545777777777778,
      "grad_norm": 1.1859548091888428,
      "learning_rate": 0.00016912202711713716,
      "loss": 1.2431,
      "step": 6956
    },
    {
      "epoch": 0.1546,
      "grad_norm": 0.9577974677085876,
      "learning_rate": 0.00016911758168481887,
      "loss": 1.2388,
      "step": 6957
    },
    {
      "epoch": 0.15462222222222222,
      "grad_norm": 1.2198457717895508,
      "learning_rate": 0.00016911313625250055,
      "loss": 1.7908,
      "step": 6958
    },
    {
      "epoch": 0.15464444444444445,
      "grad_norm": 1.4442172050476074,
      "learning_rate": 0.0001691086908201823,
      "loss": 2.2244,
      "step": 6959
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 1.2821184396743774,
      "learning_rate": 0.00016910424538786397,
      "loss": 2.1059,
      "step": 6960
    },
    {
      "epoch": 0.15468888888888888,
      "grad_norm": 1.330383539199829,
      "learning_rate": 0.00016909979995554568,
      "loss": 2.2731,
      "step": 6961
    },
    {
      "epoch": 0.1547111111111111,
      "grad_norm": 1.3994271755218506,
      "learning_rate": 0.0001690953545232274,
      "loss": 2.1104,
      "step": 6962
    },
    {
      "epoch": 0.15473333333333333,
      "grad_norm": 1.3987576961517334,
      "learning_rate": 0.0001690909090909091,
      "loss": 2.176,
      "step": 6963
    },
    {
      "epoch": 0.15475555555555556,
      "grad_norm": 1.527890682220459,
      "learning_rate": 0.0001690864636585908,
      "loss": 2.3189,
      "step": 6964
    },
    {
      "epoch": 0.15477777777777776,
      "grad_norm": 1.3781741857528687,
      "learning_rate": 0.00016908201822627252,
      "loss": 2.3317,
      "step": 6965
    },
    {
      "epoch": 0.1548,
      "grad_norm": 2.049527883529663,
      "learning_rate": 0.00016907757279395423,
      "loss": 1.8247,
      "step": 6966
    },
    {
      "epoch": 0.15482222222222222,
      "grad_norm": 1.353248119354248,
      "learning_rate": 0.0001690731273616359,
      "loss": 2.2009,
      "step": 6967
    },
    {
      "epoch": 0.15484444444444445,
      "grad_norm": 1.9760806560516357,
      "learning_rate": 0.00016906868192931765,
      "loss": 0.0574,
      "step": 6968
    },
    {
      "epoch": 0.15486666666666668,
      "grad_norm": 1.3463200330734253,
      "learning_rate": 0.00016906423649699933,
      "loss": 2.1898,
      "step": 6969
    },
    {
      "epoch": 0.15488888888888888,
      "grad_norm": 1.421320915222168,
      "learning_rate": 0.00016905979106468104,
      "loss": 1.9539,
      "step": 6970
    },
    {
      "epoch": 0.1549111111111111,
      "grad_norm": 1.3855772018432617,
      "learning_rate": 0.00016905534563236275,
      "loss": 1.986,
      "step": 6971
    },
    {
      "epoch": 0.15493333333333334,
      "grad_norm": 1.4979124069213867,
      "learning_rate": 0.00016905090020004446,
      "loss": 1.8158,
      "step": 6972
    },
    {
      "epoch": 0.15495555555555557,
      "grad_norm": 1.3047778606414795,
      "learning_rate": 0.00016904645476772617,
      "loss": 1.5625,
      "step": 6973
    },
    {
      "epoch": 0.15497777777777777,
      "grad_norm": 1.3506489992141724,
      "learning_rate": 0.00016904200933540788,
      "loss": 2.2456,
      "step": 6974
    },
    {
      "epoch": 0.155,
      "grad_norm": 1.3357282876968384,
      "learning_rate": 0.0001690375639030896,
      "loss": 2.0401,
      "step": 6975
    },
    {
      "epoch": 0.15502222222222223,
      "grad_norm": 1.5785586833953857,
      "learning_rate": 0.0001690331184707713,
      "loss": 2.1401,
      "step": 6976
    },
    {
      "epoch": 0.15504444444444446,
      "grad_norm": 2.114210367202759,
      "learning_rate": 0.000169028673038453,
      "loss": 2.4034,
      "step": 6977
    },
    {
      "epoch": 0.15506666666666666,
      "grad_norm": 1.6183321475982666,
      "learning_rate": 0.0001690242276061347,
      "loss": 0.9879,
      "step": 6978
    },
    {
      "epoch": 0.1550888888888889,
      "grad_norm": 1.3693000078201294,
      "learning_rate": 0.00016901978217381643,
      "loss": 1.611,
      "step": 6979
    },
    {
      "epoch": 0.15511111111111112,
      "grad_norm": 1.4235087633132935,
      "learning_rate": 0.0001690153367414981,
      "loss": 1.6758,
      "step": 6980
    },
    {
      "epoch": 0.15513333333333335,
      "grad_norm": 1.5784553289413452,
      "learning_rate": 0.00016901089130917982,
      "loss": 1.9929,
      "step": 6981
    },
    {
      "epoch": 0.15515555555555555,
      "grad_norm": 1.3356549739837646,
      "learning_rate": 0.00016900644587686153,
      "loss": 1.9638,
      "step": 6982
    },
    {
      "epoch": 0.15517777777777778,
      "grad_norm": 1.3971354961395264,
      "learning_rate": 0.00016900200044454324,
      "loss": 1.7315,
      "step": 6983
    },
    {
      "epoch": 0.1552,
      "grad_norm": 1.6335972547531128,
      "learning_rate": 0.00016899755501222495,
      "loss": 2.1996,
      "step": 6984
    },
    {
      "epoch": 0.15522222222222223,
      "grad_norm": 1.4932514429092407,
      "learning_rate": 0.00016899310957990666,
      "loss": 1.9163,
      "step": 6985
    },
    {
      "epoch": 0.15524444444444443,
      "grad_norm": 1.44270920753479,
      "learning_rate": 0.00016898866414758837,
      "loss": 1.9517,
      "step": 6986
    },
    {
      "epoch": 0.15526666666666666,
      "grad_norm": 1.4294644594192505,
      "learning_rate": 0.00016898421871527005,
      "loss": 1.7372,
      "step": 6987
    },
    {
      "epoch": 0.1552888888888889,
      "grad_norm": 1.8265289068222046,
      "learning_rate": 0.0001689797732829518,
      "loss": 2.0157,
      "step": 6988
    },
    {
      "epoch": 0.15531111111111112,
      "grad_norm": 1.0624850988388062,
      "learning_rate": 0.00016897532785063347,
      "loss": 0.8742,
      "step": 6989
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 1.6446616649627686,
      "learning_rate": 0.00016897088241831518,
      "loss": 1.9152,
      "step": 6990
    },
    {
      "epoch": 0.15535555555555555,
      "grad_norm": 1.5558342933654785,
      "learning_rate": 0.0001689664369859969,
      "loss": 2.0231,
      "step": 6991
    },
    {
      "epoch": 0.15537777777777778,
      "grad_norm": 1.0439081192016602,
      "learning_rate": 0.0001689619915536786,
      "loss": 1.415,
      "step": 6992
    },
    {
      "epoch": 0.1554,
      "grad_norm": 1.3606953620910645,
      "learning_rate": 0.0001689575461213603,
      "loss": 1.9561,
      "step": 6993
    },
    {
      "epoch": 0.1554222222222222,
      "grad_norm": 1.7229307889938354,
      "learning_rate": 0.00016895310068904202,
      "loss": 2.0177,
      "step": 6994
    },
    {
      "epoch": 0.15544444444444444,
      "grad_norm": 1.5261805057525635,
      "learning_rate": 0.00016894865525672373,
      "loss": 1.6285,
      "step": 6995
    },
    {
      "epoch": 0.15546666666666667,
      "grad_norm": 1.6435474157333374,
      "learning_rate": 0.00016894420982440544,
      "loss": 1.6951,
      "step": 6996
    },
    {
      "epoch": 0.1554888888888889,
      "grad_norm": 1.3521958589553833,
      "learning_rate": 0.00016893976439208715,
      "loss": 1.7753,
      "step": 6997
    },
    {
      "epoch": 0.1555111111111111,
      "grad_norm": 1.7561447620391846,
      "learning_rate": 0.00016893531895976883,
      "loss": 1.8121,
      "step": 6998
    },
    {
      "epoch": 0.15553333333333333,
      "grad_norm": 1.787217378616333,
      "learning_rate": 0.00016893087352745057,
      "loss": 1.9002,
      "step": 6999
    },
    {
      "epoch": 0.15555555555555556,
      "grad_norm": 1.3519991636276245,
      "learning_rate": 0.00016892642809513225,
      "loss": 1.7729,
      "step": 7000
    },
    {
      "epoch": 0.1555777777777778,
      "grad_norm": 1.0062949657440186,
      "learning_rate": 0.00016892198266281396,
      "loss": 1.311,
      "step": 7001
    },
    {
      "epoch": 0.1556,
      "grad_norm": 1.242849349975586,
      "learning_rate": 0.0001689175372304957,
      "loss": 2.1865,
      "step": 7002
    },
    {
      "epoch": 0.15562222222222222,
      "grad_norm": 1.1719504594802856,
      "learning_rate": 0.00016891309179817738,
      "loss": 1.3039,
      "step": 7003
    },
    {
      "epoch": 0.15564444444444445,
      "grad_norm": 1.3913590908050537,
      "learning_rate": 0.0001689086463658591,
      "loss": 2.5297,
      "step": 7004
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 1.245726227760315,
      "learning_rate": 0.0001689042009335408,
      "loss": 2.0347,
      "step": 7005
    },
    {
      "epoch": 0.15568888888888888,
      "grad_norm": 1.3748698234558105,
      "learning_rate": 0.0001688997555012225,
      "loss": 2.2949,
      "step": 7006
    },
    {
      "epoch": 0.1557111111111111,
      "grad_norm": 1.5485199689865112,
      "learning_rate": 0.0001688953100689042,
      "loss": 0.9082,
      "step": 7007
    },
    {
      "epoch": 0.15573333333333333,
      "grad_norm": 1.415160894393921,
      "learning_rate": 0.00016889086463658593,
      "loss": 1.637,
      "step": 7008
    },
    {
      "epoch": 0.15575555555555556,
      "grad_norm": 1.6548064947128296,
      "learning_rate": 0.0001688864192042676,
      "loss": 2.2347,
      "step": 7009
    },
    {
      "epoch": 0.15577777777777777,
      "grad_norm": 1.4374865293502808,
      "learning_rate": 0.00016888197377194932,
      "loss": 2.3254,
      "step": 7010
    },
    {
      "epoch": 0.1558,
      "grad_norm": 1.4427522420883179,
      "learning_rate": 0.00016887752833963105,
      "loss": 2.2594,
      "step": 7011
    },
    {
      "epoch": 0.15582222222222222,
      "grad_norm": 1.32846999168396,
      "learning_rate": 0.00016887308290731274,
      "loss": 1.8329,
      "step": 7012
    },
    {
      "epoch": 0.15584444444444445,
      "grad_norm": 1.6157346963882446,
      "learning_rate": 0.00016886863747499447,
      "loss": 0.9173,
      "step": 7013
    },
    {
      "epoch": 0.15586666666666665,
      "grad_norm": 1.2935237884521484,
      "learning_rate": 0.00016886419204267616,
      "loss": 2.4447,
      "step": 7014
    },
    {
      "epoch": 0.15588888888888888,
      "grad_norm": 1.3102738857269287,
      "learning_rate": 0.00016885974661035787,
      "loss": 2.0159,
      "step": 7015
    },
    {
      "epoch": 0.1559111111111111,
      "grad_norm": 1.452858567237854,
      "learning_rate": 0.00016885530117803958,
      "loss": 2.1103,
      "step": 7016
    },
    {
      "epoch": 0.15593333333333334,
      "grad_norm": 1.5923601388931274,
      "learning_rate": 0.00016885085574572128,
      "loss": 2.4503,
      "step": 7017
    },
    {
      "epoch": 0.15595555555555554,
      "grad_norm": 1.4980700016021729,
      "learning_rate": 0.00016884641031340297,
      "loss": 2.0086,
      "step": 7018
    },
    {
      "epoch": 0.15597777777777777,
      "grad_norm": 1.2318768501281738,
      "learning_rate": 0.0001688419648810847,
      "loss": 1.5869,
      "step": 7019
    },
    {
      "epoch": 0.156,
      "grad_norm": 1.6595268249511719,
      "learning_rate": 0.0001688375194487664,
      "loss": 2.1025,
      "step": 7020
    },
    {
      "epoch": 0.15602222222222223,
      "grad_norm": 1.8281595706939697,
      "learning_rate": 0.0001688330740164481,
      "loss": 2.2583,
      "step": 7021
    },
    {
      "epoch": 0.15604444444444446,
      "grad_norm": 1.4959938526153564,
      "learning_rate": 0.00016882862858412983,
      "loss": 1.8684,
      "step": 7022
    },
    {
      "epoch": 0.15606666666666666,
      "grad_norm": 1.7123994827270508,
      "learning_rate": 0.00016882418315181152,
      "loss": 2.1186,
      "step": 7023
    },
    {
      "epoch": 0.1560888888888889,
      "grad_norm": 1.8808387517929077,
      "learning_rate": 0.00016881973771949322,
      "loss": 2.2341,
      "step": 7024
    },
    {
      "epoch": 0.15611111111111112,
      "grad_norm": 1.6605525016784668,
      "learning_rate": 0.00016881529228717493,
      "loss": 1.9488,
      "step": 7025
    },
    {
      "epoch": 0.15613333333333335,
      "grad_norm": 1.694883108139038,
      "learning_rate": 0.00016881084685485664,
      "loss": 2.3689,
      "step": 7026
    },
    {
      "epoch": 0.15615555555555555,
      "grad_norm": 1.6196810007095337,
      "learning_rate": 0.00016880640142253835,
      "loss": 2.2996,
      "step": 7027
    },
    {
      "epoch": 0.15617777777777778,
      "grad_norm": 1.4036589860916138,
      "learning_rate": 0.00016880195599022006,
      "loss": 1.7769,
      "step": 7028
    },
    {
      "epoch": 0.1562,
      "grad_norm": 0.9000371098518372,
      "learning_rate": 0.00016879751055790177,
      "loss": 0.031,
      "step": 7029
    },
    {
      "epoch": 0.15622222222222223,
      "grad_norm": 1.2805120944976807,
      "learning_rate": 0.00016879306512558346,
      "loss": 1.9758,
      "step": 7030
    },
    {
      "epoch": 0.15624444444444444,
      "grad_norm": 1.7713642120361328,
      "learning_rate": 0.0001687886196932652,
      "loss": 1.8371,
      "step": 7031
    },
    {
      "epoch": 0.15626666666666666,
      "grad_norm": 1.3952440023422241,
      "learning_rate": 0.00016878417426094687,
      "loss": 1.8624,
      "step": 7032
    },
    {
      "epoch": 0.1562888888888889,
      "grad_norm": 1.5483555793762207,
      "learning_rate": 0.0001687797288286286,
      "loss": 1.9692,
      "step": 7033
    },
    {
      "epoch": 0.15631111111111112,
      "grad_norm": 1.376393437385559,
      "learning_rate": 0.0001687752833963103,
      "loss": 1.9691,
      "step": 7034
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 1.6034231185913086,
      "learning_rate": 0.000168770837963992,
      "loss": 1.9767,
      "step": 7035
    },
    {
      "epoch": 0.15635555555555555,
      "grad_norm": 1.2077502012252808,
      "learning_rate": 0.0001687663925316737,
      "loss": 1.5503,
      "step": 7036
    },
    {
      "epoch": 0.15637777777777778,
      "grad_norm": 1.593145728111267,
      "learning_rate": 0.00016876194709935542,
      "loss": 1.9859,
      "step": 7037
    },
    {
      "epoch": 0.1564,
      "grad_norm": 1.7173702716827393,
      "learning_rate": 0.00016875750166703713,
      "loss": 1.8151,
      "step": 7038
    },
    {
      "epoch": 0.1564222222222222,
      "grad_norm": 1.3902459144592285,
      "learning_rate": 0.00016875305623471884,
      "loss": 1.5866,
      "step": 7039
    },
    {
      "epoch": 0.15644444444444444,
      "grad_norm": 1.4328510761260986,
      "learning_rate": 0.00016874861080240055,
      "loss": 1.6542,
      "step": 7040
    },
    {
      "epoch": 0.15646666666666667,
      "grad_norm": 1.3808679580688477,
      "learning_rate": 0.00016874416537008223,
      "loss": 1.6172,
      "step": 7041
    },
    {
      "epoch": 0.1564888888888889,
      "grad_norm": 1.8119182586669922,
      "learning_rate": 0.00016873971993776397,
      "loss": 2.3526,
      "step": 7042
    },
    {
      "epoch": 0.1565111111111111,
      "grad_norm": 1.3393434286117554,
      "learning_rate": 0.00016873527450544565,
      "loss": 1.8359,
      "step": 7043
    },
    {
      "epoch": 0.15653333333333333,
      "grad_norm": 1.6827729940414429,
      "learning_rate": 0.00016873082907312736,
      "loss": 2.0263,
      "step": 7044
    },
    {
      "epoch": 0.15655555555555556,
      "grad_norm": 1.9195376634597778,
      "learning_rate": 0.00016872638364080907,
      "loss": 2.4528,
      "step": 7045
    },
    {
      "epoch": 0.1565777777777778,
      "grad_norm": 1.4045507907867432,
      "learning_rate": 0.00016872193820849078,
      "loss": 1.7214,
      "step": 7046
    },
    {
      "epoch": 0.1566,
      "grad_norm": 2.889233350753784,
      "learning_rate": 0.0001687174927761725,
      "loss": 1.1011,
      "step": 7047
    },
    {
      "epoch": 0.15662222222222222,
      "grad_norm": 1.4618068933486938,
      "learning_rate": 0.0001687130473438542,
      "loss": 1.8927,
      "step": 7048
    },
    {
      "epoch": 0.15664444444444445,
      "grad_norm": 1.931230068206787,
      "learning_rate": 0.0001687086019115359,
      "loss": 2.0973,
      "step": 7049
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 2.45094633102417,
      "learning_rate": 0.0001687041564792176,
      "loss": 1.9505,
      "step": 7050
    },
    {
      "epoch": 0.15668888888888888,
      "grad_norm": 1.1504831314086914,
      "learning_rate": 0.00016869971104689933,
      "loss": 2.2765,
      "step": 7051
    },
    {
      "epoch": 0.1567111111111111,
      "grad_norm": 1.397896409034729,
      "learning_rate": 0.000168695265614581,
      "loss": 2.8605,
      "step": 7052
    },
    {
      "epoch": 0.15673333333333334,
      "grad_norm": 0.8317567110061646,
      "learning_rate": 0.00016869082018226275,
      "loss": 0.0312,
      "step": 7053
    },
    {
      "epoch": 0.15675555555555556,
      "grad_norm": 1.326770544052124,
      "learning_rate": 0.00016868637474994443,
      "loss": 2.5107,
      "step": 7054
    },
    {
      "epoch": 0.15677777777777777,
      "grad_norm": 1.2945830821990967,
      "learning_rate": 0.00016868192931762614,
      "loss": 2.3619,
      "step": 7055
    },
    {
      "epoch": 0.1568,
      "grad_norm": 1.2875601053237915,
      "learning_rate": 0.00016867748388530785,
      "loss": 2.1186,
      "step": 7056
    },
    {
      "epoch": 0.15682222222222222,
      "grad_norm": 1.3490726947784424,
      "learning_rate": 0.00016867303845298956,
      "loss": 2.2329,
      "step": 7057
    },
    {
      "epoch": 0.15684444444444445,
      "grad_norm": 1.239639401435852,
      "learning_rate": 0.00016866859302067127,
      "loss": 2.3917,
      "step": 7058
    },
    {
      "epoch": 0.15686666666666665,
      "grad_norm": 1.1612205505371094,
      "learning_rate": 0.00016866414758835298,
      "loss": 1.9692,
      "step": 7059
    },
    {
      "epoch": 0.15688888888888888,
      "grad_norm": 1.3375838994979858,
      "learning_rate": 0.0001686597021560347,
      "loss": 2.2523,
      "step": 7060
    },
    {
      "epoch": 0.1569111111111111,
      "grad_norm": 1.3584871292114258,
      "learning_rate": 0.00016865525672371637,
      "loss": 2.2292,
      "step": 7061
    },
    {
      "epoch": 0.15693333333333334,
      "grad_norm": 1.336807370185852,
      "learning_rate": 0.0001686508112913981,
      "loss": 2.2571,
      "step": 7062
    },
    {
      "epoch": 0.15695555555555554,
      "grad_norm": 1.4071033000946045,
      "learning_rate": 0.0001686463658590798,
      "loss": 2.1781,
      "step": 7063
    },
    {
      "epoch": 0.15697777777777777,
      "grad_norm": 1.443429708480835,
      "learning_rate": 0.0001686419204267615,
      "loss": 1.6448,
      "step": 7064
    },
    {
      "epoch": 0.157,
      "grad_norm": 2.784132719039917,
      "learning_rate": 0.0001686374749944432,
      "loss": 1.5765,
      "step": 7065
    },
    {
      "epoch": 0.15702222222222223,
      "grad_norm": 1.46306312084198,
      "learning_rate": 0.00016863302956212492,
      "loss": 1.7819,
      "step": 7066
    },
    {
      "epoch": 0.15704444444444443,
      "grad_norm": 1.5914535522460938,
      "learning_rate": 0.00016862858412980663,
      "loss": 2.3051,
      "step": 7067
    },
    {
      "epoch": 0.15706666666666666,
      "grad_norm": 1.367679476737976,
      "learning_rate": 0.00016862413869748834,
      "loss": 2.1668,
      "step": 7068
    },
    {
      "epoch": 0.1570888888888889,
      "grad_norm": 1.151415228843689,
      "learning_rate": 0.00016861969326517005,
      "loss": 1.1258,
      "step": 7069
    },
    {
      "epoch": 0.15711111111111112,
      "grad_norm": 1.3987926244735718,
      "learning_rate": 0.00016861524783285176,
      "loss": 1.5533,
      "step": 7070
    },
    {
      "epoch": 0.15713333333333335,
      "grad_norm": 1.4089771509170532,
      "learning_rate": 0.00016861080240053347,
      "loss": 1.9754,
      "step": 7071
    },
    {
      "epoch": 0.15715555555555555,
      "grad_norm": 1.2087260484695435,
      "learning_rate": 0.00016860635696821515,
      "loss": 1.8739,
      "step": 7072
    },
    {
      "epoch": 0.15717777777777778,
      "grad_norm": 1.4814605712890625,
      "learning_rate": 0.0001686019115358969,
      "loss": 2.2201,
      "step": 7073
    },
    {
      "epoch": 0.1572,
      "grad_norm": 1.4740456342697144,
      "learning_rate": 0.00016859746610357857,
      "loss": 2.3072,
      "step": 7074
    },
    {
      "epoch": 0.15722222222222224,
      "grad_norm": 1.3967323303222656,
      "learning_rate": 0.00016859302067126028,
      "loss": 2.1038,
      "step": 7075
    },
    {
      "epoch": 0.15724444444444444,
      "grad_norm": 1.4262547492980957,
      "learning_rate": 0.00016858857523894202,
      "loss": 2.1322,
      "step": 7076
    },
    {
      "epoch": 0.15726666666666667,
      "grad_norm": 1.3248788118362427,
      "learning_rate": 0.0001685841298066237,
      "loss": 1.7476,
      "step": 7077
    },
    {
      "epoch": 0.1572888888888889,
      "grad_norm": 1.3546754121780396,
      "learning_rate": 0.0001685796843743054,
      "loss": 2.2308,
      "step": 7078
    },
    {
      "epoch": 0.15731111111111112,
      "grad_norm": 1.321734070777893,
      "learning_rate": 0.00016857523894198712,
      "loss": 1.3966,
      "step": 7079
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 2.1715049743652344,
      "learning_rate": 0.00016857079350966883,
      "loss": 1.6712,
      "step": 7080
    },
    {
      "epoch": 0.15735555555555555,
      "grad_norm": 1.6226497888565063,
      "learning_rate": 0.0001685663480773505,
      "loss": 1.7785,
      "step": 7081
    },
    {
      "epoch": 0.15737777777777778,
      "grad_norm": 1.7411959171295166,
      "learning_rate": 0.00016856190264503225,
      "loss": 1.693,
      "step": 7082
    },
    {
      "epoch": 0.1574,
      "grad_norm": 1.5073461532592773,
      "learning_rate": 0.00016855745721271393,
      "loss": 1.8403,
      "step": 7083
    },
    {
      "epoch": 0.1574222222222222,
      "grad_norm": 1.4585870504379272,
      "learning_rate": 0.00016855301178039564,
      "loss": 2.325,
      "step": 7084
    },
    {
      "epoch": 0.15744444444444444,
      "grad_norm": 1.5949149131774902,
      "learning_rate": 0.00016854856634807738,
      "loss": 1.9642,
      "step": 7085
    },
    {
      "epoch": 0.15746666666666667,
      "grad_norm": 1.9749109745025635,
      "learning_rate": 0.00016854412091575906,
      "loss": 2.4486,
      "step": 7086
    },
    {
      "epoch": 0.1574888888888889,
      "grad_norm": 1.6577333211898804,
      "learning_rate": 0.00016853967548344077,
      "loss": 1.8042,
      "step": 7087
    },
    {
      "epoch": 0.1575111111111111,
      "grad_norm": 1.159179925918579,
      "learning_rate": 0.00016853523005112248,
      "loss": 1.623,
      "step": 7088
    },
    {
      "epoch": 0.15753333333333333,
      "grad_norm": 1.3637081384658813,
      "learning_rate": 0.0001685307846188042,
      "loss": 1.623,
      "step": 7089
    },
    {
      "epoch": 0.15755555555555556,
      "grad_norm": 1.3571797609329224,
      "learning_rate": 0.0001685263391864859,
      "loss": 1.9257,
      "step": 7090
    },
    {
      "epoch": 0.1575777777777778,
      "grad_norm": 1.4892131090164185,
      "learning_rate": 0.0001685218937541676,
      "loss": 2.0791,
      "step": 7091
    },
    {
      "epoch": 0.1576,
      "grad_norm": 1.6799077987670898,
      "learning_rate": 0.0001685174483218493,
      "loss": 1.6929,
      "step": 7092
    },
    {
      "epoch": 0.15762222222222222,
      "grad_norm": 1.3149555921554565,
      "learning_rate": 0.00016851300288953103,
      "loss": 1.7402,
      "step": 7093
    },
    {
      "epoch": 0.15764444444444445,
      "grad_norm": 1.4950979948043823,
      "learning_rate": 0.00016850855745721274,
      "loss": 1.9577,
      "step": 7094
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 1.6374719142913818,
      "learning_rate": 0.00016850411202489442,
      "loss": 2.2172,
      "step": 7095
    },
    {
      "epoch": 0.15768888888888888,
      "grad_norm": 1.7911244630813599,
      "learning_rate": 0.00016849966659257615,
      "loss": 1.7516,
      "step": 7096
    },
    {
      "epoch": 0.1577111111111111,
      "grad_norm": 1.947274923324585,
      "learning_rate": 0.00016849522116025784,
      "loss": 2.3578,
      "step": 7097
    },
    {
      "epoch": 0.15773333333333334,
      "grad_norm": 1.820162296295166,
      "learning_rate": 0.00016849077572793955,
      "loss": 2.0192,
      "step": 7098
    },
    {
      "epoch": 0.15775555555555557,
      "grad_norm": 1.740719199180603,
      "learning_rate": 0.00016848633029562126,
      "loss": 1.4724,
      "step": 7099
    },
    {
      "epoch": 0.15777777777777777,
      "grad_norm": 1.683571696281433,
      "learning_rate": 0.00016848188486330297,
      "loss": 1.8813,
      "step": 7100
    },
    {
      "epoch": 0.1578,
      "grad_norm": 1.1379969120025635,
      "learning_rate": 0.00016847743943098468,
      "loss": 2.1328,
      "step": 7101
    },
    {
      "epoch": 0.15782222222222222,
      "grad_norm": 0.9692084789276123,
      "learning_rate": 0.00016847299399866639,
      "loss": 1.7067,
      "step": 7102
    },
    {
      "epoch": 0.15784444444444445,
      "grad_norm": 1.2682726383209229,
      "learning_rate": 0.0001684685485663481,
      "loss": 2.4006,
      "step": 7103
    },
    {
      "epoch": 0.15786666666666666,
      "grad_norm": 1.3075413703918457,
      "learning_rate": 0.00016846410313402978,
      "loss": 2.2234,
      "step": 7104
    },
    {
      "epoch": 0.15788888888888888,
      "grad_norm": 1.3689980506896973,
      "learning_rate": 0.00016845965770171151,
      "loss": 2.551,
      "step": 7105
    },
    {
      "epoch": 0.1579111111111111,
      "grad_norm": 1.255163550376892,
      "learning_rate": 0.0001684552122693932,
      "loss": 1.926,
      "step": 7106
    },
    {
      "epoch": 0.15793333333333334,
      "grad_norm": 1.3174400329589844,
      "learning_rate": 0.0001684507668370749,
      "loss": 2.4445,
      "step": 7107
    },
    {
      "epoch": 0.15795555555555554,
      "grad_norm": 1.3399103879928589,
      "learning_rate": 0.00016844632140475662,
      "loss": 1.8868,
      "step": 7108
    },
    {
      "epoch": 0.15797777777777777,
      "grad_norm": 1.2182095050811768,
      "learning_rate": 0.00016844187597243833,
      "loss": 2.0574,
      "step": 7109
    },
    {
      "epoch": 0.158,
      "grad_norm": 1.4485054016113281,
      "learning_rate": 0.00016843743054012004,
      "loss": 2.4589,
      "step": 7110
    },
    {
      "epoch": 0.15802222222222223,
      "grad_norm": 1.273429274559021,
      "learning_rate": 0.00016843298510780174,
      "loss": 2.456,
      "step": 7111
    },
    {
      "epoch": 0.15804444444444443,
      "grad_norm": 1.2535361051559448,
      "learning_rate": 0.00016842853967548345,
      "loss": 1.8957,
      "step": 7112
    },
    {
      "epoch": 0.15806666666666666,
      "grad_norm": 1.8584471940994263,
      "learning_rate": 0.00016842409424316516,
      "loss": 2.2214,
      "step": 7113
    },
    {
      "epoch": 0.1580888888888889,
      "grad_norm": 1.435279369354248,
      "learning_rate": 0.00016841964881084687,
      "loss": 2.254,
      "step": 7114
    },
    {
      "epoch": 0.15811111111111112,
      "grad_norm": 1.5876280069351196,
      "learning_rate": 0.00016841520337852856,
      "loss": 2.2397,
      "step": 7115
    },
    {
      "epoch": 0.15813333333333332,
      "grad_norm": 1.7056199312210083,
      "learning_rate": 0.0001684107579462103,
      "loss": 2.4066,
      "step": 7116
    },
    {
      "epoch": 0.15815555555555555,
      "grad_norm": 1.2769719362258911,
      "learning_rate": 0.00016840631251389198,
      "loss": 1.825,
      "step": 7117
    },
    {
      "epoch": 0.15817777777777778,
      "grad_norm": 1.226881504058838,
      "learning_rate": 0.00016840186708157369,
      "loss": 1.9428,
      "step": 7118
    },
    {
      "epoch": 0.1582,
      "grad_norm": 1.5610690116882324,
      "learning_rate": 0.0001683974216492554,
      "loss": 2.3633,
      "step": 7119
    },
    {
      "epoch": 0.1582222222222222,
      "grad_norm": 1.3620597124099731,
      "learning_rate": 0.0001683929762169371,
      "loss": 2.0712,
      "step": 7120
    },
    {
      "epoch": 0.15824444444444444,
      "grad_norm": 1.6522365808486938,
      "learning_rate": 0.00016838853078461881,
      "loss": 2.4179,
      "step": 7121
    },
    {
      "epoch": 0.15826666666666667,
      "grad_norm": 1.4207843542099,
      "learning_rate": 0.00016838408535230052,
      "loss": 1.935,
      "step": 7122
    },
    {
      "epoch": 0.1582888888888889,
      "grad_norm": 1.3268136978149414,
      "learning_rate": 0.00016837963991998223,
      "loss": 1.6144,
      "step": 7123
    },
    {
      "epoch": 0.15831111111111112,
      "grad_norm": 1.734479308128357,
      "learning_rate": 0.00016837519448766392,
      "loss": 1.6764,
      "step": 7124
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 1.5426025390625,
      "learning_rate": 0.00016837074905534565,
      "loss": 1.6192,
      "step": 7125
    },
    {
      "epoch": 0.15835555555555555,
      "grad_norm": 1.5018244981765747,
      "learning_rate": 0.00016836630362302733,
      "loss": 2.2785,
      "step": 7126
    },
    {
      "epoch": 0.15837777777777778,
      "grad_norm": 1.182798147201538,
      "learning_rate": 0.00016836185819070907,
      "loss": 1.5638,
      "step": 7127
    },
    {
      "epoch": 0.1584,
      "grad_norm": 1.1745201349258423,
      "learning_rate": 0.00016835741275839075,
      "loss": 0.7033,
      "step": 7128
    },
    {
      "epoch": 0.15842222222222221,
      "grad_norm": 1.3305946588516235,
      "learning_rate": 0.00016835296732607246,
      "loss": 1.9644,
      "step": 7129
    },
    {
      "epoch": 0.15844444444444444,
      "grad_norm": 1.5098718404769897,
      "learning_rate": 0.00016834852189375417,
      "loss": 1.9712,
      "step": 7130
    },
    {
      "epoch": 0.15846666666666667,
      "grad_norm": 1.3914306163787842,
      "learning_rate": 0.00016834407646143588,
      "loss": 1.9566,
      "step": 7131
    },
    {
      "epoch": 0.1584888888888889,
      "grad_norm": 1.5494338274002075,
      "learning_rate": 0.0001683396310291176,
      "loss": 2.2098,
      "step": 7132
    },
    {
      "epoch": 0.1585111111111111,
      "grad_norm": 1.5837974548339844,
      "learning_rate": 0.0001683351855967993,
      "loss": 2.0364,
      "step": 7133
    },
    {
      "epoch": 0.15853333333333333,
      "grad_norm": 1.3007680177688599,
      "learning_rate": 0.000168330740164481,
      "loss": 2.0,
      "step": 7134
    },
    {
      "epoch": 0.15855555555555556,
      "grad_norm": 1.210212230682373,
      "learning_rate": 0.0001683262947321627,
      "loss": 1.6549,
      "step": 7135
    },
    {
      "epoch": 0.1585777777777778,
      "grad_norm": 1.441611886024475,
      "learning_rate": 0.00016832184929984443,
      "loss": 1.9745,
      "step": 7136
    },
    {
      "epoch": 0.1586,
      "grad_norm": 1.7505724430084229,
      "learning_rate": 0.00016831740386752611,
      "loss": 1.9511,
      "step": 7137
    },
    {
      "epoch": 0.15862222222222222,
      "grad_norm": 1.323224663734436,
      "learning_rate": 0.00016831295843520782,
      "loss": 1.8609,
      "step": 7138
    },
    {
      "epoch": 0.15864444444444445,
      "grad_norm": 1.195789098739624,
      "learning_rate": 0.00016830851300288953,
      "loss": 1.2996,
      "step": 7139
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 1.5512999296188354,
      "learning_rate": 0.00016830406757057124,
      "loss": 2.3024,
      "step": 7140
    },
    {
      "epoch": 0.15868888888888888,
      "grad_norm": 2.00173282623291,
      "learning_rate": 0.00016829962213825295,
      "loss": 1.9805,
      "step": 7141
    },
    {
      "epoch": 0.1587111111111111,
      "grad_norm": 1.4707292318344116,
      "learning_rate": 0.00016829517670593466,
      "loss": 2.1089,
      "step": 7142
    },
    {
      "epoch": 0.15873333333333334,
      "grad_norm": 1.5698601007461548,
      "learning_rate": 0.00016829073127361637,
      "loss": 1.8964,
      "step": 7143
    },
    {
      "epoch": 0.15875555555555557,
      "grad_norm": 1.4979884624481201,
      "learning_rate": 0.00016828628584129805,
      "loss": 2.2631,
      "step": 7144
    },
    {
      "epoch": 0.15877777777777777,
      "grad_norm": 1.5122272968292236,
      "learning_rate": 0.0001682818404089798,
      "loss": 1.7389,
      "step": 7145
    },
    {
      "epoch": 0.1588,
      "grad_norm": 1.5660924911499023,
      "learning_rate": 0.00016827739497666147,
      "loss": 1.8826,
      "step": 7146
    },
    {
      "epoch": 0.15882222222222223,
      "grad_norm": 1.340538501739502,
      "learning_rate": 0.0001682729495443432,
      "loss": 1.4616,
      "step": 7147
    },
    {
      "epoch": 0.15884444444444445,
      "grad_norm": 1.6805391311645508,
      "learning_rate": 0.0001682685041120249,
      "loss": 1.9851,
      "step": 7148
    },
    {
      "epoch": 0.15886666666666666,
      "grad_norm": 1.5295789241790771,
      "learning_rate": 0.0001682640586797066,
      "loss": 1.7168,
      "step": 7149
    },
    {
      "epoch": 0.15888888888888889,
      "grad_norm": 1.713654637336731,
      "learning_rate": 0.00016825961324738834,
      "loss": 1.7126,
      "step": 7150
    },
    {
      "epoch": 0.15891111111111111,
      "grad_norm": 1.2881267070770264,
      "learning_rate": 0.00016825516781507002,
      "loss": 2.3375,
      "step": 7151
    },
    {
      "epoch": 0.15893333333333334,
      "grad_norm": 1.1790862083435059,
      "learning_rate": 0.00016825072238275173,
      "loss": 2.3554,
      "step": 7152
    },
    {
      "epoch": 0.15895555555555554,
      "grad_norm": 1.3332781791687012,
      "learning_rate": 0.00016824627695043344,
      "loss": 3.0094,
      "step": 7153
    },
    {
      "epoch": 0.15897777777777777,
      "grad_norm": 1.2838711738586426,
      "learning_rate": 0.00016824183151811515,
      "loss": 2.1973,
      "step": 7154
    },
    {
      "epoch": 0.159,
      "grad_norm": 1.1249110698699951,
      "learning_rate": 0.00016823738608579683,
      "loss": 1.8255,
      "step": 7155
    },
    {
      "epoch": 0.15902222222222223,
      "grad_norm": 1.448931336402893,
      "learning_rate": 0.00016823294065347857,
      "loss": 2.332,
      "step": 7156
    },
    {
      "epoch": 0.15904444444444443,
      "grad_norm": 1.1317566633224487,
      "learning_rate": 0.00016822849522116025,
      "loss": 2.185,
      "step": 7157
    },
    {
      "epoch": 0.15906666666666666,
      "grad_norm": 1.2364771366119385,
      "learning_rate": 0.00016822404978884196,
      "loss": 2.2512,
      "step": 7158
    },
    {
      "epoch": 0.1590888888888889,
      "grad_norm": 1.5311964750289917,
      "learning_rate": 0.0001682196043565237,
      "loss": 2.0384,
      "step": 7159
    },
    {
      "epoch": 0.15911111111111112,
      "grad_norm": 1.2099683284759521,
      "learning_rate": 0.00016821515892420538,
      "loss": 1.95,
      "step": 7160
    },
    {
      "epoch": 0.15913333333333332,
      "grad_norm": 1.5182329416275024,
      "learning_rate": 0.0001682107134918871,
      "loss": 2.4855,
      "step": 7161
    },
    {
      "epoch": 0.15915555555555555,
      "grad_norm": 1.3066200017929077,
      "learning_rate": 0.0001682062680595688,
      "loss": 1.9862,
      "step": 7162
    },
    {
      "epoch": 0.15917777777777778,
      "grad_norm": 1.4398926496505737,
      "learning_rate": 0.0001682018226272505,
      "loss": 2.493,
      "step": 7163
    },
    {
      "epoch": 0.1592,
      "grad_norm": 1.4655730724334717,
      "learning_rate": 0.0001681973771949322,
      "loss": 2.4238,
      "step": 7164
    },
    {
      "epoch": 0.1592222222222222,
      "grad_norm": 1.3074777126312256,
      "learning_rate": 0.00016819293176261393,
      "loss": 1.8405,
      "step": 7165
    },
    {
      "epoch": 0.15924444444444444,
      "grad_norm": 1.222245216369629,
      "learning_rate": 0.00016818848633029564,
      "loss": 1.9736,
      "step": 7166
    },
    {
      "epoch": 0.15926666666666667,
      "grad_norm": 1.19835364818573,
      "learning_rate": 0.00016818404089797735,
      "loss": 1.8277,
      "step": 7167
    },
    {
      "epoch": 0.1592888888888889,
      "grad_norm": 1.0725045204162598,
      "learning_rate": 0.00016817959546565906,
      "loss": 1.6894,
      "step": 7168
    },
    {
      "epoch": 0.1593111111111111,
      "grad_norm": 1.6214905977249146,
      "learning_rate": 0.00016817515003334074,
      "loss": 1.6104,
      "step": 7169
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 1.2996882200241089,
      "learning_rate": 0.00016817070460102248,
      "loss": 1.7219,
      "step": 7170
    },
    {
      "epoch": 0.15935555555555556,
      "grad_norm": 0.9489925503730774,
      "learning_rate": 0.00016816625916870416,
      "loss": 1.0402,
      "step": 7171
    },
    {
      "epoch": 0.15937777777777778,
      "grad_norm": 1.5208989381790161,
      "learning_rate": 0.00016816181373638587,
      "loss": 2.3914,
      "step": 7172
    },
    {
      "epoch": 0.1594,
      "grad_norm": 1.498918890953064,
      "learning_rate": 0.00016815736830406758,
      "loss": 1.8253,
      "step": 7173
    },
    {
      "epoch": 0.15942222222222222,
      "grad_norm": 1.248510479927063,
      "learning_rate": 0.0001681529228717493,
      "loss": 1.8909,
      "step": 7174
    },
    {
      "epoch": 0.15944444444444444,
      "grad_norm": 1.3312290906906128,
      "learning_rate": 0.000168148477439431,
      "loss": 1.9693,
      "step": 7175
    },
    {
      "epoch": 0.15946666666666667,
      "grad_norm": 1.3051905632019043,
      "learning_rate": 0.0001681440320071127,
      "loss": 1.9411,
      "step": 7176
    },
    {
      "epoch": 0.1594888888888889,
      "grad_norm": 1.481843113899231,
      "learning_rate": 0.00016813958657479442,
      "loss": 1.987,
      "step": 7177
    },
    {
      "epoch": 0.1595111111111111,
      "grad_norm": 1.2829190492630005,
      "learning_rate": 0.0001681351411424761,
      "loss": 1.6439,
      "step": 7178
    },
    {
      "epoch": 0.15953333333333333,
      "grad_norm": 1.4394608736038208,
      "learning_rate": 0.00016813069571015784,
      "loss": 1.6005,
      "step": 7179
    },
    {
      "epoch": 0.15955555555555556,
      "grad_norm": 1.5545406341552734,
      "learning_rate": 0.00016812625027783952,
      "loss": 2.0483,
      "step": 7180
    },
    {
      "epoch": 0.1595777777777778,
      "grad_norm": 1.382179856300354,
      "learning_rate": 0.00016812180484552123,
      "loss": 1.6755,
      "step": 7181
    },
    {
      "epoch": 0.1596,
      "grad_norm": 2.0551886558532715,
      "learning_rate": 0.00016811735941320294,
      "loss": 2.2459,
      "step": 7182
    },
    {
      "epoch": 0.15962222222222222,
      "grad_norm": 1.628737211227417,
      "learning_rate": 0.00016811291398088465,
      "loss": 2.0695,
      "step": 7183
    },
    {
      "epoch": 0.15964444444444445,
      "grad_norm": 1.3214247226715088,
      "learning_rate": 0.00016810846854856636,
      "loss": 1.7502,
      "step": 7184
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 1.3493906259536743,
      "learning_rate": 0.00016810402311624807,
      "loss": 1.8916,
      "step": 7185
    },
    {
      "epoch": 0.15968888888888888,
      "grad_norm": 1.2933772802352905,
      "learning_rate": 0.00016809957768392978,
      "loss": 1.7573,
      "step": 7186
    },
    {
      "epoch": 0.1597111111111111,
      "grad_norm": 1.390890121459961,
      "learning_rate": 0.00016809513225161149,
      "loss": 1.7323,
      "step": 7187
    },
    {
      "epoch": 0.15973333333333334,
      "grad_norm": 1.4350329637527466,
      "learning_rate": 0.0001680906868192932,
      "loss": 1.8952,
      "step": 7188
    },
    {
      "epoch": 0.15975555555555557,
      "grad_norm": 1.4946391582489014,
      "learning_rate": 0.00016808624138697488,
      "loss": 1.5725,
      "step": 7189
    },
    {
      "epoch": 0.15977777777777777,
      "grad_norm": 1.3632649183273315,
      "learning_rate": 0.00016808179595465662,
      "loss": 0.8934,
      "step": 7190
    },
    {
      "epoch": 0.1598,
      "grad_norm": 1.3710439205169678,
      "learning_rate": 0.0001680773505223383,
      "loss": 1.8706,
      "step": 7191
    },
    {
      "epoch": 0.15982222222222223,
      "grad_norm": 1.3058748245239258,
      "learning_rate": 0.00016807290509002,
      "loss": 1.2974,
      "step": 7192
    },
    {
      "epoch": 0.15984444444444446,
      "grad_norm": 1.6958779096603394,
      "learning_rate": 0.00016806845965770172,
      "loss": 1.7672,
      "step": 7193
    },
    {
      "epoch": 0.15986666666666666,
      "grad_norm": 2.1007375717163086,
      "learning_rate": 0.00016806401422538343,
      "loss": 1.8335,
      "step": 7194
    },
    {
      "epoch": 0.15988888888888889,
      "grad_norm": 1.4701051712036133,
      "learning_rate": 0.00016805956879306514,
      "loss": 1.5675,
      "step": 7195
    },
    {
      "epoch": 0.15991111111111111,
      "grad_norm": 1.5653480291366577,
      "learning_rate": 0.00016805512336074685,
      "loss": 1.637,
      "step": 7196
    },
    {
      "epoch": 0.15993333333333334,
      "grad_norm": 1.4483466148376465,
      "learning_rate": 0.00016805067792842856,
      "loss": 1.7364,
      "step": 7197
    },
    {
      "epoch": 0.15995555555555555,
      "grad_norm": 1.6340603828430176,
      "learning_rate": 0.00016804623249611024,
      "loss": 1.7543,
      "step": 7198
    },
    {
      "epoch": 0.15997777777777777,
      "grad_norm": 1.8743382692337036,
      "learning_rate": 0.00016804178706379197,
      "loss": 2.526,
      "step": 7199
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8651682734489441,
      "learning_rate": 0.00016803734163147366,
      "loss": 0.6191,
      "step": 7200
    },
    {
      "epoch": 0.16002222222222223,
      "grad_norm": 1.1295827627182007,
      "learning_rate": 0.00016803289619915537,
      "loss": 2.2116,
      "step": 7201
    },
    {
      "epoch": 0.16004444444444443,
      "grad_norm": 1.3019890785217285,
      "learning_rate": 0.00016802845076683708,
      "loss": 2.2976,
      "step": 7202
    },
    {
      "epoch": 0.16006666666666666,
      "grad_norm": 1.3704872131347656,
      "learning_rate": 0.00016802400533451879,
      "loss": 2.2865,
      "step": 7203
    },
    {
      "epoch": 0.1600888888888889,
      "grad_norm": 1.3722003698349,
      "learning_rate": 0.0001680195599022005,
      "loss": 2.1115,
      "step": 7204
    },
    {
      "epoch": 0.16011111111111112,
      "grad_norm": 1.426695466041565,
      "learning_rate": 0.0001680151144698822,
      "loss": 2.4837,
      "step": 7205
    },
    {
      "epoch": 0.16013333333333332,
      "grad_norm": 1.447779893875122,
      "learning_rate": 0.00016801066903756391,
      "loss": 2.431,
      "step": 7206
    },
    {
      "epoch": 0.16015555555555555,
      "grad_norm": 1.5030713081359863,
      "learning_rate": 0.00016800622360524562,
      "loss": 2.4644,
      "step": 7207
    },
    {
      "epoch": 0.16017777777777778,
      "grad_norm": 1.246586799621582,
      "learning_rate": 0.00016800177817292733,
      "loss": 0.0424,
      "step": 7208
    },
    {
      "epoch": 0.1602,
      "grad_norm": 1.3311728239059448,
      "learning_rate": 0.00016799733274060902,
      "loss": 2.0243,
      "step": 7209
    },
    {
      "epoch": 0.1602222222222222,
      "grad_norm": 1.4818456172943115,
      "learning_rate": 0.00016799288730829075,
      "loss": 2.3366,
      "step": 7210
    },
    {
      "epoch": 0.16024444444444444,
      "grad_norm": 1.3361274003982544,
      "learning_rate": 0.00016798844187597244,
      "loss": 2.4239,
      "step": 7211
    },
    {
      "epoch": 0.16026666666666667,
      "grad_norm": 1.4851560592651367,
      "learning_rate": 0.00016798399644365415,
      "loss": 1.7985,
      "step": 7212
    },
    {
      "epoch": 0.1602888888888889,
      "grad_norm": 1.2822015285491943,
      "learning_rate": 0.00016797955101133585,
      "loss": 1.7352,
      "step": 7213
    },
    {
      "epoch": 0.1603111111111111,
      "grad_norm": 1.5193710327148438,
      "learning_rate": 0.00016797510557901756,
      "loss": 2.3724,
      "step": 7214
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 0.9037038087844849,
      "learning_rate": 0.00016797066014669927,
      "loss": 0.9692,
      "step": 7215
    },
    {
      "epoch": 0.16035555555555556,
      "grad_norm": 1.4496384859085083,
      "learning_rate": 0.00016796621471438098,
      "loss": 2.3565,
      "step": 7216
    },
    {
      "epoch": 0.16037777777777779,
      "grad_norm": 1.436820149421692,
      "learning_rate": 0.0001679617692820627,
      "loss": 2.2733,
      "step": 7217
    },
    {
      "epoch": 0.1604,
      "grad_norm": 1.6196438074111938,
      "learning_rate": 0.00016795732384974438,
      "loss": 2.4183,
      "step": 7218
    },
    {
      "epoch": 0.16042222222222222,
      "grad_norm": 1.439379096031189,
      "learning_rate": 0.0001679528784174261,
      "loss": 2.2072,
      "step": 7219
    },
    {
      "epoch": 0.16044444444444445,
      "grad_norm": 1.5352880954742432,
      "learning_rate": 0.0001679484329851078,
      "loss": 2.3263,
      "step": 7220
    },
    {
      "epoch": 0.16046666666666667,
      "grad_norm": 1.795331358909607,
      "learning_rate": 0.00016794398755278953,
      "loss": 2.4199,
      "step": 7221
    },
    {
      "epoch": 0.16048888888888888,
      "grad_norm": 1.514392614364624,
      "learning_rate": 0.00016793954212047121,
      "loss": 1.7345,
      "step": 7222
    },
    {
      "epoch": 0.1605111111111111,
      "grad_norm": 1.5784986019134521,
      "learning_rate": 0.00016793509668815292,
      "loss": 2.0806,
      "step": 7223
    },
    {
      "epoch": 0.16053333333333333,
      "grad_norm": 1.3491299152374268,
      "learning_rate": 0.00016793065125583466,
      "loss": 1.9012,
      "step": 7224
    },
    {
      "epoch": 0.16055555555555556,
      "grad_norm": 1.5002362728118896,
      "learning_rate": 0.00016792620582351634,
      "loss": 2.4568,
      "step": 7225
    },
    {
      "epoch": 0.1605777777777778,
      "grad_norm": 1.2973155975341797,
      "learning_rate": 0.00016792176039119805,
      "loss": 1.9164,
      "step": 7226
    },
    {
      "epoch": 0.1606,
      "grad_norm": 1.5524005889892578,
      "learning_rate": 0.00016791731495887976,
      "loss": 2.275,
      "step": 7227
    },
    {
      "epoch": 0.16062222222222222,
      "grad_norm": 1.1284722089767456,
      "learning_rate": 0.00016791286952656147,
      "loss": 1.2454,
      "step": 7228
    },
    {
      "epoch": 0.16064444444444445,
      "grad_norm": 1.8425260782241821,
      "learning_rate": 0.00016790842409424315,
      "loss": 2.1843,
      "step": 7229
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 1.5965683460235596,
      "learning_rate": 0.0001679039786619249,
      "loss": 2.1975,
      "step": 7230
    },
    {
      "epoch": 0.16068888888888888,
      "grad_norm": 1.37882661819458,
      "learning_rate": 0.00016789953322960657,
      "loss": 1.8026,
      "step": 7231
    },
    {
      "epoch": 0.1607111111111111,
      "grad_norm": 1.2158622741699219,
      "learning_rate": 0.00016789508779728828,
      "loss": 1.4521,
      "step": 7232
    },
    {
      "epoch": 0.16073333333333334,
      "grad_norm": 1.5856831073760986,
      "learning_rate": 0.00016789064236497002,
      "loss": 2.4182,
      "step": 7233
    },
    {
      "epoch": 0.16075555555555557,
      "grad_norm": 1.4048194885253906,
      "learning_rate": 0.0001678861969326517,
      "loss": 2.2847,
      "step": 7234
    },
    {
      "epoch": 0.16077777777777777,
      "grad_norm": 1.5145169496536255,
      "learning_rate": 0.0001678817515003334,
      "loss": 1.7055,
      "step": 7235
    },
    {
      "epoch": 0.1608,
      "grad_norm": 1.6287744045257568,
      "learning_rate": 0.00016787730606801512,
      "loss": 2.4211,
      "step": 7236
    },
    {
      "epoch": 0.16082222222222223,
      "grad_norm": 1.912766695022583,
      "learning_rate": 0.00016787286063569683,
      "loss": 2.3626,
      "step": 7237
    },
    {
      "epoch": 0.16084444444444446,
      "grad_norm": 2.1907947063446045,
      "learning_rate": 0.00016786841520337851,
      "loss": 1.6555,
      "step": 7238
    },
    {
      "epoch": 0.16086666666666666,
      "grad_norm": 2.4088497161865234,
      "learning_rate": 0.00016786396977106025,
      "loss": 1.829,
      "step": 7239
    },
    {
      "epoch": 0.1608888888888889,
      "grad_norm": 1.5222558975219727,
      "learning_rate": 0.00016785952433874196,
      "loss": 2.0467,
      "step": 7240
    },
    {
      "epoch": 0.16091111111111112,
      "grad_norm": 1.4496867656707764,
      "learning_rate": 0.00016785507890642367,
      "loss": 1.6497,
      "step": 7241
    },
    {
      "epoch": 0.16093333333333334,
      "grad_norm": 1.6676491498947144,
      "learning_rate": 0.00016785063347410538,
      "loss": 2.0507,
      "step": 7242
    },
    {
      "epoch": 0.16095555555555555,
      "grad_norm": 1.39589262008667,
      "learning_rate": 0.00016784618804178706,
      "loss": 1.7977,
      "step": 7243
    },
    {
      "epoch": 0.16097777777777778,
      "grad_norm": 1.5621005296707153,
      "learning_rate": 0.0001678417426094688,
      "loss": 1.9101,
      "step": 7244
    },
    {
      "epoch": 0.161,
      "grad_norm": 1.4086627960205078,
      "learning_rate": 0.00016783729717715048,
      "loss": 1.6078,
      "step": 7245
    },
    {
      "epoch": 0.16102222222222223,
      "grad_norm": 1.4539964199066162,
      "learning_rate": 0.0001678328517448322,
      "loss": 1.8325,
      "step": 7246
    },
    {
      "epoch": 0.16104444444444443,
      "grad_norm": 1.583777904510498,
      "learning_rate": 0.0001678284063125139,
      "loss": 1.6686,
      "step": 7247
    },
    {
      "epoch": 0.16106666666666666,
      "grad_norm": 1.5860732793807983,
      "learning_rate": 0.0001678239608801956,
      "loss": 1.2436,
      "step": 7248
    },
    {
      "epoch": 0.1610888888888889,
      "grad_norm": 2.0029208660125732,
      "learning_rate": 0.00016781951544787732,
      "loss": 2.4609,
      "step": 7249
    },
    {
      "epoch": 0.16111111111111112,
      "grad_norm": 1.5057626962661743,
      "learning_rate": 0.00016781507001555903,
      "loss": 1.4873,
      "step": 7250
    },
    {
      "epoch": 0.16113333333333332,
      "grad_norm": 1.11250638961792,
      "learning_rate": 0.00016781062458324074,
      "loss": 2.1962,
      "step": 7251
    },
    {
      "epoch": 0.16115555555555555,
      "grad_norm": 1.3845714330673218,
      "learning_rate": 0.00016780617915092242,
      "loss": 2.4314,
      "step": 7252
    },
    {
      "epoch": 0.16117777777777778,
      "grad_norm": 1.2873246669769287,
      "learning_rate": 0.00016780173371860416,
      "loss": 2.1153,
      "step": 7253
    },
    {
      "epoch": 0.1612,
      "grad_norm": 1.1088281869888306,
      "learning_rate": 0.00016779728828628584,
      "loss": 1.9623,
      "step": 7254
    },
    {
      "epoch": 0.1612222222222222,
      "grad_norm": 1.2471345663070679,
      "learning_rate": 0.00016779284285396755,
      "loss": 2.4844,
      "step": 7255
    },
    {
      "epoch": 0.16124444444444444,
      "grad_norm": 1.2961618900299072,
      "learning_rate": 0.00016778839742164926,
      "loss": 2.4093,
      "step": 7256
    },
    {
      "epoch": 0.16126666666666667,
      "grad_norm": 1.3098907470703125,
      "learning_rate": 0.00016778395198933097,
      "loss": 1.6008,
      "step": 7257
    },
    {
      "epoch": 0.1612888888888889,
      "grad_norm": 1.1395134925842285,
      "learning_rate": 0.00016777950655701268,
      "loss": 1.9936,
      "step": 7258
    },
    {
      "epoch": 0.1613111111111111,
      "grad_norm": 1.4137067794799805,
      "learning_rate": 0.0001677750611246944,
      "loss": 2.6522,
      "step": 7259
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 1.1828078031539917,
      "learning_rate": 0.0001677706156923761,
      "loss": 2.0636,
      "step": 7260
    },
    {
      "epoch": 0.16135555555555556,
      "grad_norm": 1.218590259552002,
      "learning_rate": 0.0001677661702600578,
      "loss": 2.185,
      "step": 7261
    },
    {
      "epoch": 0.1613777777777778,
      "grad_norm": 1.5387444496154785,
      "learning_rate": 0.00016776172482773952,
      "loss": 1.6939,
      "step": 7262
    },
    {
      "epoch": 0.1614,
      "grad_norm": 1.5506722927093506,
      "learning_rate": 0.0001677572793954212,
      "loss": 2.3495,
      "step": 7263
    },
    {
      "epoch": 0.16142222222222222,
      "grad_norm": 1.7499895095825195,
      "learning_rate": 0.00016775283396310294,
      "loss": 2.1969,
      "step": 7264
    },
    {
      "epoch": 0.16144444444444445,
      "grad_norm": 1.2781206369400024,
      "learning_rate": 0.00016774838853078462,
      "loss": 1.2471,
      "step": 7265
    },
    {
      "epoch": 0.16146666666666668,
      "grad_norm": 1.6806126832962036,
      "learning_rate": 0.00016774394309846633,
      "loss": 2.3268,
      "step": 7266
    },
    {
      "epoch": 0.16148888888888888,
      "grad_norm": 1.156187653541565,
      "learning_rate": 0.00016773949766614804,
      "loss": 1.9242,
      "step": 7267
    },
    {
      "epoch": 0.1615111111111111,
      "grad_norm": 1.3356190919876099,
      "learning_rate": 0.00016773505223382975,
      "loss": 1.2703,
      "step": 7268
    },
    {
      "epoch": 0.16153333333333333,
      "grad_norm": 1.450448751449585,
      "learning_rate": 0.00016773060680151146,
      "loss": 1.3697,
      "step": 7269
    },
    {
      "epoch": 0.16155555555555556,
      "grad_norm": 1.4934312105178833,
      "learning_rate": 0.00016772616136919317,
      "loss": 2.4109,
      "step": 7270
    },
    {
      "epoch": 0.16157777777777776,
      "grad_norm": 1.818709135055542,
      "learning_rate": 0.00016772171593687488,
      "loss": 1.9859,
      "step": 7271
    },
    {
      "epoch": 0.1616,
      "grad_norm": 1.476148247718811,
      "learning_rate": 0.00016771727050455656,
      "loss": 1.8979,
      "step": 7272
    },
    {
      "epoch": 0.16162222222222222,
      "grad_norm": 1.2559847831726074,
      "learning_rate": 0.0001677128250722383,
      "loss": 1.6824,
      "step": 7273
    },
    {
      "epoch": 0.16164444444444445,
      "grad_norm": 1.434022307395935,
      "learning_rate": 0.00016770837963991998,
      "loss": 1.6052,
      "step": 7274
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 1.4621195793151855,
      "learning_rate": 0.0001677039342076017,
      "loss": 2.0092,
      "step": 7275
    },
    {
      "epoch": 0.16168888888888888,
      "grad_norm": 1.3563170433044434,
      "learning_rate": 0.0001676994887752834,
      "loss": 1.8613,
      "step": 7276
    },
    {
      "epoch": 0.1617111111111111,
      "grad_norm": 1.3758701086044312,
      "learning_rate": 0.0001676950433429651,
      "loss": 1.973,
      "step": 7277
    },
    {
      "epoch": 0.16173333333333334,
      "grad_norm": 1.6795862913131714,
      "learning_rate": 0.00016769059791064682,
      "loss": 2.5363,
      "step": 7278
    },
    {
      "epoch": 0.16175555555555557,
      "grad_norm": 1.5190532207489014,
      "learning_rate": 0.00016768615247832853,
      "loss": 2.105,
      "step": 7279
    },
    {
      "epoch": 0.16177777777777777,
      "grad_norm": 1.3619005680084229,
      "learning_rate": 0.00016768170704601024,
      "loss": 1.8796,
      "step": 7280
    },
    {
      "epoch": 0.1618,
      "grad_norm": 1.6150537729263306,
      "learning_rate": 0.00016767726161369195,
      "loss": 2.0177,
      "step": 7281
    },
    {
      "epoch": 0.16182222222222223,
      "grad_norm": 1.5094542503356934,
      "learning_rate": 0.00016767281618137366,
      "loss": 1.8843,
      "step": 7282
    },
    {
      "epoch": 0.16184444444444446,
      "grad_norm": 1.3741302490234375,
      "learning_rate": 0.00016766837074905534,
      "loss": 1.7372,
      "step": 7283
    },
    {
      "epoch": 0.16186666666666666,
      "grad_norm": 1.4775618314743042,
      "learning_rate": 0.00016766392531673708,
      "loss": 1.8324,
      "step": 7284
    },
    {
      "epoch": 0.1618888888888889,
      "grad_norm": 1.2293100357055664,
      "learning_rate": 0.00016765947988441876,
      "loss": 1.7331,
      "step": 7285
    },
    {
      "epoch": 0.16191111111111112,
      "grad_norm": 1.526693344116211,
      "learning_rate": 0.00016765503445210047,
      "loss": 2.3018,
      "step": 7286
    },
    {
      "epoch": 0.16193333333333335,
      "grad_norm": 2.0407207012176514,
      "learning_rate": 0.00016765058901978218,
      "loss": 1.975,
      "step": 7287
    },
    {
      "epoch": 0.16195555555555555,
      "grad_norm": 1.5625216960906982,
      "learning_rate": 0.0001676461435874639,
      "loss": 0.9988,
      "step": 7288
    },
    {
      "epoch": 0.16197777777777778,
      "grad_norm": 1.105750322341919,
      "learning_rate": 0.0001676416981551456,
      "loss": 1.1329,
      "step": 7289
    },
    {
      "epoch": 0.162,
      "grad_norm": 1.410966396331787,
      "learning_rate": 0.0001676372527228273,
      "loss": 1.8638,
      "step": 7290
    },
    {
      "epoch": 0.16202222222222223,
      "grad_norm": 1.7023073434829712,
      "learning_rate": 0.00016763280729050902,
      "loss": 2.2635,
      "step": 7291
    },
    {
      "epoch": 0.16204444444444444,
      "grad_norm": 1.4939652681350708,
      "learning_rate": 0.0001676283618581907,
      "loss": 1.7949,
      "step": 7292
    },
    {
      "epoch": 0.16206666666666666,
      "grad_norm": 1.342640995979309,
      "learning_rate": 0.00016762391642587243,
      "loss": 1.6158,
      "step": 7293
    },
    {
      "epoch": 0.1620888888888889,
      "grad_norm": 1.420001745223999,
      "learning_rate": 0.00016761947099355412,
      "loss": 1.7055,
      "step": 7294
    },
    {
      "epoch": 0.16211111111111112,
      "grad_norm": 1.5182363986968994,
      "learning_rate": 0.00016761502556123583,
      "loss": 1.8916,
      "step": 7295
    },
    {
      "epoch": 0.16213333333333332,
      "grad_norm": 1.6097966432571411,
      "learning_rate": 0.00016761058012891754,
      "loss": 2.2141,
      "step": 7296
    },
    {
      "epoch": 0.16215555555555555,
      "grad_norm": 1.3867685794830322,
      "learning_rate": 0.00016760613469659925,
      "loss": 1.5956,
      "step": 7297
    },
    {
      "epoch": 0.16217777777777778,
      "grad_norm": 1.6142690181732178,
      "learning_rate": 0.00016760168926428098,
      "loss": 1.6535,
      "step": 7298
    },
    {
      "epoch": 0.1622,
      "grad_norm": 1.921067714691162,
      "learning_rate": 0.00016759724383196267,
      "loss": 1.9622,
      "step": 7299
    },
    {
      "epoch": 0.1622222222222222,
      "grad_norm": 1.5949182510375977,
      "learning_rate": 0.00016759279839964437,
      "loss": 1.6538,
      "step": 7300
    },
    {
      "epoch": 0.16224444444444444,
      "grad_norm": 1.2706953287124634,
      "learning_rate": 0.00016758835296732608,
      "loss": 1.5466,
      "step": 7301
    },
    {
      "epoch": 0.16226666666666667,
      "grad_norm": 0.9547387361526489,
      "learning_rate": 0.0001675839075350078,
      "loss": 2.09,
      "step": 7302
    },
    {
      "epoch": 0.1622888888888889,
      "grad_norm": 1.4955986738204956,
      "learning_rate": 0.00016757946210268948,
      "loss": 2.8919,
      "step": 7303
    },
    {
      "epoch": 0.1623111111111111,
      "grad_norm": 0.9780753254890442,
      "learning_rate": 0.0001675750166703712,
      "loss": 1.0325,
      "step": 7304
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 1.6151764392852783,
      "learning_rate": 0.0001675705712380529,
      "loss": 2.5536,
      "step": 7305
    },
    {
      "epoch": 0.16235555555555556,
      "grad_norm": 1.3308981657028198,
      "learning_rate": 0.0001675661258057346,
      "loss": 2.3077,
      "step": 7306
    },
    {
      "epoch": 0.1623777777777778,
      "grad_norm": 1.2347444295883179,
      "learning_rate": 0.00016756168037341634,
      "loss": 1.878,
      "step": 7307
    },
    {
      "epoch": 0.1624,
      "grad_norm": 0.5168060660362244,
      "learning_rate": 0.00016755723494109802,
      "loss": 0.0403,
      "step": 7308
    },
    {
      "epoch": 0.16242222222222222,
      "grad_norm": 1.3431618213653564,
      "learning_rate": 0.00016755278950877973,
      "loss": 2.283,
      "step": 7309
    },
    {
      "epoch": 0.16244444444444445,
      "grad_norm": 1.2392768859863281,
      "learning_rate": 0.00016754834407646144,
      "loss": 2.2713,
      "step": 7310
    },
    {
      "epoch": 0.16246666666666668,
      "grad_norm": 1.7085521221160889,
      "learning_rate": 0.00016754389864414315,
      "loss": 2.4811,
      "step": 7311
    },
    {
      "epoch": 0.16248888888888888,
      "grad_norm": 1.4861570596694946,
      "learning_rate": 0.00016753945321182484,
      "loss": 2.3606,
      "step": 7312
    },
    {
      "epoch": 0.1625111111111111,
      "grad_norm": 1.4589142799377441,
      "learning_rate": 0.00016753500777950657,
      "loss": 2.4071,
      "step": 7313
    },
    {
      "epoch": 0.16253333333333334,
      "grad_norm": 1.4135160446166992,
      "learning_rate": 0.00016753056234718828,
      "loss": 1.8052,
      "step": 7314
    },
    {
      "epoch": 0.16255555555555556,
      "grad_norm": 1.3857626914978027,
      "learning_rate": 0.00016752611691486997,
      "loss": 1.7418,
      "step": 7315
    },
    {
      "epoch": 0.16257777777777777,
      "grad_norm": 1.4720733165740967,
      "learning_rate": 0.0001675216714825517,
      "loss": 1.9973,
      "step": 7316
    },
    {
      "epoch": 0.1626,
      "grad_norm": 1.682894229888916,
      "learning_rate": 0.00016751722605023338,
      "loss": 2.3604,
      "step": 7317
    },
    {
      "epoch": 0.16262222222222222,
      "grad_norm": 1.6730983257293701,
      "learning_rate": 0.00016751278061791512,
      "loss": 2.0336,
      "step": 7318
    },
    {
      "epoch": 0.16264444444444445,
      "grad_norm": 1.4494237899780273,
      "learning_rate": 0.0001675083351855968,
      "loss": 2.2637,
      "step": 7319
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 1.7154213190078735,
      "learning_rate": 0.0001675038897532785,
      "loss": 1.7316,
      "step": 7320
    },
    {
      "epoch": 0.16268888888888888,
      "grad_norm": 1.350084900856018,
      "learning_rate": 0.00016749944432096022,
      "loss": 1.9869,
      "step": 7321
    },
    {
      "epoch": 0.1627111111111111,
      "grad_norm": 1.4015562534332275,
      "learning_rate": 0.00016749499888864193,
      "loss": 2.0313,
      "step": 7322
    },
    {
      "epoch": 0.16273333333333334,
      "grad_norm": 1.296445608139038,
      "learning_rate": 0.00016749055345632364,
      "loss": 1.5587,
      "step": 7323
    },
    {
      "epoch": 0.16275555555555554,
      "grad_norm": 1.5489999055862427,
      "learning_rate": 0.00016748610802400535,
      "loss": 1.8415,
      "step": 7324
    },
    {
      "epoch": 0.16277777777777777,
      "grad_norm": 1.560547947883606,
      "learning_rate": 0.00016748166259168706,
      "loss": 1.8128,
      "step": 7325
    },
    {
      "epoch": 0.1628,
      "grad_norm": 1.7675644159317017,
      "learning_rate": 0.00016747721715936874,
      "loss": 1.8687,
      "step": 7326
    },
    {
      "epoch": 0.16282222222222223,
      "grad_norm": 2.5252068042755127,
      "learning_rate": 0.00016747277172705048,
      "loss": 0.3289,
      "step": 7327
    },
    {
      "epoch": 0.16284444444444446,
      "grad_norm": 1.5591078996658325,
      "learning_rate": 0.00016746832629473216,
      "loss": 2.0863,
      "step": 7328
    },
    {
      "epoch": 0.16286666666666666,
      "grad_norm": 1.5652239322662354,
      "learning_rate": 0.00016746388086241387,
      "loss": 2.3213,
      "step": 7329
    },
    {
      "epoch": 0.1628888888888889,
      "grad_norm": 1.829936146736145,
      "learning_rate": 0.00016745943543009558,
      "loss": 2.0581,
      "step": 7330
    },
    {
      "epoch": 0.16291111111111112,
      "grad_norm": 1.2740000486373901,
      "learning_rate": 0.0001674549899977773,
      "loss": 1.8863,
      "step": 7331
    },
    {
      "epoch": 0.16293333333333335,
      "grad_norm": 1.433846354484558,
      "learning_rate": 0.000167450544565459,
      "loss": 2.2012,
      "step": 7332
    },
    {
      "epoch": 0.16295555555555555,
      "grad_norm": 1.3838765621185303,
      "learning_rate": 0.0001674460991331407,
      "loss": 1.3848,
      "step": 7333
    },
    {
      "epoch": 0.16297777777777778,
      "grad_norm": 1.4577038288116455,
      "learning_rate": 0.00016744165370082242,
      "loss": 1.7277,
      "step": 7334
    },
    {
      "epoch": 0.163,
      "grad_norm": 1.6344811916351318,
      "learning_rate": 0.00016743720826850413,
      "loss": 2.3744,
      "step": 7335
    },
    {
      "epoch": 0.16302222222222224,
      "grad_norm": 1.1422629356384277,
      "learning_rate": 0.00016743276283618584,
      "loss": 0.8183,
      "step": 7336
    },
    {
      "epoch": 0.16304444444444444,
      "grad_norm": 1.6159920692443848,
      "learning_rate": 0.00016742831740386752,
      "loss": 2.4412,
      "step": 7337
    },
    {
      "epoch": 0.16306666666666667,
      "grad_norm": 1.6549814939498901,
      "learning_rate": 0.00016742387197154926,
      "loss": 2.3442,
      "step": 7338
    },
    {
      "epoch": 0.1630888888888889,
      "grad_norm": 1.4422813653945923,
      "learning_rate": 0.00016741942653923094,
      "loss": 1.7917,
      "step": 7339
    },
    {
      "epoch": 0.16311111111111112,
      "grad_norm": 1.6337028741836548,
      "learning_rate": 0.00016741498110691265,
      "loss": 1.9368,
      "step": 7340
    },
    {
      "epoch": 0.16313333333333332,
      "grad_norm": 1.4056504964828491,
      "learning_rate": 0.00016741053567459436,
      "loss": 1.476,
      "step": 7341
    },
    {
      "epoch": 0.16315555555555555,
      "grad_norm": 1.380604863166809,
      "learning_rate": 0.00016740609024227607,
      "loss": 1.7613,
      "step": 7342
    },
    {
      "epoch": 0.16317777777777778,
      "grad_norm": 1.9730887413024902,
      "learning_rate": 0.00016740164480995778,
      "loss": 1.7225,
      "step": 7343
    },
    {
      "epoch": 0.1632,
      "grad_norm": 1.640907883644104,
      "learning_rate": 0.0001673971993776395,
      "loss": 2.2985,
      "step": 7344
    },
    {
      "epoch": 0.1632222222222222,
      "grad_norm": 1.4968682527542114,
      "learning_rate": 0.0001673927539453212,
      "loss": 1.7037,
      "step": 7345
    },
    {
      "epoch": 0.16324444444444444,
      "grad_norm": 1.5416170358657837,
      "learning_rate": 0.00016738830851300288,
      "loss": 1.5772,
      "step": 7346
    },
    {
      "epoch": 0.16326666666666667,
      "grad_norm": 1.6912661790847778,
      "learning_rate": 0.00016738386308068462,
      "loss": 1.9469,
      "step": 7347
    },
    {
      "epoch": 0.1632888888888889,
      "grad_norm": 1.5914268493652344,
      "learning_rate": 0.0001673794176483663,
      "loss": 1.987,
      "step": 7348
    },
    {
      "epoch": 0.1633111111111111,
      "grad_norm": 1.4661954641342163,
      "learning_rate": 0.000167374972216048,
      "loss": 1.5763,
      "step": 7349
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 1.8755437135696411,
      "learning_rate": 0.00016737052678372972,
      "loss": 1.1931,
      "step": 7350
    },
    {
      "epoch": 0.16335555555555556,
      "grad_norm": 1.1314748525619507,
      "learning_rate": 0.00016736608135141143,
      "loss": 2.3903,
      "step": 7351
    },
    {
      "epoch": 0.1633777777777778,
      "grad_norm": 1.2816451787948608,
      "learning_rate": 0.00016736163591909314,
      "loss": 2.1572,
      "step": 7352
    },
    {
      "epoch": 0.1634,
      "grad_norm": 1.5206503868103027,
      "learning_rate": 0.00016735719048677485,
      "loss": 2.4197,
      "step": 7353
    },
    {
      "epoch": 0.16342222222222222,
      "grad_norm": 1.3203424215316772,
      "learning_rate": 0.00016735274505445656,
      "loss": 2.0149,
      "step": 7354
    },
    {
      "epoch": 0.16344444444444445,
      "grad_norm": 1.8824710845947266,
      "learning_rate": 0.00016734829962213827,
      "loss": 2.8146,
      "step": 7355
    },
    {
      "epoch": 0.16346666666666668,
      "grad_norm": 1.2632360458374023,
      "learning_rate": 0.00016734385418981998,
      "loss": 1.6167,
      "step": 7356
    },
    {
      "epoch": 0.16348888888888888,
      "grad_norm": 1.288299798965454,
      "learning_rate": 0.00016733940875750166,
      "loss": 2.3855,
      "step": 7357
    },
    {
      "epoch": 0.1635111111111111,
      "grad_norm": 1.2943096160888672,
      "learning_rate": 0.0001673349633251834,
      "loss": 2.3335,
      "step": 7358
    },
    {
      "epoch": 0.16353333333333334,
      "grad_norm": 1.4548485279083252,
      "learning_rate": 0.00016733051789286508,
      "loss": 2.292,
      "step": 7359
    },
    {
      "epoch": 0.16355555555555557,
      "grad_norm": 1.296521544456482,
      "learning_rate": 0.0001673260724605468,
      "loss": 2.1212,
      "step": 7360
    },
    {
      "epoch": 0.16357777777777777,
      "grad_norm": 1.3487151861190796,
      "learning_rate": 0.0001673216270282285,
      "loss": 2.2635,
      "step": 7361
    },
    {
      "epoch": 0.1636,
      "grad_norm": 1.3329155445098877,
      "learning_rate": 0.0001673171815959102,
      "loss": 1.8034,
      "step": 7362
    },
    {
      "epoch": 0.16362222222222222,
      "grad_norm": 1.3643320798873901,
      "learning_rate": 0.00016731273616359192,
      "loss": 2.0659,
      "step": 7363
    },
    {
      "epoch": 0.16364444444444445,
      "grad_norm": 1.383832335472107,
      "learning_rate": 0.00016730829073127363,
      "loss": 1.9039,
      "step": 7364
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 1.7524296045303345,
      "learning_rate": 0.00016730384529895534,
      "loss": 2.6782,
      "step": 7365
    },
    {
      "epoch": 0.16368888888888888,
      "grad_norm": 1.3018977642059326,
      "learning_rate": 0.00016729939986663702,
      "loss": 1.9905,
      "step": 7366
    },
    {
      "epoch": 0.1637111111111111,
      "grad_norm": 0.9138856530189514,
      "learning_rate": 0.00016729495443431876,
      "loss": 1.3645,
      "step": 7367
    },
    {
      "epoch": 0.16373333333333334,
      "grad_norm": 1.444908618927002,
      "learning_rate": 0.00016729050900200044,
      "loss": 2.0355,
      "step": 7368
    },
    {
      "epoch": 0.16375555555555554,
      "grad_norm": 1.437517523765564,
      "learning_rate": 0.00016728606356968215,
      "loss": 2.2172,
      "step": 7369
    },
    {
      "epoch": 0.16377777777777777,
      "grad_norm": 1.4852097034454346,
      "learning_rate": 0.00016728161813736386,
      "loss": 1.9654,
      "step": 7370
    },
    {
      "epoch": 0.1638,
      "grad_norm": 1.3433258533477783,
      "learning_rate": 0.00016727717270504557,
      "loss": 1.8616,
      "step": 7371
    },
    {
      "epoch": 0.16382222222222223,
      "grad_norm": 1.0969222784042358,
      "learning_rate": 0.00016727272727272728,
      "loss": 1.2127,
      "step": 7372
    },
    {
      "epoch": 0.16384444444444443,
      "grad_norm": 1.784705400466919,
      "learning_rate": 0.000167268281840409,
      "loss": 2.3719,
      "step": 7373
    },
    {
      "epoch": 0.16386666666666666,
      "grad_norm": 1.233166217803955,
      "learning_rate": 0.0001672638364080907,
      "loss": 1.8934,
      "step": 7374
    },
    {
      "epoch": 0.1638888888888889,
      "grad_norm": 1.3817291259765625,
      "learning_rate": 0.0001672593909757724,
      "loss": 2.1629,
      "step": 7375
    },
    {
      "epoch": 0.16391111111111112,
      "grad_norm": 1.2915160655975342,
      "learning_rate": 0.00016725494554345412,
      "loss": 1.9885,
      "step": 7376
    },
    {
      "epoch": 0.16393333333333332,
      "grad_norm": 1.5194352865219116,
      "learning_rate": 0.0001672505001111358,
      "loss": 2.2605,
      "step": 7377
    },
    {
      "epoch": 0.16395555555555555,
      "grad_norm": 1.0478885173797607,
      "learning_rate": 0.00016724605467881754,
      "loss": 1.0353,
      "step": 7378
    },
    {
      "epoch": 0.16397777777777778,
      "grad_norm": 1.6717242002487183,
      "learning_rate": 0.00016724160924649922,
      "loss": 2.1132,
      "step": 7379
    },
    {
      "epoch": 0.164,
      "grad_norm": 1.5859756469726562,
      "learning_rate": 0.00016723716381418093,
      "loss": 2.258,
      "step": 7380
    },
    {
      "epoch": 0.16402222222222224,
      "grad_norm": 1.265722393989563,
      "learning_rate": 0.00016723271838186266,
      "loss": 1.7825,
      "step": 7381
    },
    {
      "epoch": 0.16404444444444444,
      "grad_norm": 1.607237458229065,
      "learning_rate": 0.00016722827294954435,
      "loss": 2.0665,
      "step": 7382
    },
    {
      "epoch": 0.16406666666666667,
      "grad_norm": 1.5253863334655762,
      "learning_rate": 0.00016722382751722606,
      "loss": 1.8491,
      "step": 7383
    },
    {
      "epoch": 0.1640888888888889,
      "grad_norm": 1.4865936040878296,
      "learning_rate": 0.00016721938208490777,
      "loss": 2.1417,
      "step": 7384
    },
    {
      "epoch": 0.16411111111111112,
      "grad_norm": 1.6996185779571533,
      "learning_rate": 0.00016721493665258948,
      "loss": 2.2571,
      "step": 7385
    },
    {
      "epoch": 0.16413333333333333,
      "grad_norm": 1.7319633960723877,
      "learning_rate": 0.00016721049122027116,
      "loss": 1.6064,
      "step": 7386
    },
    {
      "epoch": 0.16415555555555555,
      "grad_norm": 1.244547724723816,
      "learning_rate": 0.0001672060457879529,
      "loss": 1.6567,
      "step": 7387
    },
    {
      "epoch": 0.16417777777777778,
      "grad_norm": 1.8771189451217651,
      "learning_rate": 0.0001672016003556346,
      "loss": 2.0844,
      "step": 7388
    },
    {
      "epoch": 0.1642,
      "grad_norm": 1.6062066555023193,
      "learning_rate": 0.0001671971549233163,
      "loss": 1.9628,
      "step": 7389
    },
    {
      "epoch": 0.16422222222222221,
      "grad_norm": 1.5749917030334473,
      "learning_rate": 0.00016719270949099802,
      "loss": 1.6654,
      "step": 7390
    },
    {
      "epoch": 0.16424444444444444,
      "grad_norm": 1.304309368133545,
      "learning_rate": 0.0001671882640586797,
      "loss": 1.5888,
      "step": 7391
    },
    {
      "epoch": 0.16426666666666667,
      "grad_norm": 1.3725299835205078,
      "learning_rate": 0.00016718381862636144,
      "loss": 1.7234,
      "step": 7392
    },
    {
      "epoch": 0.1642888888888889,
      "grad_norm": 1.354271650314331,
      "learning_rate": 0.00016717937319404313,
      "loss": 1.9794,
      "step": 7393
    },
    {
      "epoch": 0.1643111111111111,
      "grad_norm": 1.4531803131103516,
      "learning_rate": 0.00016717492776172484,
      "loss": 1.8289,
      "step": 7394
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 1.7689558267593384,
      "learning_rate": 0.00016717048232940654,
      "loss": 2.0518,
      "step": 7395
    },
    {
      "epoch": 0.16435555555555556,
      "grad_norm": 1.550899624824524,
      "learning_rate": 0.00016716603689708825,
      "loss": 2.0729,
      "step": 7396
    },
    {
      "epoch": 0.1643777777777778,
      "grad_norm": 1.588347315788269,
      "learning_rate": 0.00016716159146476996,
      "loss": 1.9937,
      "step": 7397
    },
    {
      "epoch": 0.1644,
      "grad_norm": 2.0441396236419678,
      "learning_rate": 0.00016715714603245167,
      "loss": 1.668,
      "step": 7398
    },
    {
      "epoch": 0.16442222222222222,
      "grad_norm": 1.514015555381775,
      "learning_rate": 0.00016715270060013338,
      "loss": 1.5409,
      "step": 7399
    },
    {
      "epoch": 0.16444444444444445,
      "grad_norm": 1.5750575065612793,
      "learning_rate": 0.00016714825516781507,
      "loss": 1.4856,
      "step": 7400
    },
    {
      "epoch": 0.16446666666666668,
      "grad_norm": 1.1751503944396973,
      "learning_rate": 0.0001671438097354968,
      "loss": 2.3394,
      "step": 7401
    },
    {
      "epoch": 0.16448888888888888,
      "grad_norm": 1.3890995979309082,
      "learning_rate": 0.00016713936430317849,
      "loss": 2.7851,
      "step": 7402
    },
    {
      "epoch": 0.1645111111111111,
      "grad_norm": 1.246609091758728,
      "learning_rate": 0.0001671349188708602,
      "loss": 2.7395,
      "step": 7403
    },
    {
      "epoch": 0.16453333333333334,
      "grad_norm": 1.339296579360962,
      "learning_rate": 0.0001671304734385419,
      "loss": 2.7592,
      "step": 7404
    },
    {
      "epoch": 0.16455555555555557,
      "grad_norm": 1.190852165222168,
      "learning_rate": 0.00016712602800622361,
      "loss": 2.1667,
      "step": 7405
    },
    {
      "epoch": 0.16457777777777777,
      "grad_norm": 1.2843854427337646,
      "learning_rate": 0.00016712158257390532,
      "loss": 2.4832,
      "step": 7406
    },
    {
      "epoch": 0.1646,
      "grad_norm": 1.378309726715088,
      "learning_rate": 0.00016711713714158703,
      "loss": 2.7417,
      "step": 7407
    },
    {
      "epoch": 0.16462222222222223,
      "grad_norm": 1.251588225364685,
      "learning_rate": 0.00016711269170926874,
      "loss": 2.503,
      "step": 7408
    },
    {
      "epoch": 0.16464444444444445,
      "grad_norm": 1.158292293548584,
      "learning_rate": 0.00016710824627695043,
      "loss": 2.2735,
      "step": 7409
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 1.1478075981140137,
      "learning_rate": 0.00016710380084463216,
      "loss": 2.124,
      "step": 7410
    },
    {
      "epoch": 0.16468888888888888,
      "grad_norm": 1.3326983451843262,
      "learning_rate": 0.00016709935541231384,
      "loss": 2.1522,
      "step": 7411
    },
    {
      "epoch": 0.1647111111111111,
      "grad_norm": 1.3621225357055664,
      "learning_rate": 0.00016709490997999558,
      "loss": 2.1393,
      "step": 7412
    },
    {
      "epoch": 0.16473333333333334,
      "grad_norm": 1.9450715780258179,
      "learning_rate": 0.00016709046454767726,
      "loss": 2.3382,
      "step": 7413
    },
    {
      "epoch": 0.16475555555555554,
      "grad_norm": 1.3933905363082886,
      "learning_rate": 0.00016708601911535897,
      "loss": 1.9699,
      "step": 7414
    },
    {
      "epoch": 0.16477777777777777,
      "grad_norm": 1.4697290658950806,
      "learning_rate": 0.00016708157368304068,
      "loss": 2.3004,
      "step": 7415
    },
    {
      "epoch": 0.1648,
      "grad_norm": 1.283515214920044,
      "learning_rate": 0.0001670771282507224,
      "loss": 2.1804,
      "step": 7416
    },
    {
      "epoch": 0.16482222222222223,
      "grad_norm": 1.432064175605774,
      "learning_rate": 0.0001670726828184041,
      "loss": 2.0556,
      "step": 7417
    },
    {
      "epoch": 0.16484444444444443,
      "grad_norm": 1.3303800821304321,
      "learning_rate": 0.0001670682373860858,
      "loss": 2.1485,
      "step": 7418
    },
    {
      "epoch": 0.16486666666666666,
      "grad_norm": 1.5319459438323975,
      "learning_rate": 0.00016706379195376752,
      "loss": 2.3724,
      "step": 7419
    },
    {
      "epoch": 0.1648888888888889,
      "grad_norm": 1.402394413948059,
      "learning_rate": 0.0001670593465214492,
      "loss": 2.184,
      "step": 7420
    },
    {
      "epoch": 0.16491111111111112,
      "grad_norm": 1.3719689846038818,
      "learning_rate": 0.00016705490108913094,
      "loss": 2.2004,
      "step": 7421
    },
    {
      "epoch": 0.16493333333333332,
      "grad_norm": 1.353861689567566,
      "learning_rate": 0.00016705045565681262,
      "loss": 1.8637,
      "step": 7422
    },
    {
      "epoch": 0.16495555555555555,
      "grad_norm": 1.3467094898223877,
      "learning_rate": 0.00016704601022449433,
      "loss": 1.833,
      "step": 7423
    },
    {
      "epoch": 0.16497777777777778,
      "grad_norm": 1.2788643836975098,
      "learning_rate": 0.00016704156479217604,
      "loss": 2.0275,
      "step": 7424
    },
    {
      "epoch": 0.165,
      "grad_norm": 1.3055864572525024,
      "learning_rate": 0.00016703711935985775,
      "loss": 1.8334,
      "step": 7425
    },
    {
      "epoch": 0.1650222222222222,
      "grad_norm": 1.5668047666549683,
      "learning_rate": 0.00016703267392753946,
      "loss": 2.0182,
      "step": 7426
    },
    {
      "epoch": 0.16504444444444444,
      "grad_norm": 1.412330150604248,
      "learning_rate": 0.00016702822849522117,
      "loss": 2.035,
      "step": 7427
    },
    {
      "epoch": 0.16506666666666667,
      "grad_norm": 1.576206922531128,
      "learning_rate": 0.00016702378306290288,
      "loss": 1.9728,
      "step": 7428
    },
    {
      "epoch": 0.1650888888888889,
      "grad_norm": 1.6615800857543945,
      "learning_rate": 0.00016701933763058456,
      "loss": 2.4355,
      "step": 7429
    },
    {
      "epoch": 0.1651111111111111,
      "grad_norm": 1.361621379852295,
      "learning_rate": 0.0001670148921982663,
      "loss": 1.8171,
      "step": 7430
    },
    {
      "epoch": 0.16513333333333333,
      "grad_norm": 1.3933229446411133,
      "learning_rate": 0.00016701044676594798,
      "loss": 2.0906,
      "step": 7431
    },
    {
      "epoch": 0.16515555555555556,
      "grad_norm": 1.529568076133728,
      "learning_rate": 0.00016700600133362972,
      "loss": 2.0836,
      "step": 7432
    },
    {
      "epoch": 0.16517777777777778,
      "grad_norm": 1.9759272336959839,
      "learning_rate": 0.0001670015559013114,
      "loss": 2.4754,
      "step": 7433
    },
    {
      "epoch": 0.1652,
      "grad_norm": 1.2710851430892944,
      "learning_rate": 0.0001669971104689931,
      "loss": 1.7683,
      "step": 7434
    },
    {
      "epoch": 0.16522222222222221,
      "grad_norm": 1.2940948009490967,
      "learning_rate": 0.00016699266503667482,
      "loss": 1.803,
      "step": 7435
    },
    {
      "epoch": 0.16524444444444444,
      "grad_norm": 1.4792935848236084,
      "learning_rate": 0.00016698821960435653,
      "loss": 1.8265,
      "step": 7436
    },
    {
      "epoch": 0.16526666666666667,
      "grad_norm": 1.2874619960784912,
      "learning_rate": 0.00016698377417203824,
      "loss": 1.3331,
      "step": 7437
    },
    {
      "epoch": 0.1652888888888889,
      "grad_norm": 1.2844692468643188,
      "learning_rate": 0.00016697932873971995,
      "loss": 1.3477,
      "step": 7438
    },
    {
      "epoch": 0.1653111111111111,
      "grad_norm": 1.597217321395874,
      "learning_rate": 0.00016697488330740166,
      "loss": 2.1042,
      "step": 7439
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 1.5575025081634521,
      "learning_rate": 0.00016697043787508334,
      "loss": 1.9202,
      "step": 7440
    },
    {
      "epoch": 0.16535555555555556,
      "grad_norm": 1.3936342000961304,
      "learning_rate": 0.00016696599244276508,
      "loss": 2.0418,
      "step": 7441
    },
    {
      "epoch": 0.1653777777777778,
      "grad_norm": 1.5916376113891602,
      "learning_rate": 0.00016696154701044676,
      "loss": 1.8906,
      "step": 7442
    },
    {
      "epoch": 0.1654,
      "grad_norm": 1.8580141067504883,
      "learning_rate": 0.00016695710157812847,
      "loss": 2.0118,
      "step": 7443
    },
    {
      "epoch": 0.16542222222222222,
      "grad_norm": 1.5149790048599243,
      "learning_rate": 0.00016695265614581018,
      "loss": 1.9059,
      "step": 7444
    },
    {
      "epoch": 0.16544444444444445,
      "grad_norm": 1.4956469535827637,
      "learning_rate": 0.0001669482107134919,
      "loss": 1.7879,
      "step": 7445
    },
    {
      "epoch": 0.16546666666666668,
      "grad_norm": 1.7506577968597412,
      "learning_rate": 0.0001669437652811736,
      "loss": 2.4213,
      "step": 7446
    },
    {
      "epoch": 0.16548888888888888,
      "grad_norm": 1.2214157581329346,
      "learning_rate": 0.0001669393198488553,
      "loss": 1.6513,
      "step": 7447
    },
    {
      "epoch": 0.1655111111111111,
      "grad_norm": 1.5464670658111572,
      "learning_rate": 0.00016693487441653702,
      "loss": 1.6911,
      "step": 7448
    },
    {
      "epoch": 0.16553333333333334,
      "grad_norm": 1.6678789854049683,
      "learning_rate": 0.00016693042898421873,
      "loss": 2.2752,
      "step": 7449
    },
    {
      "epoch": 0.16555555555555557,
      "grad_norm": 4.052365779876709,
      "learning_rate": 0.00016692598355190044,
      "loss": 1.6126,
      "step": 7450
    },
    {
      "epoch": 0.16557777777777777,
      "grad_norm": 1.3212264776229858,
      "learning_rate": 0.00016692153811958212,
      "loss": 2.583,
      "step": 7451
    },
    {
      "epoch": 0.1656,
      "grad_norm": 1.4497236013412476,
      "learning_rate": 0.00016691709268726386,
      "loss": 2.3468,
      "step": 7452
    },
    {
      "epoch": 0.16562222222222223,
      "grad_norm": 0.7868517637252808,
      "learning_rate": 0.00016691264725494554,
      "loss": 0.0326,
      "step": 7453
    },
    {
      "epoch": 0.16564444444444446,
      "grad_norm": 1.2191722393035889,
      "learning_rate": 0.00016690820182262725,
      "loss": 2.0369,
      "step": 7454
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 1.402039885520935,
      "learning_rate": 0.00016690375639030899,
      "loss": 2.7343,
      "step": 7455
    },
    {
      "epoch": 0.16568888888888889,
      "grad_norm": 1.472370982170105,
      "learning_rate": 0.00016689931095799067,
      "loss": 1.9211,
      "step": 7456
    },
    {
      "epoch": 0.16571111111111111,
      "grad_norm": 1.2731382846832275,
      "learning_rate": 0.00016689486552567238,
      "loss": 1.7222,
      "step": 7457
    },
    {
      "epoch": 0.16573333333333334,
      "grad_norm": 1.2700786590576172,
      "learning_rate": 0.0001668904200933541,
      "loss": 2.1598,
      "step": 7458
    },
    {
      "epoch": 0.16575555555555554,
      "grad_norm": 1.3037934303283691,
      "learning_rate": 0.0001668859746610358,
      "loss": 2.1638,
      "step": 7459
    },
    {
      "epoch": 0.16577777777777777,
      "grad_norm": 1.7450220584869385,
      "learning_rate": 0.00016688152922871748,
      "loss": 2.1471,
      "step": 7460
    },
    {
      "epoch": 0.1658,
      "grad_norm": 1.514670968055725,
      "learning_rate": 0.00016687708379639922,
      "loss": 2.0043,
      "step": 7461
    },
    {
      "epoch": 0.16582222222222223,
      "grad_norm": 1.311561942100525,
      "learning_rate": 0.00016687263836408093,
      "loss": 1.7964,
      "step": 7462
    },
    {
      "epoch": 0.16584444444444443,
      "grad_norm": 1.655945062637329,
      "learning_rate": 0.0001668681929317626,
      "loss": 2.2472,
      "step": 7463
    },
    {
      "epoch": 0.16586666666666666,
      "grad_norm": 1.0275193452835083,
      "learning_rate": 0.00016686374749944435,
      "loss": 0.9807,
      "step": 7464
    },
    {
      "epoch": 0.1658888888888889,
      "grad_norm": 1.1143581867218018,
      "learning_rate": 0.00016685930206712603,
      "loss": 1.1949,
      "step": 7465
    },
    {
      "epoch": 0.16591111111111112,
      "grad_norm": 1.4479457139968872,
      "learning_rate": 0.00016685485663480774,
      "loss": 2.0177,
      "step": 7466
    },
    {
      "epoch": 0.16593333333333332,
      "grad_norm": 1.5665361881256104,
      "learning_rate": 0.00016685041120248945,
      "loss": 2.0933,
      "step": 7467
    },
    {
      "epoch": 0.16595555555555555,
      "grad_norm": 1.403135061264038,
      "learning_rate": 0.00016684596577017116,
      "loss": 1.5921,
      "step": 7468
    },
    {
      "epoch": 0.16597777777777778,
      "grad_norm": 1.3371063470840454,
      "learning_rate": 0.00016684152033785287,
      "loss": 1.5697,
      "step": 7469
    },
    {
      "epoch": 0.166,
      "grad_norm": 1.8864635229110718,
      "learning_rate": 0.00016683707490553458,
      "loss": 2.1815,
      "step": 7470
    },
    {
      "epoch": 0.1660222222222222,
      "grad_norm": 1.6801055669784546,
      "learning_rate": 0.00016683262947321629,
      "loss": 2.084,
      "step": 7471
    },
    {
      "epoch": 0.16604444444444444,
      "grad_norm": 1.3609710931777954,
      "learning_rate": 0.000166828184040898,
      "loss": 1.9525,
      "step": 7472
    },
    {
      "epoch": 0.16606666666666667,
      "grad_norm": 1.5331772565841675,
      "learning_rate": 0.0001668237386085797,
      "loss": 2.0081,
      "step": 7473
    },
    {
      "epoch": 0.1660888888888889,
      "grad_norm": 1.6137598752975464,
      "learning_rate": 0.0001668192931762614,
      "loss": 2.0895,
      "step": 7474
    },
    {
      "epoch": 0.1661111111111111,
      "grad_norm": 1.6293911933898926,
      "learning_rate": 0.00016681484774394312,
      "loss": 2.0146,
      "step": 7475
    },
    {
      "epoch": 0.16613333333333333,
      "grad_norm": 1.536686897277832,
      "learning_rate": 0.0001668104023116248,
      "loss": 2.0333,
      "step": 7476
    },
    {
      "epoch": 0.16615555555555556,
      "grad_norm": 1.9153573513031006,
      "learning_rate": 0.00016680595687930652,
      "loss": 2.0485,
      "step": 7477
    },
    {
      "epoch": 0.16617777777777779,
      "grad_norm": 1.2926398515701294,
      "learning_rate": 0.00016680151144698823,
      "loss": 1.8251,
      "step": 7478
    },
    {
      "epoch": 0.1662,
      "grad_norm": 3.481297254562378,
      "learning_rate": 0.00016679706601466994,
      "loss": 2.246,
      "step": 7479
    },
    {
      "epoch": 0.16622222222222222,
      "grad_norm": 1.2021526098251343,
      "learning_rate": 0.00016679262058235165,
      "loss": 0.9036,
      "step": 7480
    },
    {
      "epoch": 0.16624444444444444,
      "grad_norm": 1.561192512512207,
      "learning_rate": 0.00016678817515003336,
      "loss": 2.4295,
      "step": 7481
    },
    {
      "epoch": 0.16626666666666667,
      "grad_norm": 1.522530436515808,
      "learning_rate": 0.00016678372971771506,
      "loss": 2.0095,
      "step": 7482
    },
    {
      "epoch": 0.1662888888888889,
      "grad_norm": 1.479345679283142,
      "learning_rate": 0.00016677928428539675,
      "loss": 1.8674,
      "step": 7483
    },
    {
      "epoch": 0.1663111111111111,
      "grad_norm": 0.7942495942115784,
      "learning_rate": 0.00016677483885307848,
      "loss": 0.7747,
      "step": 7484
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 1.6065936088562012,
      "learning_rate": 0.00016677039342076017,
      "loss": 2.3013,
      "step": 7485
    },
    {
      "epoch": 0.16635555555555556,
      "grad_norm": 1.2847130298614502,
      "learning_rate": 0.00016676594798844188,
      "loss": 1.663,
      "step": 7486
    },
    {
      "epoch": 0.1663777777777778,
      "grad_norm": 1.1341899633407593,
      "learning_rate": 0.00016676150255612359,
      "loss": 1.0559,
      "step": 7487
    },
    {
      "epoch": 0.1664,
      "grad_norm": 1.6332035064697266,
      "learning_rate": 0.0001667570571238053,
      "loss": 2.2816,
      "step": 7488
    },
    {
      "epoch": 0.16642222222222222,
      "grad_norm": 1.6635619401931763,
      "learning_rate": 0.000166752611691487,
      "loss": 1.9831,
      "step": 7489
    },
    {
      "epoch": 0.16644444444444445,
      "grad_norm": 1.55338454246521,
      "learning_rate": 0.00016674816625916871,
      "loss": 2.0117,
      "step": 7490
    },
    {
      "epoch": 0.16646666666666668,
      "grad_norm": 1.446790337562561,
      "learning_rate": 0.00016674372082685042,
      "loss": 1.7375,
      "step": 7491
    },
    {
      "epoch": 0.16648888888888888,
      "grad_norm": 1.3456947803497314,
      "learning_rate": 0.00016673927539453213,
      "loss": 1.8842,
      "step": 7492
    },
    {
      "epoch": 0.1665111111111111,
      "grad_norm": 1.8591887950897217,
      "learning_rate": 0.00016673482996221384,
      "loss": 2.2244,
      "step": 7493
    },
    {
      "epoch": 0.16653333333333334,
      "grad_norm": 1.29209303855896,
      "learning_rate": 0.00016673038452989553,
      "loss": 1.4562,
      "step": 7494
    },
    {
      "epoch": 0.16655555555555557,
      "grad_norm": 1.5618367195129395,
      "learning_rate": 0.00016672593909757726,
      "loss": 1.9751,
      "step": 7495
    },
    {
      "epoch": 0.16657777777777777,
      "grad_norm": 1.4462605714797974,
      "learning_rate": 0.00016672149366525895,
      "loss": 1.6901,
      "step": 7496
    },
    {
      "epoch": 0.1666,
      "grad_norm": 1.107171654701233,
      "learning_rate": 0.00016671704823294065,
      "loss": 0.8999,
      "step": 7497
    },
    {
      "epoch": 0.16662222222222223,
      "grad_norm": 1.6358362436294556,
      "learning_rate": 0.00016671260280062236,
      "loss": 1.6692,
      "step": 7498
    },
    {
      "epoch": 0.16664444444444446,
      "grad_norm": 1.442521572113037,
      "learning_rate": 0.00016670815736830407,
      "loss": 0.9533,
      "step": 7499
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.8261867761611938,
      "learning_rate": 0.00016670371193598578,
      "loss": 1.3631,
      "step": 7500
    },
    {
      "epoch": 0.1666888888888889,
      "grad_norm": 1.291886806488037,
      "learning_rate": 0.0001666992665036675,
      "loss": 2.5686,
      "step": 7501
    },
    {
      "epoch": 0.16671111111111112,
      "grad_norm": 0.8949452638626099,
      "learning_rate": 0.0001666948210713492,
      "loss": 1.4182,
      "step": 7502
    },
    {
      "epoch": 0.16673333333333334,
      "grad_norm": 1.554103136062622,
      "learning_rate": 0.00016669037563903089,
      "loss": 2.3574,
      "step": 7503
    },
    {
      "epoch": 0.16675555555555555,
      "grad_norm": 1.3219977617263794,
      "learning_rate": 0.00016668593020671262,
      "loss": 2.4166,
      "step": 7504
    },
    {
      "epoch": 0.16677777777777777,
      "grad_norm": 1.0874594449996948,
      "learning_rate": 0.0001666814847743943,
      "loss": 1.991,
      "step": 7505
    },
    {
      "epoch": 0.1668,
      "grad_norm": 1.3674875497817993,
      "learning_rate": 0.00016667703934207604,
      "loss": 1.9297,
      "step": 7506
    },
    {
      "epoch": 0.16682222222222223,
      "grad_norm": 1.1586180925369263,
      "learning_rate": 0.00016667259390975772,
      "loss": 2.1809,
      "step": 7507
    },
    {
      "epoch": 0.16684444444444443,
      "grad_norm": 1.2432342767715454,
      "learning_rate": 0.00016666814847743943,
      "loss": 2.3903,
      "step": 7508
    },
    {
      "epoch": 0.16686666666666666,
      "grad_norm": 1.318029761314392,
      "learning_rate": 0.00016666370304512114,
      "loss": 2.0061,
      "step": 7509
    },
    {
      "epoch": 0.1668888888888889,
      "grad_norm": 1.2732998132705688,
      "learning_rate": 0.00016665925761280285,
      "loss": 1.9557,
      "step": 7510
    },
    {
      "epoch": 0.16691111111111112,
      "grad_norm": 1.011601209640503,
      "learning_rate": 0.00016665481218048456,
      "loss": 1.2232,
      "step": 7511
    },
    {
      "epoch": 0.16693333333333332,
      "grad_norm": 1.2210750579833984,
      "learning_rate": 0.00016665036674816627,
      "loss": 1.9958,
      "step": 7512
    },
    {
      "epoch": 0.16695555555555555,
      "grad_norm": 1.7233895063400269,
      "learning_rate": 0.00016664592131584798,
      "loss": 2.7154,
      "step": 7513
    },
    {
      "epoch": 0.16697777777777778,
      "grad_norm": 1.4913861751556396,
      "learning_rate": 0.00016664147588352966,
      "loss": 1.7021,
      "step": 7514
    },
    {
      "epoch": 0.167,
      "grad_norm": 1.51860511302948,
      "learning_rate": 0.0001666370304512114,
      "loss": 2.3543,
      "step": 7515
    },
    {
      "epoch": 0.1670222222222222,
      "grad_norm": 1.4678065776824951,
      "learning_rate": 0.00016663258501889308,
      "loss": 1.8857,
      "step": 7516
    },
    {
      "epoch": 0.16704444444444444,
      "grad_norm": 1.4168829917907715,
      "learning_rate": 0.0001666281395865748,
      "loss": 2.045,
      "step": 7517
    },
    {
      "epoch": 0.16706666666666667,
      "grad_norm": 1.564455509185791,
      "learning_rate": 0.0001666236941542565,
      "loss": 2.5106,
      "step": 7518
    },
    {
      "epoch": 0.1670888888888889,
      "grad_norm": 1.4636766910552979,
      "learning_rate": 0.0001666192487219382,
      "loss": 2.0152,
      "step": 7519
    },
    {
      "epoch": 0.1671111111111111,
      "grad_norm": 1.414084792137146,
      "learning_rate": 0.00016661480328961992,
      "loss": 1.9851,
      "step": 7520
    },
    {
      "epoch": 0.16713333333333333,
      "grad_norm": 1.3440860509872437,
      "learning_rate": 0.00016661035785730163,
      "loss": 1.8668,
      "step": 7521
    },
    {
      "epoch": 0.16715555555555556,
      "grad_norm": 1.2811980247497559,
      "learning_rate": 0.00016660591242498334,
      "loss": 2.045,
      "step": 7522
    },
    {
      "epoch": 0.1671777777777778,
      "grad_norm": 1.3591779470443726,
      "learning_rate": 0.00016660146699266502,
      "loss": 1.9325,
      "step": 7523
    },
    {
      "epoch": 0.1672,
      "grad_norm": 1.3703575134277344,
      "learning_rate": 0.00016659702156034676,
      "loss": 1.9879,
      "step": 7524
    },
    {
      "epoch": 0.16722222222222222,
      "grad_norm": 1.4463400840759277,
      "learning_rate": 0.00016659257612802844,
      "loss": 2.2077,
      "step": 7525
    },
    {
      "epoch": 0.16724444444444445,
      "grad_norm": 1.8688421249389648,
      "learning_rate": 0.00016658813069571018,
      "loss": 1.9379,
      "step": 7526
    },
    {
      "epoch": 0.16726666666666667,
      "grad_norm": 1.6091972589492798,
      "learning_rate": 0.00016658368526339186,
      "loss": 1.8656,
      "step": 7527
    },
    {
      "epoch": 0.16728888888888888,
      "grad_norm": 1.1760426759719849,
      "learning_rate": 0.00016657923983107357,
      "loss": 1.6282,
      "step": 7528
    },
    {
      "epoch": 0.1673111111111111,
      "grad_norm": 1.5471649169921875,
      "learning_rate": 0.0001665747943987553,
      "loss": 2.0844,
      "step": 7529
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 1.188564419746399,
      "learning_rate": 0.000166570348966437,
      "loss": 1.1835,
      "step": 7530
    },
    {
      "epoch": 0.16735555555555556,
      "grad_norm": 1.1350218057632446,
      "learning_rate": 0.0001665659035341187,
      "loss": 1.5601,
      "step": 7531
    },
    {
      "epoch": 0.16737777777777776,
      "grad_norm": 1.4170045852661133,
      "learning_rate": 0.0001665614581018004,
      "loss": 1.5769,
      "step": 7532
    },
    {
      "epoch": 0.1674,
      "grad_norm": 1.3708317279815674,
      "learning_rate": 0.00016655701266948212,
      "loss": 1.9439,
      "step": 7533
    },
    {
      "epoch": 0.16742222222222222,
      "grad_norm": 1.619041919708252,
      "learning_rate": 0.0001665525672371638,
      "loss": 2.4906,
      "step": 7534
    },
    {
      "epoch": 0.16744444444444445,
      "grad_norm": 1.3864816427230835,
      "learning_rate": 0.00016654812180484554,
      "loss": 1.6994,
      "step": 7535
    },
    {
      "epoch": 0.16746666666666668,
      "grad_norm": 1.7976346015930176,
      "learning_rate": 0.00016654367637252725,
      "loss": 2.5289,
      "step": 7536
    },
    {
      "epoch": 0.16748888888888888,
      "grad_norm": 1.3553787469863892,
      "learning_rate": 0.00016653923094020893,
      "loss": 2.0655,
      "step": 7537
    },
    {
      "epoch": 0.1675111111111111,
      "grad_norm": 1.9066236019134521,
      "learning_rate": 0.00016653478550789067,
      "loss": 1.6256,
      "step": 7538
    },
    {
      "epoch": 0.16753333333333334,
      "grad_norm": 1.0230056047439575,
      "learning_rate": 0.00016653034007557235,
      "loss": 1.4934,
      "step": 7539
    },
    {
      "epoch": 0.16755555555555557,
      "grad_norm": 1.373175859451294,
      "learning_rate": 0.00016652589464325406,
      "loss": 1.6132,
      "step": 7540
    },
    {
      "epoch": 0.16757777777777777,
      "grad_norm": 1.5010137557983398,
      "learning_rate": 0.00016652144921093577,
      "loss": 1.7596,
      "step": 7541
    },
    {
      "epoch": 0.1676,
      "grad_norm": 1.5133616924285889,
      "learning_rate": 0.00016651700377861748,
      "loss": 1.8014,
      "step": 7542
    },
    {
      "epoch": 0.16762222222222223,
      "grad_norm": 1.5181550979614258,
      "learning_rate": 0.00016651255834629916,
      "loss": 1.6222,
      "step": 7543
    },
    {
      "epoch": 0.16764444444444446,
      "grad_norm": 1.4739396572113037,
      "learning_rate": 0.0001665081129139809,
      "loss": 1.5936,
      "step": 7544
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 1.5022996664047241,
      "learning_rate": 0.0001665036674816626,
      "loss": 1.7377,
      "step": 7545
    },
    {
      "epoch": 0.1676888888888889,
      "grad_norm": 1.5557353496551514,
      "learning_rate": 0.00016649922204934432,
      "loss": 2.066,
      "step": 7546
    },
    {
      "epoch": 0.16771111111111112,
      "grad_norm": 2.106278896331787,
      "learning_rate": 0.00016649477661702603,
      "loss": 1.792,
      "step": 7547
    },
    {
      "epoch": 0.16773333333333335,
      "grad_norm": 1.551429033279419,
      "learning_rate": 0.0001664903311847077,
      "loss": 2.0373,
      "step": 7548
    },
    {
      "epoch": 0.16775555555555555,
      "grad_norm": 1.7610152959823608,
      "learning_rate": 0.00016648588575238945,
      "loss": 1.83,
      "step": 7549
    },
    {
      "epoch": 0.16777777777777778,
      "grad_norm": 2.1417076587677,
      "learning_rate": 0.00016648144032007113,
      "loss": 1.6011,
      "step": 7550
    },
    {
      "epoch": 0.1678,
      "grad_norm": 1.2580229043960571,
      "learning_rate": 0.00016647699488775284,
      "loss": 2.6663,
      "step": 7551
    },
    {
      "epoch": 0.16782222222222223,
      "grad_norm": 1.239942193031311,
      "learning_rate": 0.00016647254945543455,
      "loss": 2.6964,
      "step": 7552
    },
    {
      "epoch": 0.16784444444444444,
      "grad_norm": 1.6403299570083618,
      "learning_rate": 0.00016646810402311626,
      "loss": 3.6606,
      "step": 7553
    },
    {
      "epoch": 0.16786666666666666,
      "grad_norm": 1.2305372953414917,
      "learning_rate": 0.00016646365859079797,
      "loss": 2.3133,
      "step": 7554
    },
    {
      "epoch": 0.1678888888888889,
      "grad_norm": 1.2344765663146973,
      "learning_rate": 0.00016645921315847968,
      "loss": 1.6426,
      "step": 7555
    },
    {
      "epoch": 0.16791111111111112,
      "grad_norm": 1.4160915613174438,
      "learning_rate": 0.0001664547677261614,
      "loss": 2.7227,
      "step": 7556
    },
    {
      "epoch": 0.16793333333333332,
      "grad_norm": 1.3110591173171997,
      "learning_rate": 0.00016645032229384307,
      "loss": 2.9934,
      "step": 7557
    },
    {
      "epoch": 0.16795555555555555,
      "grad_norm": 1.3026460409164429,
      "learning_rate": 0.0001664458768615248,
      "loss": 2.5639,
      "step": 7558
    },
    {
      "epoch": 0.16797777777777778,
      "grad_norm": 1.057863473892212,
      "learning_rate": 0.0001664414314292065,
      "loss": 0.9798,
      "step": 7559
    },
    {
      "epoch": 0.168,
      "grad_norm": 1.430468201637268,
      "learning_rate": 0.0001664369859968882,
      "loss": 2.614,
      "step": 7560
    },
    {
      "epoch": 0.1680222222222222,
      "grad_norm": 1.3151628971099854,
      "learning_rate": 0.0001664325405645699,
      "loss": 2.3836,
      "step": 7561
    },
    {
      "epoch": 0.16804444444444444,
      "grad_norm": 1.4666659832000732,
      "learning_rate": 0.00016642809513225162,
      "loss": 2.6885,
      "step": 7562
    },
    {
      "epoch": 0.16806666666666667,
      "grad_norm": 1.2521729469299316,
      "learning_rate": 0.00016642364969993333,
      "loss": 2.0715,
      "step": 7563
    },
    {
      "epoch": 0.1680888888888889,
      "grad_norm": 1.3058139085769653,
      "learning_rate": 0.00016641920426761504,
      "loss": 1.9822,
      "step": 7564
    },
    {
      "epoch": 0.1681111111111111,
      "grad_norm": 1.5048037767410278,
      "learning_rate": 0.00016641475883529675,
      "loss": 2.3271,
      "step": 7565
    },
    {
      "epoch": 0.16813333333333333,
      "grad_norm": 2.0970499515533447,
      "learning_rate": 0.00016641031340297846,
      "loss": 2.2423,
      "step": 7566
    },
    {
      "epoch": 0.16815555555555556,
      "grad_norm": 1.016278624534607,
      "learning_rate": 0.00016640586797066017,
      "loss": 1.071,
      "step": 7567
    },
    {
      "epoch": 0.1681777777777778,
      "grad_norm": 1.3939579725265503,
      "learning_rate": 0.00016640142253834185,
      "loss": 2.2918,
      "step": 7568
    },
    {
      "epoch": 0.1682,
      "grad_norm": 1.3849239349365234,
      "learning_rate": 0.00016639697710602358,
      "loss": 1.9208,
      "step": 7569
    },
    {
      "epoch": 0.16822222222222222,
      "grad_norm": 1.1881645917892456,
      "learning_rate": 0.00016639253167370527,
      "loss": 1.9356,
      "step": 7570
    },
    {
      "epoch": 0.16824444444444445,
      "grad_norm": 1.5129276514053345,
      "learning_rate": 0.00016638808624138698,
      "loss": 1.594,
      "step": 7571
    },
    {
      "epoch": 0.16826666666666668,
      "grad_norm": 1.365823745727539,
      "learning_rate": 0.0001663836408090687,
      "loss": 2.0646,
      "step": 7572
    },
    {
      "epoch": 0.16828888888888888,
      "grad_norm": 1.4418601989746094,
      "learning_rate": 0.0001663791953767504,
      "loss": 2.2359,
      "step": 7573
    },
    {
      "epoch": 0.1683111111111111,
      "grad_norm": 1.3108457326889038,
      "learning_rate": 0.0001663747499444321,
      "loss": 1.7841,
      "step": 7574
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 1.428489089012146,
      "learning_rate": 0.00016637030451211382,
      "loss": 2.2272,
      "step": 7575
    },
    {
      "epoch": 0.16835555555555556,
      "grad_norm": 1.348347544670105,
      "learning_rate": 0.00016636585907979553,
      "loss": 2.091,
      "step": 7576
    },
    {
      "epoch": 0.16837777777777777,
      "grad_norm": 1.7393734455108643,
      "learning_rate": 0.0001663614136474772,
      "loss": 2.2858,
      "step": 7577
    },
    {
      "epoch": 0.1684,
      "grad_norm": 1.6155955791473389,
      "learning_rate": 0.00016635696821515894,
      "loss": 2.1637,
      "step": 7578
    },
    {
      "epoch": 0.16842222222222222,
      "grad_norm": 1.399802803993225,
      "learning_rate": 0.00016635252278284063,
      "loss": 1.955,
      "step": 7579
    },
    {
      "epoch": 0.16844444444444445,
      "grad_norm": 1.5050675868988037,
      "learning_rate": 0.00016634807735052234,
      "loss": 2.0793,
      "step": 7580
    },
    {
      "epoch": 0.16846666666666665,
      "grad_norm": 1.6105732917785645,
      "learning_rate": 0.00016634363191820405,
      "loss": 2.2188,
      "step": 7581
    },
    {
      "epoch": 0.16848888888888888,
      "grad_norm": 1.7229630947113037,
      "learning_rate": 0.00016633918648588576,
      "loss": 1.7511,
      "step": 7582
    },
    {
      "epoch": 0.1685111111111111,
      "grad_norm": 1.5217515230178833,
      "learning_rate": 0.00016633474105356747,
      "loss": 2.3976,
      "step": 7583
    },
    {
      "epoch": 0.16853333333333334,
      "grad_norm": 1.5810275077819824,
      "learning_rate": 0.00016633029562124917,
      "loss": 2.0805,
      "step": 7584
    },
    {
      "epoch": 0.16855555555555554,
      "grad_norm": 1.5183600187301636,
      "learning_rate": 0.00016632585018893088,
      "loss": 1.7015,
      "step": 7585
    },
    {
      "epoch": 0.16857777777777777,
      "grad_norm": 1.434876799583435,
      "learning_rate": 0.0001663214047566126,
      "loss": 1.8289,
      "step": 7586
    },
    {
      "epoch": 0.1686,
      "grad_norm": 1.4009572267532349,
      "learning_rate": 0.0001663169593242943,
      "loss": 1.901,
      "step": 7587
    },
    {
      "epoch": 0.16862222222222223,
      "grad_norm": 1.336159586906433,
      "learning_rate": 0.00016631251389197599,
      "loss": 1.5822,
      "step": 7588
    },
    {
      "epoch": 0.16864444444444446,
      "grad_norm": 1.5511958599090576,
      "learning_rate": 0.00016630806845965772,
      "loss": 2.259,
      "step": 7589
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 1.6046446561813354,
      "learning_rate": 0.0001663036230273394,
      "loss": 2.2964,
      "step": 7590
    },
    {
      "epoch": 0.1686888888888889,
      "grad_norm": 1.5535136461257935,
      "learning_rate": 0.00016629917759502112,
      "loss": 1.7166,
      "step": 7591
    },
    {
      "epoch": 0.16871111111111112,
      "grad_norm": 1.263716220855713,
      "learning_rate": 0.00016629473216270282,
      "loss": 1.8726,
      "step": 7592
    },
    {
      "epoch": 0.16873333333333335,
      "grad_norm": 1.757615566253662,
      "learning_rate": 0.00016629028673038453,
      "loss": 1.7128,
      "step": 7593
    },
    {
      "epoch": 0.16875555555555555,
      "grad_norm": 1.5557749271392822,
      "learning_rate": 0.00016628584129806624,
      "loss": 1.8152,
      "step": 7594
    },
    {
      "epoch": 0.16877777777777778,
      "grad_norm": 1.423479676246643,
      "learning_rate": 0.00016628139586574795,
      "loss": 1.7991,
      "step": 7595
    },
    {
      "epoch": 0.1688,
      "grad_norm": 1.6038541793823242,
      "learning_rate": 0.00016627695043342966,
      "loss": 2.1957,
      "step": 7596
    },
    {
      "epoch": 0.16882222222222223,
      "grad_norm": 1.7770683765411377,
      "learning_rate": 0.00016627250500111135,
      "loss": 2.3779,
      "step": 7597
    },
    {
      "epoch": 0.16884444444444444,
      "grad_norm": 1.815000295639038,
      "learning_rate": 0.00016626805956879308,
      "loss": 1.9581,
      "step": 7598
    },
    {
      "epoch": 0.16886666666666666,
      "grad_norm": 2.2534422874450684,
      "learning_rate": 0.00016626361413647476,
      "loss": 2.1634,
      "step": 7599
    },
    {
      "epoch": 0.1688888888888889,
      "grad_norm": 1.3552206754684448,
      "learning_rate": 0.0001662591687041565,
      "loss": 1.7429,
      "step": 7600
    },
    {
      "epoch": 0.16891111111111112,
      "grad_norm": 1.2535924911499023,
      "learning_rate": 0.00016625472327183818,
      "loss": 2.7919,
      "step": 7601
    },
    {
      "epoch": 0.16893333333333332,
      "grad_norm": 1.1074490547180176,
      "learning_rate": 0.0001662502778395199,
      "loss": 2.4728,
      "step": 7602
    },
    {
      "epoch": 0.16895555555555555,
      "grad_norm": 1.2710124254226685,
      "learning_rate": 0.00016624583240720163,
      "loss": 2.5353,
      "step": 7603
    },
    {
      "epoch": 0.16897777777777778,
      "grad_norm": 1.1679166555404663,
      "learning_rate": 0.0001662413869748833,
      "loss": 1.0526,
      "step": 7604
    },
    {
      "epoch": 0.169,
      "grad_norm": 1.3025825023651123,
      "learning_rate": 0.00016623694154256502,
      "loss": 1.6326,
      "step": 7605
    },
    {
      "epoch": 0.1690222222222222,
      "grad_norm": 1.3757480382919312,
      "learning_rate": 0.00016623249611024673,
      "loss": 1.92,
      "step": 7606
    },
    {
      "epoch": 0.16904444444444444,
      "grad_norm": 1.3648712635040283,
      "learning_rate": 0.00016622805067792844,
      "loss": 1.9693,
      "step": 7607
    },
    {
      "epoch": 0.16906666666666667,
      "grad_norm": 1.2998442649841309,
      "learning_rate": 0.00016622360524561012,
      "loss": 2.217,
      "step": 7608
    },
    {
      "epoch": 0.1690888888888889,
      "grad_norm": 1.358388900756836,
      "learning_rate": 0.00016621915981329186,
      "loss": 2.2259,
      "step": 7609
    },
    {
      "epoch": 0.1691111111111111,
      "grad_norm": 1.2241510152816772,
      "learning_rate": 0.00016621471438097357,
      "loss": 1.7854,
      "step": 7610
    },
    {
      "epoch": 0.16913333333333333,
      "grad_norm": 1.3048535585403442,
      "learning_rate": 0.00016621026894865525,
      "loss": 2.279,
      "step": 7611
    },
    {
      "epoch": 0.16915555555555556,
      "grad_norm": 1.4132237434387207,
      "learning_rate": 0.000166205823516337,
      "loss": 2.3524,
      "step": 7612
    },
    {
      "epoch": 0.1691777777777778,
      "grad_norm": 1.2233413457870483,
      "learning_rate": 0.00016620137808401867,
      "loss": 2.0044,
      "step": 7613
    },
    {
      "epoch": 0.1692,
      "grad_norm": 1.44599449634552,
      "learning_rate": 0.00016619693265170038,
      "loss": 2.3465,
      "step": 7614
    },
    {
      "epoch": 0.16922222222222222,
      "grad_norm": 1.2646194696426392,
      "learning_rate": 0.0001661924872193821,
      "loss": 1.8331,
      "step": 7615
    },
    {
      "epoch": 0.16924444444444445,
      "grad_norm": 1.485815167427063,
      "learning_rate": 0.0001661880417870638,
      "loss": 2.3105,
      "step": 7616
    },
    {
      "epoch": 0.16926666666666668,
      "grad_norm": 1.2286280393600464,
      "learning_rate": 0.00016618359635474548,
      "loss": 1.2008,
      "step": 7617
    },
    {
      "epoch": 0.16928888888888888,
      "grad_norm": 1.5197197198867798,
      "learning_rate": 0.00016617915092242722,
      "loss": 1.9809,
      "step": 7618
    },
    {
      "epoch": 0.1693111111111111,
      "grad_norm": 1.62142813205719,
      "learning_rate": 0.00016617470549010893,
      "loss": 2.1154,
      "step": 7619
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 1.438812494277954,
      "learning_rate": 0.00016617026005779064,
      "loss": 2.2376,
      "step": 7620
    },
    {
      "epoch": 0.16935555555555556,
      "grad_norm": 1.3366788625717163,
      "learning_rate": 0.00016616581462547235,
      "loss": 2.1877,
      "step": 7621
    },
    {
      "epoch": 0.16937777777777777,
      "grad_norm": 1.6266674995422363,
      "learning_rate": 0.00016616136919315403,
      "loss": 2.1262,
      "step": 7622
    },
    {
      "epoch": 0.1694,
      "grad_norm": 1.3873039484024048,
      "learning_rate": 0.00016615692376083577,
      "loss": 2.0996,
      "step": 7623
    },
    {
      "epoch": 0.16942222222222222,
      "grad_norm": 1.7529940605163574,
      "learning_rate": 0.00016615247832851745,
      "loss": 2.3437,
      "step": 7624
    },
    {
      "epoch": 0.16944444444444445,
      "grad_norm": 1.3740798234939575,
      "learning_rate": 0.00016614803289619916,
      "loss": 1.9004,
      "step": 7625
    },
    {
      "epoch": 0.16946666666666665,
      "grad_norm": 1.1274263858795166,
      "learning_rate": 0.00016614358746388087,
      "loss": 1.6661,
      "step": 7626
    },
    {
      "epoch": 0.16948888888888888,
      "grad_norm": 1.3703888654708862,
      "learning_rate": 0.00016613914203156258,
      "loss": 1.9891,
      "step": 7627
    },
    {
      "epoch": 0.1695111111111111,
      "grad_norm": 1.084174633026123,
      "learning_rate": 0.0001661346965992443,
      "loss": 1.0128,
      "step": 7628
    },
    {
      "epoch": 0.16953333333333334,
      "grad_norm": 1.2680798768997192,
      "learning_rate": 0.000166130251166926,
      "loss": 2.0909,
      "step": 7629
    },
    {
      "epoch": 0.16955555555555554,
      "grad_norm": 1.415608286857605,
      "learning_rate": 0.0001661258057346077,
      "loss": 1.7144,
      "step": 7630
    },
    {
      "epoch": 0.16957777777777777,
      "grad_norm": 1.583961844444275,
      "learning_rate": 0.0001661213603022894,
      "loss": 1.9196,
      "step": 7631
    },
    {
      "epoch": 0.1696,
      "grad_norm": 1.5234533548355103,
      "learning_rate": 0.00016611691486997113,
      "loss": 1.8319,
      "step": 7632
    },
    {
      "epoch": 0.16962222222222223,
      "grad_norm": 1.2448359727859497,
      "learning_rate": 0.0001661124694376528,
      "loss": 2.0091,
      "step": 7633
    },
    {
      "epoch": 0.16964444444444443,
      "grad_norm": 1.5805140733718872,
      "learning_rate": 0.00016610802400533452,
      "loss": 2.0117,
      "step": 7634
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 1.6111185550689697,
      "learning_rate": 0.00016610357857301623,
      "loss": 2.1977,
      "step": 7635
    },
    {
      "epoch": 0.1696888888888889,
      "grad_norm": 1.7446154356002808,
      "learning_rate": 0.00016609913314069794,
      "loss": 2.1903,
      "step": 7636
    },
    {
      "epoch": 0.16971111111111112,
      "grad_norm": 1.5220649242401123,
      "learning_rate": 0.00016609468770837965,
      "loss": 2.2138,
      "step": 7637
    },
    {
      "epoch": 0.16973333333333335,
      "grad_norm": 1.3835982084274292,
      "learning_rate": 0.00016609024227606136,
      "loss": 2.0213,
      "step": 7638
    },
    {
      "epoch": 0.16975555555555555,
      "grad_norm": 1.2396470308303833,
      "learning_rate": 0.00016608579684374307,
      "loss": 0.8162,
      "step": 7639
    },
    {
      "epoch": 0.16977777777777778,
      "grad_norm": 1.539597749710083,
      "learning_rate": 0.00016608135141142478,
      "loss": 1.6764,
      "step": 7640
    },
    {
      "epoch": 0.1698,
      "grad_norm": 1.7275865077972412,
      "learning_rate": 0.0001660769059791065,
      "loss": 2.0218,
      "step": 7641
    },
    {
      "epoch": 0.16982222222222224,
      "grad_norm": 1.7723129987716675,
      "learning_rate": 0.00016607246054678817,
      "loss": 2.1275,
      "step": 7642
    },
    {
      "epoch": 0.16984444444444444,
      "grad_norm": 1.6447726488113403,
      "learning_rate": 0.0001660680151144699,
      "loss": 2.1845,
      "step": 7643
    },
    {
      "epoch": 0.16986666666666667,
      "grad_norm": 1.7010248899459839,
      "learning_rate": 0.0001660635696821516,
      "loss": 1.8543,
      "step": 7644
    },
    {
      "epoch": 0.1698888888888889,
      "grad_norm": 1.8504694700241089,
      "learning_rate": 0.0001660591242498333,
      "loss": 2.1727,
      "step": 7645
    },
    {
      "epoch": 0.16991111111111112,
      "grad_norm": 1.8129068613052368,
      "learning_rate": 0.000166054678817515,
      "loss": 1.8693,
      "step": 7646
    },
    {
      "epoch": 0.16993333333333333,
      "grad_norm": 1.5080764293670654,
      "learning_rate": 0.00016605023338519672,
      "loss": 1.5497,
      "step": 7647
    },
    {
      "epoch": 0.16995555555555555,
      "grad_norm": 1.494614601135254,
      "learning_rate": 0.00016604578795287843,
      "loss": 2.0631,
      "step": 7648
    },
    {
      "epoch": 0.16997777777777778,
      "grad_norm": 1.5924293994903564,
      "learning_rate": 0.00016604134252056014,
      "loss": 1.8387,
      "step": 7649
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4623934030532837,
      "learning_rate": 0.00016603689708824185,
      "loss": 1.3067,
      "step": 7650
    },
    {
      "epoch": 0.1700222222222222,
      "grad_norm": 1.3696339130401611,
      "learning_rate": 0.00016603245165592353,
      "loss": 2.1617,
      "step": 7651
    },
    {
      "epoch": 0.17004444444444444,
      "grad_norm": 1.2292587757110596,
      "learning_rate": 0.00016602800622360527,
      "loss": 2.5215,
      "step": 7652
    },
    {
      "epoch": 0.17006666666666667,
      "grad_norm": 1.2512494325637817,
      "learning_rate": 0.00016602356079128695,
      "loss": 2.3855,
      "step": 7653
    },
    {
      "epoch": 0.1700888888888889,
      "grad_norm": 1.2843456268310547,
      "learning_rate": 0.00016601911535896866,
      "loss": 2.3597,
      "step": 7654
    },
    {
      "epoch": 0.1701111111111111,
      "grad_norm": 1.7011170387268066,
      "learning_rate": 0.00016601466992665037,
      "loss": 2.4293,
      "step": 7655
    },
    {
      "epoch": 0.17013333333333333,
      "grad_norm": 1.283164620399475,
      "learning_rate": 0.00016601022449433208,
      "loss": 2.3683,
      "step": 7656
    },
    {
      "epoch": 0.17015555555555556,
      "grad_norm": 1.1933503150939941,
      "learning_rate": 0.0001660057790620138,
      "loss": 2.4697,
      "step": 7657
    },
    {
      "epoch": 0.1701777777777778,
      "grad_norm": 1.1201270818710327,
      "learning_rate": 0.0001660013336296955,
      "loss": 2.1856,
      "step": 7658
    },
    {
      "epoch": 0.1702,
      "grad_norm": 1.4420751333236694,
      "learning_rate": 0.0001659968881973772,
      "loss": 2.1815,
      "step": 7659
    },
    {
      "epoch": 0.17022222222222222,
      "grad_norm": 1.7660467624664307,
      "learning_rate": 0.00016599244276505892,
      "loss": 2.3105,
      "step": 7660
    },
    {
      "epoch": 0.17024444444444445,
      "grad_norm": 1.3325588703155518,
      "learning_rate": 0.00016598799733274063,
      "loss": 2.2982,
      "step": 7661
    },
    {
      "epoch": 0.17026666666666668,
      "grad_norm": 1.4420422315597534,
      "learning_rate": 0.0001659835519004223,
      "loss": 2.3387,
      "step": 7662
    },
    {
      "epoch": 0.17028888888888888,
      "grad_norm": 1.4966402053833008,
      "learning_rate": 0.00016597910646810405,
      "loss": 2.3253,
      "step": 7663
    },
    {
      "epoch": 0.1703111111111111,
      "grad_norm": 1.3780444860458374,
      "learning_rate": 0.00016597466103578573,
      "loss": 2.0114,
      "step": 7664
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 2.0888895988464355,
      "learning_rate": 0.00016597021560346744,
      "loss": 2.2386,
      "step": 7665
    },
    {
      "epoch": 0.17035555555555557,
      "grad_norm": 1.298106074333191,
      "learning_rate": 0.00016596577017114915,
      "loss": 2.2083,
      "step": 7666
    },
    {
      "epoch": 0.17037777777777777,
      "grad_norm": 1.3933366537094116,
      "learning_rate": 0.00016596132473883086,
      "loss": 1.6522,
      "step": 7667
    },
    {
      "epoch": 0.1704,
      "grad_norm": 1.3122714757919312,
      "learning_rate": 0.00016595687930651257,
      "loss": 1.8419,
      "step": 7668
    },
    {
      "epoch": 0.17042222222222222,
      "grad_norm": 1.3995258808135986,
      "learning_rate": 0.00016595243387419428,
      "loss": 1.9795,
      "step": 7669
    },
    {
      "epoch": 0.17044444444444445,
      "grad_norm": 1.4848341941833496,
      "learning_rate": 0.00016594798844187599,
      "loss": 2.5079,
      "step": 7670
    },
    {
      "epoch": 0.17046666666666666,
      "grad_norm": 1.2945013046264648,
      "learning_rate": 0.00016594354300955767,
      "loss": 2.2872,
      "step": 7671
    },
    {
      "epoch": 0.17048888888888888,
      "grad_norm": 1.5010045766830444,
      "learning_rate": 0.0001659390975772394,
      "loss": 2.0507,
      "step": 7672
    },
    {
      "epoch": 0.1705111111111111,
      "grad_norm": 1.3536651134490967,
      "learning_rate": 0.0001659346521449211,
      "loss": 1.7679,
      "step": 7673
    },
    {
      "epoch": 0.17053333333333334,
      "grad_norm": 1.4248586893081665,
      "learning_rate": 0.0001659302067126028,
      "loss": 1.7723,
      "step": 7674
    },
    {
      "epoch": 0.17055555555555554,
      "grad_norm": 1.4044795036315918,
      "learning_rate": 0.0001659257612802845,
      "loss": 2.1538,
      "step": 7675
    },
    {
      "epoch": 0.17057777777777777,
      "grad_norm": 1.231995940208435,
      "learning_rate": 0.00016592131584796622,
      "loss": 1.6388,
      "step": 7676
    },
    {
      "epoch": 0.1706,
      "grad_norm": 1.7530688047409058,
      "learning_rate": 0.00016591687041564795,
      "loss": 2.2757,
      "step": 7677
    },
    {
      "epoch": 0.17062222222222223,
      "grad_norm": 1.6331889629364014,
      "learning_rate": 0.00016591242498332964,
      "loss": 2.0485,
      "step": 7678
    },
    {
      "epoch": 0.17064444444444443,
      "grad_norm": 1.2903550863265991,
      "learning_rate": 0.00016590797955101134,
      "loss": 1.1018,
      "step": 7679
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 1.3127086162567139,
      "learning_rate": 0.00016590353411869305,
      "loss": 0.8828,
      "step": 7680
    },
    {
      "epoch": 0.1706888888888889,
      "grad_norm": 1.4028270244598389,
      "learning_rate": 0.00016589908868637476,
      "loss": 2.0665,
      "step": 7681
    },
    {
      "epoch": 0.17071111111111112,
      "grad_norm": 1.285612940788269,
      "learning_rate": 0.00016589464325405645,
      "loss": 1.8658,
      "step": 7682
    },
    {
      "epoch": 0.17073333333333332,
      "grad_norm": 1.5448349714279175,
      "learning_rate": 0.00016589019782173818,
      "loss": 2.0596,
      "step": 7683
    },
    {
      "epoch": 0.17075555555555555,
      "grad_norm": 1.4774856567382812,
      "learning_rate": 0.0001658857523894199,
      "loss": 1.944,
      "step": 7684
    },
    {
      "epoch": 0.17077777777777778,
      "grad_norm": 1.8474804162979126,
      "learning_rate": 0.00016588130695710158,
      "loss": 2.4001,
      "step": 7685
    },
    {
      "epoch": 0.1708,
      "grad_norm": 1.4108128547668457,
      "learning_rate": 0.0001658768615247833,
      "loss": 1.6,
      "step": 7686
    },
    {
      "epoch": 0.1708222222222222,
      "grad_norm": 1.7785060405731201,
      "learning_rate": 0.000165872416092465,
      "loss": 1.611,
      "step": 7687
    },
    {
      "epoch": 0.17084444444444444,
      "grad_norm": 1.4135754108428955,
      "learning_rate": 0.0001658679706601467,
      "loss": 1.5577,
      "step": 7688
    },
    {
      "epoch": 0.17086666666666667,
      "grad_norm": 1.4807322025299072,
      "learning_rate": 0.00016586352522782841,
      "loss": 2.0592,
      "step": 7689
    },
    {
      "epoch": 0.1708888888888889,
      "grad_norm": 1.6818679571151733,
      "learning_rate": 0.00016585907979551012,
      "loss": 1.9214,
      "step": 7690
    },
    {
      "epoch": 0.17091111111111112,
      "grad_norm": 1.5929243564605713,
      "learning_rate": 0.0001658546343631918,
      "loss": 2.2976,
      "step": 7691
    },
    {
      "epoch": 0.17093333333333333,
      "grad_norm": 1.4166721105575562,
      "learning_rate": 0.00016585018893087354,
      "loss": 1.73,
      "step": 7692
    },
    {
      "epoch": 0.17095555555555556,
      "grad_norm": 1.5536317825317383,
      "learning_rate": 0.00016584574349855525,
      "loss": 1.6572,
      "step": 7693
    },
    {
      "epoch": 0.17097777777777778,
      "grad_norm": 1.693015217781067,
      "learning_rate": 0.00016584129806623693,
      "loss": 1.9931,
      "step": 7694
    },
    {
      "epoch": 0.171,
      "grad_norm": 1.5025196075439453,
      "learning_rate": 0.00016583685263391867,
      "loss": 1.7301,
      "step": 7695
    },
    {
      "epoch": 0.17102222222222221,
      "grad_norm": 1.7276273965835571,
      "learning_rate": 0.00016583240720160035,
      "loss": 1.8336,
      "step": 7696
    },
    {
      "epoch": 0.17104444444444444,
      "grad_norm": 1.9688618183135986,
      "learning_rate": 0.0001658279617692821,
      "loss": 2.1688,
      "step": 7697
    },
    {
      "epoch": 0.17106666666666667,
      "grad_norm": 1.9988036155700684,
      "learning_rate": 0.00016582351633696377,
      "loss": 2.0135,
      "step": 7698
    },
    {
      "epoch": 0.1710888888888889,
      "grad_norm": 1.7624796628952026,
      "learning_rate": 0.00016581907090464548,
      "loss": 2.1131,
      "step": 7699
    },
    {
      "epoch": 0.1711111111111111,
      "grad_norm": 1.3459796905517578,
      "learning_rate": 0.0001658146254723272,
      "loss": 1.551,
      "step": 7700
    },
    {
      "epoch": 0.17113333333333333,
      "grad_norm": 1.2519663572311401,
      "learning_rate": 0.0001658101800400089,
      "loss": 2.7017,
      "step": 7701
    },
    {
      "epoch": 0.17115555555555556,
      "grad_norm": 1.8582334518432617,
      "learning_rate": 0.0001658057346076906,
      "loss": 2.9557,
      "step": 7702
    },
    {
      "epoch": 0.1711777777777778,
      "grad_norm": 1.1658389568328857,
      "learning_rate": 0.00016580128917537232,
      "loss": 2.3005,
      "step": 7703
    },
    {
      "epoch": 0.1712,
      "grad_norm": 1.2842943668365479,
      "learning_rate": 0.00016579684374305403,
      "loss": 2.2273,
      "step": 7704
    },
    {
      "epoch": 0.17122222222222222,
      "grad_norm": 1.162916660308838,
      "learning_rate": 0.0001657923983107357,
      "loss": 2.5546,
      "step": 7705
    },
    {
      "epoch": 0.17124444444444445,
      "grad_norm": 1.2564576864242554,
      "learning_rate": 0.00016578795287841745,
      "loss": 1.4753,
      "step": 7706
    },
    {
      "epoch": 0.17126666666666668,
      "grad_norm": 1.41897451877594,
      "learning_rate": 0.00016578350744609913,
      "loss": 2.1349,
      "step": 7707
    },
    {
      "epoch": 0.17128888888888888,
      "grad_norm": 1.2392101287841797,
      "learning_rate": 0.00016577906201378084,
      "loss": 2.2359,
      "step": 7708
    },
    {
      "epoch": 0.1713111111111111,
      "grad_norm": 1.8094123601913452,
      "learning_rate": 0.00016577461658146255,
      "loss": 2.7109,
      "step": 7709
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 1.5877660512924194,
      "learning_rate": 0.00016577017114914426,
      "loss": 2.499,
      "step": 7710
    },
    {
      "epoch": 0.17135555555555557,
      "grad_norm": 1.2953381538391113,
      "learning_rate": 0.00016576572571682597,
      "loss": 2.2152,
      "step": 7711
    },
    {
      "epoch": 0.17137777777777777,
      "grad_norm": 1.6749577522277832,
      "learning_rate": 0.00016576128028450768,
      "loss": 2.1208,
      "step": 7712
    },
    {
      "epoch": 0.1714,
      "grad_norm": 1.4016889333724976,
      "learning_rate": 0.0001657568348521894,
      "loss": 2.2453,
      "step": 7713
    },
    {
      "epoch": 0.17142222222222223,
      "grad_norm": 1.3838088512420654,
      "learning_rate": 0.0001657523894198711,
      "loss": 2.1195,
      "step": 7714
    },
    {
      "epoch": 0.17144444444444445,
      "grad_norm": 1.3381035327911377,
      "learning_rate": 0.0001657479439875528,
      "loss": 1.5639,
      "step": 7715
    },
    {
      "epoch": 0.17146666666666666,
      "grad_norm": 1.5570776462554932,
      "learning_rate": 0.0001657434985552345,
      "loss": 2.5974,
      "step": 7716
    },
    {
      "epoch": 0.17148888888888889,
      "grad_norm": 1.250582218170166,
      "learning_rate": 0.00016573905312291623,
      "loss": 1.9719,
      "step": 7717
    },
    {
      "epoch": 0.17151111111111111,
      "grad_norm": 1.0727726221084595,
      "learning_rate": 0.0001657346076905979,
      "loss": 1.1112,
      "step": 7718
    },
    {
      "epoch": 0.17153333333333334,
      "grad_norm": 1.0462617874145508,
      "learning_rate": 0.00016573016225827962,
      "loss": 1.1889,
      "step": 7719
    },
    {
      "epoch": 0.17155555555555554,
      "grad_norm": 1.5170807838439941,
      "learning_rate": 0.00016572571682596133,
      "loss": 2.1981,
      "step": 7720
    },
    {
      "epoch": 0.17157777777777777,
      "grad_norm": 1.3986997604370117,
      "learning_rate": 0.00016572127139364304,
      "loss": 2.0323,
      "step": 7721
    },
    {
      "epoch": 0.1716,
      "grad_norm": 1.6922630071640015,
      "learning_rate": 0.00016571682596132475,
      "loss": 2.2483,
      "step": 7722
    },
    {
      "epoch": 0.17162222222222223,
      "grad_norm": 1.4709726572036743,
      "learning_rate": 0.00016571238052900646,
      "loss": 2.2892,
      "step": 7723
    },
    {
      "epoch": 0.17164444444444443,
      "grad_norm": 1.3312417268753052,
      "learning_rate": 0.00016570793509668817,
      "loss": 1.8159,
      "step": 7724
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 1.7256711721420288,
      "learning_rate": 0.00016570348966436985,
      "loss": 2.177,
      "step": 7725
    },
    {
      "epoch": 0.1716888888888889,
      "grad_norm": 1.586872935295105,
      "learning_rate": 0.0001656990442320516,
      "loss": 2.1004,
      "step": 7726
    },
    {
      "epoch": 0.17171111111111112,
      "grad_norm": 1.2758207321166992,
      "learning_rate": 0.00016569459879973327,
      "loss": 1.7059,
      "step": 7727
    },
    {
      "epoch": 0.17173333333333332,
      "grad_norm": 1.308499813079834,
      "learning_rate": 0.00016569015336741498,
      "loss": 1.8426,
      "step": 7728
    },
    {
      "epoch": 0.17175555555555555,
      "grad_norm": 1.7659701108932495,
      "learning_rate": 0.0001656857079350967,
      "loss": 2.567,
      "step": 7729
    },
    {
      "epoch": 0.17177777777777778,
      "grad_norm": 1.3062108755111694,
      "learning_rate": 0.0001656812625027784,
      "loss": 0.9345,
      "step": 7730
    },
    {
      "epoch": 0.1718,
      "grad_norm": 2.004857301712036,
      "learning_rate": 0.0001656768170704601,
      "loss": 0.6927,
      "step": 7731
    },
    {
      "epoch": 0.1718222222222222,
      "grad_norm": 1.2907766103744507,
      "learning_rate": 0.00016567237163814182,
      "loss": 1.8518,
      "step": 7732
    },
    {
      "epoch": 0.17184444444444444,
      "grad_norm": 1.9011975526809692,
      "learning_rate": 0.00016566792620582353,
      "loss": 2.579,
      "step": 7733
    },
    {
      "epoch": 0.17186666666666667,
      "grad_norm": 1.3394774198532104,
      "learning_rate": 0.00016566348077350524,
      "loss": 1.7519,
      "step": 7734
    },
    {
      "epoch": 0.1718888888888889,
      "grad_norm": 1.4911030530929565,
      "learning_rate": 0.00016565903534118695,
      "loss": 1.8182,
      "step": 7735
    },
    {
      "epoch": 0.1719111111111111,
      "grad_norm": 1.4936968088150024,
      "learning_rate": 0.00016565458990886863,
      "loss": 1.7147,
      "step": 7736
    },
    {
      "epoch": 0.17193333333333333,
      "grad_norm": 1.5869020223617554,
      "learning_rate": 0.00016565014447655037,
      "loss": 1.9268,
      "step": 7737
    },
    {
      "epoch": 0.17195555555555556,
      "grad_norm": 1.602447271347046,
      "learning_rate": 0.00016564569904423205,
      "loss": 2.1464,
      "step": 7738
    },
    {
      "epoch": 0.17197777777777778,
      "grad_norm": 1.4847685098648071,
      "learning_rate": 0.00016564125361191376,
      "loss": 1.892,
      "step": 7739
    },
    {
      "epoch": 0.172,
      "grad_norm": 1.6317778825759888,
      "learning_rate": 0.00016563680817959547,
      "loss": 1.6885,
      "step": 7740
    },
    {
      "epoch": 0.17202222222222222,
      "grad_norm": 1.319822907447815,
      "learning_rate": 0.00016563236274727718,
      "loss": 1.5495,
      "step": 7741
    },
    {
      "epoch": 0.17204444444444444,
      "grad_norm": 1.6713650226593018,
      "learning_rate": 0.0001656279173149589,
      "loss": 1.9602,
      "step": 7742
    },
    {
      "epoch": 0.17206666666666667,
      "grad_norm": 1.1848105192184448,
      "learning_rate": 0.0001656234718826406,
      "loss": 1.5522,
      "step": 7743
    },
    {
      "epoch": 0.1720888888888889,
      "grad_norm": 1.5651816129684448,
      "learning_rate": 0.0001656190264503223,
      "loss": 1.8332,
      "step": 7744
    },
    {
      "epoch": 0.1721111111111111,
      "grad_norm": 1.8120148181915283,
      "learning_rate": 0.000165614581018004,
      "loss": 2.3755,
      "step": 7745
    },
    {
      "epoch": 0.17213333333333333,
      "grad_norm": 1.6424568891525269,
      "learning_rate": 0.00016561013558568573,
      "loss": 1.8855,
      "step": 7746
    },
    {
      "epoch": 0.17215555555555556,
      "grad_norm": 1.4002819061279297,
      "learning_rate": 0.0001656056901533674,
      "loss": 1.5706,
      "step": 7747
    },
    {
      "epoch": 0.1721777777777778,
      "grad_norm": 1.3809763193130493,
      "learning_rate": 0.00016560124472104912,
      "loss": 1.0991,
      "step": 7748
    },
    {
      "epoch": 0.1722,
      "grad_norm": 1.6114362478256226,
      "learning_rate": 0.00016559679928873083,
      "loss": 1.963,
      "step": 7749
    },
    {
      "epoch": 0.17222222222222222,
      "grad_norm": 1.4658693075180054,
      "learning_rate": 0.00016559235385641254,
      "loss": 1.2072,
      "step": 7750
    },
    {
      "epoch": 0.17224444444444445,
      "grad_norm": 1.408348560333252,
      "learning_rate": 0.00016558790842409425,
      "loss": 2.7841,
      "step": 7751
    },
    {
      "epoch": 0.17226666666666668,
      "grad_norm": 1.2075459957122803,
      "learning_rate": 0.00016558346299177596,
      "loss": 2.3006,
      "step": 7752
    },
    {
      "epoch": 0.17228888888888888,
      "grad_norm": 1.550527811050415,
      "learning_rate": 0.00016557901755945767,
      "loss": 1.1169,
      "step": 7753
    },
    {
      "epoch": 0.1723111111111111,
      "grad_norm": 1.3604037761688232,
      "learning_rate": 0.00016557457212713938,
      "loss": 2.1438,
      "step": 7754
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 1.3770778179168701,
      "learning_rate": 0.00016557012669482109,
      "loss": 2.2924,
      "step": 7755
    },
    {
      "epoch": 0.17235555555555557,
      "grad_norm": 1.261737585067749,
      "learning_rate": 0.00016556568126250277,
      "loss": 2.4434,
      "step": 7756
    },
    {
      "epoch": 0.17237777777777777,
      "grad_norm": 1.210691213607788,
      "learning_rate": 0.0001655612358301845,
      "loss": 1.9339,
      "step": 7757
    },
    {
      "epoch": 0.1724,
      "grad_norm": 1.388425350189209,
      "learning_rate": 0.00016555679039786621,
      "loss": 2.1914,
      "step": 7758
    },
    {
      "epoch": 0.17242222222222223,
      "grad_norm": 1.183353066444397,
      "learning_rate": 0.0001655523449655479,
      "loss": 1.9641,
      "step": 7759
    },
    {
      "epoch": 0.17244444444444446,
      "grad_norm": 1.5828596353530884,
      "learning_rate": 0.00016554789953322963,
      "loss": 2.2943,
      "step": 7760
    },
    {
      "epoch": 0.17246666666666666,
      "grad_norm": 1.3296717405319214,
      "learning_rate": 0.00016554345410091132,
      "loss": 1.9242,
      "step": 7761
    },
    {
      "epoch": 0.17248888888888889,
      "grad_norm": 1.5729396343231201,
      "learning_rate": 0.00016553900866859303,
      "loss": 1.9048,
      "step": 7762
    },
    {
      "epoch": 0.17251111111111112,
      "grad_norm": 1.3524830341339111,
      "learning_rate": 0.00016553456323627474,
      "loss": 2.1803,
      "step": 7763
    },
    {
      "epoch": 0.17253333333333334,
      "grad_norm": 1.2771652936935425,
      "learning_rate": 0.00016553011780395645,
      "loss": 2.2853,
      "step": 7764
    },
    {
      "epoch": 0.17255555555555555,
      "grad_norm": 1.7228145599365234,
      "learning_rate": 0.00016552567237163813,
      "loss": 2.1782,
      "step": 7765
    },
    {
      "epoch": 0.17257777777777777,
      "grad_norm": 1.181006669998169,
      "learning_rate": 0.00016552122693931986,
      "loss": 1.7699,
      "step": 7766
    },
    {
      "epoch": 0.1726,
      "grad_norm": 1.5066808462142944,
      "learning_rate": 0.00016551678150700157,
      "loss": 1.6957,
      "step": 7767
    },
    {
      "epoch": 0.17262222222222223,
      "grad_norm": 1.3152992725372314,
      "learning_rate": 0.00016551233607468326,
      "loss": 2.0283,
      "step": 7768
    },
    {
      "epoch": 0.17264444444444443,
      "grad_norm": 1.6048647165298462,
      "learning_rate": 0.000165507890642365,
      "loss": 2.3091,
      "step": 7769
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 1.5785022974014282,
      "learning_rate": 0.00016550344521004668,
      "loss": 2.5761,
      "step": 7770
    },
    {
      "epoch": 0.1726888888888889,
      "grad_norm": 1.325592279434204,
      "learning_rate": 0.0001654989997777284,
      "loss": 1.9513,
      "step": 7771
    },
    {
      "epoch": 0.17271111111111112,
      "grad_norm": 1.6624517440795898,
      "learning_rate": 0.0001654945543454101,
      "loss": 2.078,
      "step": 7772
    },
    {
      "epoch": 0.17273333333333332,
      "grad_norm": 1.671754002571106,
      "learning_rate": 0.0001654901089130918,
      "loss": 2.1141,
      "step": 7773
    },
    {
      "epoch": 0.17275555555555555,
      "grad_norm": 1.720192551612854,
      "learning_rate": 0.00016548566348077351,
      "loss": 2.266,
      "step": 7774
    },
    {
      "epoch": 0.17277777777777778,
      "grad_norm": 1.2596478462219238,
      "learning_rate": 0.00016548121804845522,
      "loss": 1.8234,
      "step": 7775
    },
    {
      "epoch": 0.1728,
      "grad_norm": 1.2633743286132812,
      "learning_rate": 0.00016547677261613693,
      "loss": 1.5935,
      "step": 7776
    },
    {
      "epoch": 0.1728222222222222,
      "grad_norm": 1.5779454708099365,
      "learning_rate": 0.00016547232718381864,
      "loss": 2.3473,
      "step": 7777
    },
    {
      "epoch": 0.17284444444444444,
      "grad_norm": 1.4696637392044067,
      "learning_rate": 0.00016546788175150035,
      "loss": 1.6909,
      "step": 7778
    },
    {
      "epoch": 0.17286666666666667,
      "grad_norm": 1.3370952606201172,
      "learning_rate": 0.00016546343631918204,
      "loss": 1.8632,
      "step": 7779
    },
    {
      "epoch": 0.1728888888888889,
      "grad_norm": 1.2968720197677612,
      "learning_rate": 0.00016545899088686377,
      "loss": 1.9164,
      "step": 7780
    },
    {
      "epoch": 0.1729111111111111,
      "grad_norm": 1.3017855882644653,
      "learning_rate": 0.00016545454545454545,
      "loss": 1.6835,
      "step": 7781
    },
    {
      "epoch": 0.17293333333333333,
      "grad_norm": 1.4007121324539185,
      "learning_rate": 0.00016545010002222716,
      "loss": 2.1295,
      "step": 7782
    },
    {
      "epoch": 0.17295555555555556,
      "grad_norm": 1.1579762697219849,
      "learning_rate": 0.00016544565458990887,
      "loss": 1.4663,
      "step": 7783
    },
    {
      "epoch": 0.17297777777777779,
      "grad_norm": 1.3050755262374878,
      "learning_rate": 0.00016544120915759058,
      "loss": 2.0572,
      "step": 7784
    },
    {
      "epoch": 0.173,
      "grad_norm": 1.4769755601882935,
      "learning_rate": 0.0001654367637252723,
      "loss": 1.8404,
      "step": 7785
    },
    {
      "epoch": 0.17302222222222222,
      "grad_norm": 1.4014854431152344,
      "learning_rate": 0.000165432318292954,
      "loss": 1.4992,
      "step": 7786
    },
    {
      "epoch": 0.17304444444444445,
      "grad_norm": 1.4377816915512085,
      "learning_rate": 0.0001654278728606357,
      "loss": 1.7622,
      "step": 7787
    },
    {
      "epoch": 0.17306666666666667,
      "grad_norm": 1.6757148504257202,
      "learning_rate": 0.0001654234274283174,
      "loss": 1.8326,
      "step": 7788
    },
    {
      "epoch": 0.17308888888888888,
      "grad_norm": 1.636191487312317,
      "learning_rate": 0.00016541898199599913,
      "loss": 2.0936,
      "step": 7789
    },
    {
      "epoch": 0.1731111111111111,
      "grad_norm": 1.6650689840316772,
      "learning_rate": 0.00016541453656368081,
      "loss": 1.8141,
      "step": 7790
    },
    {
      "epoch": 0.17313333333333333,
      "grad_norm": 1.5201575756072998,
      "learning_rate": 0.00016541009113136255,
      "loss": 1.6117,
      "step": 7791
    },
    {
      "epoch": 0.17315555555555556,
      "grad_norm": 1.799420714378357,
      "learning_rate": 0.00016540564569904423,
      "loss": 2.3301,
      "step": 7792
    },
    {
      "epoch": 0.1731777777777778,
      "grad_norm": 1.4611520767211914,
      "learning_rate": 0.00016540120026672594,
      "loss": 2.2126,
      "step": 7793
    },
    {
      "epoch": 0.1732,
      "grad_norm": 1.3355618715286255,
      "learning_rate": 0.00016539675483440765,
      "loss": 1.4202,
      "step": 7794
    },
    {
      "epoch": 0.17322222222222222,
      "grad_norm": 1.5525503158569336,
      "learning_rate": 0.00016539230940208936,
      "loss": 2.1306,
      "step": 7795
    },
    {
      "epoch": 0.17324444444444445,
      "grad_norm": 2.198540449142456,
      "learning_rate": 0.00016538786396977107,
      "loss": 2.1852,
      "step": 7796
    },
    {
      "epoch": 0.17326666666666668,
      "grad_norm": 1.5581562519073486,
      "learning_rate": 0.00016538341853745278,
      "loss": 1.7236,
      "step": 7797
    },
    {
      "epoch": 0.17328888888888888,
      "grad_norm": 1.5025966167449951,
      "learning_rate": 0.0001653789731051345,
      "loss": 1.847,
      "step": 7798
    },
    {
      "epoch": 0.1733111111111111,
      "grad_norm": 1.6370288133621216,
      "learning_rate": 0.00016537452767281617,
      "loss": 2.1729,
      "step": 7799
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 1.9743660688400269,
      "learning_rate": 0.0001653700822404979,
      "loss": 1.9299,
      "step": 7800
    },
    {
      "epoch": 0.17335555555555557,
      "grad_norm": 0.3304274380207062,
      "learning_rate": 0.0001653656368081796,
      "loss": 0.0262,
      "step": 7801
    },
    {
      "epoch": 0.17337777777777777,
      "grad_norm": 1.3103126287460327,
      "learning_rate": 0.0001653611913758613,
      "loss": 2.7495,
      "step": 7802
    },
    {
      "epoch": 0.1734,
      "grad_norm": 1.1170357465744019,
      "learning_rate": 0.000165356745943543,
      "loss": 2.3172,
      "step": 7803
    },
    {
      "epoch": 0.17342222222222223,
      "grad_norm": 1.3812628984451294,
      "learning_rate": 0.00016535230051122472,
      "loss": 2.6407,
      "step": 7804
    },
    {
      "epoch": 0.17344444444444446,
      "grad_norm": 0.9139673709869385,
      "learning_rate": 0.00016534785507890643,
      "loss": 1.4024,
      "step": 7805
    },
    {
      "epoch": 0.17346666666666666,
      "grad_norm": 1.2784419059753418,
      "learning_rate": 0.00016534340964658814,
      "loss": 2.2483,
      "step": 7806
    },
    {
      "epoch": 0.1734888888888889,
      "grad_norm": 1.111851453781128,
      "learning_rate": 0.00016533896421426985,
      "loss": 2.0167,
      "step": 7807
    },
    {
      "epoch": 0.17351111111111112,
      "grad_norm": 1.089442253112793,
      "learning_rate": 0.00016533451878195153,
      "loss": 2.0438,
      "step": 7808
    },
    {
      "epoch": 0.17353333333333334,
      "grad_norm": 1.2887957096099854,
      "learning_rate": 0.00016533007334963327,
      "loss": 2.2437,
      "step": 7809
    },
    {
      "epoch": 0.17355555555555555,
      "grad_norm": 1.3929177522659302,
      "learning_rate": 0.00016532562791731495,
      "loss": 2.2802,
      "step": 7810
    },
    {
      "epoch": 0.17357777777777778,
      "grad_norm": 1.2758475542068481,
      "learning_rate": 0.0001653211824849967,
      "loss": 2.3418,
      "step": 7811
    },
    {
      "epoch": 0.1736,
      "grad_norm": 1.4800306558609009,
      "learning_rate": 0.00016531673705267837,
      "loss": 2.6879,
      "step": 7812
    },
    {
      "epoch": 0.17362222222222223,
      "grad_norm": 1.34885835647583,
      "learning_rate": 0.00016531229162036008,
      "loss": 1.8635,
      "step": 7813
    },
    {
      "epoch": 0.17364444444444443,
      "grad_norm": 1.5016427040100098,
      "learning_rate": 0.0001653078461880418,
      "loss": 2.3393,
      "step": 7814
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 1.4846951961517334,
      "learning_rate": 0.0001653034007557235,
      "loss": 1.9363,
      "step": 7815
    },
    {
      "epoch": 0.1736888888888889,
      "grad_norm": 1.5830708742141724,
      "learning_rate": 0.0001652989553234052,
      "loss": 2.2468,
      "step": 7816
    },
    {
      "epoch": 0.17371111111111112,
      "grad_norm": 1.7375013828277588,
      "learning_rate": 0.00016529450989108692,
      "loss": 2.1841,
      "step": 7817
    },
    {
      "epoch": 0.17373333333333332,
      "grad_norm": 1.584624171257019,
      "learning_rate": 0.00016529006445876863,
      "loss": 1.8796,
      "step": 7818
    },
    {
      "epoch": 0.17375555555555555,
      "grad_norm": 1.4288097620010376,
      "learning_rate": 0.0001652856190264503,
      "loss": 2.4375,
      "step": 7819
    },
    {
      "epoch": 0.17377777777777778,
      "grad_norm": 1.5202348232269287,
      "learning_rate": 0.00016528117359413205,
      "loss": 1.4071,
      "step": 7820
    },
    {
      "epoch": 0.1738,
      "grad_norm": 1.430523157119751,
      "learning_rate": 0.00016527672816181373,
      "loss": 2.1362,
      "step": 7821
    },
    {
      "epoch": 0.1738222222222222,
      "grad_norm": 1.2511767148971558,
      "learning_rate": 0.00016527228272949544,
      "loss": 1.871,
      "step": 7822
    },
    {
      "epoch": 0.17384444444444444,
      "grad_norm": 1.3278403282165527,
      "learning_rate": 0.00016526783729717715,
      "loss": 1.8778,
      "step": 7823
    },
    {
      "epoch": 0.17386666666666667,
      "grad_norm": 1.7516696453094482,
      "learning_rate": 0.00016526339186485886,
      "loss": 2.4766,
      "step": 7824
    },
    {
      "epoch": 0.1738888888888889,
      "grad_norm": 1.2907451391220093,
      "learning_rate": 0.00016525894643254057,
      "loss": 1.6756,
      "step": 7825
    },
    {
      "epoch": 0.1739111111111111,
      "grad_norm": 1.5018483400344849,
      "learning_rate": 0.00016525450100022228,
      "loss": 2.0831,
      "step": 7826
    },
    {
      "epoch": 0.17393333333333333,
      "grad_norm": 1.3490021228790283,
      "learning_rate": 0.000165250055567904,
      "loss": 2.0246,
      "step": 7827
    },
    {
      "epoch": 0.17395555555555556,
      "grad_norm": 1.4587575197219849,
      "learning_rate": 0.0001652456101355857,
      "loss": 1.9426,
      "step": 7828
    },
    {
      "epoch": 0.1739777777777778,
      "grad_norm": 1.3310534954071045,
      "learning_rate": 0.0001652411647032674,
      "loss": 2.0363,
      "step": 7829
    },
    {
      "epoch": 0.174,
      "grad_norm": 1.402642846107483,
      "learning_rate": 0.0001652367192709491,
      "loss": 2.0775,
      "step": 7830
    },
    {
      "epoch": 0.17402222222222222,
      "grad_norm": 1.56197190284729,
      "learning_rate": 0.00016523227383863083,
      "loss": 2.2274,
      "step": 7831
    },
    {
      "epoch": 0.17404444444444445,
      "grad_norm": 1.7902048826217651,
      "learning_rate": 0.00016522782840631254,
      "loss": 2.3862,
      "step": 7832
    },
    {
      "epoch": 0.17406666666666668,
      "grad_norm": 1.5939589738845825,
      "learning_rate": 0.00016522338297399422,
      "loss": 2.2886,
      "step": 7833
    },
    {
      "epoch": 0.17408888888888888,
      "grad_norm": 1.4880321025848389,
      "learning_rate": 0.00016521893754167596,
      "loss": 2.0459,
      "step": 7834
    },
    {
      "epoch": 0.1741111111111111,
      "grad_norm": 1.6402432918548584,
      "learning_rate": 0.00016521449210935764,
      "loss": 1.6858,
      "step": 7835
    },
    {
      "epoch": 0.17413333333333333,
      "grad_norm": 1.2826792001724243,
      "learning_rate": 0.00016521004667703935,
      "loss": 1.8853,
      "step": 7836
    },
    {
      "epoch": 0.17415555555555556,
      "grad_norm": 1.416442632675171,
      "learning_rate": 0.00016520560124472106,
      "loss": 2.1034,
      "step": 7837
    },
    {
      "epoch": 0.17417777777777776,
      "grad_norm": 1.8486366271972656,
      "learning_rate": 0.00016520115581240277,
      "loss": 2.3222,
      "step": 7838
    },
    {
      "epoch": 0.1742,
      "grad_norm": 1.4221454858779907,
      "learning_rate": 0.00016519671038008445,
      "loss": 1.8777,
      "step": 7839
    },
    {
      "epoch": 0.17422222222222222,
      "grad_norm": 1.7235136032104492,
      "learning_rate": 0.0001651922649477662,
      "loss": 2.0981,
      "step": 7840
    },
    {
      "epoch": 0.17424444444444445,
      "grad_norm": 1.1658307313919067,
      "learning_rate": 0.0001651878195154479,
      "loss": 1.566,
      "step": 7841
    },
    {
      "epoch": 0.17426666666666665,
      "grad_norm": 1.4484821557998657,
      "learning_rate": 0.00016518337408312958,
      "loss": 2.1545,
      "step": 7842
    },
    {
      "epoch": 0.17428888888888888,
      "grad_norm": 1.5885204076766968,
      "learning_rate": 0.00016517892865081132,
      "loss": 2.0862,
      "step": 7843
    },
    {
      "epoch": 0.1743111111111111,
      "grad_norm": 1.851285696029663,
      "learning_rate": 0.000165174483218493,
      "loss": 2.0025,
      "step": 7844
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 1.5080046653747559,
      "learning_rate": 0.0001651700377861747,
      "loss": 2.185,
      "step": 7845
    },
    {
      "epoch": 0.17435555555555557,
      "grad_norm": 1.6805962324142456,
      "learning_rate": 0.00016516559235385642,
      "loss": 1.949,
      "step": 7846
    },
    {
      "epoch": 0.17437777777777777,
      "grad_norm": 1.466422438621521,
      "learning_rate": 0.00016516114692153813,
      "loss": 1.5634,
      "step": 7847
    },
    {
      "epoch": 0.1744,
      "grad_norm": 1.572022557258606,
      "learning_rate": 0.00016515670148921984,
      "loss": 2.0884,
      "step": 7848
    },
    {
      "epoch": 0.17442222222222223,
      "grad_norm": 1.443703532218933,
      "learning_rate": 0.00016515225605690155,
      "loss": 1.878,
      "step": 7849
    },
    {
      "epoch": 0.17444444444444446,
      "grad_norm": 1.859986662864685,
      "learning_rate": 0.00016514781062458326,
      "loss": 1.6301,
      "step": 7850
    },
    {
      "epoch": 0.17446666666666666,
      "grad_norm": 1.3213731050491333,
      "learning_rate": 0.00016514336519226497,
      "loss": 2.5571,
      "step": 7851
    },
    {
      "epoch": 0.1744888888888889,
      "grad_norm": 1.2746784687042236,
      "learning_rate": 0.00016513891975994668,
      "loss": 2.5474,
      "step": 7852
    },
    {
      "epoch": 0.17451111111111112,
      "grad_norm": 1.2071410417556763,
      "learning_rate": 0.00016513447432762836,
      "loss": 2.5005,
      "step": 7853
    },
    {
      "epoch": 0.17453333333333335,
      "grad_norm": 1.1639021635055542,
      "learning_rate": 0.0001651300288953101,
      "loss": 2.5514,
      "step": 7854
    },
    {
      "epoch": 0.17455555555555555,
      "grad_norm": 1.2144689559936523,
      "learning_rate": 0.00016512558346299178,
      "loss": 2.1355,
      "step": 7855
    },
    {
      "epoch": 0.17457777777777778,
      "grad_norm": 1.1733107566833496,
      "learning_rate": 0.0001651211380306735,
      "loss": 1.5957,
      "step": 7856
    },
    {
      "epoch": 0.1746,
      "grad_norm": 1.2258349657058716,
      "learning_rate": 0.0001651166925983552,
      "loss": 2.0405,
      "step": 7857
    },
    {
      "epoch": 0.17462222222222223,
      "grad_norm": 1.1517013311386108,
      "learning_rate": 0.0001651122471660369,
      "loss": 2.034,
      "step": 7858
    },
    {
      "epoch": 0.17464444444444444,
      "grad_norm": 1.424370288848877,
      "learning_rate": 0.00016510780173371862,
      "loss": 2.184,
      "step": 7859
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 1.7882182598114014,
      "learning_rate": 0.00016510335630140032,
      "loss": 2.4551,
      "step": 7860
    },
    {
      "epoch": 0.1746888888888889,
      "grad_norm": 1.3849424123764038,
      "learning_rate": 0.00016509891086908203,
      "loss": 1.9785,
      "step": 7861
    },
    {
      "epoch": 0.17471111111111112,
      "grad_norm": 1.5430474281311035,
      "learning_rate": 0.00016509446543676372,
      "loss": 2.4352,
      "step": 7862
    },
    {
      "epoch": 0.17473333333333332,
      "grad_norm": 1.9055637121200562,
      "learning_rate": 0.00016509002000444545,
      "loss": 1.5182,
      "step": 7863
    },
    {
      "epoch": 0.17475555555555555,
      "grad_norm": 1.355037808418274,
      "learning_rate": 0.00016508557457212714,
      "loss": 1.9826,
      "step": 7864
    },
    {
      "epoch": 0.17477777777777778,
      "grad_norm": 1.5740606784820557,
      "learning_rate": 0.00016508112913980885,
      "loss": 2.1907,
      "step": 7865
    },
    {
      "epoch": 0.1748,
      "grad_norm": 1.1816802024841309,
      "learning_rate": 0.00016507668370749056,
      "loss": 1.7972,
      "step": 7866
    },
    {
      "epoch": 0.1748222222222222,
      "grad_norm": 1.3156107664108276,
      "learning_rate": 0.00016507223827517227,
      "loss": 2.0876,
      "step": 7867
    },
    {
      "epoch": 0.17484444444444444,
      "grad_norm": 1.2668242454528809,
      "learning_rate": 0.00016506779284285397,
      "loss": 1.7579,
      "step": 7868
    },
    {
      "epoch": 0.17486666666666667,
      "grad_norm": 1.2001475095748901,
      "learning_rate": 0.00016506334741053568,
      "loss": 2.0828,
      "step": 7869
    },
    {
      "epoch": 0.1748888888888889,
      "grad_norm": 1.532691478729248,
      "learning_rate": 0.0001650589019782174,
      "loss": 2.2532,
      "step": 7870
    },
    {
      "epoch": 0.1749111111111111,
      "grad_norm": 1.3920918703079224,
      "learning_rate": 0.0001650544565458991,
      "loss": 2.1375,
      "step": 7871
    },
    {
      "epoch": 0.17493333333333333,
      "grad_norm": 1.434844970703125,
      "learning_rate": 0.0001650500111135808,
      "loss": 1.443,
      "step": 7872
    },
    {
      "epoch": 0.17495555555555556,
      "grad_norm": 1.4401745796203613,
      "learning_rate": 0.0001650455656812625,
      "loss": 2.307,
      "step": 7873
    },
    {
      "epoch": 0.1749777777777778,
      "grad_norm": 1.4957658052444458,
      "learning_rate": 0.00016504112024894423,
      "loss": 1.9959,
      "step": 7874
    },
    {
      "epoch": 0.175,
      "grad_norm": 1.4201393127441406,
      "learning_rate": 0.00016503667481662592,
      "loss": 1.8451,
      "step": 7875
    },
    {
      "epoch": 0.17502222222222222,
      "grad_norm": 1.5104031562805176,
      "learning_rate": 0.00016503222938430762,
      "loss": 1.5399,
      "step": 7876
    },
    {
      "epoch": 0.17504444444444445,
      "grad_norm": 1.6130989789962769,
      "learning_rate": 0.00016502778395198933,
      "loss": 1.7574,
      "step": 7877
    },
    {
      "epoch": 0.17506666666666668,
      "grad_norm": 1.387256145477295,
      "learning_rate": 0.00016502333851967104,
      "loss": 1.9978,
      "step": 7878
    },
    {
      "epoch": 0.17508888888888888,
      "grad_norm": 1.3525136709213257,
      "learning_rate": 0.00016501889308735275,
      "loss": 1.0896,
      "step": 7879
    },
    {
      "epoch": 0.1751111111111111,
      "grad_norm": 1.223189353942871,
      "learning_rate": 0.00016501444765503446,
      "loss": 1.8411,
      "step": 7880
    },
    {
      "epoch": 0.17513333333333334,
      "grad_norm": 1.3390597105026245,
      "learning_rate": 0.00016501000222271617,
      "loss": 1.8548,
      "step": 7881
    },
    {
      "epoch": 0.17515555555555556,
      "grad_norm": 1.7865324020385742,
      "learning_rate": 0.00016500555679039786,
      "loss": 2.1199,
      "step": 7882
    },
    {
      "epoch": 0.17517777777777777,
      "grad_norm": 1.5747584104537964,
      "learning_rate": 0.0001650011113580796,
      "loss": 1.9769,
      "step": 7883
    },
    {
      "epoch": 0.1752,
      "grad_norm": 1.6016476154327393,
      "learning_rate": 0.00016499666592576127,
      "loss": 1.7493,
      "step": 7884
    },
    {
      "epoch": 0.17522222222222222,
      "grad_norm": 1.3187992572784424,
      "learning_rate": 0.000164992220493443,
      "loss": 1.5996,
      "step": 7885
    },
    {
      "epoch": 0.17524444444444445,
      "grad_norm": 1.7835474014282227,
      "learning_rate": 0.0001649877750611247,
      "loss": 1.8145,
      "step": 7886
    },
    {
      "epoch": 0.17526666666666665,
      "grad_norm": 1.6781468391418457,
      "learning_rate": 0.0001649833296288064,
      "loss": 1.7311,
      "step": 7887
    },
    {
      "epoch": 0.17528888888888888,
      "grad_norm": 1.5937479734420776,
      "learning_rate": 0.0001649788841964881,
      "loss": 1.7884,
      "step": 7888
    },
    {
      "epoch": 0.1753111111111111,
      "grad_norm": 1.5514545440673828,
      "learning_rate": 0.00016497443876416982,
      "loss": 2.1744,
      "step": 7889
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 0.9920394420623779,
      "learning_rate": 0.00016496999333185153,
      "loss": 0.823,
      "step": 7890
    },
    {
      "epoch": 0.17535555555555554,
      "grad_norm": 1.2893682718276978,
      "learning_rate": 0.00016496554789953324,
      "loss": 1.2911,
      "step": 7891
    },
    {
      "epoch": 0.17537777777777777,
      "grad_norm": 1.5410043001174927,
      "learning_rate": 0.00016496110246721495,
      "loss": 1.969,
      "step": 7892
    },
    {
      "epoch": 0.1754,
      "grad_norm": 1.934006929397583,
      "learning_rate": 0.00016495665703489663,
      "loss": 2.0552,
      "step": 7893
    },
    {
      "epoch": 0.17542222222222223,
      "grad_norm": 1.971860647201538,
      "learning_rate": 0.00016495221160257837,
      "loss": 2.1534,
      "step": 7894
    },
    {
      "epoch": 0.17544444444444443,
      "grad_norm": 1.677754521369934,
      "learning_rate": 0.00016494776617026005,
      "loss": 2.1317,
      "step": 7895
    },
    {
      "epoch": 0.17546666666666666,
      "grad_norm": 1.632949709892273,
      "learning_rate": 0.00016494332073794176,
      "loss": 1.8542,
      "step": 7896
    },
    {
      "epoch": 0.1754888888888889,
      "grad_norm": 1.7942752838134766,
      "learning_rate": 0.00016493887530562347,
      "loss": 1.8929,
      "step": 7897
    },
    {
      "epoch": 0.17551111111111112,
      "grad_norm": 1.7046905755996704,
      "learning_rate": 0.00016493442987330518,
      "loss": 1.9437,
      "step": 7898
    },
    {
      "epoch": 0.17553333333333335,
      "grad_norm": 1.8351837396621704,
      "learning_rate": 0.0001649299844409869,
      "loss": 1.7405,
      "step": 7899
    },
    {
      "epoch": 0.17555555555555555,
      "grad_norm": 1.732186198234558,
      "learning_rate": 0.0001649255390086686,
      "loss": 1.5782,
      "step": 7900
    },
    {
      "epoch": 0.17557777777777778,
      "grad_norm": 1.3345026969909668,
      "learning_rate": 0.0001649210935763503,
      "loss": 2.375,
      "step": 7901
    },
    {
      "epoch": 0.1756,
      "grad_norm": 1.1829818487167358,
      "learning_rate": 0.000164916648144032,
      "loss": 2.5479,
      "step": 7902
    },
    {
      "epoch": 0.17562222222222224,
      "grad_norm": 1.2019537687301636,
      "learning_rate": 0.00016491220271171373,
      "loss": 2.3371,
      "step": 7903
    },
    {
      "epoch": 0.17564444444444444,
      "grad_norm": 1.2320972681045532,
      "learning_rate": 0.0001649077572793954,
      "loss": 2.3646,
      "step": 7904
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 1.4447553157806396,
      "learning_rate": 0.00016490331184707715,
      "loss": 2.2865,
      "step": 7905
    },
    {
      "epoch": 0.1756888888888889,
      "grad_norm": 1.51869797706604,
      "learning_rate": 0.00016489886641475886,
      "loss": 2.6424,
      "step": 7906
    },
    {
      "epoch": 0.17571111111111112,
      "grad_norm": 1.6283243894577026,
      "learning_rate": 0.00016489442098244054,
      "loss": 2.4606,
      "step": 7907
    },
    {
      "epoch": 0.17573333333333332,
      "grad_norm": 1.443823218345642,
      "learning_rate": 0.00016488997555012228,
      "loss": 2.4129,
      "step": 7908
    },
    {
      "epoch": 0.17575555555555555,
      "grad_norm": 1.3257317543029785,
      "learning_rate": 0.00016488553011780396,
      "loss": 2.3278,
      "step": 7909
    },
    {
      "epoch": 0.17577777777777778,
      "grad_norm": 1.2318477630615234,
      "learning_rate": 0.00016488108468548567,
      "loss": 2.0488,
      "step": 7910
    },
    {
      "epoch": 0.1758,
      "grad_norm": 1.4360147714614868,
      "learning_rate": 0.00016487663925316738,
      "loss": 2.1559,
      "step": 7911
    },
    {
      "epoch": 0.1758222222222222,
      "grad_norm": 1.3878077268600464,
      "learning_rate": 0.0001648721938208491,
      "loss": 2.3428,
      "step": 7912
    },
    {
      "epoch": 0.17584444444444444,
      "grad_norm": 1.362570881843567,
      "learning_rate": 0.00016486774838853077,
      "loss": 1.3671,
      "step": 7913
    },
    {
      "epoch": 0.17586666666666667,
      "grad_norm": 1.4898868799209595,
      "learning_rate": 0.0001648633029562125,
      "loss": 1.9845,
      "step": 7914
    },
    {
      "epoch": 0.1758888888888889,
      "grad_norm": 1.2532196044921875,
      "learning_rate": 0.00016485885752389422,
      "loss": 1.9976,
      "step": 7915
    },
    {
      "epoch": 0.1759111111111111,
      "grad_norm": 1.451027750968933,
      "learning_rate": 0.0001648544120915759,
      "loss": 1.8627,
      "step": 7916
    },
    {
      "epoch": 0.17593333333333333,
      "grad_norm": 1.3300480842590332,
      "learning_rate": 0.00016484996665925764,
      "loss": 1.988,
      "step": 7917
    },
    {
      "epoch": 0.17595555555555556,
      "grad_norm": 1.9010868072509766,
      "learning_rate": 0.00016484552122693932,
      "loss": 1.1668,
      "step": 7918
    },
    {
      "epoch": 0.1759777777777778,
      "grad_norm": 1.7831577062606812,
      "learning_rate": 0.00016484107579462103,
      "loss": 2.2104,
      "step": 7919
    },
    {
      "epoch": 0.176,
      "grad_norm": 1.5902917385101318,
      "learning_rate": 0.00016483663036230274,
      "loss": 2.1188,
      "step": 7920
    },
    {
      "epoch": 0.17602222222222222,
      "grad_norm": 1.6501861810684204,
      "learning_rate": 0.00016483218492998445,
      "loss": 2.1696,
      "step": 7921
    },
    {
      "epoch": 0.17604444444444445,
      "grad_norm": 1.5028202533721924,
      "learning_rate": 0.00016482773949766613,
      "loss": 1.696,
      "step": 7922
    },
    {
      "epoch": 0.17606666666666668,
      "grad_norm": 1.3878483772277832,
      "learning_rate": 0.00016482329406534787,
      "loss": 2.4792,
      "step": 7923
    },
    {
      "epoch": 0.17608888888888888,
      "grad_norm": 1.545267939567566,
      "learning_rate": 0.00016481884863302958,
      "loss": 2.1834,
      "step": 7924
    },
    {
      "epoch": 0.1761111111111111,
      "grad_norm": 1.7476617097854614,
      "learning_rate": 0.0001648144032007113,
      "loss": 1.7957,
      "step": 7925
    },
    {
      "epoch": 0.17613333333333334,
      "grad_norm": 1.916835904121399,
      "learning_rate": 0.000164809957768393,
      "loss": 2.2844,
      "step": 7926
    },
    {
      "epoch": 0.17615555555555557,
      "grad_norm": 1.2989847660064697,
      "learning_rate": 0.00016480551233607468,
      "loss": 1.8591,
      "step": 7927
    },
    {
      "epoch": 0.17617777777777777,
      "grad_norm": 1.3886719942092896,
      "learning_rate": 0.00016480106690375642,
      "loss": 2.1623,
      "step": 7928
    },
    {
      "epoch": 0.1762,
      "grad_norm": 1.6531437635421753,
      "learning_rate": 0.0001647966214714381,
      "loss": 2.3744,
      "step": 7929
    },
    {
      "epoch": 0.17622222222222222,
      "grad_norm": 1.5587843656539917,
      "learning_rate": 0.0001647921760391198,
      "loss": 1.9887,
      "step": 7930
    },
    {
      "epoch": 0.17624444444444445,
      "grad_norm": 1.4047343730926514,
      "learning_rate": 0.00016478773060680152,
      "loss": 1.9798,
      "step": 7931
    },
    {
      "epoch": 0.17626666666666665,
      "grad_norm": 1.2911337614059448,
      "learning_rate": 0.00016478328517448323,
      "loss": 1.7607,
      "step": 7932
    },
    {
      "epoch": 0.17628888888888888,
      "grad_norm": 1.199583649635315,
      "learning_rate": 0.00016477883974216494,
      "loss": 1.786,
      "step": 7933
    },
    {
      "epoch": 0.1763111111111111,
      "grad_norm": 1.564239263534546,
      "learning_rate": 0.00016477439430984665,
      "loss": 1.8493,
      "step": 7934
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 1.8300690650939941,
      "learning_rate": 0.00016476994887752836,
      "loss": 1.9164,
      "step": 7935
    },
    {
      "epoch": 0.17635555555555554,
      "grad_norm": 1.593515396118164,
      "learning_rate": 0.00016476550344521004,
      "loss": 2.1772,
      "step": 7936
    },
    {
      "epoch": 0.17637777777777777,
      "grad_norm": 1.4037741422653198,
      "learning_rate": 0.00016476105801289178,
      "loss": 2.1339,
      "step": 7937
    },
    {
      "epoch": 0.1764,
      "grad_norm": 1.525252103805542,
      "learning_rate": 0.00016475661258057346,
      "loss": 2.3513,
      "step": 7938
    },
    {
      "epoch": 0.17642222222222223,
      "grad_norm": 1.5698556900024414,
      "learning_rate": 0.00016475216714825517,
      "loss": 1.9832,
      "step": 7939
    },
    {
      "epoch": 0.17644444444444443,
      "grad_norm": 1.4556573629379272,
      "learning_rate": 0.00016474772171593688,
      "loss": 1.8216,
      "step": 7940
    },
    {
      "epoch": 0.17646666666666666,
      "grad_norm": 1.299674153327942,
      "learning_rate": 0.0001647432762836186,
      "loss": 1.4962,
      "step": 7941
    },
    {
      "epoch": 0.1764888888888889,
      "grad_norm": 1.7461403608322144,
      "learning_rate": 0.0001647388308513003,
      "loss": 1.9828,
      "step": 7942
    },
    {
      "epoch": 0.17651111111111112,
      "grad_norm": 1.8382335901260376,
      "learning_rate": 0.000164734385418982,
      "loss": 2.2158,
      "step": 7943
    },
    {
      "epoch": 0.17653333333333332,
      "grad_norm": 1.7459869384765625,
      "learning_rate": 0.00016472993998666372,
      "loss": 2.2231,
      "step": 7944
    },
    {
      "epoch": 0.17655555555555555,
      "grad_norm": 2.1096794605255127,
      "learning_rate": 0.00016472549455434543,
      "loss": 2.2484,
      "step": 7945
    },
    {
      "epoch": 0.17657777777777778,
      "grad_norm": 1.5413703918457031,
      "learning_rate": 0.00016472104912202714,
      "loss": 1.969,
      "step": 7946
    },
    {
      "epoch": 0.1766,
      "grad_norm": 1.7288442850112915,
      "learning_rate": 0.00016471660368970882,
      "loss": 2.0856,
      "step": 7947
    },
    {
      "epoch": 0.17662222222222224,
      "grad_norm": 1.8754078149795532,
      "learning_rate": 0.00016471215825739055,
      "loss": 2.5179,
      "step": 7948
    },
    {
      "epoch": 0.17664444444444444,
      "grad_norm": 1.5560704469680786,
      "learning_rate": 0.00016470771282507224,
      "loss": 1.9517,
      "step": 7949
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 2.779524803161621,
      "learning_rate": 0.00016470326739275395,
      "loss": 1.1225,
      "step": 7950
    },
    {
      "epoch": 0.1766888888888889,
      "grad_norm": 1.04026460647583,
      "learning_rate": 0.00016469882196043566,
      "loss": 1.4592,
      "step": 7951
    },
    {
      "epoch": 0.17671111111111112,
      "grad_norm": 1.1018568277359009,
      "learning_rate": 0.00016469437652811737,
      "loss": 2.549,
      "step": 7952
    },
    {
      "epoch": 0.17673333333333333,
      "grad_norm": 1.2889045476913452,
      "learning_rate": 0.00016468993109579908,
      "loss": 2.2593,
      "step": 7953
    },
    {
      "epoch": 0.17675555555555555,
      "grad_norm": 1.3089168071746826,
      "learning_rate": 0.00016468548566348079,
      "loss": 1.665,
      "step": 7954
    },
    {
      "epoch": 0.17677777777777778,
      "grad_norm": 1.598122000694275,
      "learning_rate": 0.0001646810402311625,
      "loss": 1.9878,
      "step": 7955
    },
    {
      "epoch": 0.1768,
      "grad_norm": 1.3741706609725952,
      "learning_rate": 0.00016467659479884418,
      "loss": 2.0929,
      "step": 7956
    },
    {
      "epoch": 0.17682222222222221,
      "grad_norm": 1.3770476579666138,
      "learning_rate": 0.00016467214936652591,
      "loss": 2.6302,
      "step": 7957
    },
    {
      "epoch": 0.17684444444444444,
      "grad_norm": 1.4525409936904907,
      "learning_rate": 0.0001646677039342076,
      "loss": 2.2727,
      "step": 7958
    },
    {
      "epoch": 0.17686666666666667,
      "grad_norm": 1.3043586015701294,
      "learning_rate": 0.0001646632585018893,
      "loss": 1.8891,
      "step": 7959
    },
    {
      "epoch": 0.1768888888888889,
      "grad_norm": 1.2585978507995605,
      "learning_rate": 0.00016465881306957102,
      "loss": 2.2504,
      "step": 7960
    },
    {
      "epoch": 0.1769111111111111,
      "grad_norm": 1.2870005369186401,
      "learning_rate": 0.00016465436763725273,
      "loss": 2.0839,
      "step": 7961
    },
    {
      "epoch": 0.17693333333333333,
      "grad_norm": 1.3561451435089111,
      "learning_rate": 0.00016464992220493444,
      "loss": 1.8885,
      "step": 7962
    },
    {
      "epoch": 0.17695555555555556,
      "grad_norm": 1.5222400426864624,
      "learning_rate": 0.00016464547677261614,
      "loss": 2.2342,
      "step": 7963
    },
    {
      "epoch": 0.1769777777777778,
      "grad_norm": 1.2854450941085815,
      "learning_rate": 0.00016464103134029785,
      "loss": 1.9187,
      "step": 7964
    },
    {
      "epoch": 0.177,
      "grad_norm": 1.391996145248413,
      "learning_rate": 0.00016463658590797956,
      "loss": 1.9613,
      "step": 7965
    },
    {
      "epoch": 0.17702222222222222,
      "grad_norm": 1.3177366256713867,
      "learning_rate": 0.00016463214047566127,
      "loss": 2.0762,
      "step": 7966
    },
    {
      "epoch": 0.17704444444444445,
      "grad_norm": 1.3326703310012817,
      "learning_rate": 0.00016462769504334296,
      "loss": 2.0395,
      "step": 7967
    },
    {
      "epoch": 0.17706666666666668,
      "grad_norm": 1.576043725013733,
      "learning_rate": 0.0001646232496110247,
      "loss": 1.9991,
      "step": 7968
    },
    {
      "epoch": 0.17708888888888888,
      "grad_norm": 1.5503311157226562,
      "learning_rate": 0.00016461880417870638,
      "loss": 2.1008,
      "step": 7969
    },
    {
      "epoch": 0.1771111111111111,
      "grad_norm": 1.4613511562347412,
      "learning_rate": 0.00016461435874638808,
      "loss": 2.3814,
      "step": 7970
    },
    {
      "epoch": 0.17713333333333334,
      "grad_norm": 1.5930238962173462,
      "learning_rate": 0.0001646099133140698,
      "loss": 2.339,
      "step": 7971
    },
    {
      "epoch": 0.17715555555555557,
      "grad_norm": 1.5396839380264282,
      "learning_rate": 0.0001646054678817515,
      "loss": 1.9353,
      "step": 7972
    },
    {
      "epoch": 0.17717777777777777,
      "grad_norm": 1.570282220840454,
      "learning_rate": 0.00016460102244943321,
      "loss": 2.1423,
      "step": 7973
    },
    {
      "epoch": 0.1772,
      "grad_norm": 1.535786509513855,
      "learning_rate": 0.00016459657701711492,
      "loss": 2.0139,
      "step": 7974
    },
    {
      "epoch": 0.17722222222222223,
      "grad_norm": 1.4630433320999146,
      "learning_rate": 0.00016459213158479663,
      "loss": 2.0368,
      "step": 7975
    },
    {
      "epoch": 0.17724444444444445,
      "grad_norm": 1.3655766248703003,
      "learning_rate": 0.00016458768615247832,
      "loss": 1.6658,
      "step": 7976
    },
    {
      "epoch": 0.17726666666666666,
      "grad_norm": 1.4855183362960815,
      "learning_rate": 0.00016458324072016005,
      "loss": 2.1494,
      "step": 7977
    },
    {
      "epoch": 0.17728888888888888,
      "grad_norm": 1.6801106929779053,
      "learning_rate": 0.00016457879528784173,
      "loss": 2.0715,
      "step": 7978
    },
    {
      "epoch": 0.1773111111111111,
      "grad_norm": 1.4369027614593506,
      "learning_rate": 0.00016457434985552347,
      "loss": 2.0936,
      "step": 7979
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 1.2483218908309937,
      "learning_rate": 0.00016456990442320518,
      "loss": 1.7052,
      "step": 7980
    },
    {
      "epoch": 0.17735555555555554,
      "grad_norm": 1.418089509010315,
      "learning_rate": 0.00016456545899088686,
      "loss": 1.948,
      "step": 7981
    },
    {
      "epoch": 0.17737777777777777,
      "grad_norm": 1.3716834783554077,
      "learning_rate": 0.0001645610135585686,
      "loss": 1.765,
      "step": 7982
    },
    {
      "epoch": 0.1774,
      "grad_norm": 1.2552711963653564,
      "learning_rate": 0.00016455656812625028,
      "loss": 0.9647,
      "step": 7983
    },
    {
      "epoch": 0.17742222222222223,
      "grad_norm": 1.803842544555664,
      "learning_rate": 0.000164552122693932,
      "loss": 2.0237,
      "step": 7984
    },
    {
      "epoch": 0.17744444444444443,
      "grad_norm": 1.840376377105713,
      "learning_rate": 0.0001645476772616137,
      "loss": 2.0753,
      "step": 7985
    },
    {
      "epoch": 0.17746666666666666,
      "grad_norm": 1.6081831455230713,
      "learning_rate": 0.0001645432318292954,
      "loss": 1.9236,
      "step": 7986
    },
    {
      "epoch": 0.1774888888888889,
      "grad_norm": 1.4820640087127686,
      "learning_rate": 0.0001645387863969771,
      "loss": 1.7702,
      "step": 7987
    },
    {
      "epoch": 0.17751111111111112,
      "grad_norm": 1.5247344970703125,
      "learning_rate": 0.00016453434096465883,
      "loss": 1.7969,
      "step": 7988
    },
    {
      "epoch": 0.17753333333333332,
      "grad_norm": 1.4269461631774902,
      "learning_rate": 0.00016452989553234054,
      "loss": 1.5548,
      "step": 7989
    },
    {
      "epoch": 0.17755555555555555,
      "grad_norm": 1.5409318208694458,
      "learning_rate": 0.00016452545010002222,
      "loss": 1.8683,
      "step": 7990
    },
    {
      "epoch": 0.17757777777777778,
      "grad_norm": 1.7320294380187988,
      "learning_rate": 0.00016452100466770396,
      "loss": 2.2291,
      "step": 7991
    },
    {
      "epoch": 0.1776,
      "grad_norm": 1.3946343660354614,
      "learning_rate": 0.00016451655923538564,
      "loss": 1.8716,
      "step": 7992
    },
    {
      "epoch": 0.1776222222222222,
      "grad_norm": 1.5306670665740967,
      "learning_rate": 0.00016451211380306735,
      "loss": 2.1835,
      "step": 7993
    },
    {
      "epoch": 0.17764444444444444,
      "grad_norm": 1.5601882934570312,
      "learning_rate": 0.00016450766837074906,
      "loss": 1.6103,
      "step": 7994
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 1.4588536024093628,
      "learning_rate": 0.00016450322293843077,
      "loss": 1.8957,
      "step": 7995
    },
    {
      "epoch": 0.1776888888888889,
      "grad_norm": 1.5938780307769775,
      "learning_rate": 0.00016449877750611245,
      "loss": 1.8971,
      "step": 7996
    },
    {
      "epoch": 0.1777111111111111,
      "grad_norm": 1.4920319318771362,
      "learning_rate": 0.0001644943320737942,
      "loss": 1.7924,
      "step": 7997
    },
    {
      "epoch": 0.17773333333333333,
      "grad_norm": 1.5436575412750244,
      "learning_rate": 0.0001644898866414759,
      "loss": 1.8817,
      "step": 7998
    },
    {
      "epoch": 0.17775555555555556,
      "grad_norm": 1.4598861932754517,
      "learning_rate": 0.0001644854412091576,
      "loss": 1.5827,
      "step": 7999
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 1.5291025638580322,
      "learning_rate": 0.00016448099577683932,
      "loss": 1.5525,
      "step": 8000
    },
    {
      "epoch": 0.1778,
      "grad_norm": 1.1704137325286865,
      "learning_rate": 0.000164476550344521,
      "loss": 2.3579,
      "step": 8001
    },
    {
      "epoch": 0.17782222222222221,
      "grad_norm": 1.4344873428344727,
      "learning_rate": 0.00016447210491220274,
      "loss": 2.6528,
      "step": 8002
    },
    {
      "epoch": 0.17784444444444444,
      "grad_norm": 1.4099669456481934,
      "learning_rate": 0.00016446765947988442,
      "loss": 3.1031,
      "step": 8003
    },
    {
      "epoch": 0.17786666666666667,
      "grad_norm": 1.350140929222107,
      "learning_rate": 0.00016446321404756613,
      "loss": 3.0757,
      "step": 8004
    },
    {
      "epoch": 0.1778888888888889,
      "grad_norm": 1.3226029872894287,
      "learning_rate": 0.00016445876861524784,
      "loss": 2.5275,
      "step": 8005
    },
    {
      "epoch": 0.1779111111111111,
      "grad_norm": 1.2762430906295776,
      "learning_rate": 0.00016445432318292955,
      "loss": 2.2183,
      "step": 8006
    },
    {
      "epoch": 0.17793333333333333,
      "grad_norm": 1.125319242477417,
      "learning_rate": 0.00016444987775061126,
      "loss": 1.8464,
      "step": 8007
    },
    {
      "epoch": 0.17795555555555556,
      "grad_norm": 1.1732769012451172,
      "learning_rate": 0.00016444543231829297,
      "loss": 1.4956,
      "step": 8008
    },
    {
      "epoch": 0.1779777777777778,
      "grad_norm": 1.2364293336868286,
      "learning_rate": 0.00016444098688597468,
      "loss": 2.0376,
      "step": 8009
    },
    {
      "epoch": 0.178,
      "grad_norm": 1.3014167547225952,
      "learning_rate": 0.00016443654145365636,
      "loss": 1.8977,
      "step": 8010
    },
    {
      "epoch": 0.17802222222222222,
      "grad_norm": 1.4295768737792969,
      "learning_rate": 0.0001644320960213381,
      "loss": 1.562,
      "step": 8011
    },
    {
      "epoch": 0.17804444444444445,
      "grad_norm": 1.3359540700912476,
      "learning_rate": 0.00016442765058901978,
      "loss": 1.9648,
      "step": 8012
    },
    {
      "epoch": 0.17806666666666668,
      "grad_norm": 1.378999948501587,
      "learning_rate": 0.0001644232051567015,
      "loss": 1.8273,
      "step": 8013
    },
    {
      "epoch": 0.17808888888888888,
      "grad_norm": 1.5079402923583984,
      "learning_rate": 0.0001644187597243832,
      "loss": 2.1834,
      "step": 8014
    },
    {
      "epoch": 0.1781111111111111,
      "grad_norm": 1.4620378017425537,
      "learning_rate": 0.0001644143142920649,
      "loss": 2.3458,
      "step": 8015
    },
    {
      "epoch": 0.17813333333333334,
      "grad_norm": 1.199900507926941,
      "learning_rate": 0.00016440986885974662,
      "loss": 1.2696,
      "step": 8016
    },
    {
      "epoch": 0.17815555555555557,
      "grad_norm": 1.4153172969818115,
      "learning_rate": 0.00016440542342742833,
      "loss": 2.1736,
      "step": 8017
    },
    {
      "epoch": 0.17817777777777777,
      "grad_norm": 1.5715564489364624,
      "learning_rate": 0.00016440097799511004,
      "loss": 0.0639,
      "step": 8018
    },
    {
      "epoch": 0.1782,
      "grad_norm": 1.403449296951294,
      "learning_rate": 0.00016439653256279175,
      "loss": 2.0658,
      "step": 8019
    },
    {
      "epoch": 0.17822222222222223,
      "grad_norm": 1.2884079217910767,
      "learning_rate": 0.00016439208713047346,
      "loss": 1.6344,
      "step": 8020
    },
    {
      "epoch": 0.17824444444444446,
      "grad_norm": 1.3350138664245605,
      "learning_rate": 0.00016438764169815514,
      "loss": 1.6886,
      "step": 8021
    },
    {
      "epoch": 0.17826666666666666,
      "grad_norm": 1.2397253513336182,
      "learning_rate": 0.00016438319626583688,
      "loss": 1.5502,
      "step": 8022
    },
    {
      "epoch": 0.17828888888888889,
      "grad_norm": 1.2499778270721436,
      "learning_rate": 0.00016437875083351856,
      "loss": 1.6214,
      "step": 8023
    },
    {
      "epoch": 0.17831111111111111,
      "grad_norm": 1.4358340501785278,
      "learning_rate": 0.00016437430540120027,
      "loss": 1.9316,
      "step": 8024
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 1.5397634506225586,
      "learning_rate": 0.00016436985996888198,
      "loss": 1.9633,
      "step": 8025
    },
    {
      "epoch": 0.17835555555555554,
      "grad_norm": 1.8187607526779175,
      "learning_rate": 0.0001643654145365637,
      "loss": 2.195,
      "step": 8026
    },
    {
      "epoch": 0.17837777777777777,
      "grad_norm": 1.7415063381195068,
      "learning_rate": 0.0001643609691042454,
      "loss": 2.1376,
      "step": 8027
    },
    {
      "epoch": 0.1784,
      "grad_norm": 1.6278437376022339,
      "learning_rate": 0.0001643565236719271,
      "loss": 2.3993,
      "step": 8028
    },
    {
      "epoch": 0.17842222222222223,
      "grad_norm": 1.4073172807693481,
      "learning_rate": 0.00016435207823960882,
      "loss": 2.0857,
      "step": 8029
    },
    {
      "epoch": 0.17844444444444443,
      "grad_norm": 1.23085355758667,
      "learning_rate": 0.0001643476328072905,
      "loss": 1.6322,
      "step": 8030
    },
    {
      "epoch": 0.17846666666666666,
      "grad_norm": 0.8824859261512756,
      "learning_rate": 0.00016434318737497224,
      "loss": 0.758,
      "step": 8031
    },
    {
      "epoch": 0.1784888888888889,
      "grad_norm": 1.3465241193771362,
      "learning_rate": 0.00016433874194265392,
      "loss": 1.9702,
      "step": 8032
    },
    {
      "epoch": 0.17851111111111112,
      "grad_norm": 1.2343229055404663,
      "learning_rate": 0.00016433429651033563,
      "loss": 1.7172,
      "step": 8033
    },
    {
      "epoch": 0.17853333333333332,
      "grad_norm": 1.4755196571350098,
      "learning_rate": 0.00016432985107801734,
      "loss": 2.1533,
      "step": 8034
    },
    {
      "epoch": 0.17855555555555555,
      "grad_norm": 1.6232255697250366,
      "learning_rate": 0.00016432540564569905,
      "loss": 2.1855,
      "step": 8035
    },
    {
      "epoch": 0.17857777777777778,
      "grad_norm": 1.5357855558395386,
      "learning_rate": 0.00016432096021338076,
      "loss": 2.1173,
      "step": 8036
    },
    {
      "epoch": 0.1786,
      "grad_norm": 1.3790092468261719,
      "learning_rate": 0.00016431651478106247,
      "loss": 1.9018,
      "step": 8037
    },
    {
      "epoch": 0.1786222222222222,
      "grad_norm": 1.568231463432312,
      "learning_rate": 0.00016431206934874418,
      "loss": 1.719,
      "step": 8038
    },
    {
      "epoch": 0.17864444444444444,
      "grad_norm": 1.4962193965911865,
      "learning_rate": 0.00016430762391642589,
      "loss": 2.0658,
      "step": 8039
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 1.9077110290527344,
      "learning_rate": 0.0001643031784841076,
      "loss": 2.2629,
      "step": 8040
    },
    {
      "epoch": 0.1786888888888889,
      "grad_norm": 1.5808807611465454,
      "learning_rate": 0.00016429873305178928,
      "loss": 2.3056,
      "step": 8041
    },
    {
      "epoch": 0.1787111111111111,
      "grad_norm": 1.8714054822921753,
      "learning_rate": 0.00016429428761947101,
      "loss": 2.1748,
      "step": 8042
    },
    {
      "epoch": 0.17873333333333333,
      "grad_norm": 1.4868018627166748,
      "learning_rate": 0.0001642898421871527,
      "loss": 2.2376,
      "step": 8043
    },
    {
      "epoch": 0.17875555555555556,
      "grad_norm": 1.8979216814041138,
      "learning_rate": 0.0001642853967548344,
      "loss": 2.2885,
      "step": 8044
    },
    {
      "epoch": 0.17877777777777779,
      "grad_norm": 1.2776886224746704,
      "learning_rate": 0.00016428095132251612,
      "loss": 1.7638,
      "step": 8045
    },
    {
      "epoch": 0.1788,
      "grad_norm": 1.4778919219970703,
      "learning_rate": 0.00016427650589019783,
      "loss": 1.9331,
      "step": 8046
    },
    {
      "epoch": 0.17882222222222222,
      "grad_norm": 1.4252047538757324,
      "learning_rate": 0.00016427206045787954,
      "loss": 1.7797,
      "step": 8047
    },
    {
      "epoch": 0.17884444444444444,
      "grad_norm": 1.7427515983581543,
      "learning_rate": 0.00016426761502556125,
      "loss": 0.7464,
      "step": 8048
    },
    {
      "epoch": 0.17886666666666667,
      "grad_norm": 1.685486078262329,
      "learning_rate": 0.00016426316959324296,
      "loss": 2.1824,
      "step": 8049
    },
    {
      "epoch": 0.17888888888888888,
      "grad_norm": 1.1117604970932007,
      "learning_rate": 0.00016425872416092464,
      "loss": 0.7637,
      "step": 8050
    },
    {
      "epoch": 0.1789111111111111,
      "grad_norm": 1.1118460893630981,
      "learning_rate": 0.00016425427872860637,
      "loss": 1.5721,
      "step": 8051
    },
    {
      "epoch": 0.17893333333333333,
      "grad_norm": 1.2173662185668945,
      "learning_rate": 0.00016424983329628806,
      "loss": 3.2714,
      "step": 8052
    },
    {
      "epoch": 0.17895555555555556,
      "grad_norm": 1.2703118324279785,
      "learning_rate": 0.00016424538786396977,
      "loss": 2.4895,
      "step": 8053
    },
    {
      "epoch": 0.1789777777777778,
      "grad_norm": 1.1524512767791748,
      "learning_rate": 0.0001642409424316515,
      "loss": 2.3199,
      "step": 8054
    },
    {
      "epoch": 0.179,
      "grad_norm": 1.2657501697540283,
      "learning_rate": 0.00016423649699933319,
      "loss": 2.7614,
      "step": 8055
    },
    {
      "epoch": 0.17902222222222222,
      "grad_norm": 1.5741336345672607,
      "learning_rate": 0.00016423205156701492,
      "loss": 2.306,
      "step": 8056
    },
    {
      "epoch": 0.17904444444444445,
      "grad_norm": 1.2414623498916626,
      "learning_rate": 0.0001642276061346966,
      "loss": 2.2229,
      "step": 8057
    },
    {
      "epoch": 0.17906666666666668,
      "grad_norm": 1.4048969745635986,
      "learning_rate": 0.00016422316070237831,
      "loss": 2.133,
      "step": 8058
    },
    {
      "epoch": 0.17908888888888888,
      "grad_norm": 1.378115177154541,
      "learning_rate": 0.00016421871527006002,
      "loss": 2.4658,
      "step": 8059
    },
    {
      "epoch": 0.1791111111111111,
      "grad_norm": 1.1526190042495728,
      "learning_rate": 0.00016421426983774173,
      "loss": 2.0749,
      "step": 8060
    },
    {
      "epoch": 0.17913333333333334,
      "grad_norm": 1.0530091524124146,
      "learning_rate": 0.00016420982440542342,
      "loss": 1.011,
      "step": 8061
    },
    {
      "epoch": 0.17915555555555557,
      "grad_norm": 1.0897682905197144,
      "learning_rate": 0.00016420537897310515,
      "loss": 1.9719,
      "step": 8062
    },
    {
      "epoch": 0.17917777777777777,
      "grad_norm": 1.319219946861267,
      "learning_rate": 0.00016420093354078686,
      "loss": 1.8472,
      "step": 8063
    },
    {
      "epoch": 0.1792,
      "grad_norm": 1.1825424432754517,
      "learning_rate": 0.00016419648810846855,
      "loss": 1.5985,
      "step": 8064
    },
    {
      "epoch": 0.17922222222222223,
      "grad_norm": 1.2624622583389282,
      "learning_rate": 0.00016419204267615028,
      "loss": 1.9537,
      "step": 8065
    },
    {
      "epoch": 0.17924444444444446,
      "grad_norm": 1.6836214065551758,
      "learning_rate": 0.00016418759724383196,
      "loss": 2.3501,
      "step": 8066
    },
    {
      "epoch": 0.17926666666666666,
      "grad_norm": 1.2353383302688599,
      "learning_rate": 0.00016418315181151367,
      "loss": 1.9371,
      "step": 8067
    },
    {
      "epoch": 0.1792888888888889,
      "grad_norm": 1.320328712463379,
      "learning_rate": 0.00016417870637919538,
      "loss": 2.1014,
      "step": 8068
    },
    {
      "epoch": 0.17931111111111112,
      "grad_norm": 1.3842298984527588,
      "learning_rate": 0.0001641742609468771,
      "loss": 1.853,
      "step": 8069
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 1.4906766414642334,
      "learning_rate": 0.00016416981551455878,
      "loss": 1.903,
      "step": 8070
    },
    {
      "epoch": 0.17935555555555555,
      "grad_norm": 1.70901358127594,
      "learning_rate": 0.0001641653700822405,
      "loss": 1.9811,
      "step": 8071
    },
    {
      "epoch": 0.17937777777777777,
      "grad_norm": 1.3494164943695068,
      "learning_rate": 0.00016416092464992222,
      "loss": 1.5363,
      "step": 8072
    },
    {
      "epoch": 0.1794,
      "grad_norm": 1.430849552154541,
      "learning_rate": 0.0001641564792176039,
      "loss": 2.2398,
      "step": 8073
    },
    {
      "epoch": 0.17942222222222223,
      "grad_norm": 1.7414051294326782,
      "learning_rate": 0.00016415203378528564,
      "loss": 2.2795,
      "step": 8074
    },
    {
      "epoch": 0.17944444444444443,
      "grad_norm": 1.2352467775344849,
      "learning_rate": 0.00016414758835296732,
      "loss": 1.9277,
      "step": 8075
    },
    {
      "epoch": 0.17946666666666666,
      "grad_norm": 1.4127309322357178,
      "learning_rate": 0.00016414314292064906,
      "loss": 2.1229,
      "step": 8076
    },
    {
      "epoch": 0.1794888888888889,
      "grad_norm": 1.3530913591384888,
      "learning_rate": 0.00016413869748833074,
      "loss": 1.8821,
      "step": 8077
    },
    {
      "epoch": 0.17951111111111112,
      "grad_norm": 1.2384837865829468,
      "learning_rate": 0.00016413425205601245,
      "loss": 1.5536,
      "step": 8078
    },
    {
      "epoch": 0.17953333333333332,
      "grad_norm": 1.7128318548202515,
      "learning_rate": 0.00016412980662369416,
      "loss": 2.5889,
      "step": 8079
    },
    {
      "epoch": 0.17955555555555555,
      "grad_norm": 1.4179553985595703,
      "learning_rate": 0.00016412536119137587,
      "loss": 1.8309,
      "step": 8080
    },
    {
      "epoch": 0.17957777777777778,
      "grad_norm": 1.6290724277496338,
      "learning_rate": 0.00016412091575905758,
      "loss": 1.6969,
      "step": 8081
    },
    {
      "epoch": 0.1796,
      "grad_norm": 1.5465022325515747,
      "learning_rate": 0.0001641164703267393,
      "loss": 2.1929,
      "step": 8082
    },
    {
      "epoch": 0.1796222222222222,
      "grad_norm": 1.5422497987747192,
      "learning_rate": 0.000164112024894421,
      "loss": 1.9553,
      "step": 8083
    },
    {
      "epoch": 0.17964444444444444,
      "grad_norm": 1.7827001810073853,
      "learning_rate": 0.00016410757946210268,
      "loss": 1.9844,
      "step": 8084
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 1.4805238246917725,
      "learning_rate": 0.00016410313402978442,
      "loss": 1.9321,
      "step": 8085
    },
    {
      "epoch": 0.1796888888888889,
      "grad_norm": 1.6136103868484497,
      "learning_rate": 0.0001640986885974661,
      "loss": 2.0579,
      "step": 8086
    },
    {
      "epoch": 0.1797111111111111,
      "grad_norm": 1.4767245054244995,
      "learning_rate": 0.0001640942431651478,
      "loss": 1.8436,
      "step": 8087
    },
    {
      "epoch": 0.17973333333333333,
      "grad_norm": 1.444787621498108,
      "learning_rate": 0.00016408979773282952,
      "loss": 2.1356,
      "step": 8088
    },
    {
      "epoch": 0.17975555555555556,
      "grad_norm": 1.8299592733383179,
      "learning_rate": 0.00016408535230051123,
      "loss": 2.1584,
      "step": 8089
    },
    {
      "epoch": 0.1797777777777778,
      "grad_norm": 1.8347387313842773,
      "learning_rate": 0.00016408090686819294,
      "loss": 2.2103,
      "step": 8090
    },
    {
      "epoch": 0.1798,
      "grad_norm": 1.4585548639297485,
      "learning_rate": 0.00016407646143587465,
      "loss": 1.8122,
      "step": 8091
    },
    {
      "epoch": 0.17982222222222222,
      "grad_norm": 1.257117748260498,
      "learning_rate": 0.00016407201600355636,
      "loss": 1.6602,
      "step": 8092
    },
    {
      "epoch": 0.17984444444444445,
      "grad_norm": 1.4347350597381592,
      "learning_rate": 0.00016406757057123807,
      "loss": 1.7887,
      "step": 8093
    },
    {
      "epoch": 0.17986666666666667,
      "grad_norm": 1.4268232583999634,
      "learning_rate": 0.00016406312513891978,
      "loss": 1.7352,
      "step": 8094
    },
    {
      "epoch": 0.17988888888888888,
      "grad_norm": 1.4635496139526367,
      "learning_rate": 0.00016405867970660146,
      "loss": 1.7285,
      "step": 8095
    },
    {
      "epoch": 0.1799111111111111,
      "grad_norm": 1.666083574295044,
      "learning_rate": 0.0001640542342742832,
      "loss": 2.0992,
      "step": 8096
    },
    {
      "epoch": 0.17993333333333333,
      "grad_norm": 1.4853163957595825,
      "learning_rate": 0.00016404978884196488,
      "loss": 1.7214,
      "step": 8097
    },
    {
      "epoch": 0.17995555555555556,
      "grad_norm": 2.279653787612915,
      "learning_rate": 0.0001640453434096466,
      "loss": 1.2154,
      "step": 8098
    },
    {
      "epoch": 0.17997777777777776,
      "grad_norm": 1.7033283710479736,
      "learning_rate": 0.0001640408979773283,
      "loss": 1.0092,
      "step": 8099
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.839735507965088,
      "learning_rate": 0.00016403645254501,
      "loss": 1.6445,
      "step": 8100
    },
    {
      "epoch": 0.18002222222222222,
      "grad_norm": 1.2323906421661377,
      "learning_rate": 0.00016403200711269172,
      "loss": 2.6975,
      "step": 8101
    },
    {
      "epoch": 0.18004444444444445,
      "grad_norm": 1.3303935527801514,
      "learning_rate": 0.00016402756168037343,
      "loss": 2.5691,
      "step": 8102
    },
    {
      "epoch": 0.18006666666666668,
      "grad_norm": 1.2686827182769775,
      "learning_rate": 0.00016402311624805514,
      "loss": 2.3944,
      "step": 8103
    },
    {
      "epoch": 0.18008888888888888,
      "grad_norm": 1.5606882572174072,
      "learning_rate": 0.00016401867081573682,
      "loss": 2.6183,
      "step": 8104
    },
    {
      "epoch": 0.1801111111111111,
      "grad_norm": 3.5705363750457764,
      "learning_rate": 0.00016401422538341856,
      "loss": 1.5409,
      "step": 8105
    },
    {
      "epoch": 0.18013333333333334,
      "grad_norm": 1.2769700288772583,
      "learning_rate": 0.00016400977995110024,
      "loss": 2.3558,
      "step": 8106
    },
    {
      "epoch": 0.18015555555555557,
      "grad_norm": 1.213308334350586,
      "learning_rate": 0.00016400533451878195,
      "loss": 1.5694,
      "step": 8107
    },
    {
      "epoch": 0.18017777777777777,
      "grad_norm": 1.4500844478607178,
      "learning_rate": 0.00016400088908646366,
      "loss": 2.1014,
      "step": 8108
    },
    {
      "epoch": 0.1802,
      "grad_norm": 1.548416256904602,
      "learning_rate": 0.00016399644365414537,
      "loss": 2.1266,
      "step": 8109
    },
    {
      "epoch": 0.18022222222222223,
      "grad_norm": 1.116726040840149,
      "learning_rate": 0.00016399199822182708,
      "loss": 1.4361,
      "step": 8110
    },
    {
      "epoch": 0.18024444444444446,
      "grad_norm": 0.9274438619613647,
      "learning_rate": 0.0001639875527895088,
      "loss": 1.2783,
      "step": 8111
    },
    {
      "epoch": 0.18026666666666666,
      "grad_norm": 1.7797911167144775,
      "learning_rate": 0.0001639831073571905,
      "loss": 1.5987,
      "step": 8112
    },
    {
      "epoch": 0.1802888888888889,
      "grad_norm": 1.2405948638916016,
      "learning_rate": 0.0001639786619248722,
      "loss": 1.9789,
      "step": 8113
    },
    {
      "epoch": 0.18031111111111112,
      "grad_norm": 1.3407049179077148,
      "learning_rate": 0.00016397421649255392,
      "loss": 2.5521,
      "step": 8114
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 1.349292516708374,
      "learning_rate": 0.0001639697710602356,
      "loss": 2.3384,
      "step": 8115
    },
    {
      "epoch": 0.18035555555555555,
      "grad_norm": 1.2221553325653076,
      "learning_rate": 0.00016396532562791734,
      "loss": 2.4726,
      "step": 8116
    },
    {
      "epoch": 0.18037777777777778,
      "grad_norm": 1.377052903175354,
      "learning_rate": 0.00016396088019559902,
      "loss": 2.2957,
      "step": 8117
    },
    {
      "epoch": 0.1804,
      "grad_norm": 1.8558911085128784,
      "learning_rate": 0.00016395643476328073,
      "loss": 3.0465,
      "step": 8118
    },
    {
      "epoch": 0.18042222222222223,
      "grad_norm": 1.5415607690811157,
      "learning_rate": 0.00016395198933096244,
      "loss": 2.7123,
      "step": 8119
    },
    {
      "epoch": 0.18044444444444444,
      "grad_norm": 1.2092608213424683,
      "learning_rate": 0.00016394754389864415,
      "loss": 2.0784,
      "step": 8120
    },
    {
      "epoch": 0.18046666666666666,
      "grad_norm": 1.3012803792953491,
      "learning_rate": 0.00016394309846632586,
      "loss": 1.0199,
      "step": 8121
    },
    {
      "epoch": 0.1804888888888889,
      "grad_norm": 1.363182783126831,
      "learning_rate": 0.00016393865303400757,
      "loss": 1.7431,
      "step": 8122
    },
    {
      "epoch": 0.18051111111111112,
      "grad_norm": 2.143767833709717,
      "learning_rate": 0.00016393420760168928,
      "loss": 1.1266,
      "step": 8123
    },
    {
      "epoch": 0.18053333333333332,
      "grad_norm": 1.4649951457977295,
      "learning_rate": 0.00016392976216937096,
      "loss": 2.1447,
      "step": 8124
    },
    {
      "epoch": 0.18055555555555555,
      "grad_norm": 1.5211799144744873,
      "learning_rate": 0.0001639253167370527,
      "loss": 2.2495,
      "step": 8125
    },
    {
      "epoch": 0.18057777777777778,
      "grad_norm": 1.6224735975265503,
      "learning_rate": 0.00016392087130473438,
      "loss": 2.5589,
      "step": 8126
    },
    {
      "epoch": 0.1806,
      "grad_norm": 1.4562970399856567,
      "learning_rate": 0.0001639164258724161,
      "loss": 2.2936,
      "step": 8127
    },
    {
      "epoch": 0.1806222222222222,
      "grad_norm": 1.40329909324646,
      "learning_rate": 0.00016391198044009783,
      "loss": 2.0664,
      "step": 8128
    },
    {
      "epoch": 0.18064444444444444,
      "grad_norm": 1.340826153755188,
      "learning_rate": 0.0001639075350077795,
      "loss": 2.1394,
      "step": 8129
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 1.575843334197998,
      "learning_rate": 0.00016390308957546122,
      "loss": 2.7089,
      "step": 8130
    },
    {
      "epoch": 0.1806888888888889,
      "grad_norm": 1.5734944343566895,
      "learning_rate": 0.00016389864414314293,
      "loss": 2.2879,
      "step": 8131
    },
    {
      "epoch": 0.1807111111111111,
      "grad_norm": 1.410251259803772,
      "learning_rate": 0.00016389419871082464,
      "loss": 1.8824,
      "step": 8132
    },
    {
      "epoch": 0.18073333333333333,
      "grad_norm": 1.5206913948059082,
      "learning_rate": 0.00016388975327850635,
      "loss": 1.7122,
      "step": 8133
    },
    {
      "epoch": 0.18075555555555556,
      "grad_norm": 1.6319575309753418,
      "learning_rate": 0.00016388530784618806,
      "loss": 2.1105,
      "step": 8134
    },
    {
      "epoch": 0.1807777777777778,
      "grad_norm": 1.547228217124939,
      "learning_rate": 0.00016388086241386974,
      "loss": 2.1025,
      "step": 8135
    },
    {
      "epoch": 0.1808,
      "grad_norm": 1.4257510900497437,
      "learning_rate": 0.00016387641698155148,
      "loss": 2.1368,
      "step": 8136
    },
    {
      "epoch": 0.18082222222222222,
      "grad_norm": 1.5464385747909546,
      "learning_rate": 0.00016387197154923318,
      "loss": 2.0275,
      "step": 8137
    },
    {
      "epoch": 0.18084444444444445,
      "grad_norm": 1.3862444162368774,
      "learning_rate": 0.00016386752611691487,
      "loss": 1.7949,
      "step": 8138
    },
    {
      "epoch": 0.18086666666666668,
      "grad_norm": 1.5783683061599731,
      "learning_rate": 0.0001638630806845966,
      "loss": 1.6042,
      "step": 8139
    },
    {
      "epoch": 0.18088888888888888,
      "grad_norm": 1.601086974143982,
      "learning_rate": 0.0001638586352522783,
      "loss": 1.4685,
      "step": 8140
    },
    {
      "epoch": 0.1809111111111111,
      "grad_norm": 1.3515161275863647,
      "learning_rate": 0.00016385418981996,
      "loss": 1.6057,
      "step": 8141
    },
    {
      "epoch": 0.18093333333333333,
      "grad_norm": 1.42574143409729,
      "learning_rate": 0.0001638497443876417,
      "loss": 2.0778,
      "step": 8142
    },
    {
      "epoch": 0.18095555555555556,
      "grad_norm": 1.4627331495285034,
      "learning_rate": 0.00016384529895532342,
      "loss": 1.8045,
      "step": 8143
    },
    {
      "epoch": 0.18097777777777777,
      "grad_norm": 1.610575556755066,
      "learning_rate": 0.0001638408535230051,
      "loss": 1.5973,
      "step": 8144
    },
    {
      "epoch": 0.181,
      "grad_norm": 1.6004148721694946,
      "learning_rate": 0.00016383640809068683,
      "loss": 1.7798,
      "step": 8145
    },
    {
      "epoch": 0.18102222222222222,
      "grad_norm": 1.2254000902175903,
      "learning_rate": 0.00016383196265836854,
      "loss": 0.7217,
      "step": 8146
    },
    {
      "epoch": 0.18104444444444445,
      "grad_norm": 1.5713175535202026,
      "learning_rate": 0.00016382751722605023,
      "loss": 1.8861,
      "step": 8147
    },
    {
      "epoch": 0.18106666666666665,
      "grad_norm": 1.7845737934112549,
      "learning_rate": 0.00016382307179373196,
      "loss": 2.0089,
      "step": 8148
    },
    {
      "epoch": 0.18108888888888888,
      "grad_norm": 1.422338604927063,
      "learning_rate": 0.00016381862636141365,
      "loss": 1.4848,
      "step": 8149
    },
    {
      "epoch": 0.1811111111111111,
      "grad_norm": 1.6892739534378052,
      "learning_rate": 0.00016381418092909538,
      "loss": 1.0672,
      "step": 8150
    },
    {
      "epoch": 0.18113333333333334,
      "grad_norm": 1.256738305091858,
      "learning_rate": 0.00016380973549677707,
      "loss": 1.5192,
      "step": 8151
    },
    {
      "epoch": 0.18115555555555554,
      "grad_norm": 1.468625545501709,
      "learning_rate": 0.00016380529006445877,
      "loss": 2.4382,
      "step": 8152
    },
    {
      "epoch": 0.18117777777777777,
      "grad_norm": 1.296726107597351,
      "learning_rate": 0.00016380084463214048,
      "loss": 1.4115,
      "step": 8153
    },
    {
      "epoch": 0.1812,
      "grad_norm": 1.6628950834274292,
      "learning_rate": 0.0001637963991998222,
      "loss": 2.4658,
      "step": 8154
    },
    {
      "epoch": 0.18122222222222223,
      "grad_norm": 1.3240007162094116,
      "learning_rate": 0.0001637919537675039,
      "loss": 1.4637,
      "step": 8155
    },
    {
      "epoch": 0.18124444444444446,
      "grad_norm": 3.800583600997925,
      "learning_rate": 0.0001637875083351856,
      "loss": 2.116,
      "step": 8156
    },
    {
      "epoch": 0.18126666666666666,
      "grad_norm": 1.1377969980239868,
      "learning_rate": 0.00016378306290286732,
      "loss": 1.6993,
      "step": 8157
    },
    {
      "epoch": 0.1812888888888889,
      "grad_norm": 1.571228265762329,
      "learning_rate": 0.000163778617470549,
      "loss": 2.2445,
      "step": 8158
    },
    {
      "epoch": 0.18131111111111112,
      "grad_norm": 1.9990354776382446,
      "learning_rate": 0.00016377417203823074,
      "loss": 2.074,
      "step": 8159
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.9883690476417542,
      "learning_rate": 0.00016376972660591242,
      "loss": 1.1246,
      "step": 8160
    },
    {
      "epoch": 0.18135555555555555,
      "grad_norm": 1.2823504209518433,
      "learning_rate": 0.00016376528117359413,
      "loss": 2.3519,
      "step": 8161
    },
    {
      "epoch": 0.18137777777777778,
      "grad_norm": 1.3134307861328125,
      "learning_rate": 0.00016376083574127584,
      "loss": 2.0586,
      "step": 8162
    },
    {
      "epoch": 0.1814,
      "grad_norm": 1.2457177639007568,
      "learning_rate": 0.00016375639030895755,
      "loss": 2.1068,
      "step": 8163
    },
    {
      "epoch": 0.18142222222222223,
      "grad_norm": 1.3132268190383911,
      "learning_rate": 0.00016375194487663926,
      "loss": 2.235,
      "step": 8164
    },
    {
      "epoch": 0.18144444444444444,
      "grad_norm": 1.4731569290161133,
      "learning_rate": 0.00016374749944432097,
      "loss": 1.4779,
      "step": 8165
    },
    {
      "epoch": 0.18146666666666667,
      "grad_norm": 1.2433676719665527,
      "learning_rate": 0.00016374305401200268,
      "loss": 1.8566,
      "step": 8166
    },
    {
      "epoch": 0.1814888888888889,
      "grad_norm": 1.757994294166565,
      "learning_rate": 0.00016373860857968436,
      "loss": 2.1902,
      "step": 8167
    },
    {
      "epoch": 0.18151111111111112,
      "grad_norm": 1.4015344381332397,
      "learning_rate": 0.0001637341631473661,
      "loss": 2.258,
      "step": 8168
    },
    {
      "epoch": 0.18153333333333332,
      "grad_norm": 0.9176733493804932,
      "learning_rate": 0.00016372971771504778,
      "loss": 1.1082,
      "step": 8169
    },
    {
      "epoch": 0.18155555555555555,
      "grad_norm": 1.2806288003921509,
      "learning_rate": 0.00016372527228272952,
      "loss": 2.2458,
      "step": 8170
    },
    {
      "epoch": 0.18157777777777778,
      "grad_norm": 1.3795222043991089,
      "learning_rate": 0.0001637208268504112,
      "loss": 1.1528,
      "step": 8171
    },
    {
      "epoch": 0.1816,
      "grad_norm": 1.5156079530715942,
      "learning_rate": 0.0001637163814180929,
      "loss": 1.9689,
      "step": 8172
    },
    {
      "epoch": 0.1816222222222222,
      "grad_norm": 1.5620028972625732,
      "learning_rate": 0.00016371193598577462,
      "loss": 1.9752,
      "step": 8173
    },
    {
      "epoch": 0.18164444444444444,
      "grad_norm": 1.4699190855026245,
      "learning_rate": 0.00016370749055345633,
      "loss": 2.3309,
      "step": 8174
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 1.4450231790542603,
      "learning_rate": 0.00016370304512113804,
      "loss": 2.2594,
      "step": 8175
    },
    {
      "epoch": 0.1816888888888889,
      "grad_norm": 1.7422358989715576,
      "learning_rate": 0.00016369859968881975,
      "loss": 2.3958,
      "step": 8176
    },
    {
      "epoch": 0.1817111111111111,
      "grad_norm": 1.3749529123306274,
      "learning_rate": 0.00016369415425650146,
      "loss": 2.3874,
      "step": 8177
    },
    {
      "epoch": 0.18173333333333333,
      "grad_norm": 1.4110069274902344,
      "learning_rate": 0.00016368970882418314,
      "loss": 1.8759,
      "step": 8178
    },
    {
      "epoch": 0.18175555555555556,
      "grad_norm": 1.2915595769882202,
      "learning_rate": 0.00016368526339186488,
      "loss": 1.3349,
      "step": 8179
    },
    {
      "epoch": 0.1817777777777778,
      "grad_norm": 1.3655954599380493,
      "learning_rate": 0.00016368081795954656,
      "loss": 2.0857,
      "step": 8180
    },
    {
      "epoch": 0.1818,
      "grad_norm": 0.5523065328598022,
      "learning_rate": 0.00016367637252722827,
      "loss": 0.0307,
      "step": 8181
    },
    {
      "epoch": 0.18182222222222222,
      "grad_norm": 1.3548544645309448,
      "learning_rate": 0.00016367192709490998,
      "loss": 1.9672,
      "step": 8182
    },
    {
      "epoch": 0.18184444444444445,
      "grad_norm": 1.2986717224121094,
      "learning_rate": 0.0001636674816625917,
      "loss": 1.6923,
      "step": 8183
    },
    {
      "epoch": 0.18186666666666668,
      "grad_norm": 1.5318679809570312,
      "learning_rate": 0.0001636630362302734,
      "loss": 1.8757,
      "step": 8184
    },
    {
      "epoch": 0.18188888888888888,
      "grad_norm": 1.424027442932129,
      "learning_rate": 0.0001636585907979551,
      "loss": 1.5979,
      "step": 8185
    },
    {
      "epoch": 0.1819111111111111,
      "grad_norm": 1.5313278436660767,
      "learning_rate": 0.00016365414536563682,
      "loss": 1.7681,
      "step": 8186
    },
    {
      "epoch": 0.18193333333333334,
      "grad_norm": 1.3569974899291992,
      "learning_rate": 0.0001636496999333185,
      "loss": 1.6597,
      "step": 8187
    },
    {
      "epoch": 0.18195555555555556,
      "grad_norm": 1.3848903179168701,
      "learning_rate": 0.00016364525450100024,
      "loss": 1.9949,
      "step": 8188
    },
    {
      "epoch": 0.18197777777777777,
      "grad_norm": 1.6185424327850342,
      "learning_rate": 0.00016364080906868192,
      "loss": 2.138,
      "step": 8189
    },
    {
      "epoch": 0.182,
      "grad_norm": 1.5546437501907349,
      "learning_rate": 0.00016363636363636366,
      "loss": 1.8225,
      "step": 8190
    },
    {
      "epoch": 0.18202222222222222,
      "grad_norm": 1.6193612813949585,
      "learning_rate": 0.00016363191820404534,
      "loss": 1.8356,
      "step": 8191
    },
    {
      "epoch": 0.18204444444444445,
      "grad_norm": 2.1521403789520264,
      "learning_rate": 0.00016362747277172705,
      "loss": 2.4213,
      "step": 8192
    },
    {
      "epoch": 0.18206666666666665,
      "grad_norm": 1.473411202430725,
      "learning_rate": 0.00016362302733940876,
      "loss": 2.1565,
      "step": 8193
    },
    {
      "epoch": 0.18208888888888888,
      "grad_norm": 1.4241690635681152,
      "learning_rate": 0.00016361858190709047,
      "loss": 1.8127,
      "step": 8194
    },
    {
      "epoch": 0.1821111111111111,
      "grad_norm": 1.468052625656128,
      "learning_rate": 0.00016361413647477218,
      "loss": 1.6156,
      "step": 8195
    },
    {
      "epoch": 0.18213333333333334,
      "grad_norm": 2.148862600326538,
      "learning_rate": 0.0001636096910424539,
      "loss": 2.2721,
      "step": 8196
    },
    {
      "epoch": 0.18215555555555554,
      "grad_norm": 1.7147608995437622,
      "learning_rate": 0.0001636052456101356,
      "loss": 1.8306,
      "step": 8197
    },
    {
      "epoch": 0.18217777777777777,
      "grad_norm": 1.6097309589385986,
      "learning_rate": 0.00016360080017781728,
      "loss": 2.0682,
      "step": 8198
    },
    {
      "epoch": 0.1822,
      "grad_norm": 1.539723515510559,
      "learning_rate": 0.00016359635474549902,
      "loss": 1.4791,
      "step": 8199
    },
    {
      "epoch": 0.18222222222222223,
      "grad_norm": 1.8082380294799805,
      "learning_rate": 0.0001635919093131807,
      "loss": 1.3765,
      "step": 8200
    },
    {
      "epoch": 0.18224444444444443,
      "grad_norm": 0.834082841873169,
      "learning_rate": 0.0001635874638808624,
      "loss": 1.0429,
      "step": 8201
    },
    {
      "epoch": 0.18226666666666666,
      "grad_norm": 1.3046605587005615,
      "learning_rate": 0.00016358301844854415,
      "loss": 1.2096,
      "step": 8202
    },
    {
      "epoch": 0.1822888888888889,
      "grad_norm": 1.4539036750793457,
      "learning_rate": 0.00016357857301622583,
      "loss": 2.6865,
      "step": 8203
    },
    {
      "epoch": 0.18231111111111112,
      "grad_norm": 1.2596430778503418,
      "learning_rate": 0.00016357412758390754,
      "loss": 2.5945,
      "step": 8204
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 1.418447494506836,
      "learning_rate": 0.00016356968215158925,
      "loss": 1.2971,
      "step": 8205
    },
    {
      "epoch": 0.18235555555555555,
      "grad_norm": 1.3039506673812866,
      "learning_rate": 0.00016356523671927096,
      "loss": 2.1818,
      "step": 8206
    },
    {
      "epoch": 0.18237777777777778,
      "grad_norm": 1.6131869554519653,
      "learning_rate": 0.00016356079128695267,
      "loss": 1.9066,
      "step": 8207
    },
    {
      "epoch": 0.1824,
      "grad_norm": 1.344970464706421,
      "learning_rate": 0.00016355634585463438,
      "loss": 2.0924,
      "step": 8208
    },
    {
      "epoch": 0.18242222222222224,
      "grad_norm": 1.5578819513320923,
      "learning_rate": 0.00016355190042231606,
      "loss": 1.8053,
      "step": 8209
    },
    {
      "epoch": 0.18244444444444444,
      "grad_norm": 1.1904534101486206,
      "learning_rate": 0.0001635474549899978,
      "loss": 1.8191,
      "step": 8210
    },
    {
      "epoch": 0.18246666666666667,
      "grad_norm": 1.44327974319458,
      "learning_rate": 0.0001635430095576795,
      "loss": 1.8587,
      "step": 8211
    },
    {
      "epoch": 0.1824888888888889,
      "grad_norm": 1.3424439430236816,
      "learning_rate": 0.0001635385641253612,
      "loss": 2.012,
      "step": 8212
    },
    {
      "epoch": 0.18251111111111112,
      "grad_norm": 1.2092190980911255,
      "learning_rate": 0.00016353411869304293,
      "loss": 1.7328,
      "step": 8213
    },
    {
      "epoch": 0.18253333333333333,
      "grad_norm": 1.410130262374878,
      "learning_rate": 0.0001635296732607246,
      "loss": 2.2902,
      "step": 8214
    },
    {
      "epoch": 0.18255555555555555,
      "grad_norm": 1.2757129669189453,
      "learning_rate": 0.00016352522782840632,
      "loss": 2.3633,
      "step": 8215
    },
    {
      "epoch": 0.18257777777777778,
      "grad_norm": 1.316148281097412,
      "learning_rate": 0.00016352078239608803,
      "loss": 1.6783,
      "step": 8216
    },
    {
      "epoch": 0.1826,
      "grad_norm": 1.2167911529541016,
      "learning_rate": 0.00016351633696376974,
      "loss": 2.0673,
      "step": 8217
    },
    {
      "epoch": 0.1826222222222222,
      "grad_norm": 1.50810706615448,
      "learning_rate": 0.00016351189153145142,
      "loss": 2.5297,
      "step": 8218
    },
    {
      "epoch": 0.18264444444444444,
      "grad_norm": 1.3158129453659058,
      "learning_rate": 0.00016350744609913316,
      "loss": 1.839,
      "step": 8219
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 1.429744005203247,
      "learning_rate": 0.00016350300066681487,
      "loss": 2.1759,
      "step": 8220
    },
    {
      "epoch": 0.1826888888888889,
      "grad_norm": 1.5316816568374634,
      "learning_rate": 0.00016349855523449655,
      "loss": 2.1861,
      "step": 8221
    },
    {
      "epoch": 0.1827111111111111,
      "grad_norm": 1.3445056676864624,
      "learning_rate": 0.00016349410980217829,
      "loss": 2.5038,
      "step": 8222
    },
    {
      "epoch": 0.18273333333333333,
      "grad_norm": 1.5514187812805176,
      "learning_rate": 0.00016348966436985997,
      "loss": 2.0907,
      "step": 8223
    },
    {
      "epoch": 0.18275555555555556,
      "grad_norm": 1.341460943222046,
      "learning_rate": 0.00016348521893754168,
      "loss": 2.3276,
      "step": 8224
    },
    {
      "epoch": 0.1827777777777778,
      "grad_norm": 1.77958083152771,
      "learning_rate": 0.0001634807735052234,
      "loss": 2.1034,
      "step": 8225
    },
    {
      "epoch": 0.1828,
      "grad_norm": 1.3159615993499756,
      "learning_rate": 0.0001634763280729051,
      "loss": 1.6852,
      "step": 8226
    },
    {
      "epoch": 0.18282222222222222,
      "grad_norm": 1.6563674211502075,
      "learning_rate": 0.0001634718826405868,
      "loss": 2.1346,
      "step": 8227
    },
    {
      "epoch": 0.18284444444444445,
      "grad_norm": 1.573832631111145,
      "learning_rate": 0.00016346743720826852,
      "loss": 1.9876,
      "step": 8228
    },
    {
      "epoch": 0.18286666666666668,
      "grad_norm": 1.890596866607666,
      "learning_rate": 0.00016346299177595023,
      "loss": 2.308,
      "step": 8229
    },
    {
      "epoch": 0.18288888888888888,
      "grad_norm": 1.733141303062439,
      "learning_rate": 0.00016345854634363194,
      "loss": 1.9062,
      "step": 8230
    },
    {
      "epoch": 0.1829111111111111,
      "grad_norm": 1.418663740158081,
      "learning_rate": 0.00016345410091131364,
      "loss": 2.1369,
      "step": 8231
    },
    {
      "epoch": 0.18293333333333334,
      "grad_norm": 1.3408043384552002,
      "learning_rate": 0.00016344965547899533,
      "loss": 1.8386,
      "step": 8232
    },
    {
      "epoch": 0.18295555555555557,
      "grad_norm": 1.758886694908142,
      "learning_rate": 0.00016344521004667706,
      "loss": 2.1836,
      "step": 8233
    },
    {
      "epoch": 0.18297777777777777,
      "grad_norm": 1.3964531421661377,
      "learning_rate": 0.00016344076461435875,
      "loss": 2.1576,
      "step": 8234
    },
    {
      "epoch": 0.183,
      "grad_norm": 1.29413640499115,
      "learning_rate": 0.00016343631918204046,
      "loss": 1.5372,
      "step": 8235
    },
    {
      "epoch": 0.18302222222222223,
      "grad_norm": 1.5403729677200317,
      "learning_rate": 0.00016343187374972217,
      "loss": 2.3269,
      "step": 8236
    },
    {
      "epoch": 0.18304444444444445,
      "grad_norm": 1.3454121351242065,
      "learning_rate": 0.00016342742831740388,
      "loss": 2.075,
      "step": 8237
    },
    {
      "epoch": 0.18306666666666666,
      "grad_norm": 1.6254462003707886,
      "learning_rate": 0.00016342298288508559,
      "loss": 2.0008,
      "step": 8238
    },
    {
      "epoch": 0.18308888888888888,
      "grad_norm": 1.4976260662078857,
      "learning_rate": 0.0001634185374527673,
      "loss": 2.2561,
      "step": 8239
    },
    {
      "epoch": 0.1831111111111111,
      "grad_norm": 1.5490955114364624,
      "learning_rate": 0.000163414092020449,
      "loss": 2.3327,
      "step": 8240
    },
    {
      "epoch": 0.18313333333333334,
      "grad_norm": 1.3900699615478516,
      "learning_rate": 0.0001634096465881307,
      "loss": 1.7832,
      "step": 8241
    },
    {
      "epoch": 0.18315555555555554,
      "grad_norm": 1.7461122274398804,
      "learning_rate": 0.00016340520115581242,
      "loss": 2.1747,
      "step": 8242
    },
    {
      "epoch": 0.18317777777777777,
      "grad_norm": 1.6137003898620605,
      "learning_rate": 0.0001634007557234941,
      "loss": 2.4122,
      "step": 8243
    },
    {
      "epoch": 0.1832,
      "grad_norm": 1.6381820440292358,
      "learning_rate": 0.00016339631029117582,
      "loss": 1.7695,
      "step": 8244
    },
    {
      "epoch": 0.18322222222222223,
      "grad_norm": 1.5830676555633545,
      "learning_rate": 0.00016339186485885753,
      "loss": 2.0842,
      "step": 8245
    },
    {
      "epoch": 0.18324444444444443,
      "grad_norm": 1.3708688020706177,
      "learning_rate": 0.00016338741942653924,
      "loss": 1.7304,
      "step": 8246
    },
    {
      "epoch": 0.18326666666666666,
      "grad_norm": 1.5133358240127563,
      "learning_rate": 0.00016338297399422094,
      "loss": 1.7884,
      "step": 8247
    },
    {
      "epoch": 0.1832888888888889,
      "grad_norm": 1.407662272453308,
      "learning_rate": 0.00016337852856190265,
      "loss": 1.5541,
      "step": 8248
    },
    {
      "epoch": 0.18331111111111112,
      "grad_norm": 1.6669806241989136,
      "learning_rate": 0.00016337408312958436,
      "loss": 2.306,
      "step": 8249
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 1.2912870645523071,
      "learning_rate": 0.00016336963769726607,
      "loss": 1.2108,
      "step": 8250
    },
    {
      "epoch": 0.18335555555555555,
      "grad_norm": 1.1099423170089722,
      "learning_rate": 0.00016336519226494778,
      "loss": 1.9985,
      "step": 8251
    },
    {
      "epoch": 0.18337777777777778,
      "grad_norm": 1.334779143333435,
      "learning_rate": 0.00016336074683262947,
      "loss": 2.4761,
      "step": 8252
    },
    {
      "epoch": 0.1834,
      "grad_norm": 1.1770762205123901,
      "learning_rate": 0.0001633563014003112,
      "loss": 2.1832,
      "step": 8253
    },
    {
      "epoch": 0.1834222222222222,
      "grad_norm": 0.7676503658294678,
      "learning_rate": 0.00016335185596799288,
      "loss": 1.089,
      "step": 8254
    },
    {
      "epoch": 0.18344444444444444,
      "grad_norm": 0.7910569310188293,
      "learning_rate": 0.0001633474105356746,
      "loss": 1.0151,
      "step": 8255
    },
    {
      "epoch": 0.18346666666666667,
      "grad_norm": 1.3396382331848145,
      "learning_rate": 0.0001633429651033563,
      "loss": 2.6862,
      "step": 8256
    },
    {
      "epoch": 0.1834888888888889,
      "grad_norm": 1.4584611654281616,
      "learning_rate": 0.00016333851967103801,
      "loss": 2.2377,
      "step": 8257
    },
    {
      "epoch": 0.18351111111111112,
      "grad_norm": 1.3043732643127441,
      "learning_rate": 0.00016333407423871972,
      "loss": 2.1159,
      "step": 8258
    },
    {
      "epoch": 0.18353333333333333,
      "grad_norm": 1.3279887437820435,
      "learning_rate": 0.00016332962880640143,
      "loss": 2.5272,
      "step": 8259
    },
    {
      "epoch": 0.18355555555555556,
      "grad_norm": 1.174346685409546,
      "learning_rate": 0.00016332518337408314,
      "loss": 2.0586,
      "step": 8260
    },
    {
      "epoch": 0.18357777777777778,
      "grad_norm": 1.2130827903747559,
      "learning_rate": 0.00016332073794176483,
      "loss": 1.7496,
      "step": 8261
    },
    {
      "epoch": 0.1836,
      "grad_norm": 1.4902652502059937,
      "learning_rate": 0.00016331629250944656,
      "loss": 2.3087,
      "step": 8262
    },
    {
      "epoch": 0.18362222222222221,
      "grad_norm": 1.8449029922485352,
      "learning_rate": 0.00016331184707712824,
      "loss": 2.5478,
      "step": 8263
    },
    {
      "epoch": 0.18364444444444444,
      "grad_norm": 1.4048576354980469,
      "learning_rate": 0.00016330740164480998,
      "loss": 2.2239,
      "step": 8264
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 1.4448448419570923,
      "learning_rate": 0.00016330295621249166,
      "loss": 2.3026,
      "step": 8265
    },
    {
      "epoch": 0.1836888888888889,
      "grad_norm": 1.191701054573059,
      "learning_rate": 0.00016329851078017337,
      "loss": 1.7886,
      "step": 8266
    },
    {
      "epoch": 0.1837111111111111,
      "grad_norm": 1.3726741075515747,
      "learning_rate": 0.00016329406534785508,
      "loss": 1.9167,
      "step": 8267
    },
    {
      "epoch": 0.18373333333333333,
      "grad_norm": 1.4503796100616455,
      "learning_rate": 0.0001632896199155368,
      "loss": 2.1089,
      "step": 8268
    },
    {
      "epoch": 0.18375555555555556,
      "grad_norm": 1.2034778594970703,
      "learning_rate": 0.0001632851744832185,
      "loss": 1.5585,
      "step": 8269
    },
    {
      "epoch": 0.1837777777777778,
      "grad_norm": 1.3962403535842896,
      "learning_rate": 0.0001632807290509002,
      "loss": 2.0029,
      "step": 8270
    },
    {
      "epoch": 0.1838,
      "grad_norm": 1.365818738937378,
      "learning_rate": 0.00016327628361858192,
      "loss": 1.8955,
      "step": 8271
    },
    {
      "epoch": 0.18382222222222222,
      "grad_norm": 1.7368439435958862,
      "learning_rate": 0.0001632718381862636,
      "loss": 2.3004,
      "step": 8272
    },
    {
      "epoch": 0.18384444444444445,
      "grad_norm": 2.2572593688964844,
      "learning_rate": 0.00016326739275394534,
      "loss": 2.781,
      "step": 8273
    },
    {
      "epoch": 0.18386666666666668,
      "grad_norm": 1.4871563911437988,
      "learning_rate": 0.00016326294732162702,
      "loss": 2.3611,
      "step": 8274
    },
    {
      "epoch": 0.18388888888888888,
      "grad_norm": 1.427209734916687,
      "learning_rate": 0.00016325850188930873,
      "loss": 2.0321,
      "step": 8275
    },
    {
      "epoch": 0.1839111111111111,
      "grad_norm": 1.4207053184509277,
      "learning_rate": 0.00016325405645699047,
      "loss": 1.9015,
      "step": 8276
    },
    {
      "epoch": 0.18393333333333334,
      "grad_norm": 1.630158543586731,
      "learning_rate": 0.00016324961102467215,
      "loss": 2.4367,
      "step": 8277
    },
    {
      "epoch": 0.18395555555555557,
      "grad_norm": 2.0773513317108154,
      "learning_rate": 0.00016324516559235386,
      "loss": 1.7608,
      "step": 8278
    },
    {
      "epoch": 0.18397777777777777,
      "grad_norm": 1.1308964490890503,
      "learning_rate": 0.00016324072016003557,
      "loss": 1.5265,
      "step": 8279
    },
    {
      "epoch": 0.184,
      "grad_norm": 1.4890239238739014,
      "learning_rate": 0.00016323627472771728,
      "loss": 1.94,
      "step": 8280
    },
    {
      "epoch": 0.18402222222222223,
      "grad_norm": 1.6179163455963135,
      "learning_rate": 0.00016323182929539896,
      "loss": 2.1434,
      "step": 8281
    },
    {
      "epoch": 0.18404444444444445,
      "grad_norm": 1.2770872116088867,
      "learning_rate": 0.0001632273838630807,
      "loss": 1.9038,
      "step": 8282
    },
    {
      "epoch": 0.18406666666666666,
      "grad_norm": 1.4696985483169556,
      "learning_rate": 0.00016322293843076238,
      "loss": 2.4045,
      "step": 8283
    },
    {
      "epoch": 0.18408888888888889,
      "grad_norm": 1.5075945854187012,
      "learning_rate": 0.00016321849299844412,
      "loss": 2.4132,
      "step": 8284
    },
    {
      "epoch": 0.18411111111111111,
      "grad_norm": 1.1063899993896484,
      "learning_rate": 0.00016321404756612583,
      "loss": 1.2485,
      "step": 8285
    },
    {
      "epoch": 0.18413333333333334,
      "grad_norm": 1.4758375883102417,
      "learning_rate": 0.0001632096021338075,
      "loss": 2.3395,
      "step": 8286
    },
    {
      "epoch": 0.18415555555555554,
      "grad_norm": 1.395664930343628,
      "learning_rate": 0.00016320515670148925,
      "loss": 1.6319,
      "step": 8287
    },
    {
      "epoch": 0.18417777777777777,
      "grad_norm": 1.547783374786377,
      "learning_rate": 0.00016320071126917093,
      "loss": 1.9344,
      "step": 8288
    },
    {
      "epoch": 0.1842,
      "grad_norm": 1.6849737167358398,
      "learning_rate": 0.00016319626583685264,
      "loss": 2.1599,
      "step": 8289
    },
    {
      "epoch": 0.18422222222222223,
      "grad_norm": 1.6782588958740234,
      "learning_rate": 0.00016319182040453435,
      "loss": 2.0645,
      "step": 8290
    },
    {
      "epoch": 0.18424444444444443,
      "grad_norm": 0.756296694278717,
      "learning_rate": 0.00016318737497221606,
      "loss": 0.0594,
      "step": 8291
    },
    {
      "epoch": 0.18426666666666666,
      "grad_norm": 1.6198700666427612,
      "learning_rate": 0.00016318292953989774,
      "loss": 2.2775,
      "step": 8292
    },
    {
      "epoch": 0.1842888888888889,
      "grad_norm": 1.5816668272018433,
      "learning_rate": 0.00016317848410757948,
      "loss": 1.8738,
      "step": 8293
    },
    {
      "epoch": 0.18431111111111112,
      "grad_norm": 1.6696157455444336,
      "learning_rate": 0.0001631740386752612,
      "loss": 2.4011,
      "step": 8294
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 1.4750003814697266,
      "learning_rate": 0.00016316959324294287,
      "loss": 2.3221,
      "step": 8295
    },
    {
      "epoch": 0.18435555555555555,
      "grad_norm": 1.4899824857711792,
      "learning_rate": 0.0001631651478106246,
      "loss": 1.7627,
      "step": 8296
    },
    {
      "epoch": 0.18437777777777778,
      "grad_norm": 1.4587904214859009,
      "learning_rate": 0.0001631607023783063,
      "loss": 1.6443,
      "step": 8297
    },
    {
      "epoch": 0.1844,
      "grad_norm": 1.6032521724700928,
      "learning_rate": 0.000163156256945988,
      "loss": 1.6311,
      "step": 8298
    },
    {
      "epoch": 0.1844222222222222,
      "grad_norm": 1.9992008209228516,
      "learning_rate": 0.0001631518115136697,
      "loss": 2.1536,
      "step": 8299
    },
    {
      "epoch": 0.18444444444444444,
      "grad_norm": 1.6724662780761719,
      "learning_rate": 0.00016314736608135142,
      "loss": 1.8943,
      "step": 8300
    },
    {
      "epoch": 0.18446666666666667,
      "grad_norm": 1.2302234172821045,
      "learning_rate": 0.00016314292064903313,
      "loss": 2.2097,
      "step": 8301
    },
    {
      "epoch": 0.1844888888888889,
      "grad_norm": 1.1543834209442139,
      "learning_rate": 0.00016313847521671484,
      "loss": 2.4585,
      "step": 8302
    },
    {
      "epoch": 0.1845111111111111,
      "grad_norm": 1.07215416431427,
      "learning_rate": 0.00016313402978439655,
      "loss": 2.0178,
      "step": 8303
    },
    {
      "epoch": 0.18453333333333333,
      "grad_norm": 1.0280686616897583,
      "learning_rate": 0.00016312958435207826,
      "loss": 1.1141,
      "step": 8304
    },
    {
      "epoch": 0.18455555555555556,
      "grad_norm": 1.3249449729919434,
      "learning_rate": 0.00016312513891975997,
      "loss": 1.7709,
      "step": 8305
    },
    {
      "epoch": 0.18457777777777779,
      "grad_norm": 1.0611180067062378,
      "learning_rate": 0.00016312069348744165,
      "loss": 1.4144,
      "step": 8306
    },
    {
      "epoch": 0.1846,
      "grad_norm": 1.3935843706130981,
      "learning_rate": 0.00016311624805512339,
      "loss": 2.3499,
      "step": 8307
    },
    {
      "epoch": 0.18462222222222222,
      "grad_norm": 1.1685590744018555,
      "learning_rate": 0.00016311180262280507,
      "loss": 2.3046,
      "step": 8308
    },
    {
      "epoch": 0.18464444444444444,
      "grad_norm": 1.2688698768615723,
      "learning_rate": 0.00016310735719048678,
      "loss": 2.337,
      "step": 8309
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 1.3854975700378418,
      "learning_rate": 0.0001631029117581685,
      "loss": 2.5013,
      "step": 8310
    },
    {
      "epoch": 0.1846888888888889,
      "grad_norm": 1.3426547050476074,
      "learning_rate": 0.0001630984663258502,
      "loss": 2.3575,
      "step": 8311
    },
    {
      "epoch": 0.1847111111111111,
      "grad_norm": 1.289168119430542,
      "learning_rate": 0.0001630940208935319,
      "loss": 2.4272,
      "step": 8312
    },
    {
      "epoch": 0.18473333333333333,
      "grad_norm": 1.3219587802886963,
      "learning_rate": 0.00016308957546121362,
      "loss": 2.0974,
      "step": 8313
    },
    {
      "epoch": 0.18475555555555556,
      "grad_norm": 1.3126869201660156,
      "learning_rate": 0.00016308513002889533,
      "loss": 2.1056,
      "step": 8314
    },
    {
      "epoch": 0.1847777777777778,
      "grad_norm": 1.3096632957458496,
      "learning_rate": 0.000163080684596577,
      "loss": 2.1455,
      "step": 8315
    },
    {
      "epoch": 0.1848,
      "grad_norm": 1.36620032787323,
      "learning_rate": 0.00016307623916425875,
      "loss": 1.8666,
      "step": 8316
    },
    {
      "epoch": 0.18482222222222222,
      "grad_norm": 1.8310825824737549,
      "learning_rate": 0.00016307179373194043,
      "loss": 2.3315,
      "step": 8317
    },
    {
      "epoch": 0.18484444444444445,
      "grad_norm": 1.2310982942581177,
      "learning_rate": 0.00016306734829962214,
      "loss": 1.5474,
      "step": 8318
    },
    {
      "epoch": 0.18486666666666668,
      "grad_norm": 1.3474950790405273,
      "learning_rate": 0.00016306290286730385,
      "loss": 1.8239,
      "step": 8319
    },
    {
      "epoch": 0.18488888888888888,
      "grad_norm": 1.3861347436904907,
      "learning_rate": 0.00016305845743498556,
      "loss": 2.1631,
      "step": 8320
    },
    {
      "epoch": 0.1849111111111111,
      "grad_norm": 0.9101815819740295,
      "learning_rate": 0.00016305401200266727,
      "loss": 0.9525,
      "step": 8321
    },
    {
      "epoch": 0.18493333333333334,
      "grad_norm": 1.2036594152450562,
      "learning_rate": 0.00016304956657034898,
      "loss": 1.2717,
      "step": 8322
    },
    {
      "epoch": 0.18495555555555557,
      "grad_norm": 1.31229567527771,
      "learning_rate": 0.00016304512113803069,
      "loss": 2.2487,
      "step": 8323
    },
    {
      "epoch": 0.18497777777777777,
      "grad_norm": 1.3965543508529663,
      "learning_rate": 0.0001630406757057124,
      "loss": 2.3504,
      "step": 8324
    },
    {
      "epoch": 0.185,
      "grad_norm": 1.267796516418457,
      "learning_rate": 0.0001630362302733941,
      "loss": 1.9676,
      "step": 8325
    },
    {
      "epoch": 0.18502222222222223,
      "grad_norm": 1.6587045192718506,
      "learning_rate": 0.0001630317848410758,
      "loss": 2.3334,
      "step": 8326
    },
    {
      "epoch": 0.18504444444444446,
      "grad_norm": 1.2699190378189087,
      "learning_rate": 0.00016302733940875752,
      "loss": 1.2612,
      "step": 8327
    },
    {
      "epoch": 0.18506666666666666,
      "grad_norm": 1.3240392208099365,
      "learning_rate": 0.0001630228939764392,
      "loss": 2.0766,
      "step": 8328
    },
    {
      "epoch": 0.1850888888888889,
      "grad_norm": 1.379711389541626,
      "learning_rate": 0.00016301844854412092,
      "loss": 1.775,
      "step": 8329
    },
    {
      "epoch": 0.18511111111111112,
      "grad_norm": 1.2703155279159546,
      "learning_rate": 0.00016301400311180263,
      "loss": 1.7423,
      "step": 8330
    },
    {
      "epoch": 0.18513333333333334,
      "grad_norm": 1.4703587293624878,
      "learning_rate": 0.00016300955767948434,
      "loss": 2.2415,
      "step": 8331
    },
    {
      "epoch": 0.18515555555555555,
      "grad_norm": 1.374071717262268,
      "learning_rate": 0.00016300511224716605,
      "loss": 1.8242,
      "step": 8332
    },
    {
      "epoch": 0.18517777777777777,
      "grad_norm": 1.6861634254455566,
      "learning_rate": 0.00016300066681484776,
      "loss": 2.0346,
      "step": 8333
    },
    {
      "epoch": 0.1852,
      "grad_norm": 1.387744665145874,
      "learning_rate": 0.00016299622138252946,
      "loss": 1.8168,
      "step": 8334
    },
    {
      "epoch": 0.18522222222222223,
      "grad_norm": 1.5149372816085815,
      "learning_rate": 0.00016299177595021115,
      "loss": 1.7365,
      "step": 8335
    },
    {
      "epoch": 0.18524444444444443,
      "grad_norm": 1.5866727828979492,
      "learning_rate": 0.00016298733051789288,
      "loss": 1.8288,
      "step": 8336
    },
    {
      "epoch": 0.18526666666666666,
      "grad_norm": 1.633937954902649,
      "learning_rate": 0.00016298288508557457,
      "loss": 2.0721,
      "step": 8337
    },
    {
      "epoch": 0.1852888888888889,
      "grad_norm": 1.3197283744812012,
      "learning_rate": 0.00016297843965325628,
      "loss": 1.7431,
      "step": 8338
    },
    {
      "epoch": 0.18531111111111112,
      "grad_norm": 0.8768929243087769,
      "learning_rate": 0.00016297399422093799,
      "loss": 0.6953,
      "step": 8339
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 1.619980812072754,
      "learning_rate": 0.0001629695487886197,
      "loss": 2.4778,
      "step": 8340
    },
    {
      "epoch": 0.18535555555555555,
      "grad_norm": 1.3425352573394775,
      "learning_rate": 0.00016296510335630143,
      "loss": 1.2868,
      "step": 8341
    },
    {
      "epoch": 0.18537777777777778,
      "grad_norm": 1.5455387830734253,
      "learning_rate": 0.00016296065792398311,
      "loss": 1.8857,
      "step": 8342
    },
    {
      "epoch": 0.1854,
      "grad_norm": 1.3646869659423828,
      "learning_rate": 0.00016295621249166482,
      "loss": 1.7141,
      "step": 8343
    },
    {
      "epoch": 0.1854222222222222,
      "grad_norm": 1.6406824588775635,
      "learning_rate": 0.00016295176705934653,
      "loss": 2.1955,
      "step": 8344
    },
    {
      "epoch": 0.18544444444444444,
      "grad_norm": 1.315033197402954,
      "learning_rate": 0.00016294732162702824,
      "loss": 1.7259,
      "step": 8345
    },
    {
      "epoch": 0.18546666666666667,
      "grad_norm": 1.5363078117370605,
      "learning_rate": 0.00016294287619470993,
      "loss": 2.1373,
      "step": 8346
    },
    {
      "epoch": 0.1854888888888889,
      "grad_norm": 1.704757809638977,
      "learning_rate": 0.00016293843076239166,
      "loss": 2.0532,
      "step": 8347
    },
    {
      "epoch": 0.1855111111111111,
      "grad_norm": 1.529325246810913,
      "learning_rate": 0.00016293398533007335,
      "loss": 1.903,
      "step": 8348
    },
    {
      "epoch": 0.18553333333333333,
      "grad_norm": 1.3420886993408203,
      "learning_rate": 0.00016292953989775505,
      "loss": 1.6691,
      "step": 8349
    },
    {
      "epoch": 0.18555555555555556,
      "grad_norm": 1.6703615188598633,
      "learning_rate": 0.0001629250944654368,
      "loss": 1.565,
      "step": 8350
    },
    {
      "epoch": 0.18557777777777779,
      "grad_norm": 0.8314242362976074,
      "learning_rate": 0.00016292064903311847,
      "loss": 1.0522,
      "step": 8351
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.8395455479621887,
      "learning_rate": 0.00016291620360080018,
      "loss": 0.931,
      "step": 8352
    },
    {
      "epoch": 0.18562222222222222,
      "grad_norm": 1.3007988929748535,
      "learning_rate": 0.0001629117581684819,
      "loss": 2.4613,
      "step": 8353
    },
    {
      "epoch": 0.18564444444444445,
      "grad_norm": 1.0843230485916138,
      "learning_rate": 0.0001629073127361636,
      "loss": 0.965,
      "step": 8354
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 1.739983320236206,
      "learning_rate": 0.00016290286730384529,
      "loss": 2.6769,
      "step": 8355
    },
    {
      "epoch": 0.18568888888888888,
      "grad_norm": 1.4837805032730103,
      "learning_rate": 0.00016289842187152702,
      "loss": 2.164,
      "step": 8356
    },
    {
      "epoch": 0.1857111111111111,
      "grad_norm": 1.7776505947113037,
      "learning_rate": 0.0001628939764392087,
      "loss": 1.1189,
      "step": 8357
    },
    {
      "epoch": 0.18573333333333333,
      "grad_norm": 1.4475919008255005,
      "learning_rate": 0.00016288953100689044,
      "loss": 2.2297,
      "step": 8358
    },
    {
      "epoch": 0.18575555555555556,
      "grad_norm": 1.2893644571304321,
      "learning_rate": 0.00016288508557457215,
      "loss": 1.8874,
      "step": 8359
    },
    {
      "epoch": 0.18577777777777776,
      "grad_norm": 1.4907454252243042,
      "learning_rate": 0.00016288064014225383,
      "loss": 2.6349,
      "step": 8360
    },
    {
      "epoch": 0.1858,
      "grad_norm": 1.1258468627929688,
      "learning_rate": 0.00016287619470993557,
      "loss": 1.8046,
      "step": 8361
    },
    {
      "epoch": 0.18582222222222222,
      "grad_norm": 1.418261170387268,
      "learning_rate": 0.00016287174927761725,
      "loss": 2.262,
      "step": 8362
    },
    {
      "epoch": 0.18584444444444445,
      "grad_norm": 1.3084548711776733,
      "learning_rate": 0.00016286730384529896,
      "loss": 1.8534,
      "step": 8363
    },
    {
      "epoch": 0.18586666666666668,
      "grad_norm": 1.6848926544189453,
      "learning_rate": 0.00016286285841298067,
      "loss": 2.0359,
      "step": 8364
    },
    {
      "epoch": 0.18588888888888888,
      "grad_norm": 1.0304341316223145,
      "learning_rate": 0.00016285841298066238,
      "loss": 0.7904,
      "step": 8365
    },
    {
      "epoch": 0.1859111111111111,
      "grad_norm": 1.185200572013855,
      "learning_rate": 0.00016285396754834406,
      "loss": 1.2377,
      "step": 8366
    },
    {
      "epoch": 0.18593333333333334,
      "grad_norm": 1.318926215171814,
      "learning_rate": 0.0001628495221160258,
      "loss": 1.7918,
      "step": 8367
    },
    {
      "epoch": 0.18595555555555557,
      "grad_norm": 1.4582819938659668,
      "learning_rate": 0.0001628450766837075,
      "loss": 1.9809,
      "step": 8368
    },
    {
      "epoch": 0.18597777777777777,
      "grad_norm": 1.4732040166854858,
      "learning_rate": 0.0001628406312513892,
      "loss": 2.0613,
      "step": 8369
    },
    {
      "epoch": 0.186,
      "grad_norm": 1.3931368589401245,
      "learning_rate": 0.00016283618581907093,
      "loss": 1.9231,
      "step": 8370
    },
    {
      "epoch": 0.18602222222222223,
      "grad_norm": 1.496091365814209,
      "learning_rate": 0.0001628317403867526,
      "loss": 1.6756,
      "step": 8371
    },
    {
      "epoch": 0.18604444444444446,
      "grad_norm": 1.6604279279708862,
      "learning_rate": 0.00016282729495443432,
      "loss": 1.9895,
      "step": 8372
    },
    {
      "epoch": 0.18606666666666666,
      "grad_norm": 1.2841336727142334,
      "learning_rate": 0.00016282284952211603,
      "loss": 1.5148,
      "step": 8373
    },
    {
      "epoch": 0.1860888888888889,
      "grad_norm": 1.6126731634140015,
      "learning_rate": 0.00016281840408979774,
      "loss": 1.9821,
      "step": 8374
    },
    {
      "epoch": 0.18611111111111112,
      "grad_norm": 1.5033851861953735,
      "learning_rate": 0.00016281395865747945,
      "loss": 2.245,
      "step": 8375
    },
    {
      "epoch": 0.18613333333333335,
      "grad_norm": 1.7605504989624023,
      "learning_rate": 0.00016280951322516116,
      "loss": 2.1021,
      "step": 8376
    },
    {
      "epoch": 0.18615555555555555,
      "grad_norm": 1.2389042377471924,
      "learning_rate": 0.00016280506779284287,
      "loss": 1.5046,
      "step": 8377
    },
    {
      "epoch": 0.18617777777777778,
      "grad_norm": 1.5120253562927246,
      "learning_rate": 0.00016280062236052458,
      "loss": 2.0801,
      "step": 8378
    },
    {
      "epoch": 0.1862,
      "grad_norm": 1.691789984703064,
      "learning_rate": 0.0001627961769282063,
      "loss": 2.1171,
      "step": 8379
    },
    {
      "epoch": 0.18622222222222223,
      "grad_norm": 1.6162126064300537,
      "learning_rate": 0.00016279173149588797,
      "loss": 1.7931,
      "step": 8380
    },
    {
      "epoch": 0.18624444444444443,
      "grad_norm": 0.9991476535797119,
      "learning_rate": 0.0001627872860635697,
      "loss": 0.7687,
      "step": 8381
    },
    {
      "epoch": 0.18626666666666666,
      "grad_norm": 1.4728506803512573,
      "learning_rate": 0.0001627828406312514,
      "loss": 1.8588,
      "step": 8382
    },
    {
      "epoch": 0.1862888888888889,
      "grad_norm": 2.371467351913452,
      "learning_rate": 0.0001627783951989331,
      "loss": 2.114,
      "step": 8383
    },
    {
      "epoch": 0.18631111111111112,
      "grad_norm": 1.7044341564178467,
      "learning_rate": 0.0001627739497666148,
      "loss": 2.2266,
      "step": 8384
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 1.830923080444336,
      "learning_rate": 0.00016276950433429652,
      "loss": 1.711,
      "step": 8385
    },
    {
      "epoch": 0.18635555555555555,
      "grad_norm": 1.5283325910568237,
      "learning_rate": 0.00016276505890197823,
      "loss": 2.0801,
      "step": 8386
    },
    {
      "epoch": 0.18637777777777778,
      "grad_norm": 2.0049729347229004,
      "learning_rate": 0.00016276061346965994,
      "loss": 2.0483,
      "step": 8387
    },
    {
      "epoch": 0.1864,
      "grad_norm": 1.200051188468933,
      "learning_rate": 0.00016275616803734165,
      "loss": 0.6372,
      "step": 8388
    },
    {
      "epoch": 0.1864222222222222,
      "grad_norm": 1.5646597146987915,
      "learning_rate": 0.00016275172260502333,
      "loss": 2.1509,
      "step": 8389
    },
    {
      "epoch": 0.18644444444444444,
      "grad_norm": 1.5169520378112793,
      "learning_rate": 0.00016274727717270507,
      "loss": 1.9282,
      "step": 8390
    },
    {
      "epoch": 0.18646666666666667,
      "grad_norm": 1.6540027856826782,
      "learning_rate": 0.00016274283174038675,
      "loss": 2.1596,
      "step": 8391
    },
    {
      "epoch": 0.1864888888888889,
      "grad_norm": 1.9550765752792358,
      "learning_rate": 0.00016273838630806846,
      "loss": 2.1392,
      "step": 8392
    },
    {
      "epoch": 0.1865111111111111,
      "grad_norm": 2.006258249282837,
      "learning_rate": 0.00016273394087575017,
      "loss": 1.9345,
      "step": 8393
    },
    {
      "epoch": 0.18653333333333333,
      "grad_norm": 1.4346708059310913,
      "learning_rate": 0.00016272949544343188,
      "loss": 1.7923,
      "step": 8394
    },
    {
      "epoch": 0.18655555555555556,
      "grad_norm": 1.5001065731048584,
      "learning_rate": 0.0001627250500111136,
      "loss": 1.9539,
      "step": 8395
    },
    {
      "epoch": 0.1865777777777778,
      "grad_norm": 1.5238823890686035,
      "learning_rate": 0.0001627206045787953,
      "loss": 1.7377,
      "step": 8396
    },
    {
      "epoch": 0.1866,
      "grad_norm": 1.1560949087142944,
      "learning_rate": 0.000162716159146477,
      "loss": 0.8515,
      "step": 8397
    },
    {
      "epoch": 0.18662222222222222,
      "grad_norm": 1.668170690536499,
      "learning_rate": 0.00016271171371415872,
      "loss": 1.8444,
      "step": 8398
    },
    {
      "epoch": 0.18664444444444445,
      "grad_norm": 1.3807066679000854,
      "learning_rate": 0.00016270726828184043,
      "loss": 1.4661,
      "step": 8399
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 1.3751654624938965,
      "learning_rate": 0.0001627028228495221,
      "loss": 1.1217,
      "step": 8400
    },
    {
      "epoch": 0.18668888888888888,
      "grad_norm": 1.2774266004562378,
      "learning_rate": 0.00016269837741720385,
      "loss": 2.359,
      "step": 8401
    },
    {
      "epoch": 0.1867111111111111,
      "grad_norm": 1.1050223112106323,
      "learning_rate": 0.00016269393198488553,
      "loss": 1.6757,
      "step": 8402
    },
    {
      "epoch": 0.18673333333333333,
      "grad_norm": 1.2022846937179565,
      "learning_rate": 0.00016268948655256724,
      "loss": 2.3943,
      "step": 8403
    },
    {
      "epoch": 0.18675555555555556,
      "grad_norm": 0.6982027292251587,
      "learning_rate": 0.00016268504112024895,
      "loss": 0.0154,
      "step": 8404
    },
    {
      "epoch": 0.18677777777777776,
      "grad_norm": 0.8566634058952332,
      "learning_rate": 0.00016268059568793066,
      "loss": 1.3639,
      "step": 8405
    },
    {
      "epoch": 0.1868,
      "grad_norm": 2.5132975578308105,
      "learning_rate": 0.00016267615025561237,
      "loss": 1.0933,
      "step": 8406
    },
    {
      "epoch": 0.18682222222222222,
      "grad_norm": 1.4837534427642822,
      "learning_rate": 0.00016267170482329408,
      "loss": 2.4246,
      "step": 8407
    },
    {
      "epoch": 0.18684444444444445,
      "grad_norm": 1.188384771347046,
      "learning_rate": 0.0001626672593909758,
      "loss": 2.1871,
      "step": 8408
    },
    {
      "epoch": 0.18686666666666665,
      "grad_norm": 1.491358757019043,
      "learning_rate": 0.00016266281395865747,
      "loss": 1.3752,
      "step": 8409
    },
    {
      "epoch": 0.18688888888888888,
      "grad_norm": 1.584989070892334,
      "learning_rate": 0.0001626583685263392,
      "loss": 2.6626,
      "step": 8410
    },
    {
      "epoch": 0.1869111111111111,
      "grad_norm": 1.4322850704193115,
      "learning_rate": 0.0001626539230940209,
      "loss": 2.1622,
      "step": 8411
    },
    {
      "epoch": 0.18693333333333334,
      "grad_norm": 1.295447587966919,
      "learning_rate": 0.0001626494776617026,
      "loss": 2.0573,
      "step": 8412
    },
    {
      "epoch": 0.18695555555555557,
      "grad_norm": 1.584885835647583,
      "learning_rate": 0.0001626450322293843,
      "loss": 2.2878,
      "step": 8413
    },
    {
      "epoch": 0.18697777777777777,
      "grad_norm": 1.4986988306045532,
      "learning_rate": 0.00016264058679706602,
      "loss": 1.5998,
      "step": 8414
    },
    {
      "epoch": 0.187,
      "grad_norm": 1.4522508382797241,
      "learning_rate": 0.00016263614136474775,
      "loss": 2.16,
      "step": 8415
    },
    {
      "epoch": 0.18702222222222223,
      "grad_norm": 1.348783016204834,
      "learning_rate": 0.00016263169593242944,
      "loss": 2.1771,
      "step": 8416
    },
    {
      "epoch": 0.18704444444444446,
      "grad_norm": 1.2691951990127563,
      "learning_rate": 0.00016262725050011115,
      "loss": 2.0104,
      "step": 8417
    },
    {
      "epoch": 0.18706666666666666,
      "grad_norm": 1.2190907001495361,
      "learning_rate": 0.00016262280506779286,
      "loss": 1.4057,
      "step": 8418
    },
    {
      "epoch": 0.1870888888888889,
      "grad_norm": 1.4066507816314697,
      "learning_rate": 0.00016261835963547457,
      "loss": 1.9698,
      "step": 8419
    },
    {
      "epoch": 0.18711111111111112,
      "grad_norm": 1.392647624015808,
      "learning_rate": 0.00016261391420315625,
      "loss": 1.8766,
      "step": 8420
    },
    {
      "epoch": 0.18713333333333335,
      "grad_norm": 1.9107471704483032,
      "learning_rate": 0.00016260946877083798,
      "loss": 1.8838,
      "step": 8421
    },
    {
      "epoch": 0.18715555555555555,
      "grad_norm": 2.2535524368286133,
      "learning_rate": 0.00016260502333851967,
      "loss": 1.766,
      "step": 8422
    },
    {
      "epoch": 0.18717777777777778,
      "grad_norm": 1.2842398881912231,
      "learning_rate": 0.00016260057790620138,
      "loss": 2.0078,
      "step": 8423
    },
    {
      "epoch": 0.1872,
      "grad_norm": 1.5471724271774292,
      "learning_rate": 0.0001625961324738831,
      "loss": 1.5076,
      "step": 8424
    },
    {
      "epoch": 0.18722222222222223,
      "grad_norm": 1.686102271080017,
      "learning_rate": 0.0001625916870415648,
      "loss": 2.4908,
      "step": 8425
    },
    {
      "epoch": 0.18724444444444444,
      "grad_norm": 1.4585684537887573,
      "learning_rate": 0.0001625872416092465,
      "loss": 1.904,
      "step": 8426
    },
    {
      "epoch": 0.18726666666666666,
      "grad_norm": 1.9582453966140747,
      "learning_rate": 0.00016258279617692822,
      "loss": 2.2893,
      "step": 8427
    },
    {
      "epoch": 0.1872888888888889,
      "grad_norm": 1.4784215688705444,
      "learning_rate": 0.00016257835074460992,
      "loss": 2.033,
      "step": 8428
    },
    {
      "epoch": 0.18731111111111112,
      "grad_norm": 0.383494108915329,
      "learning_rate": 0.0001625739053122916,
      "loss": 0.0278,
      "step": 8429
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 2.7218847274780273,
      "learning_rate": 0.00016256945987997334,
      "loss": 1.8528,
      "step": 8430
    },
    {
      "epoch": 0.18735555555555555,
      "grad_norm": 1.4221279621124268,
      "learning_rate": 0.00016256501444765503,
      "loss": 2.1685,
      "step": 8431
    },
    {
      "epoch": 0.18737777777777778,
      "grad_norm": 1.6483052968978882,
      "learning_rate": 0.00016256056901533674,
      "loss": 2.2314,
      "step": 8432
    },
    {
      "epoch": 0.1874,
      "grad_norm": 1.3865057229995728,
      "learning_rate": 0.00016255612358301847,
      "loss": 1.7353,
      "step": 8433
    },
    {
      "epoch": 0.1874222222222222,
      "grad_norm": 1.6054400205612183,
      "learning_rate": 0.00016255167815070016,
      "loss": 2.1509,
      "step": 8434
    },
    {
      "epoch": 0.18744444444444444,
      "grad_norm": 1.341423511505127,
      "learning_rate": 0.0001625472327183819,
      "loss": 2.0118,
      "step": 8435
    },
    {
      "epoch": 0.18746666666666667,
      "grad_norm": 1.4446367025375366,
      "learning_rate": 0.00016254278728606357,
      "loss": 1.9148,
      "step": 8436
    },
    {
      "epoch": 0.1874888888888889,
      "grad_norm": 1.4868130683898926,
      "learning_rate": 0.00016253834185374528,
      "loss": 2.1657,
      "step": 8437
    },
    {
      "epoch": 0.1875111111111111,
      "grad_norm": 1.5851019620895386,
      "learning_rate": 0.000162533896421427,
      "loss": 2.1545,
      "step": 8438
    },
    {
      "epoch": 0.18753333333333333,
      "grad_norm": 1.8121018409729004,
      "learning_rate": 0.0001625294509891087,
      "loss": 2.2534,
      "step": 8439
    },
    {
      "epoch": 0.18755555555555556,
      "grad_norm": 1.7900327444076538,
      "learning_rate": 0.00016252500555679039,
      "loss": 2.2287,
      "step": 8440
    },
    {
      "epoch": 0.1875777777777778,
      "grad_norm": 1.564266324043274,
      "learning_rate": 0.00016252056012447212,
      "loss": 2.0515,
      "step": 8441
    },
    {
      "epoch": 0.1876,
      "grad_norm": 1.2535182237625122,
      "learning_rate": 0.00016251611469215383,
      "loss": 1.5607,
      "step": 8442
    },
    {
      "epoch": 0.18762222222222222,
      "grad_norm": 1.46872878074646,
      "learning_rate": 0.00016251166925983551,
      "loss": 1.8751,
      "step": 8443
    },
    {
      "epoch": 0.18764444444444445,
      "grad_norm": 1.6204355955123901,
      "learning_rate": 0.00016250722382751725,
      "loss": 2.006,
      "step": 8444
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 1.6087387800216675,
      "learning_rate": 0.00016250277839519893,
      "loss": 2.0899,
      "step": 8445
    },
    {
      "epoch": 0.18768888888888888,
      "grad_norm": 1.625034213066101,
      "learning_rate": 0.00016249833296288064,
      "loss": 1.7938,
      "step": 8446
    },
    {
      "epoch": 0.1877111111111111,
      "grad_norm": 1.7063795328140259,
      "learning_rate": 0.00016249388753056235,
      "loss": 2.0748,
      "step": 8447
    },
    {
      "epoch": 0.18773333333333334,
      "grad_norm": 1.5727932453155518,
      "learning_rate": 0.00016248944209824406,
      "loss": 1.7304,
      "step": 8448
    },
    {
      "epoch": 0.18775555555555556,
      "grad_norm": 1.549302339553833,
      "learning_rate": 0.00016248499666592577,
      "loss": 1.7566,
      "step": 8449
    },
    {
      "epoch": 0.18777777777777777,
      "grad_norm": 1.3793352842330933,
      "learning_rate": 0.00016248055123360748,
      "loss": 1.8012,
      "step": 8450
    },
    {
      "epoch": 0.1878,
      "grad_norm": 1.1587330102920532,
      "learning_rate": 0.0001624761058012892,
      "loss": 2.1471,
      "step": 8451
    },
    {
      "epoch": 0.18782222222222222,
      "grad_norm": 1.3037461042404175,
      "learning_rate": 0.00016247166036897087,
      "loss": 2.6685,
      "step": 8452
    },
    {
      "epoch": 0.18784444444444445,
      "grad_norm": 1.2481465339660645,
      "learning_rate": 0.0001624672149366526,
      "loss": 2.3802,
      "step": 8453
    },
    {
      "epoch": 0.18786666666666665,
      "grad_norm": 0.7372700572013855,
      "learning_rate": 0.0001624627695043343,
      "loss": 0.9039,
      "step": 8454
    },
    {
      "epoch": 0.18788888888888888,
      "grad_norm": 1.0406556129455566,
      "learning_rate": 0.00016245832407201603,
      "loss": 1.3611,
      "step": 8455
    },
    {
      "epoch": 0.1879111111111111,
      "grad_norm": 1.0896632671356201,
      "learning_rate": 0.0001624538786396977,
      "loss": 2.1732,
      "step": 8456
    },
    {
      "epoch": 0.18793333333333334,
      "grad_norm": 1.4095932245254517,
      "learning_rate": 0.00016244943320737942,
      "loss": 2.3647,
      "step": 8457
    },
    {
      "epoch": 0.18795555555555554,
      "grad_norm": 1.261338233947754,
      "learning_rate": 0.00016244498777506113,
      "loss": 1.4547,
      "step": 8458
    },
    {
      "epoch": 0.18797777777777777,
      "grad_norm": 1.1748273372650146,
      "learning_rate": 0.00016244054234274284,
      "loss": 1.535,
      "step": 8459
    },
    {
      "epoch": 0.188,
      "grad_norm": 1.3740854263305664,
      "learning_rate": 0.00016243609691042455,
      "loss": 2.0374,
      "step": 8460
    },
    {
      "epoch": 0.18802222222222223,
      "grad_norm": 1.3065820932388306,
      "learning_rate": 0.00016243165147810626,
      "loss": 2.1586,
      "step": 8461
    },
    {
      "epoch": 0.18804444444444443,
      "grad_norm": 1.3561798334121704,
      "learning_rate": 0.00016242720604578797,
      "loss": 2.2528,
      "step": 8462
    },
    {
      "epoch": 0.18806666666666666,
      "grad_norm": 1.2789483070373535,
      "learning_rate": 0.00016242276061346965,
      "loss": 2.2522,
      "step": 8463
    },
    {
      "epoch": 0.1880888888888889,
      "grad_norm": 1.5197515487670898,
      "learning_rate": 0.0001624183151811514,
      "loss": 2.0004,
      "step": 8464
    },
    {
      "epoch": 0.18811111111111112,
      "grad_norm": 1.228718876838684,
      "learning_rate": 0.00016241386974883307,
      "loss": 1.9561,
      "step": 8465
    },
    {
      "epoch": 0.18813333333333335,
      "grad_norm": 1.2733901739120483,
      "learning_rate": 0.00016240942431651478,
      "loss": 2.0107,
      "step": 8466
    },
    {
      "epoch": 0.18815555555555555,
      "grad_norm": 1.2053519487380981,
      "learning_rate": 0.0001624049788841965,
      "loss": 1.9866,
      "step": 8467
    },
    {
      "epoch": 0.18817777777777778,
      "grad_norm": 1.3802461624145508,
      "learning_rate": 0.0001624005334518782,
      "loss": 2.4642,
      "step": 8468
    },
    {
      "epoch": 0.1882,
      "grad_norm": 1.0952740907669067,
      "learning_rate": 0.0001623960880195599,
      "loss": 1.4542,
      "step": 8469
    },
    {
      "epoch": 0.18822222222222224,
      "grad_norm": 1.504929542541504,
      "learning_rate": 0.00016239164258724162,
      "loss": 2.4269,
      "step": 8470
    },
    {
      "epoch": 0.18824444444444444,
      "grad_norm": 1.3801988363265991,
      "learning_rate": 0.00016238719715492333,
      "loss": 2.3859,
      "step": 8471
    },
    {
      "epoch": 0.18826666666666667,
      "grad_norm": 1.3754501342773438,
      "learning_rate": 0.00016238275172260504,
      "loss": 1.7454,
      "step": 8472
    },
    {
      "epoch": 0.1882888888888889,
      "grad_norm": 1.4198014736175537,
      "learning_rate": 0.00016237830629028675,
      "loss": 2.2638,
      "step": 8473
    },
    {
      "epoch": 0.18831111111111112,
      "grad_norm": 1.5192867517471313,
      "learning_rate": 0.00016237386085796843,
      "loss": 2.5595,
      "step": 8474
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 1.237764835357666,
      "learning_rate": 0.00016236941542565017,
      "loss": 2.0532,
      "step": 8475
    },
    {
      "epoch": 0.18835555555555555,
      "grad_norm": 1.4407743215560913,
      "learning_rate": 0.00016236496999333185,
      "loss": 1.615,
      "step": 8476
    },
    {
      "epoch": 0.18837777777777778,
      "grad_norm": 1.2777559757232666,
      "learning_rate": 0.00016236052456101356,
      "loss": 2.0886,
      "step": 8477
    },
    {
      "epoch": 0.1884,
      "grad_norm": 1.5129209756851196,
      "learning_rate": 0.00016235607912869527,
      "loss": 2.3049,
      "step": 8478
    },
    {
      "epoch": 0.1884222222222222,
      "grad_norm": 1.3471816778182983,
      "learning_rate": 0.00016235163369637698,
      "loss": 1.8832,
      "step": 8479
    },
    {
      "epoch": 0.18844444444444444,
      "grad_norm": 1.3769859075546265,
      "learning_rate": 0.0001623471882640587,
      "loss": 1.9289,
      "step": 8480
    },
    {
      "epoch": 0.18846666666666667,
      "grad_norm": 1.4769136905670166,
      "learning_rate": 0.0001623427428317404,
      "loss": 1.8428,
      "step": 8481
    },
    {
      "epoch": 0.1884888888888889,
      "grad_norm": 2.2692809104919434,
      "learning_rate": 0.0001623382973994221,
      "loss": 2.3222,
      "step": 8482
    },
    {
      "epoch": 0.1885111111111111,
      "grad_norm": 1.6969293355941772,
      "learning_rate": 0.0001623338519671038,
      "loss": 2.0971,
      "step": 8483
    },
    {
      "epoch": 0.18853333333333333,
      "grad_norm": 1.6409798860549927,
      "learning_rate": 0.00016232940653478553,
      "loss": 1.9607,
      "step": 8484
    },
    {
      "epoch": 0.18855555555555556,
      "grad_norm": 1.1025315523147583,
      "learning_rate": 0.0001623249611024672,
      "loss": 0.7725,
      "step": 8485
    },
    {
      "epoch": 0.1885777777777778,
      "grad_norm": 1.5635546445846558,
      "learning_rate": 0.00016232051567014892,
      "loss": 2.1076,
      "step": 8486
    },
    {
      "epoch": 0.1886,
      "grad_norm": 1.690842628479004,
      "learning_rate": 0.00016231607023783063,
      "loss": 1.8173,
      "step": 8487
    },
    {
      "epoch": 0.18862222222222222,
      "grad_norm": 2.473215341567993,
      "learning_rate": 0.00016231162480551234,
      "loss": 1.8891,
      "step": 8488
    },
    {
      "epoch": 0.18864444444444445,
      "grad_norm": 1.7181951999664307,
      "learning_rate": 0.00016230717937319405,
      "loss": 1.8592,
      "step": 8489
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 1.6359325647354126,
      "learning_rate": 0.00016230273394087576,
      "loss": 1.9334,
      "step": 8490
    },
    {
      "epoch": 0.18868888888888888,
      "grad_norm": 1.6266980171203613,
      "learning_rate": 0.00016229828850855747,
      "loss": 2.2264,
      "step": 8491
    },
    {
      "epoch": 0.1887111111111111,
      "grad_norm": 1.5077489614486694,
      "learning_rate": 0.00016229384307623918,
      "loss": 1.8923,
      "step": 8492
    },
    {
      "epoch": 0.18873333333333334,
      "grad_norm": 1.6694592237472534,
      "learning_rate": 0.0001622893976439209,
      "loss": 2.2835,
      "step": 8493
    },
    {
      "epoch": 0.18875555555555557,
      "grad_norm": 1.5481395721435547,
      "learning_rate": 0.00016228495221160257,
      "loss": 1.7231,
      "step": 8494
    },
    {
      "epoch": 0.18877777777777777,
      "grad_norm": 1.3624366521835327,
      "learning_rate": 0.0001622805067792843,
      "loss": 1.7978,
      "step": 8495
    },
    {
      "epoch": 0.1888,
      "grad_norm": 1.401243805885315,
      "learning_rate": 0.000162276061346966,
      "loss": 1.4418,
      "step": 8496
    },
    {
      "epoch": 0.18882222222222222,
      "grad_norm": 1.6414108276367188,
      "learning_rate": 0.0001622716159146477,
      "loss": 2.1221,
      "step": 8497
    },
    {
      "epoch": 0.18884444444444445,
      "grad_norm": 1.4725055694580078,
      "learning_rate": 0.00016226717048232944,
      "loss": 1.9715,
      "step": 8498
    },
    {
      "epoch": 0.18886666666666665,
      "grad_norm": 1.5284205675125122,
      "learning_rate": 0.00016226272505001112,
      "loss": 1.8861,
      "step": 8499
    },
    {
      "epoch": 0.18888888888888888,
      "grad_norm": 3.1575074195861816,
      "learning_rate": 0.00016225827961769283,
      "loss": 2.0736,
      "step": 8500
    },
    {
      "epoch": 0.1889111111111111,
      "grad_norm": 1.3524681329727173,
      "learning_rate": 0.00016225383418537454,
      "loss": 2.1857,
      "step": 8501
    },
    {
      "epoch": 0.18893333333333334,
      "grad_norm": 1.2935378551483154,
      "learning_rate": 0.00016224938875305625,
      "loss": 1.885,
      "step": 8502
    },
    {
      "epoch": 0.18895555555555554,
      "grad_norm": 1.3943843841552734,
      "learning_rate": 0.00016224494332073793,
      "loss": 2.682,
      "step": 8503
    },
    {
      "epoch": 0.18897777777777777,
      "grad_norm": 1.1952096223831177,
      "learning_rate": 0.00016224049788841967,
      "loss": 2.1154,
      "step": 8504
    },
    {
      "epoch": 0.189,
      "grad_norm": 1.2615548372268677,
      "learning_rate": 0.00016223605245610135,
      "loss": 2.4952,
      "step": 8505
    },
    {
      "epoch": 0.18902222222222223,
      "grad_norm": 1.189935326576233,
      "learning_rate": 0.00016223160702378306,
      "loss": 2.0953,
      "step": 8506
    },
    {
      "epoch": 0.18904444444444443,
      "grad_norm": 1.3005321025848389,
      "learning_rate": 0.0001622271615914648,
      "loss": 2.1232,
      "step": 8507
    },
    {
      "epoch": 0.18906666666666666,
      "grad_norm": 1.368295431137085,
      "learning_rate": 0.00016222271615914648,
      "loss": 1.8931,
      "step": 8508
    },
    {
      "epoch": 0.1890888888888889,
      "grad_norm": 1.1600371599197388,
      "learning_rate": 0.0001622182707268282,
      "loss": 1.5858,
      "step": 8509
    },
    {
      "epoch": 0.18911111111111112,
      "grad_norm": 1.2351151704788208,
      "learning_rate": 0.0001622138252945099,
      "loss": 1.9846,
      "step": 8510
    },
    {
      "epoch": 0.18913333333333332,
      "grad_norm": 1.4238569736480713,
      "learning_rate": 0.0001622093798621916,
      "loss": 2.2207,
      "step": 8511
    },
    {
      "epoch": 0.18915555555555555,
      "grad_norm": 1.29195237159729,
      "learning_rate": 0.00016220493442987332,
      "loss": 2.1576,
      "step": 8512
    },
    {
      "epoch": 0.18917777777777778,
      "grad_norm": 1.3486659526824951,
      "learning_rate": 0.00016220048899755503,
      "loss": 2.0946,
      "step": 8513
    },
    {
      "epoch": 0.1892,
      "grad_norm": 1.5327039957046509,
      "learning_rate": 0.0001621960435652367,
      "loss": 2.2541,
      "step": 8514
    },
    {
      "epoch": 0.18922222222222224,
      "grad_norm": 1.3621407747268677,
      "learning_rate": 0.00016219159813291844,
      "loss": 1.9678,
      "step": 8515
    },
    {
      "epoch": 0.18924444444444444,
      "grad_norm": 1.4924877882003784,
      "learning_rate": 0.00016218715270060015,
      "loss": 2.2354,
      "step": 8516
    },
    {
      "epoch": 0.18926666666666667,
      "grad_norm": 1.3612961769104004,
      "learning_rate": 0.00016218270726828184,
      "loss": 1.6495,
      "step": 8517
    },
    {
      "epoch": 0.1892888888888889,
      "grad_norm": 1.505021333694458,
      "learning_rate": 0.00016217826183596357,
      "loss": 2.2892,
      "step": 8518
    },
    {
      "epoch": 0.18931111111111112,
      "grad_norm": 1.1931108236312866,
      "learning_rate": 0.00016217381640364526,
      "loss": 1.3832,
      "step": 8519
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 1.6107233762741089,
      "learning_rate": 0.00016216937097132697,
      "loss": 1.8687,
      "step": 8520
    },
    {
      "epoch": 0.18935555555555555,
      "grad_norm": 1.5079149007797241,
      "learning_rate": 0.00016216492553900868,
      "loss": 2.2527,
      "step": 8521
    },
    {
      "epoch": 0.18937777777777778,
      "grad_norm": 1.5869468450546265,
      "learning_rate": 0.00016216048010669039,
      "loss": 1.956,
      "step": 8522
    },
    {
      "epoch": 0.1894,
      "grad_norm": 1.3619234561920166,
      "learning_rate": 0.0001621560346743721,
      "loss": 1.6889,
      "step": 8523
    },
    {
      "epoch": 0.18942222222222221,
      "grad_norm": 1.4800142049789429,
      "learning_rate": 0.0001621515892420538,
      "loss": 2.2893,
      "step": 8524
    },
    {
      "epoch": 0.18944444444444444,
      "grad_norm": 1.5094081163406372,
      "learning_rate": 0.00016214714380973551,
      "loss": 2.0303,
      "step": 8525
    },
    {
      "epoch": 0.18946666666666667,
      "grad_norm": 1.521802306175232,
      "learning_rate": 0.0001621426983774172,
      "loss": 1.8848,
      "step": 8526
    },
    {
      "epoch": 0.1894888888888889,
      "grad_norm": 1.492746353149414,
      "learning_rate": 0.00016213825294509893,
      "loss": 1.9615,
      "step": 8527
    },
    {
      "epoch": 0.1895111111111111,
      "grad_norm": 1.453652024269104,
      "learning_rate": 0.00016213380751278062,
      "loss": 1.7703,
      "step": 8528
    },
    {
      "epoch": 0.18953333333333333,
      "grad_norm": 1.0083489418029785,
      "learning_rate": 0.00016212936208046235,
      "loss": 0.8865,
      "step": 8529
    },
    {
      "epoch": 0.18955555555555556,
      "grad_norm": 1.3652458190917969,
      "learning_rate": 0.00016212491664814403,
      "loss": 1.6258,
      "step": 8530
    },
    {
      "epoch": 0.1895777777777778,
      "grad_norm": 1.6253448724746704,
      "learning_rate": 0.00016212047121582574,
      "loss": 2.285,
      "step": 8531
    },
    {
      "epoch": 0.1896,
      "grad_norm": 1.925632119178772,
      "learning_rate": 0.00016211602578350745,
      "loss": 2.3859,
      "step": 8532
    },
    {
      "epoch": 0.18962222222222222,
      "grad_norm": 1.60210382938385,
      "learning_rate": 0.00016211158035118916,
      "loss": 2.1049,
      "step": 8533
    },
    {
      "epoch": 0.18964444444444445,
      "grad_norm": 1.4808175563812256,
      "learning_rate": 0.00016210713491887087,
      "loss": 1.6047,
      "step": 8534
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 1.6118484735488892,
      "learning_rate": 0.00016210268948655258,
      "loss": 2.0161,
      "step": 8535
    },
    {
      "epoch": 0.18968888888888888,
      "grad_norm": 1.54386568069458,
      "learning_rate": 0.0001620982440542343,
      "loss": 1.8867,
      "step": 8536
    },
    {
      "epoch": 0.1897111111111111,
      "grad_norm": 1.8111251592636108,
      "learning_rate": 0.00016209379862191598,
      "loss": 2.1232,
      "step": 8537
    },
    {
      "epoch": 0.18973333333333334,
      "grad_norm": 1.739494800567627,
      "learning_rate": 0.0001620893531895977,
      "loss": 2.1199,
      "step": 8538
    },
    {
      "epoch": 0.18975555555555557,
      "grad_norm": 1.4575014114379883,
      "learning_rate": 0.0001620849077572794,
      "loss": 2.1094,
      "step": 8539
    },
    {
      "epoch": 0.18977777777777777,
      "grad_norm": 1.8213261365890503,
      "learning_rate": 0.0001620804623249611,
      "loss": 2.0417,
      "step": 8540
    },
    {
      "epoch": 0.1898,
      "grad_norm": 1.5534175634384155,
      "learning_rate": 0.00016207601689264281,
      "loss": 1.7768,
      "step": 8541
    },
    {
      "epoch": 0.18982222222222223,
      "grad_norm": 1.8382679224014282,
      "learning_rate": 0.00016207157146032452,
      "loss": 2.0577,
      "step": 8542
    },
    {
      "epoch": 0.18984444444444445,
      "grad_norm": 1.5470490455627441,
      "learning_rate": 0.00016206712602800623,
      "loss": 2.0084,
      "step": 8543
    },
    {
      "epoch": 0.18986666666666666,
      "grad_norm": 1.6124048233032227,
      "learning_rate": 0.00016206268059568794,
      "loss": 1.6296,
      "step": 8544
    },
    {
      "epoch": 0.18988888888888888,
      "grad_norm": 1.6418631076812744,
      "learning_rate": 0.00016205823516336965,
      "loss": 1.7749,
      "step": 8545
    },
    {
      "epoch": 0.1899111111111111,
      "grad_norm": 1.8843770027160645,
      "learning_rate": 0.00016205378973105133,
      "loss": 2.2023,
      "step": 8546
    },
    {
      "epoch": 0.18993333333333334,
      "grad_norm": 1.6146327257156372,
      "learning_rate": 0.00016204934429873307,
      "loss": 1.9097,
      "step": 8547
    },
    {
      "epoch": 0.18995555555555554,
      "grad_norm": 1.4826226234436035,
      "learning_rate": 0.00016204489886641475,
      "loss": 1.8488,
      "step": 8548
    },
    {
      "epoch": 0.18997777777777777,
      "grad_norm": 1.426617980003357,
      "learning_rate": 0.0001620404534340965,
      "loss": 1.7897,
      "step": 8549
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8397412300109863,
      "learning_rate": 0.00016203600800177817,
      "loss": 1.6806,
      "step": 8550
    },
    {
      "epoch": 0.19002222222222223,
      "grad_norm": 1.316266655921936,
      "learning_rate": 0.00016203156256945988,
      "loss": 2.5449,
      "step": 8551
    },
    {
      "epoch": 0.19004444444444443,
      "grad_norm": 1.3717048168182373,
      "learning_rate": 0.0001620271171371416,
      "loss": 2.4819,
      "step": 8552
    },
    {
      "epoch": 0.19006666666666666,
      "grad_norm": 1.3044281005859375,
      "learning_rate": 0.0001620226717048233,
      "loss": 1.9653,
      "step": 8553
    },
    {
      "epoch": 0.1900888888888889,
      "grad_norm": 1.1984543800354004,
      "learning_rate": 0.000162018226272505,
      "loss": 2.2932,
      "step": 8554
    },
    {
      "epoch": 0.19011111111111112,
      "grad_norm": 1.3181530237197876,
      "learning_rate": 0.00016201378084018672,
      "loss": 2.103,
      "step": 8555
    },
    {
      "epoch": 0.19013333333333332,
      "grad_norm": 1.089881181716919,
      "learning_rate": 0.00016200933540786843,
      "loss": 1.7264,
      "step": 8556
    },
    {
      "epoch": 0.19015555555555555,
      "grad_norm": 1.381687879562378,
      "learning_rate": 0.0001620048899755501,
      "loss": 1.6934,
      "step": 8557
    },
    {
      "epoch": 0.19017777777777778,
      "grad_norm": 1.2063361406326294,
      "learning_rate": 0.00016200044454323185,
      "loss": 2.0568,
      "step": 8558
    },
    {
      "epoch": 0.1902,
      "grad_norm": 1.2463476657867432,
      "learning_rate": 0.00016199599911091353,
      "loss": 1.8701,
      "step": 8559
    },
    {
      "epoch": 0.1902222222222222,
      "grad_norm": 1.346778154373169,
      "learning_rate": 0.00016199155367859524,
      "loss": 2.6766,
      "step": 8560
    },
    {
      "epoch": 0.19024444444444444,
      "grad_norm": 1.2676671743392944,
      "learning_rate": 0.00016198710824627695,
      "loss": 2.2598,
      "step": 8561
    },
    {
      "epoch": 0.19026666666666667,
      "grad_norm": 1.3952248096466064,
      "learning_rate": 0.00016198266281395866,
      "loss": 2.2588,
      "step": 8562
    },
    {
      "epoch": 0.1902888888888889,
      "grad_norm": 1.5860651731491089,
      "learning_rate": 0.00016197821738164037,
      "loss": 1.7417,
      "step": 8563
    },
    {
      "epoch": 0.1903111111111111,
      "grad_norm": 1.3635348081588745,
      "learning_rate": 0.00016197377194932208,
      "loss": 2.0181,
      "step": 8564
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 0.9693583846092224,
      "learning_rate": 0.0001619693265170038,
      "loss": 0.7921,
      "step": 8565
    },
    {
      "epoch": 0.19035555555555556,
      "grad_norm": 1.4618911743164062,
      "learning_rate": 0.00016196488108468547,
      "loss": 2.3353,
      "step": 8566
    },
    {
      "epoch": 0.19037777777777778,
      "grad_norm": 1.1048544645309448,
      "learning_rate": 0.0001619604356523672,
      "loss": 1.2495,
      "step": 8567
    },
    {
      "epoch": 0.1904,
      "grad_norm": 1.514894723892212,
      "learning_rate": 0.0001619559902200489,
      "loss": 2.4039,
      "step": 8568
    },
    {
      "epoch": 0.19042222222222221,
      "grad_norm": 1.6535663604736328,
      "learning_rate": 0.00016195154478773063,
      "loss": 2.217,
      "step": 8569
    },
    {
      "epoch": 0.19044444444444444,
      "grad_norm": 1.4568337202072144,
      "learning_rate": 0.0001619470993554123,
      "loss": 2.0714,
      "step": 8570
    },
    {
      "epoch": 0.19046666666666667,
      "grad_norm": 1.536627173423767,
      "learning_rate": 0.00016194265392309402,
      "loss": 2.1277,
      "step": 8571
    },
    {
      "epoch": 0.1904888888888889,
      "grad_norm": 1.3154206275939941,
      "learning_rate": 0.00016193820849077576,
      "loss": 1.8604,
      "step": 8572
    },
    {
      "epoch": 0.1905111111111111,
      "grad_norm": 1.5429155826568604,
      "learning_rate": 0.00016193376305845744,
      "loss": 2.4234,
      "step": 8573
    },
    {
      "epoch": 0.19053333333333333,
      "grad_norm": 1.4447323083877563,
      "learning_rate": 0.00016192931762613915,
      "loss": 1.9809,
      "step": 8574
    },
    {
      "epoch": 0.19055555555555556,
      "grad_norm": 1.9456173181533813,
      "learning_rate": 0.00016192487219382086,
      "loss": 2.0997,
      "step": 8575
    },
    {
      "epoch": 0.1905777777777778,
      "grad_norm": 1.4229886531829834,
      "learning_rate": 0.00016192042676150257,
      "loss": 1.9001,
      "step": 8576
    },
    {
      "epoch": 0.1906,
      "grad_norm": 1.2987167835235596,
      "learning_rate": 0.00016191598132918425,
      "loss": 1.5648,
      "step": 8577
    },
    {
      "epoch": 0.19062222222222222,
      "grad_norm": 1.4134403467178345,
      "learning_rate": 0.000161911535896866,
      "loss": 1.9196,
      "step": 8578
    },
    {
      "epoch": 0.19064444444444445,
      "grad_norm": 0.8745421767234802,
      "learning_rate": 0.00016190709046454767,
      "loss": 0.6813,
      "step": 8579
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 1.3625469207763672,
      "learning_rate": 0.00016190264503222938,
      "loss": 2.0999,
      "step": 8580
    },
    {
      "epoch": 0.19068888888888888,
      "grad_norm": 1.4174081087112427,
      "learning_rate": 0.00016189819959991112,
      "loss": 1.9968,
      "step": 8581
    },
    {
      "epoch": 0.1907111111111111,
      "grad_norm": 1.4420578479766846,
      "learning_rate": 0.0001618937541675928,
      "loss": 2.1874,
      "step": 8582
    },
    {
      "epoch": 0.19073333333333334,
      "grad_norm": 1.407328724861145,
      "learning_rate": 0.0001618893087352745,
      "loss": 1.6286,
      "step": 8583
    },
    {
      "epoch": 0.19075555555555557,
      "grad_norm": 1.8090167045593262,
      "learning_rate": 0.00016188486330295622,
      "loss": 1.8252,
      "step": 8584
    },
    {
      "epoch": 0.19077777777777777,
      "grad_norm": 1.6012253761291504,
      "learning_rate": 0.00016188041787063793,
      "loss": 1.8167,
      "step": 8585
    },
    {
      "epoch": 0.1908,
      "grad_norm": 1.66798734664917,
      "learning_rate": 0.00016187597243831964,
      "loss": 2.0397,
      "step": 8586
    },
    {
      "epoch": 0.19082222222222223,
      "grad_norm": 1.4188050031661987,
      "learning_rate": 0.00016187152700600135,
      "loss": 1.6993,
      "step": 8587
    },
    {
      "epoch": 0.19084444444444446,
      "grad_norm": 1.1316643953323364,
      "learning_rate": 0.00016186708157368303,
      "loss": 1.0815,
      "step": 8588
    },
    {
      "epoch": 0.19086666666666666,
      "grad_norm": 0.9193154573440552,
      "learning_rate": 0.00016186263614136477,
      "loss": 0.7353,
      "step": 8589
    },
    {
      "epoch": 0.19088888888888889,
      "grad_norm": 1.565587043762207,
      "learning_rate": 0.00016185819070904648,
      "loss": 1.7379,
      "step": 8590
    },
    {
      "epoch": 0.19091111111111111,
      "grad_norm": 1.5842223167419434,
      "learning_rate": 0.00016185374527672816,
      "loss": 1.9879,
      "step": 8591
    },
    {
      "epoch": 0.19093333333333334,
      "grad_norm": 1.507278323173523,
      "learning_rate": 0.0001618492998444099,
      "loss": 1.8228,
      "step": 8592
    },
    {
      "epoch": 0.19095555555555555,
      "grad_norm": 1.8715249300003052,
      "learning_rate": 0.00016184485441209158,
      "loss": 2.346,
      "step": 8593
    },
    {
      "epoch": 0.19097777777777777,
      "grad_norm": 1.5658904314041138,
      "learning_rate": 0.0001618404089797733,
      "loss": 1.8849,
      "step": 8594
    },
    {
      "epoch": 0.191,
      "grad_norm": 1.5176335573196411,
      "learning_rate": 0.000161835963547455,
      "loss": 1.7636,
      "step": 8595
    },
    {
      "epoch": 0.19102222222222223,
      "grad_norm": 1.5397329330444336,
      "learning_rate": 0.0001618315181151367,
      "loss": 1.9185,
      "step": 8596
    },
    {
      "epoch": 0.19104444444444443,
      "grad_norm": 1.8810944557189941,
      "learning_rate": 0.00016182707268281842,
      "loss": 2.253,
      "step": 8597
    },
    {
      "epoch": 0.19106666666666666,
      "grad_norm": 1.5054124593734741,
      "learning_rate": 0.00016182262725050013,
      "loss": 1.629,
      "step": 8598
    },
    {
      "epoch": 0.1910888888888889,
      "grad_norm": 1.5556950569152832,
      "learning_rate": 0.00016181818181818184,
      "loss": 1.4677,
      "step": 8599
    },
    {
      "epoch": 0.19111111111111112,
      "grad_norm": 1.4266828298568726,
      "learning_rate": 0.00016181373638586352,
      "loss": 0.7089,
      "step": 8600
    },
    {
      "epoch": 0.19113333333333332,
      "grad_norm": 1.1322230100631714,
      "learning_rate": 0.00016180929095354526,
      "loss": 1.9978,
      "step": 8601
    },
    {
      "epoch": 0.19115555555555555,
      "grad_norm": 1.2063350677490234,
      "learning_rate": 0.00016180484552122694,
      "loss": 2.2414,
      "step": 8602
    },
    {
      "epoch": 0.19117777777777778,
      "grad_norm": 1.1891595125198364,
      "learning_rate": 0.00016180040008890865,
      "loss": 2.119,
      "step": 8603
    },
    {
      "epoch": 0.1912,
      "grad_norm": 1.288590908050537,
      "learning_rate": 0.00016179595465659036,
      "loss": 2.2972,
      "step": 8604
    },
    {
      "epoch": 0.1912222222222222,
      "grad_norm": 1.358107566833496,
      "learning_rate": 0.00016179150922427207,
      "loss": 1.9391,
      "step": 8605
    },
    {
      "epoch": 0.19124444444444444,
      "grad_norm": 1.4857004880905151,
      "learning_rate": 0.00016178706379195378,
      "loss": 2.1161,
      "step": 8606
    },
    {
      "epoch": 0.19126666666666667,
      "grad_norm": 1.3209269046783447,
      "learning_rate": 0.00016178261835963549,
      "loss": 2.033,
      "step": 8607
    },
    {
      "epoch": 0.1912888888888889,
      "grad_norm": 1.513907790184021,
      "learning_rate": 0.0001617781729273172,
      "loss": 1.2764,
      "step": 8608
    },
    {
      "epoch": 0.1913111111111111,
      "grad_norm": 1.4976394176483154,
      "learning_rate": 0.0001617737274949989,
      "loss": 1.9217,
      "step": 8609
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 1.2154178619384766,
      "learning_rate": 0.00016176928206268061,
      "loss": 2.0073,
      "step": 8610
    },
    {
      "epoch": 0.19135555555555556,
      "grad_norm": 1.2644814252853394,
      "learning_rate": 0.0001617648366303623,
      "loss": 1.7254,
      "step": 8611
    },
    {
      "epoch": 0.19137777777777779,
      "grad_norm": 0.9438484311103821,
      "learning_rate": 0.00016176039119804403,
      "loss": 0.7834,
      "step": 8612
    },
    {
      "epoch": 0.1914,
      "grad_norm": 1.8040965795516968,
      "learning_rate": 0.00016175594576572572,
      "loss": 2.421,
      "step": 8613
    },
    {
      "epoch": 0.19142222222222222,
      "grad_norm": 1.3048946857452393,
      "learning_rate": 0.00016175150033340743,
      "loss": 0.9774,
      "step": 8614
    },
    {
      "epoch": 0.19144444444444444,
      "grad_norm": 1.1928949356079102,
      "learning_rate": 0.00016174705490108914,
      "loss": 1.1324,
      "step": 8615
    },
    {
      "epoch": 0.19146666666666667,
      "grad_norm": 1.5559515953063965,
      "learning_rate": 0.00016174260946877085,
      "loss": 2.3381,
      "step": 8616
    },
    {
      "epoch": 0.19148888888888888,
      "grad_norm": 1.642770767211914,
      "learning_rate": 0.00016173816403645255,
      "loss": 2.2716,
      "step": 8617
    },
    {
      "epoch": 0.1915111111111111,
      "grad_norm": 1.4571171998977661,
      "learning_rate": 0.00016173371860413426,
      "loss": 2.1626,
      "step": 8618
    },
    {
      "epoch": 0.19153333333333333,
      "grad_norm": 1.6311975717544556,
      "learning_rate": 0.00016172927317181597,
      "loss": 2.4062,
      "step": 8619
    },
    {
      "epoch": 0.19155555555555556,
      "grad_norm": 2.1022260189056396,
      "learning_rate": 0.00016172482773949766,
      "loss": 2.6053,
      "step": 8620
    },
    {
      "epoch": 0.1915777777777778,
      "grad_norm": 1.3734009265899658,
      "learning_rate": 0.0001617203823071794,
      "loss": 1.6047,
      "step": 8621
    },
    {
      "epoch": 0.1916,
      "grad_norm": 1.538898229598999,
      "learning_rate": 0.00016171593687486108,
      "loss": 1.9373,
      "step": 8622
    },
    {
      "epoch": 0.19162222222222222,
      "grad_norm": 1.3978567123413086,
      "learning_rate": 0.00016171149144254279,
      "loss": 1.9682,
      "step": 8623
    },
    {
      "epoch": 0.19164444444444445,
      "grad_norm": 1.4066699743270874,
      "learning_rate": 0.0001617070460102245,
      "loss": 1.4688,
      "step": 8624
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 1.2462997436523438,
      "learning_rate": 0.0001617026005779062,
      "loss": 1.0134,
      "step": 8625
    },
    {
      "epoch": 0.19168888888888888,
      "grad_norm": 1.6947509050369263,
      "learning_rate": 0.00016169815514558791,
      "loss": 2.2069,
      "step": 8626
    },
    {
      "epoch": 0.1917111111111111,
      "grad_norm": 1.4499322175979614,
      "learning_rate": 0.00016169370971326962,
      "loss": 1.8288,
      "step": 8627
    },
    {
      "epoch": 0.19173333333333334,
      "grad_norm": 1.9717944860458374,
      "learning_rate": 0.00016168926428095133,
      "loss": 2.2973,
      "step": 8628
    },
    {
      "epoch": 0.19175555555555557,
      "grad_norm": 1.3911373615264893,
      "learning_rate": 0.00016168481884863304,
      "loss": 2.071,
      "step": 8629
    },
    {
      "epoch": 0.19177777777777777,
      "grad_norm": 0.9537205100059509,
      "learning_rate": 0.00016168037341631475,
      "loss": 0.8069,
      "step": 8630
    },
    {
      "epoch": 0.1918,
      "grad_norm": 1.9896273612976074,
      "learning_rate": 0.00016167592798399644,
      "loss": 2.0291,
      "step": 8631
    },
    {
      "epoch": 0.19182222222222223,
      "grad_norm": 1.7135859727859497,
      "learning_rate": 0.00016167148255167817,
      "loss": 2.1234,
      "step": 8632
    },
    {
      "epoch": 0.19184444444444446,
      "grad_norm": 1.6639069318771362,
      "learning_rate": 0.00016166703711935985,
      "loss": 2.2427,
      "step": 8633
    },
    {
      "epoch": 0.19186666666666666,
      "grad_norm": 1.6482915878295898,
      "learning_rate": 0.00016166259168704156,
      "loss": 1.6349,
      "step": 8634
    },
    {
      "epoch": 0.1918888888888889,
      "grad_norm": 1.9868695735931396,
      "learning_rate": 0.00016165814625472327,
      "loss": 1.967,
      "step": 8635
    },
    {
      "epoch": 0.19191111111111112,
      "grad_norm": 1.876113772392273,
      "learning_rate": 0.00016165370082240498,
      "loss": 1.7361,
      "step": 8636
    },
    {
      "epoch": 0.19193333333333334,
      "grad_norm": 1.4248839616775513,
      "learning_rate": 0.0001616492553900867,
      "loss": 1.759,
      "step": 8637
    },
    {
      "epoch": 0.19195555555555555,
      "grad_norm": 1.5141512155532837,
      "learning_rate": 0.0001616448099577684,
      "loss": 1.8422,
      "step": 8638
    },
    {
      "epoch": 0.19197777777777777,
      "grad_norm": 1.5937213897705078,
      "learning_rate": 0.0001616403645254501,
      "loss": 2.1511,
      "step": 8639
    },
    {
      "epoch": 0.192,
      "grad_norm": 1.9621515274047852,
      "learning_rate": 0.0001616359190931318,
      "loss": 1.6989,
      "step": 8640
    },
    {
      "epoch": 0.19202222222222223,
      "grad_norm": 2.17606520652771,
      "learning_rate": 0.00016163147366081353,
      "loss": 2.0449,
      "step": 8641
    },
    {
      "epoch": 0.19204444444444443,
      "grad_norm": 1.3797341585159302,
      "learning_rate": 0.00016162702822849521,
      "loss": 1.5945,
      "step": 8642
    },
    {
      "epoch": 0.19206666666666666,
      "grad_norm": 1.4574095010757446,
      "learning_rate": 0.00016162258279617695,
      "loss": 1.7041,
      "step": 8643
    },
    {
      "epoch": 0.1920888888888889,
      "grad_norm": 2.1386642456054688,
      "learning_rate": 0.00016161813736385863,
      "loss": 2.2401,
      "step": 8644
    },
    {
      "epoch": 0.19211111111111112,
      "grad_norm": 1.6348223686218262,
      "learning_rate": 0.00016161369193154034,
      "loss": 1.9788,
      "step": 8645
    },
    {
      "epoch": 0.19213333333333332,
      "grad_norm": 1.785636067390442,
      "learning_rate": 0.00016160924649922208,
      "loss": 2.0674,
      "step": 8646
    },
    {
      "epoch": 0.19215555555555555,
      "grad_norm": 1.5976718664169312,
      "learning_rate": 0.00016160480106690376,
      "loss": 1.7066,
      "step": 8647
    },
    {
      "epoch": 0.19217777777777778,
      "grad_norm": 1.7314237356185913,
      "learning_rate": 0.00016160035563458547,
      "loss": 1.6829,
      "step": 8648
    },
    {
      "epoch": 0.1922,
      "grad_norm": 3.33363938331604,
      "learning_rate": 0.00016159591020226718,
      "loss": 1.5767,
      "step": 8649
    },
    {
      "epoch": 0.1922222222222222,
      "grad_norm": 1.3709858655929565,
      "learning_rate": 0.0001615914647699489,
      "loss": 0.8769,
      "step": 8650
    },
    {
      "epoch": 0.19224444444444444,
      "grad_norm": 1.3361232280731201,
      "learning_rate": 0.00016158701933763057,
      "loss": 2.3494,
      "step": 8651
    },
    {
      "epoch": 0.19226666666666667,
      "grad_norm": 1.2792390584945679,
      "learning_rate": 0.0001615825739053123,
      "loss": 2.1629,
      "step": 8652
    },
    {
      "epoch": 0.1922888888888889,
      "grad_norm": 1.1644012928009033,
      "learning_rate": 0.000161578128472994,
      "loss": 2.1992,
      "step": 8653
    },
    {
      "epoch": 0.1923111111111111,
      "grad_norm": 1.23819899559021,
      "learning_rate": 0.0001615736830406757,
      "loss": 2.4102,
      "step": 8654
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 1.2473031282424927,
      "learning_rate": 0.00016156923760835744,
      "loss": 2.4942,
      "step": 8655
    },
    {
      "epoch": 0.19235555555555556,
      "grad_norm": 1.5940349102020264,
      "learning_rate": 0.00016156479217603912,
      "loss": 2.3374,
      "step": 8656
    },
    {
      "epoch": 0.1923777777777778,
      "grad_norm": 1.4129602909088135,
      "learning_rate": 0.00016156034674372083,
      "loss": 2.1513,
      "step": 8657
    },
    {
      "epoch": 0.1924,
      "grad_norm": 1.4283770322799683,
      "learning_rate": 0.00016155590131140254,
      "loss": 2.5739,
      "step": 8658
    },
    {
      "epoch": 0.19242222222222222,
      "grad_norm": 1.3880505561828613,
      "learning_rate": 0.00016155145587908425,
      "loss": 2.0892,
      "step": 8659
    },
    {
      "epoch": 0.19244444444444445,
      "grad_norm": 1.025376319885254,
      "learning_rate": 0.00016154701044676593,
      "loss": 1.3117,
      "step": 8660
    },
    {
      "epoch": 0.19246666666666667,
      "grad_norm": 1.3077205419540405,
      "learning_rate": 0.00016154256501444767,
      "loss": 1.6753,
      "step": 8661
    },
    {
      "epoch": 0.19248888888888888,
      "grad_norm": 1.299704670906067,
      "learning_rate": 0.00016153811958212935,
      "loss": 2.3262,
      "step": 8662
    },
    {
      "epoch": 0.1925111111111111,
      "grad_norm": 1.5582358837127686,
      "learning_rate": 0.0001615336741498111,
      "loss": 2.3419,
      "step": 8663
    },
    {
      "epoch": 0.19253333333333333,
      "grad_norm": 1.7164210081100464,
      "learning_rate": 0.0001615292287174928,
      "loss": 1.9677,
      "step": 8664
    },
    {
      "epoch": 0.19255555555555556,
      "grad_norm": 1.4383915662765503,
      "learning_rate": 0.00016152478328517448,
      "loss": 2.5345,
      "step": 8665
    },
    {
      "epoch": 0.19257777777777776,
      "grad_norm": 1.3207193613052368,
      "learning_rate": 0.00016152033785285622,
      "loss": 2.0487,
      "step": 8666
    },
    {
      "epoch": 0.1926,
      "grad_norm": 1.1935231685638428,
      "learning_rate": 0.0001615158924205379,
      "loss": 1.8859,
      "step": 8667
    },
    {
      "epoch": 0.19262222222222222,
      "grad_norm": 1.7110981941223145,
      "learning_rate": 0.0001615114469882196,
      "loss": 2.245,
      "step": 8668
    },
    {
      "epoch": 0.19264444444444445,
      "grad_norm": 1.3600949048995972,
      "learning_rate": 0.00016150700155590132,
      "loss": 2.1795,
      "step": 8669
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 1.97417151927948,
      "learning_rate": 0.00016150255612358303,
      "loss": 2.1854,
      "step": 8670
    },
    {
      "epoch": 0.19268888888888888,
      "grad_norm": 0.5006673336029053,
      "learning_rate": 0.00016149811069126474,
      "loss": 0.0222,
      "step": 8671
    },
    {
      "epoch": 0.1927111111111111,
      "grad_norm": 1.7708922624588013,
      "learning_rate": 0.00016149366525894645,
      "loss": 2.1,
      "step": 8672
    },
    {
      "epoch": 0.19273333333333334,
      "grad_norm": 1.434661865234375,
      "learning_rate": 0.00016148921982662816,
      "loss": 2.2615,
      "step": 8673
    },
    {
      "epoch": 0.19275555555555557,
      "grad_norm": 1.1731714010238647,
      "learning_rate": 0.00016148477439430984,
      "loss": 1.691,
      "step": 8674
    },
    {
      "epoch": 0.19277777777777777,
      "grad_norm": 1.1448897123336792,
      "learning_rate": 0.00016148032896199158,
      "loss": 1.8473,
      "step": 8675
    },
    {
      "epoch": 0.1928,
      "grad_norm": 1.46724271774292,
      "learning_rate": 0.00016147588352967326,
      "loss": 2.5857,
      "step": 8676
    },
    {
      "epoch": 0.19282222222222223,
      "grad_norm": 1.5099420547485352,
      "learning_rate": 0.00016147143809735497,
      "loss": 1.9219,
      "step": 8677
    },
    {
      "epoch": 0.19284444444444446,
      "grad_norm": 1.620039463043213,
      "learning_rate": 0.00016146699266503668,
      "loss": 1.9624,
      "step": 8678
    },
    {
      "epoch": 0.19286666666666666,
      "grad_norm": 1.4552372694015503,
      "learning_rate": 0.0001614625472327184,
      "loss": 1.9268,
      "step": 8679
    },
    {
      "epoch": 0.1928888888888889,
      "grad_norm": 1.496885061264038,
      "learning_rate": 0.0001614581018004001,
      "loss": 1.7158,
      "step": 8680
    },
    {
      "epoch": 0.19291111111111112,
      "grad_norm": 0.8998618721961975,
      "learning_rate": 0.0001614536563680818,
      "loss": 0.9036,
      "step": 8681
    },
    {
      "epoch": 0.19293333333333335,
      "grad_norm": 1.3099870681762695,
      "learning_rate": 0.00016144921093576352,
      "loss": 1.2439,
      "step": 8682
    },
    {
      "epoch": 0.19295555555555555,
      "grad_norm": 1.3622827529907227,
      "learning_rate": 0.00016144476550344523,
      "loss": 1.7494,
      "step": 8683
    },
    {
      "epoch": 0.19297777777777778,
      "grad_norm": 0.21614140272140503,
      "learning_rate": 0.00016144032007112694,
      "loss": 0.0335,
      "step": 8684
    },
    {
      "epoch": 0.193,
      "grad_norm": 1.4002633094787598,
      "learning_rate": 0.00016143587463880862,
      "loss": 1.632,
      "step": 8685
    },
    {
      "epoch": 0.19302222222222223,
      "grad_norm": 1.5678211450576782,
      "learning_rate": 0.00016143142920649036,
      "loss": 2.098,
      "step": 8686
    },
    {
      "epoch": 0.19304444444444444,
      "grad_norm": 1.4084711074829102,
      "learning_rate": 0.00016142698377417204,
      "loss": 1.7719,
      "step": 8687
    },
    {
      "epoch": 0.19306666666666666,
      "grad_norm": 1.8735452890396118,
      "learning_rate": 0.00016142253834185375,
      "loss": 2.1919,
      "step": 8688
    },
    {
      "epoch": 0.1930888888888889,
      "grad_norm": 1.289117693901062,
      "learning_rate": 0.00016141809290953546,
      "loss": 1.626,
      "step": 8689
    },
    {
      "epoch": 0.19311111111111112,
      "grad_norm": 1.6205946207046509,
      "learning_rate": 0.00016141364747721717,
      "loss": 1.6451,
      "step": 8690
    },
    {
      "epoch": 0.19313333333333332,
      "grad_norm": 1.4675699472427368,
      "learning_rate": 0.00016140920204489888,
      "loss": 1.3452,
      "step": 8691
    },
    {
      "epoch": 0.19315555555555555,
      "grad_norm": 1.7561919689178467,
      "learning_rate": 0.0001614047566125806,
      "loss": 1.5334,
      "step": 8692
    },
    {
      "epoch": 0.19317777777777778,
      "grad_norm": 1.5198713541030884,
      "learning_rate": 0.0001614003111802623,
      "loss": 1.574,
      "step": 8693
    },
    {
      "epoch": 0.1932,
      "grad_norm": 1.924621820449829,
      "learning_rate": 0.00016139586574794398,
      "loss": 2.0681,
      "step": 8694
    },
    {
      "epoch": 0.1932222222222222,
      "grad_norm": 1.8930362462997437,
      "learning_rate": 0.00016139142031562572,
      "loss": 2.0716,
      "step": 8695
    },
    {
      "epoch": 0.19324444444444444,
      "grad_norm": 1.6171858310699463,
      "learning_rate": 0.0001613869748833074,
      "loss": 1.8951,
      "step": 8696
    },
    {
      "epoch": 0.19326666666666667,
      "grad_norm": 1.4712505340576172,
      "learning_rate": 0.0001613825294509891,
      "loss": 1.5721,
      "step": 8697
    },
    {
      "epoch": 0.1932888888888889,
      "grad_norm": 1.953091025352478,
      "learning_rate": 0.00016137808401867082,
      "loss": 2.2912,
      "step": 8698
    },
    {
      "epoch": 0.1933111111111111,
      "grad_norm": 1.3747007846832275,
      "learning_rate": 0.00016137363858635253,
      "loss": 1.3864,
      "step": 8699
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 1.668312668800354,
      "learning_rate": 0.00016136919315403424,
      "loss": 0.074,
      "step": 8700
    },
    {
      "epoch": 0.19335555555555556,
      "grad_norm": 1.3949706554412842,
      "learning_rate": 0.00016136474772171595,
      "loss": 2.8095,
      "step": 8701
    },
    {
      "epoch": 0.1933777777777778,
      "grad_norm": 1.1038020849227905,
      "learning_rate": 0.00016136030228939766,
      "loss": 1.1416,
      "step": 8702
    },
    {
      "epoch": 0.1934,
      "grad_norm": 1.2396866083145142,
      "learning_rate": 0.00016135585685707937,
      "loss": 2.4029,
      "step": 8703
    },
    {
      "epoch": 0.19342222222222222,
      "grad_norm": 1.2429970502853394,
      "learning_rate": 0.00016135141142476107,
      "loss": 2.3683,
      "step": 8704
    },
    {
      "epoch": 0.19344444444444445,
      "grad_norm": 1.3229912519454956,
      "learning_rate": 0.00016134696599244276,
      "loss": 2.0073,
      "step": 8705
    },
    {
      "epoch": 0.19346666666666668,
      "grad_norm": 1.2482243776321411,
      "learning_rate": 0.0001613425205601245,
      "loss": 1.8461,
      "step": 8706
    },
    {
      "epoch": 0.19348888888888888,
      "grad_norm": 1.4435396194458008,
      "learning_rate": 0.00016133807512780618,
      "loss": 1.7125,
      "step": 8707
    },
    {
      "epoch": 0.1935111111111111,
      "grad_norm": 1.4332960844039917,
      "learning_rate": 0.00016133362969548789,
      "loss": 2.1014,
      "step": 8708
    },
    {
      "epoch": 0.19353333333333333,
      "grad_norm": 1.5792673826217651,
      "learning_rate": 0.0001613291842631696,
      "loss": 2.7585,
      "step": 8709
    },
    {
      "epoch": 0.19355555555555556,
      "grad_norm": 1.3805973529815674,
      "learning_rate": 0.0001613247388308513,
      "loss": 2.1038,
      "step": 8710
    },
    {
      "epoch": 0.19357777777777777,
      "grad_norm": 1.634814977645874,
      "learning_rate": 0.00016132029339853302,
      "loss": 2.4069,
      "step": 8711
    },
    {
      "epoch": 0.1936,
      "grad_norm": 1.5364879369735718,
      "learning_rate": 0.00016131584796621472,
      "loss": 2.5422,
      "step": 8712
    },
    {
      "epoch": 0.19362222222222222,
      "grad_norm": 1.2782297134399414,
      "learning_rate": 0.00016131140253389643,
      "loss": 1.8411,
      "step": 8713
    },
    {
      "epoch": 0.19364444444444445,
      "grad_norm": 1.6964752674102783,
      "learning_rate": 0.00016130695710157812,
      "loss": 2.0247,
      "step": 8714
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 1.2241835594177246,
      "learning_rate": 0.00016130251166925985,
      "loss": 1.4312,
      "step": 8715
    },
    {
      "epoch": 0.19368888888888888,
      "grad_norm": 1.753359317779541,
      "learning_rate": 0.00016129806623694154,
      "loss": 1.8266,
      "step": 8716
    },
    {
      "epoch": 0.1937111111111111,
      "grad_norm": 1.3771339654922485,
      "learning_rate": 0.00016129362080462325,
      "loss": 1.9766,
      "step": 8717
    },
    {
      "epoch": 0.19373333333333334,
      "grad_norm": 1.6056934595108032,
      "learning_rate": 0.00016128917537230496,
      "loss": 2.147,
      "step": 8718
    },
    {
      "epoch": 0.19375555555555554,
      "grad_norm": 1.266422152519226,
      "learning_rate": 0.00016128472993998667,
      "loss": 2.0693,
      "step": 8719
    },
    {
      "epoch": 0.19377777777777777,
      "grad_norm": 1.527319073677063,
      "learning_rate": 0.0001612802845076684,
      "loss": 2.2133,
      "step": 8720
    },
    {
      "epoch": 0.1938,
      "grad_norm": 1.5359643697738647,
      "learning_rate": 0.00016127583907535008,
      "loss": 2.0459,
      "step": 8721
    },
    {
      "epoch": 0.19382222222222223,
      "grad_norm": 1.5442492961883545,
      "learning_rate": 0.0001612713936430318,
      "loss": 2.5407,
      "step": 8722
    },
    {
      "epoch": 0.19384444444444446,
      "grad_norm": 1.3062814474105835,
      "learning_rate": 0.0001612669482107135,
      "loss": 1.4352,
      "step": 8723
    },
    {
      "epoch": 0.19386666666666666,
      "grad_norm": 1.7406185865402222,
      "learning_rate": 0.0001612625027783952,
      "loss": 1.9311,
      "step": 8724
    },
    {
      "epoch": 0.1938888888888889,
      "grad_norm": 1.6353509426116943,
      "learning_rate": 0.0001612580573460769,
      "loss": 1.9206,
      "step": 8725
    },
    {
      "epoch": 0.19391111111111112,
      "grad_norm": 1.4364670515060425,
      "learning_rate": 0.00016125361191375863,
      "loss": 2.0072,
      "step": 8726
    },
    {
      "epoch": 0.19393333333333335,
      "grad_norm": 1.3739959001541138,
      "learning_rate": 0.00016124916648144031,
      "loss": 1.9563,
      "step": 8727
    },
    {
      "epoch": 0.19395555555555555,
      "grad_norm": 1.276447057723999,
      "learning_rate": 0.00016124472104912202,
      "loss": 2.2592,
      "step": 8728
    },
    {
      "epoch": 0.19397777777777778,
      "grad_norm": 1.501861572265625,
      "learning_rate": 0.00016124027561680376,
      "loss": 2.0636,
      "step": 8729
    },
    {
      "epoch": 0.194,
      "grad_norm": 1.720099925994873,
      "learning_rate": 0.00016123583018448544,
      "loss": 2.1638,
      "step": 8730
    },
    {
      "epoch": 0.19402222222222223,
      "grad_norm": 2.1179416179656982,
      "learning_rate": 0.00016123138475216715,
      "loss": 1.1344,
      "step": 8731
    },
    {
      "epoch": 0.19404444444444444,
      "grad_norm": 1.2829092741012573,
      "learning_rate": 0.00016122693931984886,
      "loss": 1.493,
      "step": 8732
    },
    {
      "epoch": 0.19406666666666667,
      "grad_norm": 1.3992533683776855,
      "learning_rate": 0.00016122249388753057,
      "loss": 2.1549,
      "step": 8733
    },
    {
      "epoch": 0.1940888888888889,
      "grad_norm": 1.2226399183273315,
      "learning_rate": 0.00016121804845521226,
      "loss": 1.375,
      "step": 8734
    },
    {
      "epoch": 0.19411111111111112,
      "grad_norm": 1.3906883001327515,
      "learning_rate": 0.000161213603022894,
      "loss": 2.195,
      "step": 8735
    },
    {
      "epoch": 0.19413333333333332,
      "grad_norm": 1.8550492525100708,
      "learning_rate": 0.00016120915759057567,
      "loss": 2.3095,
      "step": 8736
    },
    {
      "epoch": 0.19415555555555555,
      "grad_norm": 1.3509225845336914,
      "learning_rate": 0.0001612047121582574,
      "loss": 1.226,
      "step": 8737
    },
    {
      "epoch": 0.19417777777777778,
      "grad_norm": 1.373690128326416,
      "learning_rate": 0.00016120026672593912,
      "loss": 1.7364,
      "step": 8738
    },
    {
      "epoch": 0.1942,
      "grad_norm": 1.494714617729187,
      "learning_rate": 0.0001611958212936208,
      "loss": 1.5093,
      "step": 8739
    },
    {
      "epoch": 0.1942222222222222,
      "grad_norm": 1.7479093074798584,
      "learning_rate": 0.00016119137586130254,
      "loss": 2.0263,
      "step": 8740
    },
    {
      "epoch": 0.19424444444444444,
      "grad_norm": 1.1876657009124756,
      "learning_rate": 0.00016118693042898422,
      "loss": 1.5662,
      "step": 8741
    },
    {
      "epoch": 0.19426666666666667,
      "grad_norm": 1.668654203414917,
      "learning_rate": 0.00016118248499666593,
      "loss": 1.7591,
      "step": 8742
    },
    {
      "epoch": 0.1942888888888889,
      "grad_norm": 1.618382453918457,
      "learning_rate": 0.00016117803956434764,
      "loss": 1.5752,
      "step": 8743
    },
    {
      "epoch": 0.1943111111111111,
      "grad_norm": 1.4290904998779297,
      "learning_rate": 0.00016117359413202935,
      "loss": 2.0534,
      "step": 8744
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 1.508210301399231,
      "learning_rate": 0.00016116914869971106,
      "loss": 1.711,
      "step": 8745
    },
    {
      "epoch": 0.19435555555555556,
      "grad_norm": 1.6453025341033936,
      "learning_rate": 0.00016116470326739277,
      "loss": 1.9348,
      "step": 8746
    },
    {
      "epoch": 0.1943777777777778,
      "grad_norm": 1.542396903038025,
      "learning_rate": 0.00016116025783507448,
      "loss": 1.0968,
      "step": 8747
    },
    {
      "epoch": 0.1944,
      "grad_norm": 1.4962718486785889,
      "learning_rate": 0.00016115581240275616,
      "loss": 1.6485,
      "step": 8748
    },
    {
      "epoch": 0.19442222222222222,
      "grad_norm": 3.253796100616455,
      "learning_rate": 0.0001611513669704379,
      "loss": 0.5587,
      "step": 8749
    },
    {
      "epoch": 0.19444444444444445,
      "grad_norm": 1.7446798086166382,
      "learning_rate": 0.00016114692153811958,
      "loss": 1.6244,
      "step": 8750
    },
    {
      "epoch": 0.19446666666666668,
      "grad_norm": 1.5735042095184326,
      "learning_rate": 0.0001611424761058013,
      "loss": 2.9875,
      "step": 8751
    },
    {
      "epoch": 0.19448888888888888,
      "grad_norm": 0.18491968512535095,
      "learning_rate": 0.000161138030673483,
      "loss": 0.0196,
      "step": 8752
    },
    {
      "epoch": 0.1945111111111111,
      "grad_norm": 2.32393217086792,
      "learning_rate": 0.0001611335852411647,
      "loss": 1.3307,
      "step": 8753
    },
    {
      "epoch": 0.19453333333333334,
      "grad_norm": 1.2895883321762085,
      "learning_rate": 0.00016112913980884642,
      "loss": 2.2361,
      "step": 8754
    },
    {
      "epoch": 0.19455555555555556,
      "grad_norm": 1.2327722311019897,
      "learning_rate": 0.00016112469437652813,
      "loss": 2.0593,
      "step": 8755
    },
    {
      "epoch": 0.19457777777777777,
      "grad_norm": 1.209930658340454,
      "learning_rate": 0.00016112024894420984,
      "loss": 1.9185,
      "step": 8756
    },
    {
      "epoch": 0.1946,
      "grad_norm": 1.5483735799789429,
      "learning_rate": 0.00016111580351189155,
      "loss": 2.2112,
      "step": 8757
    },
    {
      "epoch": 0.19462222222222222,
      "grad_norm": 1.3070619106292725,
      "learning_rate": 0.00016111135807957326,
      "loss": 2.2895,
      "step": 8758
    },
    {
      "epoch": 0.19464444444444445,
      "grad_norm": 1.505903959274292,
      "learning_rate": 0.00016110691264725494,
      "loss": 1.2863,
      "step": 8759
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 1.6762436628341675,
      "learning_rate": 0.00016110246721493668,
      "loss": 2.293,
      "step": 8760
    },
    {
      "epoch": 0.19468888888888888,
      "grad_norm": 1.57233464717865,
      "learning_rate": 0.00016109802178261836,
      "loss": 2.6159,
      "step": 8761
    },
    {
      "epoch": 0.1947111111111111,
      "grad_norm": 1.4546092748641968,
      "learning_rate": 0.00016109357635030007,
      "loss": 2.3042,
      "step": 8762
    },
    {
      "epoch": 0.19473333333333334,
      "grad_norm": 1.303009271621704,
      "learning_rate": 0.00016108913091798178,
      "loss": 2.194,
      "step": 8763
    },
    {
      "epoch": 0.19475555555555554,
      "grad_norm": 1.345712661743164,
      "learning_rate": 0.0001610846854856635,
      "loss": 2.1948,
      "step": 8764
    },
    {
      "epoch": 0.19477777777777777,
      "grad_norm": 1.2806633710861206,
      "learning_rate": 0.0001610802400533452,
      "loss": 2.2974,
      "step": 8765
    },
    {
      "epoch": 0.1948,
      "grad_norm": 1.5043402910232544,
      "learning_rate": 0.0001610757946210269,
      "loss": 2.336,
      "step": 8766
    },
    {
      "epoch": 0.19482222222222223,
      "grad_norm": 1.5231972932815552,
      "learning_rate": 0.00016107134918870862,
      "loss": 1.9422,
      "step": 8767
    },
    {
      "epoch": 0.19484444444444443,
      "grad_norm": 1.4873536825180054,
      "learning_rate": 0.0001610669037563903,
      "loss": 1.7225,
      "step": 8768
    },
    {
      "epoch": 0.19486666666666666,
      "grad_norm": 1.2589857578277588,
      "learning_rate": 0.00016106245832407204,
      "loss": 1.6482,
      "step": 8769
    },
    {
      "epoch": 0.1948888888888889,
      "grad_norm": 1.303812861442566,
      "learning_rate": 0.00016105801289175372,
      "loss": 2.2581,
      "step": 8770
    },
    {
      "epoch": 0.19491111111111112,
      "grad_norm": 1.4119549989700317,
      "learning_rate": 0.00016105356745943543,
      "loss": 1.9808,
      "step": 8771
    },
    {
      "epoch": 0.19493333333333332,
      "grad_norm": 1.4082579612731934,
      "learning_rate": 0.00016104912202711714,
      "loss": 2.2321,
      "step": 8772
    },
    {
      "epoch": 0.19495555555555555,
      "grad_norm": 1.5361331701278687,
      "learning_rate": 0.00016104467659479885,
      "loss": 2.4493,
      "step": 8773
    },
    {
      "epoch": 0.19497777777777778,
      "grad_norm": 1.2142605781555176,
      "learning_rate": 0.00016104023116248056,
      "loss": 1.8273,
      "step": 8774
    },
    {
      "epoch": 0.195,
      "grad_norm": 1.1838704347610474,
      "learning_rate": 0.00016103578573016227,
      "loss": 1.5936,
      "step": 8775
    },
    {
      "epoch": 0.19502222222222224,
      "grad_norm": 1.3447314500808716,
      "learning_rate": 0.00016103134029784398,
      "loss": 1.4055,
      "step": 8776
    },
    {
      "epoch": 0.19504444444444444,
      "grad_norm": 1.3269755840301514,
      "learning_rate": 0.0001610268948655257,
      "loss": 1.7186,
      "step": 8777
    },
    {
      "epoch": 0.19506666666666667,
      "grad_norm": 1.6755810976028442,
      "learning_rate": 0.0001610224494332074,
      "loss": 1.8241,
      "step": 8778
    },
    {
      "epoch": 0.1950888888888889,
      "grad_norm": 1.0032798051834106,
      "learning_rate": 0.00016101800400088908,
      "loss": 1.0812,
      "step": 8779
    },
    {
      "epoch": 0.19511111111111112,
      "grad_norm": 1.4767951965332031,
      "learning_rate": 0.00016101355856857082,
      "loss": 1.6818,
      "step": 8780
    },
    {
      "epoch": 0.19513333333333333,
      "grad_norm": 1.5964462757110596,
      "learning_rate": 0.0001610091131362525,
      "loss": 2.3536,
      "step": 8781
    },
    {
      "epoch": 0.19515555555555555,
      "grad_norm": 1.6888282299041748,
      "learning_rate": 0.0001610046677039342,
      "loss": 2.4448,
      "step": 8782
    },
    {
      "epoch": 0.19517777777777778,
      "grad_norm": 1.3861041069030762,
      "learning_rate": 0.00016100022227161592,
      "loss": 1.7057,
      "step": 8783
    },
    {
      "epoch": 0.1952,
      "grad_norm": 1.8635097742080688,
      "learning_rate": 0.00016099577683929763,
      "loss": 2.3734,
      "step": 8784
    },
    {
      "epoch": 0.1952222222222222,
      "grad_norm": 1.4793254137039185,
      "learning_rate": 0.00016099133140697934,
      "loss": 2.047,
      "step": 8785
    },
    {
      "epoch": 0.19524444444444444,
      "grad_norm": 1.4661378860473633,
      "learning_rate": 0.00016098688597466105,
      "loss": 2.0281,
      "step": 8786
    },
    {
      "epoch": 0.19526666666666667,
      "grad_norm": 1.6766831874847412,
      "learning_rate": 0.00016098244054234276,
      "loss": 2.1613,
      "step": 8787
    },
    {
      "epoch": 0.1952888888888889,
      "grad_norm": 1.8315972089767456,
      "learning_rate": 0.00016097799511002444,
      "loss": 2.079,
      "step": 8788
    },
    {
      "epoch": 0.1953111111111111,
      "grad_norm": 1.759415864944458,
      "learning_rate": 0.00016097354967770618,
      "loss": 2.6207,
      "step": 8789
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 1.304561734199524,
      "learning_rate": 0.00016096910424538786,
      "loss": 0.8203,
      "step": 8790
    },
    {
      "epoch": 0.19535555555555556,
      "grad_norm": 1.3379071950912476,
      "learning_rate": 0.00016096465881306957,
      "loss": 1.2762,
      "step": 8791
    },
    {
      "epoch": 0.1953777777777778,
      "grad_norm": 1.3971490859985352,
      "learning_rate": 0.00016096021338075128,
      "loss": 1.6368,
      "step": 8792
    },
    {
      "epoch": 0.1954,
      "grad_norm": 1.547486424446106,
      "learning_rate": 0.000160955767948433,
      "loss": 1.8859,
      "step": 8793
    },
    {
      "epoch": 0.19542222222222222,
      "grad_norm": 1.5927975177764893,
      "learning_rate": 0.00016095132251611472,
      "loss": 2.0852,
      "step": 8794
    },
    {
      "epoch": 0.19544444444444445,
      "grad_norm": 1.4578850269317627,
      "learning_rate": 0.0001609468770837964,
      "loss": 1.8163,
      "step": 8795
    },
    {
      "epoch": 0.19546666666666668,
      "grad_norm": 1.3934365510940552,
      "learning_rate": 0.00016094243165147812,
      "loss": 1.7361,
      "step": 8796
    },
    {
      "epoch": 0.19548888888888888,
      "grad_norm": 1.5917065143585205,
      "learning_rate": 0.00016093798621915983,
      "loss": 1.9725,
      "step": 8797
    },
    {
      "epoch": 0.1955111111111111,
      "grad_norm": 1.4716289043426514,
      "learning_rate": 0.00016093354078684154,
      "loss": 1.917,
      "step": 8798
    },
    {
      "epoch": 0.19553333333333334,
      "grad_norm": 2.191382646560669,
      "learning_rate": 0.00016092909535452322,
      "loss": 2.4189,
      "step": 8799
    },
    {
      "epoch": 0.19555555555555557,
      "grad_norm": 1.3234355449676514,
      "learning_rate": 0.00016092464992220495,
      "loss": 1.3979,
      "step": 8800
    },
    {
      "epoch": 0.19557777777777777,
      "grad_norm": 1.306500792503357,
      "learning_rate": 0.00016092020448988664,
      "loss": 2.5324,
      "step": 8801
    },
    {
      "epoch": 0.1956,
      "grad_norm": 1.0243009328842163,
      "learning_rate": 0.00016091575905756835,
      "loss": 2.2013,
      "step": 8802
    },
    {
      "epoch": 0.19562222222222223,
      "grad_norm": 1.2593210935592651,
      "learning_rate": 0.00016091131362525008,
      "loss": 2.3558,
      "step": 8803
    },
    {
      "epoch": 0.19564444444444445,
      "grad_norm": 1.141603708267212,
      "learning_rate": 0.00016090686819293177,
      "loss": 1.1717,
      "step": 8804
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 1.5964858531951904,
      "learning_rate": 0.00016090242276061348,
      "loss": 2.7507,
      "step": 8805
    },
    {
      "epoch": 0.19568888888888888,
      "grad_norm": 1.2716981172561646,
      "learning_rate": 0.00016089797732829519,
      "loss": 1.3236,
      "step": 8806
    },
    {
      "epoch": 0.1957111111111111,
      "grad_norm": 1.368628740310669,
      "learning_rate": 0.0001608935318959769,
      "loss": 2.4249,
      "step": 8807
    },
    {
      "epoch": 0.19573333333333334,
      "grad_norm": 1.1663552522659302,
      "learning_rate": 0.00016088908646365858,
      "loss": 1.7523,
      "step": 8808
    },
    {
      "epoch": 0.19575555555555554,
      "grad_norm": 1.5702913999557495,
      "learning_rate": 0.00016088464103134031,
      "loss": 2.3329,
      "step": 8809
    },
    {
      "epoch": 0.19577777777777777,
      "grad_norm": 1.4184353351593018,
      "learning_rate": 0.00016088019559902202,
      "loss": 2.4914,
      "step": 8810
    },
    {
      "epoch": 0.1958,
      "grad_norm": 1.4276586771011353,
      "learning_rate": 0.0001608757501667037,
      "loss": 2.2733,
      "step": 8811
    },
    {
      "epoch": 0.19582222222222223,
      "grad_norm": 1.4850338697433472,
      "learning_rate": 0.00016087130473438544,
      "loss": 1.9915,
      "step": 8812
    },
    {
      "epoch": 0.19584444444444443,
      "grad_norm": 1.6107903718948364,
      "learning_rate": 0.00016086685930206713,
      "loss": 2.402,
      "step": 8813
    },
    {
      "epoch": 0.19586666666666666,
      "grad_norm": 1.4697481393814087,
      "learning_rate": 0.00016086241386974886,
      "loss": 2.2183,
      "step": 8814
    },
    {
      "epoch": 0.1958888888888889,
      "grad_norm": 1.815121054649353,
      "learning_rate": 0.00016085796843743054,
      "loss": 2.0503,
      "step": 8815
    },
    {
      "epoch": 0.19591111111111112,
      "grad_norm": 1.3372498750686646,
      "learning_rate": 0.00016085352300511225,
      "loss": 2.1811,
      "step": 8816
    },
    {
      "epoch": 0.19593333333333332,
      "grad_norm": 2.704745292663574,
      "learning_rate": 0.00016084907757279396,
      "loss": 0.0533,
      "step": 8817
    },
    {
      "epoch": 0.19595555555555555,
      "grad_norm": 1.3040064573287964,
      "learning_rate": 0.00016084463214047567,
      "loss": 2.2731,
      "step": 8818
    },
    {
      "epoch": 0.19597777777777778,
      "grad_norm": 1.254094123840332,
      "learning_rate": 0.00016084018670815738,
      "loss": 1.6163,
      "step": 8819
    },
    {
      "epoch": 0.196,
      "grad_norm": 1.7114527225494385,
      "learning_rate": 0.0001608357412758391,
      "loss": 2.2558,
      "step": 8820
    },
    {
      "epoch": 0.1960222222222222,
      "grad_norm": 1.4433053731918335,
      "learning_rate": 0.0001608312958435208,
      "loss": 2.1833,
      "step": 8821
    },
    {
      "epoch": 0.19604444444444444,
      "grad_norm": 1.8080720901489258,
      "learning_rate": 0.00016082685041120248,
      "loss": 1.991,
      "step": 8822
    },
    {
      "epoch": 0.19606666666666667,
      "grad_norm": 1.5599074363708496,
      "learning_rate": 0.00016082240497888422,
      "loss": 2.4997,
      "step": 8823
    },
    {
      "epoch": 0.1960888888888889,
      "grad_norm": 1.428225040435791,
      "learning_rate": 0.0001608179595465659,
      "loss": 2.4107,
      "step": 8824
    },
    {
      "epoch": 0.19611111111111112,
      "grad_norm": 1.4715934991836548,
      "learning_rate": 0.00016081351411424761,
      "loss": 1.6326,
      "step": 8825
    },
    {
      "epoch": 0.19613333333333333,
      "grad_norm": 1.4737557172775269,
      "learning_rate": 0.00016080906868192932,
      "loss": 1.7044,
      "step": 8826
    },
    {
      "epoch": 0.19615555555555556,
      "grad_norm": 1.3864060640335083,
      "learning_rate": 0.00016080462324961103,
      "loss": 2.1226,
      "step": 8827
    },
    {
      "epoch": 0.19617777777777778,
      "grad_norm": 1.209367275238037,
      "learning_rate": 0.00016080017781729274,
      "loss": 1.5935,
      "step": 8828
    },
    {
      "epoch": 0.1962,
      "grad_norm": 1.319671392440796,
      "learning_rate": 0.00016079573238497445,
      "loss": 1.8079,
      "step": 8829
    },
    {
      "epoch": 0.19622222222222221,
      "grad_norm": 1.806052327156067,
      "learning_rate": 0.00016079128695265616,
      "loss": 2.1217,
      "step": 8830
    },
    {
      "epoch": 0.19624444444444444,
      "grad_norm": 1.3856194019317627,
      "learning_rate": 0.00016078684152033784,
      "loss": 1.7231,
      "step": 8831
    },
    {
      "epoch": 0.19626666666666667,
      "grad_norm": 1.816069483757019,
      "learning_rate": 0.00016078239608801958,
      "loss": 1.9773,
      "step": 8832
    },
    {
      "epoch": 0.1962888888888889,
      "grad_norm": 1.5240769386291504,
      "learning_rate": 0.00016077795065570126,
      "loss": 2.125,
      "step": 8833
    },
    {
      "epoch": 0.1963111111111111,
      "grad_norm": 1.8827214241027832,
      "learning_rate": 0.000160773505223383,
      "loss": 1.7186,
      "step": 8834
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 1.5334632396697998,
      "learning_rate": 0.00016076905979106468,
      "loss": 1.7096,
      "step": 8835
    },
    {
      "epoch": 0.19635555555555556,
      "grad_norm": 1.548402190208435,
      "learning_rate": 0.0001607646143587464,
      "loss": 2.0562,
      "step": 8836
    },
    {
      "epoch": 0.1963777777777778,
      "grad_norm": 1.5705084800720215,
      "learning_rate": 0.0001607601689264281,
      "loss": 1.1958,
      "step": 8837
    },
    {
      "epoch": 0.1964,
      "grad_norm": 1.6931087970733643,
      "learning_rate": 0.0001607557234941098,
      "loss": 1.9165,
      "step": 8838
    },
    {
      "epoch": 0.19642222222222222,
      "grad_norm": 1.4095348119735718,
      "learning_rate": 0.00016075127806179152,
      "loss": 1.8571,
      "step": 8839
    },
    {
      "epoch": 0.19644444444444445,
      "grad_norm": 1.7123996019363403,
      "learning_rate": 0.00016074683262947323,
      "loss": 2.2884,
      "step": 8840
    },
    {
      "epoch": 0.19646666666666668,
      "grad_norm": 1.3145952224731445,
      "learning_rate": 0.00016074238719715494,
      "loss": 1.481,
      "step": 8841
    },
    {
      "epoch": 0.19648888888888888,
      "grad_norm": 1.3923548460006714,
      "learning_rate": 0.00016073794176483662,
      "loss": 1.6416,
      "step": 8842
    },
    {
      "epoch": 0.1965111111111111,
      "grad_norm": 1.4468737840652466,
      "learning_rate": 0.00016073349633251836,
      "loss": 1.6668,
      "step": 8843
    },
    {
      "epoch": 0.19653333333333334,
      "grad_norm": 2.2281267642974854,
      "learning_rate": 0.00016072905090020004,
      "loss": 1.9504,
      "step": 8844
    },
    {
      "epoch": 0.19655555555555557,
      "grad_norm": 1.5112016201019287,
      "learning_rate": 0.00016072460546788175,
      "loss": 1.5915,
      "step": 8845
    },
    {
      "epoch": 0.19657777777777777,
      "grad_norm": 1.9606826305389404,
      "learning_rate": 0.00016072016003556346,
      "loss": 1.9167,
      "step": 8846
    },
    {
      "epoch": 0.1966,
      "grad_norm": 1.7252644300460815,
      "learning_rate": 0.00016071571460324517,
      "loss": 2.0475,
      "step": 8847
    },
    {
      "epoch": 0.19662222222222223,
      "grad_norm": 1.9022561311721802,
      "learning_rate": 0.00016071126917092688,
      "loss": 2.2079,
      "step": 8848
    },
    {
      "epoch": 0.19664444444444446,
      "grad_norm": 1.6290063858032227,
      "learning_rate": 0.0001607068237386086,
      "loss": 1.7504,
      "step": 8849
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 1.7588045597076416,
      "learning_rate": 0.0001607023783062903,
      "loss": 1.6008,
      "step": 8850
    },
    {
      "epoch": 0.19668888888888889,
      "grad_norm": 1.954925298690796,
      "learning_rate": 0.000160697932873972,
      "loss": 2.0992,
      "step": 8851
    },
    {
      "epoch": 0.19671111111111111,
      "grad_norm": 3.8164498805999756,
      "learning_rate": 0.00016069348744165372,
      "loss": 1.293,
      "step": 8852
    },
    {
      "epoch": 0.19673333333333334,
      "grad_norm": 1.0724838972091675,
      "learning_rate": 0.0001606890420093354,
      "loss": 1.584,
      "step": 8853
    },
    {
      "epoch": 0.19675555555555554,
      "grad_norm": 1.4482643604278564,
      "learning_rate": 0.00016068459657701714,
      "loss": 2.5588,
      "step": 8854
    },
    {
      "epoch": 0.19677777777777777,
      "grad_norm": 1.2316629886627197,
      "learning_rate": 0.00016068015114469882,
      "loss": 2.2027,
      "step": 8855
    },
    {
      "epoch": 0.1968,
      "grad_norm": 1.3661664724349976,
      "learning_rate": 0.00016067570571238053,
      "loss": 1.9616,
      "step": 8856
    },
    {
      "epoch": 0.19682222222222223,
      "grad_norm": 1.7286781072616577,
      "learning_rate": 0.00016067126028006224,
      "loss": 1.9725,
      "step": 8857
    },
    {
      "epoch": 0.19684444444444443,
      "grad_norm": 1.4318417310714722,
      "learning_rate": 0.00016066681484774395,
      "loss": 2.2015,
      "step": 8858
    },
    {
      "epoch": 0.19686666666666666,
      "grad_norm": 1.2868053913116455,
      "learning_rate": 0.00016066236941542566,
      "loss": 2.1578,
      "step": 8859
    },
    {
      "epoch": 0.1968888888888889,
      "grad_norm": 1.2190994024276733,
      "learning_rate": 0.00016065792398310737,
      "loss": 1.7941,
      "step": 8860
    },
    {
      "epoch": 0.19691111111111112,
      "grad_norm": 1.8559242486953735,
      "learning_rate": 0.00016065347855078908,
      "loss": 1.963,
      "step": 8861
    },
    {
      "epoch": 0.19693333333333332,
      "grad_norm": 1.4615473747253418,
      "learning_rate": 0.00016064903311847076,
      "loss": 1.9406,
      "step": 8862
    },
    {
      "epoch": 0.19695555555555555,
      "grad_norm": 1.590375304222107,
      "learning_rate": 0.0001606445876861525,
      "loss": 2.5852,
      "step": 8863
    },
    {
      "epoch": 0.19697777777777778,
      "grad_norm": 1.2315796613693237,
      "learning_rate": 0.00016064014225383418,
      "loss": 2.1194,
      "step": 8864
    },
    {
      "epoch": 0.197,
      "grad_norm": 1.3347989320755005,
      "learning_rate": 0.0001606356968215159,
      "loss": 1.5997,
      "step": 8865
    },
    {
      "epoch": 0.1970222222222222,
      "grad_norm": 1.6038898229599,
      "learning_rate": 0.0001606312513891976,
      "loss": 2.4022,
      "step": 8866
    },
    {
      "epoch": 0.19704444444444444,
      "grad_norm": 2.5012781620025635,
      "learning_rate": 0.0001606268059568793,
      "loss": 2.2425,
      "step": 8867
    },
    {
      "epoch": 0.19706666666666667,
      "grad_norm": 1.4912981986999512,
      "learning_rate": 0.00016062236052456102,
      "loss": 1.8379,
      "step": 8868
    },
    {
      "epoch": 0.1970888888888889,
      "grad_norm": 1.5958869457244873,
      "learning_rate": 0.00016061791509224273,
      "loss": 1.8057,
      "step": 8869
    },
    {
      "epoch": 0.1971111111111111,
      "grad_norm": 1.4618762731552124,
      "learning_rate": 0.00016061346965992444,
      "loss": 2.0162,
      "step": 8870
    },
    {
      "epoch": 0.19713333333333333,
      "grad_norm": 1.6565284729003906,
      "learning_rate": 0.00016060902422760615,
      "loss": 2.4277,
      "step": 8871
    },
    {
      "epoch": 0.19715555555555556,
      "grad_norm": 1.584268569946289,
      "learning_rate": 0.00016060457879528786,
      "loss": 2.2635,
      "step": 8872
    },
    {
      "epoch": 0.19717777777777779,
      "grad_norm": 1.5253233909606934,
      "learning_rate": 0.00016060013336296954,
      "loss": 2.121,
      "step": 8873
    },
    {
      "epoch": 0.1972,
      "grad_norm": 1.7980573177337646,
      "learning_rate": 0.00016059568793065128,
      "loss": 2.4362,
      "step": 8874
    },
    {
      "epoch": 0.19722222222222222,
      "grad_norm": 1.5458210706710815,
      "learning_rate": 0.00016059124249833296,
      "loss": 2.7671,
      "step": 8875
    },
    {
      "epoch": 0.19724444444444444,
      "grad_norm": 1.9041553735733032,
      "learning_rate": 0.00016058679706601467,
      "loss": 2.1494,
      "step": 8876
    },
    {
      "epoch": 0.19726666666666667,
      "grad_norm": 1.7514910697937012,
      "learning_rate": 0.0001605823516336964,
      "loss": 2.3347,
      "step": 8877
    },
    {
      "epoch": 0.1972888888888889,
      "grad_norm": 1.5218582153320312,
      "learning_rate": 0.0001605779062013781,
      "loss": 2.1069,
      "step": 8878
    },
    {
      "epoch": 0.1973111111111111,
      "grad_norm": 1.53205144405365,
      "learning_rate": 0.0001605734607690598,
      "loss": 2.1775,
      "step": 8879
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 1.436687707901001,
      "learning_rate": 0.0001605690153367415,
      "loss": 1.907,
      "step": 8880
    },
    {
      "epoch": 0.19735555555555556,
      "grad_norm": 1.41912043094635,
      "learning_rate": 0.00016056456990442322,
      "loss": 2.0479,
      "step": 8881
    },
    {
      "epoch": 0.1973777777777778,
      "grad_norm": 1.577770709991455,
      "learning_rate": 0.0001605601244721049,
      "loss": 1.9548,
      "step": 8882
    },
    {
      "epoch": 0.1974,
      "grad_norm": 1.45920729637146,
      "learning_rate": 0.00016055567903978664,
      "loss": 2.0609,
      "step": 8883
    },
    {
      "epoch": 0.19742222222222222,
      "grad_norm": 1.6345210075378418,
      "learning_rate": 0.00016055123360746835,
      "loss": 1.8923,
      "step": 8884
    },
    {
      "epoch": 0.19744444444444445,
      "grad_norm": 1.6010243892669678,
      "learning_rate": 0.00016054678817515003,
      "loss": 2.0902,
      "step": 8885
    },
    {
      "epoch": 0.19746666666666668,
      "grad_norm": 2.5586650371551514,
      "learning_rate": 0.00016054234274283176,
      "loss": 0.1185,
      "step": 8886
    },
    {
      "epoch": 0.19748888888888888,
      "grad_norm": 1.7441062927246094,
      "learning_rate": 0.00016053789731051345,
      "loss": 1.7025,
      "step": 8887
    },
    {
      "epoch": 0.1975111111111111,
      "grad_norm": 1.2396602630615234,
      "learning_rate": 0.00016053345187819516,
      "loss": 1.6383,
      "step": 8888
    },
    {
      "epoch": 0.19753333333333334,
      "grad_norm": 1.6614725589752197,
      "learning_rate": 0.00016052900644587687,
      "loss": 1.8877,
      "step": 8889
    },
    {
      "epoch": 0.19755555555555557,
      "grad_norm": 1.4251753091812134,
      "learning_rate": 0.00016052456101355858,
      "loss": 1.7607,
      "step": 8890
    },
    {
      "epoch": 0.19757777777777777,
      "grad_norm": 1.3638217449188232,
      "learning_rate": 0.00016052011558124029,
      "loss": 1.9515,
      "step": 8891
    },
    {
      "epoch": 0.1976,
      "grad_norm": 1.6950773000717163,
      "learning_rate": 0.000160515670148922,
      "loss": 1.6535,
      "step": 8892
    },
    {
      "epoch": 0.19762222222222223,
      "grad_norm": 1.573378562927246,
      "learning_rate": 0.0001605112247166037,
      "loss": 1.5902,
      "step": 8893
    },
    {
      "epoch": 0.19764444444444446,
      "grad_norm": 1.4890778064727783,
      "learning_rate": 0.00016050677928428541,
      "loss": 1.7607,
      "step": 8894
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 1.4893414974212646,
      "learning_rate": 0.00016050233385196712,
      "loss": 1.4636,
      "step": 8895
    },
    {
      "epoch": 0.1976888888888889,
      "grad_norm": 1.6053639650344849,
      "learning_rate": 0.0001604978884196488,
      "loss": 1.852,
      "step": 8896
    },
    {
      "epoch": 0.19771111111111112,
      "grad_norm": 1.4836851358413696,
      "learning_rate": 0.00016049344298733054,
      "loss": 1.9442,
      "step": 8897
    },
    {
      "epoch": 0.19773333333333334,
      "grad_norm": 1.7412222623825073,
      "learning_rate": 0.00016048899755501223,
      "loss": 1.6347,
      "step": 8898
    },
    {
      "epoch": 0.19775555555555555,
      "grad_norm": 1.1278308629989624,
      "learning_rate": 0.00016048455212269394,
      "loss": 0.8653,
      "step": 8899
    },
    {
      "epoch": 0.19777777777777777,
      "grad_norm": 1.4731796979904175,
      "learning_rate": 0.00016048010669037565,
      "loss": 1.6266,
      "step": 8900
    },
    {
      "epoch": 0.1978,
      "grad_norm": 1.6471662521362305,
      "learning_rate": 0.00016047566125805735,
      "loss": 2.4565,
      "step": 8901
    },
    {
      "epoch": 0.19782222222222223,
      "grad_norm": 1.0174249410629272,
      "learning_rate": 0.00016047121582573906,
      "loss": 1.3151,
      "step": 8902
    },
    {
      "epoch": 0.19784444444444443,
      "grad_norm": 1.2723349332809448,
      "learning_rate": 0.00016046677039342077,
      "loss": 1.8873,
      "step": 8903
    },
    {
      "epoch": 0.19786666666666666,
      "grad_norm": 1.0452040433883667,
      "learning_rate": 0.00016046232496110248,
      "loss": 1.4854,
      "step": 8904
    },
    {
      "epoch": 0.1978888888888889,
      "grad_norm": 1.2965885400772095,
      "learning_rate": 0.00016045787952878417,
      "loss": 1.9948,
      "step": 8905
    },
    {
      "epoch": 0.19791111111111112,
      "grad_norm": 1.3113256692886353,
      "learning_rate": 0.0001604534340964659,
      "loss": 2.0933,
      "step": 8906
    },
    {
      "epoch": 0.19793333333333332,
      "grad_norm": 1.4194138050079346,
      "learning_rate": 0.00016044898866414759,
      "loss": 2.5448,
      "step": 8907
    },
    {
      "epoch": 0.19795555555555555,
      "grad_norm": 1.6001726388931274,
      "learning_rate": 0.00016044454323182932,
      "loss": 2.4794,
      "step": 8908
    },
    {
      "epoch": 0.19797777777777778,
      "grad_norm": 1.372387170791626,
      "learning_rate": 0.000160440097799511,
      "loss": 2.153,
      "step": 8909
    },
    {
      "epoch": 0.198,
      "grad_norm": 1.2532343864440918,
      "learning_rate": 0.00016043565236719271,
      "loss": 2.1452,
      "step": 8910
    },
    {
      "epoch": 0.1980222222222222,
      "grad_norm": 1.446756362915039,
      "learning_rate": 0.00016043120693487442,
      "loss": 2.4764,
      "step": 8911
    },
    {
      "epoch": 0.19804444444444444,
      "grad_norm": 1.6300145387649536,
      "learning_rate": 0.00016042676150255613,
      "loss": 1.9081,
      "step": 8912
    },
    {
      "epoch": 0.19806666666666667,
      "grad_norm": 1.1938426494598389,
      "learning_rate": 0.00016042231607023784,
      "loss": 2.024,
      "step": 8913
    },
    {
      "epoch": 0.1980888888888889,
      "grad_norm": 1.3895323276519775,
      "learning_rate": 0.00016041787063791955,
      "loss": 2.336,
      "step": 8914
    },
    {
      "epoch": 0.1981111111111111,
      "grad_norm": 1.590458869934082,
      "learning_rate": 0.00016041342520560126,
      "loss": 2.3669,
      "step": 8915
    },
    {
      "epoch": 0.19813333333333333,
      "grad_norm": 1.2857924699783325,
      "learning_rate": 0.00016040897977328294,
      "loss": 1.8086,
      "step": 8916
    },
    {
      "epoch": 0.19815555555555556,
      "grad_norm": 2.2356600761413574,
      "learning_rate": 0.00016040453434096468,
      "loss": 1.9746,
      "step": 8917
    },
    {
      "epoch": 0.19817777777777779,
      "grad_norm": 1.1916083097457886,
      "learning_rate": 0.00016040008890864636,
      "loss": 1.0026,
      "step": 8918
    },
    {
      "epoch": 0.1982,
      "grad_norm": 1.172357201576233,
      "learning_rate": 0.00016039564347632807,
      "loss": 1.3837,
      "step": 8919
    },
    {
      "epoch": 0.19822222222222222,
      "grad_norm": 1.354681372642517,
      "learning_rate": 0.00016039119804400978,
      "loss": 1.7028,
      "step": 8920
    },
    {
      "epoch": 0.19824444444444445,
      "grad_norm": 1.6091845035552979,
      "learning_rate": 0.0001603867526116915,
      "loss": 1.7263,
      "step": 8921
    },
    {
      "epoch": 0.19826666666666667,
      "grad_norm": 1.602555274963379,
      "learning_rate": 0.0001603823071793732,
      "loss": 2.1929,
      "step": 8922
    },
    {
      "epoch": 0.19828888888888888,
      "grad_norm": 1.4457834959030151,
      "learning_rate": 0.0001603778617470549,
      "loss": 1.7448,
      "step": 8923
    },
    {
      "epoch": 0.1983111111111111,
      "grad_norm": 1.4321720600128174,
      "learning_rate": 0.00016037341631473662,
      "loss": 1.9307,
      "step": 8924
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 1.4434213638305664,
      "learning_rate": 0.0001603689708824183,
      "loss": 1.9852,
      "step": 8925
    },
    {
      "epoch": 0.19835555555555556,
      "grad_norm": 1.474332571029663,
      "learning_rate": 0.00016036452545010004,
      "loss": 1.9693,
      "step": 8926
    },
    {
      "epoch": 0.19837777777777776,
      "grad_norm": 1.581830382347107,
      "learning_rate": 0.00016036008001778172,
      "loss": 1.5457,
      "step": 8927
    },
    {
      "epoch": 0.1984,
      "grad_norm": 1.5861331224441528,
      "learning_rate": 0.00016035563458546346,
      "loss": 2.2933,
      "step": 8928
    },
    {
      "epoch": 0.19842222222222222,
      "grad_norm": 1.4096455574035645,
      "learning_rate": 0.00016035118915314514,
      "loss": 1.9108,
      "step": 8929
    },
    {
      "epoch": 0.19844444444444445,
      "grad_norm": 1.2930505275726318,
      "learning_rate": 0.00016034674372082685,
      "loss": 2.0736,
      "step": 8930
    },
    {
      "epoch": 0.19846666666666668,
      "grad_norm": 1.2582811117172241,
      "learning_rate": 0.00016034229828850856,
      "loss": 1.6121,
      "step": 8931
    },
    {
      "epoch": 0.19848888888888888,
      "grad_norm": 1.8062822818756104,
      "learning_rate": 0.00016033785285619027,
      "loss": 2.5999,
      "step": 8932
    },
    {
      "epoch": 0.1985111111111111,
      "grad_norm": 1.6406868696212769,
      "learning_rate": 0.00016033340742387198,
      "loss": 1.863,
      "step": 8933
    },
    {
      "epoch": 0.19853333333333334,
      "grad_norm": 1.430997371673584,
      "learning_rate": 0.0001603289619915537,
      "loss": 1.9598,
      "step": 8934
    },
    {
      "epoch": 0.19855555555555557,
      "grad_norm": 1.5614858865737915,
      "learning_rate": 0.0001603245165592354,
      "loss": 2.2565,
      "step": 8935
    },
    {
      "epoch": 0.19857777777777777,
      "grad_norm": 1.24774968624115,
      "learning_rate": 0.00016032007112691708,
      "loss": 1.8872,
      "step": 8936
    },
    {
      "epoch": 0.1986,
      "grad_norm": 1.4954845905303955,
      "learning_rate": 0.00016031562569459882,
      "loss": 2.2983,
      "step": 8937
    },
    {
      "epoch": 0.19862222222222223,
      "grad_norm": 1.2304917573928833,
      "learning_rate": 0.0001603111802622805,
      "loss": 1.3674,
      "step": 8938
    },
    {
      "epoch": 0.19864444444444446,
      "grad_norm": 1.381977915763855,
      "learning_rate": 0.0001603067348299622,
      "loss": 1.7787,
      "step": 8939
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 1.5112680196762085,
      "learning_rate": 0.00016030228939764392,
      "loss": 1.8926,
      "step": 8940
    },
    {
      "epoch": 0.1986888888888889,
      "grad_norm": 1.456217646598816,
      "learning_rate": 0.00016029784396532563,
      "loss": 1.7261,
      "step": 8941
    },
    {
      "epoch": 0.19871111111111112,
      "grad_norm": 1.4797818660736084,
      "learning_rate": 0.00016029339853300734,
      "loss": 1.8872,
      "step": 8942
    },
    {
      "epoch": 0.19873333333333335,
      "grad_norm": 1.9372698068618774,
      "learning_rate": 0.00016028895310068905,
      "loss": 2.4362,
      "step": 8943
    },
    {
      "epoch": 0.19875555555555555,
      "grad_norm": 1.9369630813598633,
      "learning_rate": 0.00016028450766837076,
      "loss": 2.126,
      "step": 8944
    },
    {
      "epoch": 0.19877777777777778,
      "grad_norm": 1.6905467510223389,
      "learning_rate": 0.00016028006223605244,
      "loss": 2.0729,
      "step": 8945
    },
    {
      "epoch": 0.1988,
      "grad_norm": 1.3942300081253052,
      "learning_rate": 0.00016027561680373418,
      "loss": 1.6838,
      "step": 8946
    },
    {
      "epoch": 0.19882222222222223,
      "grad_norm": 1.653606653213501,
      "learning_rate": 0.00016027117137141586,
      "loss": 2.1529,
      "step": 8947
    },
    {
      "epoch": 0.19884444444444443,
      "grad_norm": 1.794325590133667,
      "learning_rate": 0.0001602667259390976,
      "loss": 1.9091,
      "step": 8948
    },
    {
      "epoch": 0.19886666666666666,
      "grad_norm": 1.6187481880187988,
      "learning_rate": 0.00016026228050677928,
      "loss": 1.7888,
      "step": 8949
    },
    {
      "epoch": 0.1988888888888889,
      "grad_norm": 1.4151077270507812,
      "learning_rate": 0.000160257835074461,
      "loss": 1.4135,
      "step": 8950
    },
    {
      "epoch": 0.19891111111111112,
      "grad_norm": 1.2719594240188599,
      "learning_rate": 0.00016025338964214273,
      "loss": 2.6268,
      "step": 8951
    },
    {
      "epoch": 0.19893333333333332,
      "grad_norm": 1.0701655149459839,
      "learning_rate": 0.0001602489442098244,
      "loss": 1.2606,
      "step": 8952
    },
    {
      "epoch": 0.19895555555555555,
      "grad_norm": 1.3833611011505127,
      "learning_rate": 0.00016024449877750612,
      "loss": 2.5744,
      "step": 8953
    },
    {
      "epoch": 0.19897777777777778,
      "grad_norm": 1.9002653360366821,
      "learning_rate": 0.00016024005334518783,
      "loss": 1.5053,
      "step": 8954
    },
    {
      "epoch": 0.199,
      "grad_norm": 1.2223665714263916,
      "learning_rate": 0.00016023560791286954,
      "loss": 2.0414,
      "step": 8955
    },
    {
      "epoch": 0.1990222222222222,
      "grad_norm": 1.5804204940795898,
      "learning_rate": 0.00016023116248055122,
      "loss": 2.3069,
      "step": 8956
    },
    {
      "epoch": 0.19904444444444444,
      "grad_norm": 1.6052734851837158,
      "learning_rate": 0.00016022671704823296,
      "loss": 1.9603,
      "step": 8957
    },
    {
      "epoch": 0.19906666666666667,
      "grad_norm": 2.3455810546875,
      "learning_rate": 0.00016022227161591467,
      "loss": 2.9062,
      "step": 8958
    },
    {
      "epoch": 0.1990888888888889,
      "grad_norm": 1.3541139364242554,
      "learning_rate": 0.00016021782618359635,
      "loss": 2.2802,
      "step": 8959
    },
    {
      "epoch": 0.1991111111111111,
      "grad_norm": 1.3381688594818115,
      "learning_rate": 0.0001602133807512781,
      "loss": 1.935,
      "step": 8960
    },
    {
      "epoch": 0.19913333333333333,
      "grad_norm": 1.6739654541015625,
      "learning_rate": 0.00016020893531895977,
      "loss": 2.1102,
      "step": 8961
    },
    {
      "epoch": 0.19915555555555556,
      "grad_norm": 1.4852409362792969,
      "learning_rate": 0.00016020448988664148,
      "loss": 1.9379,
      "step": 8962
    },
    {
      "epoch": 0.1991777777777778,
      "grad_norm": 1.3518850803375244,
      "learning_rate": 0.0001602000444543232,
      "loss": 2.0531,
      "step": 8963
    },
    {
      "epoch": 0.1992,
      "grad_norm": 1.3675975799560547,
      "learning_rate": 0.0001601955990220049,
      "loss": 2.5176,
      "step": 8964
    },
    {
      "epoch": 0.19922222222222222,
      "grad_norm": 1.6372281312942505,
      "learning_rate": 0.0001601911535896866,
      "loss": 2.067,
      "step": 8965
    },
    {
      "epoch": 0.19924444444444445,
      "grad_norm": 1.015426516532898,
      "learning_rate": 0.00016018670815736832,
      "loss": 1.2744,
      "step": 8966
    },
    {
      "epoch": 0.19926666666666668,
      "grad_norm": 1.002403974533081,
      "learning_rate": 0.00016018226272505003,
      "loss": 0.8349,
      "step": 8967
    },
    {
      "epoch": 0.19928888888888888,
      "grad_norm": 1.5993839502334595,
      "learning_rate": 0.00016017781729273174,
      "loss": 1.986,
      "step": 8968
    },
    {
      "epoch": 0.1993111111111111,
      "grad_norm": 1.5731579065322876,
      "learning_rate": 0.00016017337186041345,
      "loss": 2.7722,
      "step": 8969
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 1.5354409217834473,
      "learning_rate": 0.00016016892642809513,
      "loss": 2.239,
      "step": 8970
    },
    {
      "epoch": 0.19935555555555556,
      "grad_norm": 1.702284336090088,
      "learning_rate": 0.00016016448099577687,
      "loss": 2.4162,
      "step": 8971
    },
    {
      "epoch": 0.19937777777777776,
      "grad_norm": 1.6405575275421143,
      "learning_rate": 0.00016016003556345855,
      "loss": 1.1595,
      "step": 8972
    },
    {
      "epoch": 0.1994,
      "grad_norm": 1.3632292747497559,
      "learning_rate": 0.00016015559013114026,
      "loss": 1.6012,
      "step": 8973
    },
    {
      "epoch": 0.19942222222222222,
      "grad_norm": 1.2570064067840576,
      "learning_rate": 0.00016015114469882197,
      "loss": 1.675,
      "step": 8974
    },
    {
      "epoch": 0.19944444444444445,
      "grad_norm": 1.4312752485275269,
      "learning_rate": 0.00016014669926650368,
      "loss": 1.8011,
      "step": 8975
    },
    {
      "epoch": 0.19946666666666665,
      "grad_norm": 1.7981582880020142,
      "learning_rate": 0.0001601422538341854,
      "loss": 2.3076,
      "step": 8976
    },
    {
      "epoch": 0.19948888888888888,
      "grad_norm": 0.9260802865028381,
      "learning_rate": 0.0001601378084018671,
      "loss": 0.7381,
      "step": 8977
    },
    {
      "epoch": 0.1995111111111111,
      "grad_norm": 1.3722440004348755,
      "learning_rate": 0.0001601333629695488,
      "loss": 1.6542,
      "step": 8978
    },
    {
      "epoch": 0.19953333333333334,
      "grad_norm": 1.7835733890533447,
      "learning_rate": 0.0001601289175372305,
      "loss": 2.162,
      "step": 8979
    },
    {
      "epoch": 0.19955555555555557,
      "grad_norm": 1.3221828937530518,
      "learning_rate": 0.00016012447210491223,
      "loss": 1.6311,
      "step": 8980
    },
    {
      "epoch": 0.19957777777777777,
      "grad_norm": 2.165742874145508,
      "learning_rate": 0.0001601200266725939,
      "loss": 2.011,
      "step": 8981
    },
    {
      "epoch": 0.1996,
      "grad_norm": 1.6718569993972778,
      "learning_rate": 0.00016011558124027562,
      "loss": 1.8798,
      "step": 8982
    },
    {
      "epoch": 0.19962222222222223,
      "grad_norm": 1.3877702951431274,
      "learning_rate": 0.00016011113580795733,
      "loss": 1.8553,
      "step": 8983
    },
    {
      "epoch": 0.19964444444444446,
      "grad_norm": 1.6922990083694458,
      "learning_rate": 0.00016010669037563904,
      "loss": 1.9438,
      "step": 8984
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 1.6120389699935913,
      "learning_rate": 0.00016010224494332075,
      "loss": 2.2236,
      "step": 8985
    },
    {
      "epoch": 0.1996888888888889,
      "grad_norm": 1.3666599988937378,
      "learning_rate": 0.00016009779951100246,
      "loss": 1.7085,
      "step": 8986
    },
    {
      "epoch": 0.19971111111111112,
      "grad_norm": 1.1523014307022095,
      "learning_rate": 0.00016009335407868417,
      "loss": 1.2315,
      "step": 8987
    },
    {
      "epoch": 0.19973333333333335,
      "grad_norm": 1.5320245027542114,
      "learning_rate": 0.00016008890864636587,
      "loss": 1.8333,
      "step": 8988
    },
    {
      "epoch": 0.19975555555555555,
      "grad_norm": 1.3471378087997437,
      "learning_rate": 0.00016008446321404758,
      "loss": 1.5166,
      "step": 8989
    },
    {
      "epoch": 0.19977777777777778,
      "grad_norm": 1.225112795829773,
      "learning_rate": 0.00016008001778172927,
      "loss": 1.5539,
      "step": 8990
    },
    {
      "epoch": 0.1998,
      "grad_norm": 1.6198844909667969,
      "learning_rate": 0.000160075572349411,
      "loss": 1.8249,
      "step": 8991
    },
    {
      "epoch": 0.19982222222222223,
      "grad_norm": 1.5911015272140503,
      "learning_rate": 0.00016007112691709269,
      "loss": 2.1256,
      "step": 8992
    },
    {
      "epoch": 0.19984444444444444,
      "grad_norm": 1.6363505125045776,
      "learning_rate": 0.0001600666814847744,
      "loss": 2.1578,
      "step": 8993
    },
    {
      "epoch": 0.19986666666666666,
      "grad_norm": 2.003692388534546,
      "learning_rate": 0.0001600622360524561,
      "loss": 2.2789,
      "step": 8994
    },
    {
      "epoch": 0.1998888888888889,
      "grad_norm": 1.5338563919067383,
      "learning_rate": 0.00016005779062013782,
      "loss": 1.6446,
      "step": 8995
    },
    {
      "epoch": 0.19991111111111112,
      "grad_norm": 1.5412899255752563,
      "learning_rate": 0.00016005334518781952,
      "loss": 1.5745,
      "step": 8996
    },
    {
      "epoch": 0.19993333333333332,
      "grad_norm": 1.7147197723388672,
      "learning_rate": 0.00016004889975550123,
      "loss": 1.7967,
      "step": 8997
    },
    {
      "epoch": 0.19995555555555555,
      "grad_norm": 2.1076908111572266,
      "learning_rate": 0.00016004445432318294,
      "loss": 1.6946,
      "step": 8998
    },
    {
      "epoch": 0.19997777777777778,
      "grad_norm": 1.473089575767517,
      "learning_rate": 0.00016004000889086463,
      "loss": 1.4462,
      "step": 8999
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.8804346323013306,
      "learning_rate": 0.00016003556345854636,
      "loss": 2.0633,
      "step": 9000
    },
    {
      "epoch": 0.2,
      "eval_loss": 1.9509128332138062,
      "eval_runtime": 2159.5181,
      "eval_samples_per_second": 4.631,
      "eval_steps_per_second": 4.631,
      "step": 9000
    },
    {
      "epoch": 0.2000222222222222,
      "grad_norm": 1.3087486028671265,
      "learning_rate": 0.00016003111802622805,
      "loss": 2.2991,
      "step": 9001
    },
    {
      "epoch": 0.20004444444444444,
      "grad_norm": 1.2956759929656982,
      "learning_rate": 0.00016002667259390976,
      "loss": 2.8681,
      "step": 9002
    },
    {
      "epoch": 0.20006666666666667,
      "grad_norm": 1.4519966840744019,
      "learning_rate": 0.00016002222716159146,
      "loss": 2.1824,
      "step": 9003
    },
    {
      "epoch": 0.2000888888888889,
      "grad_norm": 1.192240595817566,
      "learning_rate": 0.00016001778172927317,
      "loss": 1.4285,
      "step": 9004
    },
    {
      "epoch": 0.2001111111111111,
      "grad_norm": 1.3298516273498535,
      "learning_rate": 0.00016001333629695488,
      "loss": 2.2948,
      "step": 9005
    },
    {
      "epoch": 0.20013333333333333,
      "grad_norm": 1.3267590999603271,
      "learning_rate": 0.0001600088908646366,
      "loss": 2.4343,
      "step": 9006
    },
    {
      "epoch": 0.20015555555555556,
      "grad_norm": 1.2908689975738525,
      "learning_rate": 0.0001600044454323183,
      "loss": 2.1702,
      "step": 9007
    },
    {
      "epoch": 0.2001777777777778,
      "grad_norm": 1.272080898284912,
      "learning_rate": 0.00016,
      "loss": 2.1392,
      "step": 9008
    },
    {
      "epoch": 0.2002,
      "grad_norm": 1.5347405672073364,
      "learning_rate": 0.00015999555456768172,
      "loss": 1.9895,
      "step": 9009
    },
    {
      "epoch": 0.20022222222222222,
      "grad_norm": 5.930446624755859,
      "learning_rate": 0.0001599911091353634,
      "loss": 1.3938,
      "step": 9010
    },
    {
      "epoch": 0.20024444444444445,
      "grad_norm": 1.2586164474487305,
      "learning_rate": 0.00015998666370304514,
      "loss": 2.2622,
      "step": 9011
    },
    {
      "epoch": 0.20026666666666668,
      "grad_norm": 1.4575921297073364,
      "learning_rate": 0.00015998221827072682,
      "loss": 2.3554,
      "step": 9012
    },
    {
      "epoch": 0.20028888888888888,
      "grad_norm": 1.413556694984436,
      "learning_rate": 0.00015997777283840853,
      "loss": 2.4879,
      "step": 9013
    },
    {
      "epoch": 0.2003111111111111,
      "grad_norm": 1.2079952955245972,
      "learning_rate": 0.00015997332740609024,
      "loss": 1.9986,
      "step": 9014
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 1.1936324834823608,
      "learning_rate": 0.00015996888197377195,
      "loss": 2.2053,
      "step": 9015
    },
    {
      "epoch": 0.20035555555555556,
      "grad_norm": 1.3849161863327026,
      "learning_rate": 0.00015996443654145366,
      "loss": 2.3312,
      "step": 9016
    },
    {
      "epoch": 0.20037777777777777,
      "grad_norm": 1.651572823524475,
      "learning_rate": 0.00015995999110913537,
      "loss": 2.481,
      "step": 9017
    },
    {
      "epoch": 0.2004,
      "grad_norm": 1.283522129058838,
      "learning_rate": 0.00015995554567681708,
      "loss": 1.7339,
      "step": 9018
    },
    {
      "epoch": 0.20042222222222222,
      "grad_norm": 1.372992753982544,
      "learning_rate": 0.00015995110024449876,
      "loss": 2.3041,
      "step": 9019
    },
    {
      "epoch": 0.20044444444444445,
      "grad_norm": 1.3854197263717651,
      "learning_rate": 0.0001599466548121805,
      "loss": 1.7221,
      "step": 9020
    },
    {
      "epoch": 0.20046666666666665,
      "grad_norm": 1.336735725402832,
      "learning_rate": 0.00015994220937986218,
      "loss": 1.9636,
      "step": 9021
    },
    {
      "epoch": 0.20048888888888888,
      "grad_norm": 1.9183659553527832,
      "learning_rate": 0.00015993776394754392,
      "loss": 2.053,
      "step": 9022
    },
    {
      "epoch": 0.2005111111111111,
      "grad_norm": 1.4398934841156006,
      "learning_rate": 0.0001599333185152256,
      "loss": 2.001,
      "step": 9023
    },
    {
      "epoch": 0.20053333333333334,
      "grad_norm": 1.270336389541626,
      "learning_rate": 0.0001599288730829073,
      "loss": 1.7064,
      "step": 9024
    },
    {
      "epoch": 0.20055555555555554,
      "grad_norm": 1.3761883974075317,
      "learning_rate": 0.00015992442765058905,
      "loss": 1.6889,
      "step": 9025
    },
    {
      "epoch": 0.20057777777777777,
      "grad_norm": 1.5068016052246094,
      "learning_rate": 0.00015991998221827073,
      "loss": 1.7759,
      "step": 9026
    },
    {
      "epoch": 0.2006,
      "grad_norm": 1.4544786214828491,
      "learning_rate": 0.00015991553678595244,
      "loss": 1.8201,
      "step": 9027
    },
    {
      "epoch": 0.20062222222222223,
      "grad_norm": 1.7981239557266235,
      "learning_rate": 0.00015991109135363415,
      "loss": 1.8922,
      "step": 9028
    },
    {
      "epoch": 0.20064444444444443,
      "grad_norm": 1.2298849821090698,
      "learning_rate": 0.00015990664592131586,
      "loss": 1.6858,
      "step": 9029
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 1.3261635303497314,
      "learning_rate": 0.00015990220048899754,
      "loss": 1.7826,
      "step": 9030
    },
    {
      "epoch": 0.2006888888888889,
      "grad_norm": 1.3016366958618164,
      "learning_rate": 0.00015989775505667928,
      "loss": 2.0656,
      "step": 9031
    },
    {
      "epoch": 0.20071111111111112,
      "grad_norm": 0.9184116721153259,
      "learning_rate": 0.000159893309624361,
      "loss": 1.0259,
      "step": 9032
    },
    {
      "epoch": 0.20073333333333335,
      "grad_norm": 1.492599368095398,
      "learning_rate": 0.00015988886419204267,
      "loss": 2.1679,
      "step": 9033
    },
    {
      "epoch": 0.20075555555555555,
      "grad_norm": 1.812310814857483,
      "learning_rate": 0.0001598844187597244,
      "loss": 2.3328,
      "step": 9034
    },
    {
      "epoch": 0.20077777777777778,
      "grad_norm": 1.5147866010665894,
      "learning_rate": 0.0001598799733274061,
      "loss": 2.0588,
      "step": 9035
    },
    {
      "epoch": 0.2008,
      "grad_norm": 1.5687507390975952,
      "learning_rate": 0.0001598755278950878,
      "loss": 1.9089,
      "step": 9036
    },
    {
      "epoch": 0.20082222222222224,
      "grad_norm": 1.6181747913360596,
      "learning_rate": 0.0001598710824627695,
      "loss": 1.7058,
      "step": 9037
    },
    {
      "epoch": 0.20084444444444444,
      "grad_norm": 1.1781748533248901,
      "learning_rate": 0.00015986663703045122,
      "loss": 1.0303,
      "step": 9038
    },
    {
      "epoch": 0.20086666666666667,
      "grad_norm": 1.1336872577667236,
      "learning_rate": 0.0001598621915981329,
      "loss": 1.1849,
      "step": 9039
    },
    {
      "epoch": 0.2008888888888889,
      "grad_norm": 1.632083773612976,
      "learning_rate": 0.00015985774616581464,
      "loss": 2.0135,
      "step": 9040
    },
    {
      "epoch": 0.20091111111111112,
      "grad_norm": 1.4387280941009521,
      "learning_rate": 0.00015985330073349635,
      "loss": 1.9181,
      "step": 9041
    },
    {
      "epoch": 0.20093333333333332,
      "grad_norm": 1.4359643459320068,
      "learning_rate": 0.00015984885530117806,
      "loss": 1.4738,
      "step": 9042
    },
    {
      "epoch": 0.20095555555555555,
      "grad_norm": 1.5875396728515625,
      "learning_rate": 0.00015984440986885977,
      "loss": 2.0244,
      "step": 9043
    },
    {
      "epoch": 0.20097777777777778,
      "grad_norm": 1.5327433347702026,
      "learning_rate": 0.00015983996443654145,
      "loss": 1.7447,
      "step": 9044
    },
    {
      "epoch": 0.201,
      "grad_norm": 1.3384435176849365,
      "learning_rate": 0.0001598355190042232,
      "loss": 1.5106,
      "step": 9045
    },
    {
      "epoch": 0.2010222222222222,
      "grad_norm": 1.3837519884109497,
      "learning_rate": 0.00015983107357190487,
      "loss": 2.032,
      "step": 9046
    },
    {
      "epoch": 0.20104444444444444,
      "grad_norm": 1.6776188611984253,
      "learning_rate": 0.00015982662813958658,
      "loss": 2.0738,
      "step": 9047
    },
    {
      "epoch": 0.20106666666666667,
      "grad_norm": 1.9671610593795776,
      "learning_rate": 0.0001598221827072683,
      "loss": 1.3297,
      "step": 9048
    },
    {
      "epoch": 0.2010888888888889,
      "grad_norm": 1.7845664024353027,
      "learning_rate": 0.00015981773727495,
      "loss": 1.4144,
      "step": 9049
    },
    {
      "epoch": 0.2011111111111111,
      "grad_norm": 1.396486520767212,
      "learning_rate": 0.0001598132918426317,
      "loss": 1.6549,
      "step": 9050
    },
    {
      "epoch": 0.20113333333333333,
      "grad_norm": 1.1573082208633423,
      "learning_rate": 0.00015980884641031342,
      "loss": 2.2177,
      "step": 9051
    },
    {
      "epoch": 0.20115555555555556,
      "grad_norm": 0.800317108631134,
      "learning_rate": 0.00015980440097799513,
      "loss": 0.9438,
      "step": 9052
    },
    {
      "epoch": 0.2011777777777778,
      "grad_norm": 1.2202497720718384,
      "learning_rate": 0.0001597999555456768,
      "loss": 1.6674,
      "step": 9053
    },
    {
      "epoch": 0.2012,
      "grad_norm": 1.356947898864746,
      "learning_rate": 0.00015979551011335855,
      "loss": 2.24,
      "step": 9054
    },
    {
      "epoch": 0.20122222222222222,
      "grad_norm": 1.4248605966567993,
      "learning_rate": 0.00015979106468104023,
      "loss": 2.419,
      "step": 9055
    },
    {
      "epoch": 0.20124444444444445,
      "grad_norm": 1.7280259132385254,
      "learning_rate": 0.00015978661924872194,
      "loss": 3.2798,
      "step": 9056
    },
    {
      "epoch": 0.20126666666666668,
      "grad_norm": 1.2560077905654907,
      "learning_rate": 0.00015978217381640365,
      "loss": 2.0657,
      "step": 9057
    },
    {
      "epoch": 0.20128888888888888,
      "grad_norm": 1.7206294536590576,
      "learning_rate": 0.00015977772838408536,
      "loss": 2.2224,
      "step": 9058
    },
    {
      "epoch": 0.2013111111111111,
      "grad_norm": 1.3916480541229248,
      "learning_rate": 0.00015977328295176707,
      "loss": 2.247,
      "step": 9059
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 1.5069082975387573,
      "learning_rate": 0.00015976883751944878,
      "loss": 2.0418,
      "step": 9060
    },
    {
      "epoch": 0.20135555555555557,
      "grad_norm": 1.396519422531128,
      "learning_rate": 0.0001597643920871305,
      "loss": 1.8941,
      "step": 9061
    },
    {
      "epoch": 0.20137777777777777,
      "grad_norm": 1.3073567152023315,
      "learning_rate": 0.0001597599466548122,
      "loss": 2.1221,
      "step": 9062
    },
    {
      "epoch": 0.2014,
      "grad_norm": 1.3955119848251343,
      "learning_rate": 0.0001597555012224939,
      "loss": 1.8289,
      "step": 9063
    },
    {
      "epoch": 0.20142222222222222,
      "grad_norm": 1.3565845489501953,
      "learning_rate": 0.0001597510557901756,
      "loss": 2.283,
      "step": 9064
    },
    {
      "epoch": 0.20144444444444445,
      "grad_norm": 1.5277799367904663,
      "learning_rate": 0.00015974661035785733,
      "loss": 1.9245,
      "step": 9065
    },
    {
      "epoch": 0.20146666666666666,
      "grad_norm": 1.3704962730407715,
      "learning_rate": 0.000159742164925539,
      "loss": 1.9879,
      "step": 9066
    },
    {
      "epoch": 0.20148888888888888,
      "grad_norm": 1.3575447797775269,
      "learning_rate": 0.00015973771949322072,
      "loss": 2.209,
      "step": 9067
    },
    {
      "epoch": 0.2015111111111111,
      "grad_norm": 1.4272432327270508,
      "learning_rate": 0.00015973327406090243,
      "loss": 1.9622,
      "step": 9068
    },
    {
      "epoch": 0.20153333333333334,
      "grad_norm": 1.5533992052078247,
      "learning_rate": 0.00015972882862858414,
      "loss": 2.1463,
      "step": 9069
    },
    {
      "epoch": 0.20155555555555554,
      "grad_norm": 1.3208703994750977,
      "learning_rate": 0.00015972438319626585,
      "loss": 1.5686,
      "step": 9070
    },
    {
      "epoch": 0.20157777777777777,
      "grad_norm": 1.5623953342437744,
      "learning_rate": 0.00015971993776394756,
      "loss": 2.2708,
      "step": 9071
    },
    {
      "epoch": 0.2016,
      "grad_norm": 1.3636595010757446,
      "learning_rate": 0.00015971549233162927,
      "loss": 1.7469,
      "step": 9072
    },
    {
      "epoch": 0.20162222222222223,
      "grad_norm": 1.4581530094146729,
      "learning_rate": 0.00015971104689931095,
      "loss": 2.1015,
      "step": 9073
    },
    {
      "epoch": 0.20164444444444443,
      "grad_norm": 2.264862060546875,
      "learning_rate": 0.00015970660146699269,
      "loss": 2.7294,
      "step": 9074
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 1.2424695491790771,
      "learning_rate": 0.00015970215603467437,
      "loss": 1.7754,
      "step": 9075
    },
    {
      "epoch": 0.2016888888888889,
      "grad_norm": 1.3021936416625977,
      "learning_rate": 0.00015969771060235608,
      "loss": 1.4207,
      "step": 9076
    },
    {
      "epoch": 0.20171111111111112,
      "grad_norm": 1.6198267936706543,
      "learning_rate": 0.0001596932651700378,
      "loss": 2.443,
      "step": 9077
    },
    {
      "epoch": 0.20173333333333332,
      "grad_norm": 0.9740229249000549,
      "learning_rate": 0.0001596888197377195,
      "loss": 0.7851,
      "step": 9078
    },
    {
      "epoch": 0.20175555555555555,
      "grad_norm": 1.6539757251739502,
      "learning_rate": 0.0001596843743054012,
      "loss": 2.0868,
      "step": 9079
    },
    {
      "epoch": 0.20177777777777778,
      "grad_norm": 1.5094127655029297,
      "learning_rate": 0.00015967992887308292,
      "loss": 1.7892,
      "step": 9080
    },
    {
      "epoch": 0.2018,
      "grad_norm": 1.859086036682129,
      "learning_rate": 0.00015967548344076463,
      "loss": 2.4196,
      "step": 9081
    },
    {
      "epoch": 0.2018222222222222,
      "grad_norm": 1.5230052471160889,
      "learning_rate": 0.00015967103800844634,
      "loss": 1.9608,
      "step": 9082
    },
    {
      "epoch": 0.20184444444444444,
      "grad_norm": 1.5006699562072754,
      "learning_rate": 0.00015966659257612804,
      "loss": 2.2002,
      "step": 9083
    },
    {
      "epoch": 0.20186666666666667,
      "grad_norm": 1.4613773822784424,
      "learning_rate": 0.00015966214714380973,
      "loss": 1.62,
      "step": 9084
    },
    {
      "epoch": 0.2018888888888889,
      "grad_norm": 1.4105807542800903,
      "learning_rate": 0.00015965770171149146,
      "loss": 1.9954,
      "step": 9085
    },
    {
      "epoch": 0.20191111111111112,
      "grad_norm": 1.5568931102752686,
      "learning_rate": 0.00015965325627917315,
      "loss": 2.0121,
      "step": 9086
    },
    {
      "epoch": 0.20193333333333333,
      "grad_norm": 1.7046514749526978,
      "learning_rate": 0.00015964881084685486,
      "loss": 2.2023,
      "step": 9087
    },
    {
      "epoch": 0.20195555555555555,
      "grad_norm": 1.8986622095108032,
      "learning_rate": 0.00015964436541453657,
      "loss": 2.0642,
      "step": 9088
    },
    {
      "epoch": 0.20197777777777778,
      "grad_norm": 1.9795472621917725,
      "learning_rate": 0.00015963991998221828,
      "loss": 2.0485,
      "step": 9089
    },
    {
      "epoch": 0.202,
      "grad_norm": 1.3632664680480957,
      "learning_rate": 0.00015963547454989999,
      "loss": 1.603,
      "step": 9090
    },
    {
      "epoch": 0.20202222222222221,
      "grad_norm": 1.2953064441680908,
      "learning_rate": 0.0001596310291175817,
      "loss": 1.5385,
      "step": 9091
    },
    {
      "epoch": 0.20204444444444444,
      "grad_norm": 1.6460989713668823,
      "learning_rate": 0.0001596265836852634,
      "loss": 2.3624,
      "step": 9092
    },
    {
      "epoch": 0.20206666666666667,
      "grad_norm": 1.3601957559585571,
      "learning_rate": 0.0001596221382529451,
      "loss": 1.4022,
      "step": 9093
    },
    {
      "epoch": 0.2020888888888889,
      "grad_norm": 1.6879054307937622,
      "learning_rate": 0.00015961769282062682,
      "loss": 1.7478,
      "step": 9094
    },
    {
      "epoch": 0.2021111111111111,
      "grad_norm": 1.423627495765686,
      "learning_rate": 0.0001596132473883085,
      "loss": 1.2728,
      "step": 9095
    },
    {
      "epoch": 0.20213333333333333,
      "grad_norm": 1.8216477632522583,
      "learning_rate": 0.00015960880195599022,
      "loss": 1.6881,
      "step": 9096
    },
    {
      "epoch": 0.20215555555555556,
      "grad_norm": 1.5686671733856201,
      "learning_rate": 0.00015960435652367193,
      "loss": 1.6295,
      "step": 9097
    },
    {
      "epoch": 0.2021777777777778,
      "grad_norm": 1.8413467407226562,
      "learning_rate": 0.00015959991109135363,
      "loss": 1.4653,
      "step": 9098
    },
    {
      "epoch": 0.2022,
      "grad_norm": 1.3807168006896973,
      "learning_rate": 0.00015959546565903537,
      "loss": 1.5432,
      "step": 9099
    },
    {
      "epoch": 0.20222222222222222,
      "grad_norm": 1.5918985605239868,
      "learning_rate": 0.00015959102022671705,
      "loss": 1.5639,
      "step": 9100
    },
    {
      "epoch": 0.20224444444444445,
      "grad_norm": 1.3002103567123413,
      "learning_rate": 0.00015958657479439876,
      "loss": 2.5809,
      "step": 9101
    },
    {
      "epoch": 0.20226666666666668,
      "grad_norm": 1.2988942861557007,
      "learning_rate": 0.00015958212936208047,
      "loss": 2.2795,
      "step": 9102
    },
    {
      "epoch": 0.20228888888888888,
      "grad_norm": 1.305045485496521,
      "learning_rate": 0.00015957768392976218,
      "loss": 2.3583,
      "step": 9103
    },
    {
      "epoch": 0.2023111111111111,
      "grad_norm": 1.4003193378448486,
      "learning_rate": 0.00015957323849744387,
      "loss": 2.4132,
      "step": 9104
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 1.2664732933044434,
      "learning_rate": 0.0001595687930651256,
      "loss": 2.3806,
      "step": 9105
    },
    {
      "epoch": 0.20235555555555557,
      "grad_norm": 1.3366094827651978,
      "learning_rate": 0.0001595643476328073,
      "loss": 1.9377,
      "step": 9106
    },
    {
      "epoch": 0.20237777777777777,
      "grad_norm": 1.2161095142364502,
      "learning_rate": 0.000159559902200489,
      "loss": 2.0423,
      "step": 9107
    },
    {
      "epoch": 0.2024,
      "grad_norm": 1.4065840244293213,
      "learning_rate": 0.00015955545676817073,
      "loss": 1.7353,
      "step": 9108
    },
    {
      "epoch": 0.20242222222222223,
      "grad_norm": 1.308295726776123,
      "learning_rate": 0.0001595510113358524,
      "loss": 1.5477,
      "step": 9109
    },
    {
      "epoch": 0.20244444444444445,
      "grad_norm": 1.315238356590271,
      "learning_rate": 0.00015954656590353412,
      "loss": 2.2635,
      "step": 9110
    },
    {
      "epoch": 0.20246666666666666,
      "grad_norm": 1.307051181793213,
      "learning_rate": 0.00015954212047121583,
      "loss": 2.1206,
      "step": 9111
    },
    {
      "epoch": 0.20248888888888888,
      "grad_norm": 1.503539800643921,
      "learning_rate": 0.00015953767503889754,
      "loss": 1.6576,
      "step": 9112
    },
    {
      "epoch": 0.20251111111111111,
      "grad_norm": 1.393129587173462,
      "learning_rate": 0.00015953322960657922,
      "loss": 2.0349,
      "step": 9113
    },
    {
      "epoch": 0.20253333333333334,
      "grad_norm": 1.4745067358016968,
      "learning_rate": 0.00015952878417426096,
      "loss": 2.3619,
      "step": 9114
    },
    {
      "epoch": 0.20255555555555554,
      "grad_norm": 1.5184026956558228,
      "learning_rate": 0.00015952433874194267,
      "loss": 2.107,
      "step": 9115
    },
    {
      "epoch": 0.20257777777777777,
      "grad_norm": 1.6631715297698975,
      "learning_rate": 0.00015951989330962435,
      "loss": 2.4963,
      "step": 9116
    },
    {
      "epoch": 0.2026,
      "grad_norm": 1.6128205060958862,
      "learning_rate": 0.0001595154478773061,
      "loss": 1.9172,
      "step": 9117
    },
    {
      "epoch": 0.20262222222222223,
      "grad_norm": 1.9020638465881348,
      "learning_rate": 0.00015951100244498777,
      "loss": 1.9917,
      "step": 9118
    },
    {
      "epoch": 0.20264444444444443,
      "grad_norm": 1.2278879880905151,
      "learning_rate": 0.0001595065570126695,
      "loss": 1.3431,
      "step": 9119
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 1.4524022340774536,
      "learning_rate": 0.0001595021115803512,
      "loss": 1.8679,
      "step": 9120
    },
    {
      "epoch": 0.2026888888888889,
      "grad_norm": 1.607595682144165,
      "learning_rate": 0.0001594976661480329,
      "loss": 2.3598,
      "step": 9121
    },
    {
      "epoch": 0.20271111111111112,
      "grad_norm": 1.5177114009857178,
      "learning_rate": 0.0001594932207157146,
      "loss": 2.1491,
      "step": 9122
    },
    {
      "epoch": 0.20273333333333332,
      "grad_norm": 1.8026223182678223,
      "learning_rate": 0.00015948877528339632,
      "loss": 2.3343,
      "step": 9123
    },
    {
      "epoch": 0.20275555555555555,
      "grad_norm": 1.3476004600524902,
      "learning_rate": 0.00015948432985107803,
      "loss": 1.9952,
      "step": 9124
    },
    {
      "epoch": 0.20277777777777778,
      "grad_norm": 1.6675972938537598,
      "learning_rate": 0.00015947988441875974,
      "loss": 1.9708,
      "step": 9125
    },
    {
      "epoch": 0.2028,
      "grad_norm": 1.3669850826263428,
      "learning_rate": 0.00015947543898644145,
      "loss": 2.1344,
      "step": 9126
    },
    {
      "epoch": 0.2028222222222222,
      "grad_norm": 1.3292909860610962,
      "learning_rate": 0.00015947099355412313,
      "loss": 1.8875,
      "step": 9127
    },
    {
      "epoch": 0.20284444444444444,
      "grad_norm": 1.5479352474212646,
      "learning_rate": 0.00015946654812180487,
      "loss": 2.1038,
      "step": 9128
    },
    {
      "epoch": 0.20286666666666667,
      "grad_norm": 1.5538569688796997,
      "learning_rate": 0.00015946210268948655,
      "loss": 1.8321,
      "step": 9129
    },
    {
      "epoch": 0.2028888888888889,
      "grad_norm": 1.733464002609253,
      "learning_rate": 0.00015945765725716826,
      "loss": 2.1924,
      "step": 9130
    },
    {
      "epoch": 0.2029111111111111,
      "grad_norm": 1.2790131568908691,
      "learning_rate": 0.00015945321182484997,
      "loss": 1.3013,
      "step": 9131
    },
    {
      "epoch": 0.20293333333333333,
      "grad_norm": 0.9001626372337341,
      "learning_rate": 0.00015944876639253168,
      "loss": 0.9043,
      "step": 9132
    },
    {
      "epoch": 0.20295555555555556,
      "grad_norm": 1.264967441558838,
      "learning_rate": 0.0001594443209602134,
      "loss": 1.8037,
      "step": 9133
    },
    {
      "epoch": 0.20297777777777778,
      "grad_norm": 1.6957648992538452,
      "learning_rate": 0.0001594398755278951,
      "loss": 2.3333,
      "step": 9134
    },
    {
      "epoch": 0.203,
      "grad_norm": 1.2073453664779663,
      "learning_rate": 0.0001594354300955768,
      "loss": 0.9983,
      "step": 9135
    },
    {
      "epoch": 0.20302222222222222,
      "grad_norm": 1.653442144393921,
      "learning_rate": 0.00015943098466325852,
      "loss": 2.0949,
      "step": 9136
    },
    {
      "epoch": 0.20304444444444444,
      "grad_norm": 1.3969311714172363,
      "learning_rate": 0.00015942653923094023,
      "loss": 1.8587,
      "step": 9137
    },
    {
      "epoch": 0.20306666666666667,
      "grad_norm": 1.4413708448410034,
      "learning_rate": 0.0001594220937986219,
      "loss": 1.7584,
      "step": 9138
    },
    {
      "epoch": 0.2030888888888889,
      "grad_norm": 1.5591535568237305,
      "learning_rate": 0.00015941764836630365,
      "loss": 2.1404,
      "step": 9139
    },
    {
      "epoch": 0.2031111111111111,
      "grad_norm": 1.8833467960357666,
      "learning_rate": 0.00015941320293398533,
      "loss": 2.7463,
      "step": 9140
    },
    {
      "epoch": 0.20313333333333333,
      "grad_norm": 1.4606397151947021,
      "learning_rate": 0.00015940875750166704,
      "loss": 1.8799,
      "step": 9141
    },
    {
      "epoch": 0.20315555555555556,
      "grad_norm": 1.516059160232544,
      "learning_rate": 0.00015940431206934875,
      "loss": 1.8781,
      "step": 9142
    },
    {
      "epoch": 0.2031777777777778,
      "grad_norm": 1.893750786781311,
      "learning_rate": 0.00015939986663703046,
      "loss": 1.7975,
      "step": 9143
    },
    {
      "epoch": 0.2032,
      "grad_norm": 1.503430724143982,
      "learning_rate": 0.00015939542120471217,
      "loss": 1.9449,
      "step": 9144
    },
    {
      "epoch": 0.20322222222222222,
      "grad_norm": 1.379606008529663,
      "learning_rate": 0.00015939097577239388,
      "loss": 1.7401,
      "step": 9145
    },
    {
      "epoch": 0.20324444444444445,
      "grad_norm": 2.213421106338501,
      "learning_rate": 0.0001593865303400756,
      "loss": 1.8699,
      "step": 9146
    },
    {
      "epoch": 0.20326666666666668,
      "grad_norm": 1.690098762512207,
      "learning_rate": 0.00015938208490775727,
      "loss": 1.7715,
      "step": 9147
    },
    {
      "epoch": 0.20328888888888888,
      "grad_norm": 1.4493476152420044,
      "learning_rate": 0.000159377639475439,
      "loss": 1.8129,
      "step": 9148
    },
    {
      "epoch": 0.2033111111111111,
      "grad_norm": 1.7078959941864014,
      "learning_rate": 0.0001593731940431207,
      "loss": 1.8923,
      "step": 9149
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 1.8421975374221802,
      "learning_rate": 0.0001593687486108024,
      "loss": 0.8215,
      "step": 9150
    },
    {
      "epoch": 0.20335555555555557,
      "grad_norm": 1.236541509628296,
      "learning_rate": 0.0001593643031784841,
      "loss": 2.286,
      "step": 9151
    },
    {
      "epoch": 0.20337777777777777,
      "grad_norm": 1.457674503326416,
      "learning_rate": 0.00015935985774616582,
      "loss": 2.8741,
      "step": 9152
    },
    {
      "epoch": 0.2034,
      "grad_norm": 1.5742125511169434,
      "learning_rate": 0.00015935541231384753,
      "loss": 2.7207,
      "step": 9153
    },
    {
      "epoch": 0.20342222222222223,
      "grad_norm": 1.283539891242981,
      "learning_rate": 0.00015935096688152924,
      "loss": 2.3014,
      "step": 9154
    },
    {
      "epoch": 0.20344444444444446,
      "grad_norm": 1.3827102184295654,
      "learning_rate": 0.00015934652144921095,
      "loss": 2.1958,
      "step": 9155
    },
    {
      "epoch": 0.20346666666666666,
      "grad_norm": 1.5302996635437012,
      "learning_rate": 0.00015934207601689266,
      "loss": 2.4846,
      "step": 9156
    },
    {
      "epoch": 0.20348888888888889,
      "grad_norm": 1.374597191810608,
      "learning_rate": 0.00015933763058457437,
      "loss": 2.3838,
      "step": 9157
    },
    {
      "epoch": 0.20351111111111111,
      "grad_norm": 1.7365304231643677,
      "learning_rate": 0.00015933318515225605,
      "loss": 2.2651,
      "step": 9158
    },
    {
      "epoch": 0.20353333333333334,
      "grad_norm": 1.4384167194366455,
      "learning_rate": 0.00015932873971993779,
      "loss": 2.0722,
      "step": 9159
    },
    {
      "epoch": 0.20355555555555555,
      "grad_norm": 1.3517608642578125,
      "learning_rate": 0.00015932429428761947,
      "loss": 2.0033,
      "step": 9160
    },
    {
      "epoch": 0.20357777777777777,
      "grad_norm": 1.5400723218917847,
      "learning_rate": 0.00015931984885530118,
      "loss": 2.2829,
      "step": 9161
    },
    {
      "epoch": 0.2036,
      "grad_norm": 1.359287977218628,
      "learning_rate": 0.0001593154034229829,
      "loss": 1.7609,
      "step": 9162
    },
    {
      "epoch": 0.20362222222222223,
      "grad_norm": 1.435869574546814,
      "learning_rate": 0.0001593109579906646,
      "loss": 2.4341,
      "step": 9163
    },
    {
      "epoch": 0.20364444444444443,
      "grad_norm": 1.4695912599563599,
      "learning_rate": 0.0001593065125583463,
      "loss": 1.8602,
      "step": 9164
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 1.4031519889831543,
      "learning_rate": 0.00015930206712602802,
      "loss": 1.2191,
      "step": 9165
    },
    {
      "epoch": 0.2036888888888889,
      "grad_norm": 1.1937947273254395,
      "learning_rate": 0.00015929762169370973,
      "loss": 2.0686,
      "step": 9166
    },
    {
      "epoch": 0.20371111111111112,
      "grad_norm": 1.5157063007354736,
      "learning_rate": 0.0001592931762613914,
      "loss": 2.2791,
      "step": 9167
    },
    {
      "epoch": 0.20373333333333332,
      "grad_norm": 1.3694872856140137,
      "learning_rate": 0.00015928873082907315,
      "loss": 2.1817,
      "step": 9168
    },
    {
      "epoch": 0.20375555555555555,
      "grad_norm": 1.2539342641830444,
      "learning_rate": 0.00015928428539675483,
      "loss": 1.9573,
      "step": 9169
    },
    {
      "epoch": 0.20377777777777778,
      "grad_norm": 1.398316502571106,
      "learning_rate": 0.00015927983996443654,
      "loss": 1.8962,
      "step": 9170
    },
    {
      "epoch": 0.2038,
      "grad_norm": 1.4030733108520508,
      "learning_rate": 0.00015927539453211825,
      "loss": 2.2423,
      "step": 9171
    },
    {
      "epoch": 0.2038222222222222,
      "grad_norm": 1.515515685081482,
      "learning_rate": 0.00015927094909979996,
      "loss": 1.6961,
      "step": 9172
    },
    {
      "epoch": 0.20384444444444444,
      "grad_norm": 1.5918192863464355,
      "learning_rate": 0.0001592665036674817,
      "loss": 1.7129,
      "step": 9173
    },
    {
      "epoch": 0.20386666666666667,
      "grad_norm": 1.5354182720184326,
      "learning_rate": 0.00015926205823516338,
      "loss": 1.8981,
      "step": 9174
    },
    {
      "epoch": 0.2038888888888889,
      "grad_norm": 1.6266788244247437,
      "learning_rate": 0.00015925761280284509,
      "loss": 2.7024,
      "step": 9175
    },
    {
      "epoch": 0.2039111111111111,
      "grad_norm": 1.5531848669052124,
      "learning_rate": 0.0001592531673705268,
      "loss": 1.3899,
      "step": 9176
    },
    {
      "epoch": 0.20393333333333333,
      "grad_norm": 1.5112051963806152,
      "learning_rate": 0.0001592487219382085,
      "loss": 2.2077,
      "step": 9177
    },
    {
      "epoch": 0.20395555555555556,
      "grad_norm": 1.6693562269210815,
      "learning_rate": 0.0001592442765058902,
      "loss": 2.0225,
      "step": 9178
    },
    {
      "epoch": 0.20397777777777779,
      "grad_norm": 1.5661532878875732,
      "learning_rate": 0.00015923983107357192,
      "loss": 2.4253,
      "step": 9179
    },
    {
      "epoch": 0.204,
      "grad_norm": 1.2862625122070312,
      "learning_rate": 0.00015923538564125363,
      "loss": 1.7377,
      "step": 9180
    },
    {
      "epoch": 0.20402222222222222,
      "grad_norm": 1.6686103343963623,
      "learning_rate": 0.00015923094020893532,
      "loss": 1.9345,
      "step": 9181
    },
    {
      "epoch": 0.20404444444444444,
      "grad_norm": 1.3833768367767334,
      "learning_rate": 0.00015922649477661705,
      "loss": 2.0678,
      "step": 9182
    },
    {
      "epoch": 0.20406666666666667,
      "grad_norm": 1.4816539287567139,
      "learning_rate": 0.00015922204934429874,
      "loss": 2.0355,
      "step": 9183
    },
    {
      "epoch": 0.20408888888888888,
      "grad_norm": 1.6287791728973389,
      "learning_rate": 0.00015921760391198045,
      "loss": 1.9681,
      "step": 9184
    },
    {
      "epoch": 0.2041111111111111,
      "grad_norm": 1.6236190795898438,
      "learning_rate": 0.00015921315847966215,
      "loss": 2.0071,
      "step": 9185
    },
    {
      "epoch": 0.20413333333333333,
      "grad_norm": 1.4513577222824097,
      "learning_rate": 0.00015920871304734386,
      "loss": 1.7378,
      "step": 9186
    },
    {
      "epoch": 0.20415555555555556,
      "grad_norm": 2.1872341632843018,
      "learning_rate": 0.00015920426761502555,
      "loss": 1.7412,
      "step": 9187
    },
    {
      "epoch": 0.2041777777777778,
      "grad_norm": 1.515313982963562,
      "learning_rate": 0.00015919982218270728,
      "loss": 2.0674,
      "step": 9188
    },
    {
      "epoch": 0.2042,
      "grad_norm": 1.6400573253631592,
      "learning_rate": 0.000159195376750389,
      "loss": 2.0171,
      "step": 9189
    },
    {
      "epoch": 0.20422222222222222,
      "grad_norm": 1.1951837539672852,
      "learning_rate": 0.00015919093131807068,
      "loss": 1.3297,
      "step": 9190
    },
    {
      "epoch": 0.20424444444444445,
      "grad_norm": 1.4561985731124878,
      "learning_rate": 0.0001591864858857524,
      "loss": 1.9083,
      "step": 9191
    },
    {
      "epoch": 0.20426666666666668,
      "grad_norm": 1.309853434562683,
      "learning_rate": 0.0001591820404534341,
      "loss": 1.4866,
      "step": 9192
    },
    {
      "epoch": 0.20428888888888888,
      "grad_norm": 1.445461630821228,
      "learning_rate": 0.00015917759502111583,
      "loss": 1.7888,
      "step": 9193
    },
    {
      "epoch": 0.2043111111111111,
      "grad_norm": 1.713276743888855,
      "learning_rate": 0.00015917314958879751,
      "loss": 2.0036,
      "step": 9194
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 1.9132095575332642,
      "learning_rate": 0.00015916870415647922,
      "loss": 2.4759,
      "step": 9195
    },
    {
      "epoch": 0.20435555555555557,
      "grad_norm": 1.3372892141342163,
      "learning_rate": 0.00015916425872416093,
      "loss": 1.6127,
      "step": 9196
    },
    {
      "epoch": 0.20437777777777777,
      "grad_norm": 2.333489179611206,
      "learning_rate": 0.00015915981329184264,
      "loss": 1.9899,
      "step": 9197
    },
    {
      "epoch": 0.2044,
      "grad_norm": 1.7062339782714844,
      "learning_rate": 0.00015915536785952435,
      "loss": 1.7643,
      "step": 9198
    },
    {
      "epoch": 0.20442222222222223,
      "grad_norm": 1.5175951719284058,
      "learning_rate": 0.00015915092242720606,
      "loss": 1.8909,
      "step": 9199
    },
    {
      "epoch": 0.20444444444444446,
      "grad_norm": 1.5868806838989258,
      "learning_rate": 0.00015914647699488777,
      "loss": 1.0164,
      "step": 9200
    },
    {
      "epoch": 0.20446666666666666,
      "grad_norm": 1.2813806533813477,
      "learning_rate": 0.00015914203156256945,
      "loss": 2.6188,
      "step": 9201
    },
    {
      "epoch": 0.2044888888888889,
      "grad_norm": 1.3178884983062744,
      "learning_rate": 0.0001591375861302512,
      "loss": 2.4214,
      "step": 9202
    },
    {
      "epoch": 0.20451111111111112,
      "grad_norm": 1.4786709547042847,
      "learning_rate": 0.00015913314069793287,
      "loss": 2.4607,
      "step": 9203
    },
    {
      "epoch": 0.20453333333333334,
      "grad_norm": 1.2902629375457764,
      "learning_rate": 0.00015912869526561458,
      "loss": 2.286,
      "step": 9204
    },
    {
      "epoch": 0.20455555555555555,
      "grad_norm": 1.2416291236877441,
      "learning_rate": 0.0001591242498332963,
      "loss": 2.4303,
      "step": 9205
    },
    {
      "epoch": 0.20457777777777778,
      "grad_norm": 1.1611182689666748,
      "learning_rate": 0.000159119804400978,
      "loss": 1.956,
      "step": 9206
    },
    {
      "epoch": 0.2046,
      "grad_norm": 1.426994800567627,
      "learning_rate": 0.0001591153589686597,
      "loss": 2.556,
      "step": 9207
    },
    {
      "epoch": 0.20462222222222223,
      "grad_norm": 1.192304015159607,
      "learning_rate": 0.00015911091353634142,
      "loss": 2.0166,
      "step": 9208
    },
    {
      "epoch": 0.20464444444444443,
      "grad_norm": 1.001973271369934,
      "learning_rate": 0.00015910646810402313,
      "loss": 0.9536,
      "step": 9209
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 1.293460488319397,
      "learning_rate": 0.00015910202267170481,
      "loss": 2.7647,
      "step": 9210
    },
    {
      "epoch": 0.2046888888888889,
      "grad_norm": 1.3566848039627075,
      "learning_rate": 0.00015909757723938655,
      "loss": 2.0473,
      "step": 9211
    },
    {
      "epoch": 0.20471111111111112,
      "grad_norm": 1.7149239778518677,
      "learning_rate": 0.00015909313180706823,
      "loss": 2.4055,
      "step": 9212
    },
    {
      "epoch": 0.20473333333333332,
      "grad_norm": 1.4221937656402588,
      "learning_rate": 0.00015908868637474997,
      "loss": 2.3164,
      "step": 9213
    },
    {
      "epoch": 0.20475555555555555,
      "grad_norm": 1.322522521018982,
      "learning_rate": 0.00015908424094243165,
      "loss": 1.7763,
      "step": 9214
    },
    {
      "epoch": 0.20477777777777778,
      "grad_norm": 1.5240228176116943,
      "learning_rate": 0.00015907979551011336,
      "loss": 2.2783,
      "step": 9215
    },
    {
      "epoch": 0.2048,
      "grad_norm": 1.1687575578689575,
      "learning_rate": 0.00015907535007779507,
      "loss": 1.8517,
      "step": 9216
    },
    {
      "epoch": 0.2048222222222222,
      "grad_norm": 1.2946475744247437,
      "learning_rate": 0.00015907090464547678,
      "loss": 1.6187,
      "step": 9217
    },
    {
      "epoch": 0.20484444444444444,
      "grad_norm": 0.8885853290557861,
      "learning_rate": 0.0001590664592131585,
      "loss": 0.9338,
      "step": 9218
    },
    {
      "epoch": 0.20486666666666667,
      "grad_norm": 1.0669000148773193,
      "learning_rate": 0.0001590620137808402,
      "loss": 1.2088,
      "step": 9219
    },
    {
      "epoch": 0.2048888888888889,
      "grad_norm": 1.3273401260375977,
      "learning_rate": 0.0001590575683485219,
      "loss": 1.8285,
      "step": 9220
    },
    {
      "epoch": 0.2049111111111111,
      "grad_norm": 1.9682785272598267,
      "learning_rate": 0.0001590531229162036,
      "loss": 1.8141,
      "step": 9221
    },
    {
      "epoch": 0.20493333333333333,
      "grad_norm": 1.9984759092330933,
      "learning_rate": 0.00015904867748388533,
      "loss": 2.5543,
      "step": 9222
    },
    {
      "epoch": 0.20495555555555556,
      "grad_norm": 1.8673582077026367,
      "learning_rate": 0.000159044232051567,
      "loss": 2.3714,
      "step": 9223
    },
    {
      "epoch": 0.2049777777777778,
      "grad_norm": 1.3959485292434692,
      "learning_rate": 0.00015903978661924872,
      "loss": 1.5108,
      "step": 9224
    },
    {
      "epoch": 0.205,
      "grad_norm": 1.513630747795105,
      "learning_rate": 0.00015903534118693043,
      "loss": 2.5524,
      "step": 9225
    },
    {
      "epoch": 0.20502222222222222,
      "grad_norm": 1.4334440231323242,
      "learning_rate": 0.00015903089575461214,
      "loss": 2.1218,
      "step": 9226
    },
    {
      "epoch": 0.20504444444444445,
      "grad_norm": 1.3705832958221436,
      "learning_rate": 0.00015902645032229385,
      "loss": 2.1038,
      "step": 9227
    },
    {
      "epoch": 0.20506666666666667,
      "grad_norm": 1.4066648483276367,
      "learning_rate": 0.00015902200488997556,
      "loss": 2.0371,
      "step": 9228
    },
    {
      "epoch": 0.20508888888888888,
      "grad_norm": 1.6639341115951538,
      "learning_rate": 0.00015901755945765727,
      "loss": 2.2454,
      "step": 9229
    },
    {
      "epoch": 0.2051111111111111,
      "grad_norm": 1.5143452882766724,
      "learning_rate": 0.00015901311402533898,
      "loss": 1.8829,
      "step": 9230
    },
    {
      "epoch": 0.20513333333333333,
      "grad_norm": 1.5264519453048706,
      "learning_rate": 0.0001590086685930207,
      "loss": 1.6537,
      "step": 9231
    },
    {
      "epoch": 0.20515555555555556,
      "grad_norm": 1.3513412475585938,
      "learning_rate": 0.00015900422316070237,
      "loss": 1.8299,
      "step": 9232
    },
    {
      "epoch": 0.20517777777777776,
      "grad_norm": 1.5505038499832153,
      "learning_rate": 0.0001589997777283841,
      "loss": 2.0556,
      "step": 9233
    },
    {
      "epoch": 0.2052,
      "grad_norm": 1.8029319047927856,
      "learning_rate": 0.0001589953322960658,
      "loss": 2.2641,
      "step": 9234
    },
    {
      "epoch": 0.20522222222222222,
      "grad_norm": 1.5196512937545776,
      "learning_rate": 0.0001589908868637475,
      "loss": 1.947,
      "step": 9235
    },
    {
      "epoch": 0.20524444444444445,
      "grad_norm": 1.5942891836166382,
      "learning_rate": 0.0001589864414314292,
      "loss": 1.94,
      "step": 9236
    },
    {
      "epoch": 0.20526666666666665,
      "grad_norm": 1.4601643085479736,
      "learning_rate": 0.00015898199599911092,
      "loss": 1.9579,
      "step": 9237
    },
    {
      "epoch": 0.20528888888888888,
      "grad_norm": 1.4890674352645874,
      "learning_rate": 0.00015897755056679263,
      "loss": 1.7729,
      "step": 9238
    },
    {
      "epoch": 0.2053111111111111,
      "grad_norm": 1.4735180139541626,
      "learning_rate": 0.00015897310513447434,
      "loss": 1.6947,
      "step": 9239
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 1.9140244722366333,
      "learning_rate": 0.00015896865970215605,
      "loss": 2.575,
      "step": 9240
    },
    {
      "epoch": 0.20535555555555557,
      "grad_norm": 1.991525650024414,
      "learning_rate": 0.00015896421426983773,
      "loss": 1.6406,
      "step": 9241
    },
    {
      "epoch": 0.20537777777777777,
      "grad_norm": 1.742967963218689,
      "learning_rate": 0.00015895976883751947,
      "loss": 2.2715,
      "step": 9242
    },
    {
      "epoch": 0.2054,
      "grad_norm": 1.3493882417678833,
      "learning_rate": 0.00015895532340520115,
      "loss": 1.428,
      "step": 9243
    },
    {
      "epoch": 0.20542222222222223,
      "grad_norm": 1.6890771389007568,
      "learning_rate": 0.00015895087797288286,
      "loss": 2.2046,
      "step": 9244
    },
    {
      "epoch": 0.20544444444444446,
      "grad_norm": 1.742324709892273,
      "learning_rate": 0.00015894643254056457,
      "loss": 1.8301,
      "step": 9245
    },
    {
      "epoch": 0.20546666666666666,
      "grad_norm": 1.4103279113769531,
      "learning_rate": 0.00015894198710824628,
      "loss": 1.8678,
      "step": 9246
    },
    {
      "epoch": 0.2054888888888889,
      "grad_norm": 1.7273547649383545,
      "learning_rate": 0.000158937541675928,
      "loss": 1.636,
      "step": 9247
    },
    {
      "epoch": 0.20551111111111112,
      "grad_norm": 1.553022027015686,
      "learning_rate": 0.0001589330962436097,
      "loss": 1.6545,
      "step": 9248
    },
    {
      "epoch": 0.20553333333333335,
      "grad_norm": 1.7082456350326538,
      "learning_rate": 0.0001589286508112914,
      "loss": 1.7724,
      "step": 9249
    },
    {
      "epoch": 0.20555555555555555,
      "grad_norm": 1.3881099224090576,
      "learning_rate": 0.00015892420537897312,
      "loss": 1.3689,
      "step": 9250
    },
    {
      "epoch": 0.20557777777777778,
      "grad_norm": 0.6338170766830444,
      "learning_rate": 0.00015891975994665483,
      "loss": 0.0207,
      "step": 9251
    },
    {
      "epoch": 0.2056,
      "grad_norm": 1.2202255725860596,
      "learning_rate": 0.0001589153145143365,
      "loss": 2.2458,
      "step": 9252
    },
    {
      "epoch": 0.20562222222222223,
      "grad_norm": 1.0990583896636963,
      "learning_rate": 0.00015891086908201825,
      "loss": 2.2665,
      "step": 9253
    },
    {
      "epoch": 0.20564444444444444,
      "grad_norm": 1.5326151847839355,
      "learning_rate": 0.00015890642364969996,
      "loss": 1.6662,
      "step": 9254
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 1.5747358798980713,
      "learning_rate": 0.00015890197821738164,
      "loss": 2.4621,
      "step": 9255
    },
    {
      "epoch": 0.2056888888888889,
      "grad_norm": 1.452778935432434,
      "learning_rate": 0.00015889753278506338,
      "loss": 2.2992,
      "step": 9256
    },
    {
      "epoch": 0.20571111111111112,
      "grad_norm": 1.4632364511489868,
      "learning_rate": 0.00015889308735274506,
      "loss": 2.1368,
      "step": 9257
    },
    {
      "epoch": 0.20573333333333332,
      "grad_norm": 1.622312068939209,
      "learning_rate": 0.00015888864192042677,
      "loss": 2.2052,
      "step": 9258
    },
    {
      "epoch": 0.20575555555555555,
      "grad_norm": 1.4128016233444214,
      "learning_rate": 0.00015888419648810848,
      "loss": 2.6592,
      "step": 9259
    },
    {
      "epoch": 0.20577777777777778,
      "grad_norm": 1.265974521636963,
      "learning_rate": 0.0001588797510557902,
      "loss": 2.14,
      "step": 9260
    },
    {
      "epoch": 0.2058,
      "grad_norm": 0.9530823230743408,
      "learning_rate": 0.00015887530562347187,
      "loss": 0.9944,
      "step": 9261
    },
    {
      "epoch": 0.2058222222222222,
      "grad_norm": 1.2886468172073364,
      "learning_rate": 0.0001588708601911536,
      "loss": 1.9214,
      "step": 9262
    },
    {
      "epoch": 0.20584444444444444,
      "grad_norm": 1.6713985204696655,
      "learning_rate": 0.00015886641475883532,
      "loss": 2.2753,
      "step": 9263
    },
    {
      "epoch": 0.20586666666666667,
      "grad_norm": 1.3782862424850464,
      "learning_rate": 0.000158861969326517,
      "loss": 1.9444,
      "step": 9264
    },
    {
      "epoch": 0.2058888888888889,
      "grad_norm": 1.4197871685028076,
      "learning_rate": 0.00015885752389419873,
      "loss": 2.1814,
      "step": 9265
    },
    {
      "epoch": 0.2059111111111111,
      "grad_norm": 1.3242697715759277,
      "learning_rate": 0.00015885307846188042,
      "loss": 2.2344,
      "step": 9266
    },
    {
      "epoch": 0.20593333333333333,
      "grad_norm": 1.3253177404403687,
      "learning_rate": 0.00015884863302956213,
      "loss": 2.4344,
      "step": 9267
    },
    {
      "epoch": 0.20595555555555556,
      "grad_norm": 1.5178009271621704,
      "learning_rate": 0.00015884418759724384,
      "loss": 2.0638,
      "step": 9268
    },
    {
      "epoch": 0.2059777777777778,
      "grad_norm": 1.6298768520355225,
      "learning_rate": 0.00015883974216492555,
      "loss": 2.4686,
      "step": 9269
    },
    {
      "epoch": 0.206,
      "grad_norm": 1.422984004020691,
      "learning_rate": 0.00015883529673260726,
      "loss": 2.171,
      "step": 9270
    },
    {
      "epoch": 0.20602222222222222,
      "grad_norm": 1.4733936786651611,
      "learning_rate": 0.00015883085130028897,
      "loss": 1.5513,
      "step": 9271
    },
    {
      "epoch": 0.20604444444444445,
      "grad_norm": 1.3043122291564941,
      "learning_rate": 0.00015882640586797067,
      "loss": 2.0684,
      "step": 9272
    },
    {
      "epoch": 0.20606666666666668,
      "grad_norm": 1.3421554565429688,
      "learning_rate": 0.00015882196043565238,
      "loss": 1.7975,
      "step": 9273
    },
    {
      "epoch": 0.20608888888888888,
      "grad_norm": 1.3897978067398071,
      "learning_rate": 0.0001588175150033341,
      "loss": 1.977,
      "step": 9274
    },
    {
      "epoch": 0.2061111111111111,
      "grad_norm": 1.298697590827942,
      "learning_rate": 0.00015881306957101578,
      "loss": 1.5643,
      "step": 9275
    },
    {
      "epoch": 0.20613333333333334,
      "grad_norm": 2.1653780937194824,
      "learning_rate": 0.0001588086241386975,
      "loss": 1.9001,
      "step": 9276
    },
    {
      "epoch": 0.20615555555555556,
      "grad_norm": 1.1805425882339478,
      "learning_rate": 0.0001588041787063792,
      "loss": 0.6923,
      "step": 9277
    },
    {
      "epoch": 0.20617777777777777,
      "grad_norm": 1.3492716550827026,
      "learning_rate": 0.0001587997332740609,
      "loss": 1.3254,
      "step": 9278
    },
    {
      "epoch": 0.2062,
      "grad_norm": 1.6481918096542358,
      "learning_rate": 0.00015879528784174262,
      "loss": 1.9727,
      "step": 9279
    },
    {
      "epoch": 0.20622222222222222,
      "grad_norm": 1.4515691995620728,
      "learning_rate": 0.00015879084240942432,
      "loss": 2.059,
      "step": 9280
    },
    {
      "epoch": 0.20624444444444445,
      "grad_norm": 1.3000752925872803,
      "learning_rate": 0.00015878639697710603,
      "loss": 1.2933,
      "step": 9281
    },
    {
      "epoch": 0.20626666666666665,
      "grad_norm": 1.6266535520553589,
      "learning_rate": 0.00015878195154478774,
      "loss": 1.8711,
      "step": 9282
    },
    {
      "epoch": 0.20628888888888888,
      "grad_norm": 1.480515480041504,
      "learning_rate": 0.00015877750611246945,
      "loss": 1.8336,
      "step": 9283
    },
    {
      "epoch": 0.2063111111111111,
      "grad_norm": 0.9332824945449829,
      "learning_rate": 0.00015877306068015114,
      "loss": 0.8764,
      "step": 9284
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 1.6285638809204102,
      "learning_rate": 0.00015876861524783287,
      "loss": 2.0035,
      "step": 9285
    },
    {
      "epoch": 0.20635555555555554,
      "grad_norm": 1.407920479774475,
      "learning_rate": 0.00015876416981551456,
      "loss": 1.7626,
      "step": 9286
    },
    {
      "epoch": 0.20637777777777777,
      "grad_norm": 1.5022974014282227,
      "learning_rate": 0.0001587597243831963,
      "loss": 1.5081,
      "step": 9287
    },
    {
      "epoch": 0.2064,
      "grad_norm": 1.4569798707962036,
      "learning_rate": 0.00015875527895087797,
      "loss": 1.8225,
      "step": 9288
    },
    {
      "epoch": 0.20642222222222223,
      "grad_norm": 1.5369962453842163,
      "learning_rate": 0.00015875083351855968,
      "loss": 1.7828,
      "step": 9289
    },
    {
      "epoch": 0.20644444444444446,
      "grad_norm": 1.5459586381912231,
      "learning_rate": 0.0001587463880862414,
      "loss": 1.9066,
      "step": 9290
    },
    {
      "epoch": 0.20646666666666666,
      "grad_norm": 1.8631317615509033,
      "learning_rate": 0.0001587419426539231,
      "loss": 1.7438,
      "step": 9291
    },
    {
      "epoch": 0.2064888888888889,
      "grad_norm": 1.738337516784668,
      "learning_rate": 0.0001587374972216048,
      "loss": 2.1099,
      "step": 9292
    },
    {
      "epoch": 0.20651111111111112,
      "grad_norm": 1.683061957359314,
      "learning_rate": 0.00015873305178928652,
      "loss": 1.8857,
      "step": 9293
    },
    {
      "epoch": 0.20653333333333335,
      "grad_norm": 1.620779037475586,
      "learning_rate": 0.00015872860635696823,
      "loss": 1.7388,
      "step": 9294
    },
    {
      "epoch": 0.20655555555555555,
      "grad_norm": 2.356070041656494,
      "learning_rate": 0.00015872416092464991,
      "loss": 2.0383,
      "step": 9295
    },
    {
      "epoch": 0.20657777777777778,
      "grad_norm": 1.388007402420044,
      "learning_rate": 0.00015871971549233165,
      "loss": 1.5735,
      "step": 9296
    },
    {
      "epoch": 0.2066,
      "grad_norm": 1.8447259664535522,
      "learning_rate": 0.00015871527006001333,
      "loss": 1.8638,
      "step": 9297
    },
    {
      "epoch": 0.20662222222222223,
      "grad_norm": 1.373936414718628,
      "learning_rate": 0.00015871082462769504,
      "loss": 1.5828,
      "step": 9298
    },
    {
      "epoch": 0.20664444444444444,
      "grad_norm": 1.547147274017334,
      "learning_rate": 0.00015870637919537675,
      "loss": 1.9033,
      "step": 9299
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 1.753814697265625,
      "learning_rate": 0.00015870193376305846,
      "loss": 1.8913,
      "step": 9300
    },
    {
      "epoch": 0.2066888888888889,
      "grad_norm": 1.40883469581604,
      "learning_rate": 0.00015869748833074017,
      "loss": 2.5106,
      "step": 9301
    },
    {
      "epoch": 0.20671111111111112,
      "grad_norm": 1.0737401247024536,
      "learning_rate": 0.00015869304289842188,
      "loss": 2.6132,
      "step": 9302
    },
    {
      "epoch": 0.20673333333333332,
      "grad_norm": 1.1641126871109009,
      "learning_rate": 0.0001586885974661036,
      "loss": 2.4115,
      "step": 9303
    },
    {
      "epoch": 0.20675555555555555,
      "grad_norm": 1.2304548025131226,
      "learning_rate": 0.00015868415203378527,
      "loss": 2.154,
      "step": 9304
    },
    {
      "epoch": 0.20677777777777778,
      "grad_norm": 1.6299349069595337,
      "learning_rate": 0.000158679706601467,
      "loss": 2.2494,
      "step": 9305
    },
    {
      "epoch": 0.2068,
      "grad_norm": 1.4523468017578125,
      "learning_rate": 0.0001586752611691487,
      "loss": 2.2494,
      "step": 9306
    },
    {
      "epoch": 0.2068222222222222,
      "grad_norm": 1.7329171895980835,
      "learning_rate": 0.00015867081573683043,
      "loss": 2.2586,
      "step": 9307
    },
    {
      "epoch": 0.20684444444444444,
      "grad_norm": 1.2292770147323608,
      "learning_rate": 0.0001586663703045121,
      "loss": 2.1638,
      "step": 9308
    },
    {
      "epoch": 0.20686666666666667,
      "grad_norm": 1.3714956045150757,
      "learning_rate": 0.00015866192487219382,
      "loss": 2.0985,
      "step": 9309
    },
    {
      "epoch": 0.2068888888888889,
      "grad_norm": 1.363572120666504,
      "learning_rate": 0.00015865747943987553,
      "loss": 2.2625,
      "step": 9310
    },
    {
      "epoch": 0.2069111111111111,
      "grad_norm": 1.462058663368225,
      "learning_rate": 0.00015865303400755724,
      "loss": 2.0402,
      "step": 9311
    },
    {
      "epoch": 0.20693333333333333,
      "grad_norm": 1.2937060594558716,
      "learning_rate": 0.00015864858857523895,
      "loss": 2.0062,
      "step": 9312
    },
    {
      "epoch": 0.20695555555555556,
      "grad_norm": 1.247927188873291,
      "learning_rate": 0.00015864414314292066,
      "loss": 1.6231,
      "step": 9313
    },
    {
      "epoch": 0.2069777777777778,
      "grad_norm": 1.6072125434875488,
      "learning_rate": 0.00015863969771060237,
      "loss": 2.0752,
      "step": 9314
    },
    {
      "epoch": 0.207,
      "grad_norm": 1.284893274307251,
      "learning_rate": 0.00015863525227828405,
      "loss": 1.9179,
      "step": 9315
    },
    {
      "epoch": 0.20702222222222222,
      "grad_norm": 1.5010879039764404,
      "learning_rate": 0.0001586308068459658,
      "loss": 2.037,
      "step": 9316
    },
    {
      "epoch": 0.20704444444444445,
      "grad_norm": 1.6001619100570679,
      "learning_rate": 0.00015862636141364747,
      "loss": 2.2064,
      "step": 9317
    },
    {
      "epoch": 0.20706666666666668,
      "grad_norm": 1.7887531518936157,
      "learning_rate": 0.00015862191598132918,
      "loss": 2.338,
      "step": 9318
    },
    {
      "epoch": 0.20708888888888888,
      "grad_norm": 1.41798996925354,
      "learning_rate": 0.0001586174705490109,
      "loss": 2.5429,
      "step": 9319
    },
    {
      "epoch": 0.2071111111111111,
      "grad_norm": 1.7733335494995117,
      "learning_rate": 0.0001586130251166926,
      "loss": 1.9644,
      "step": 9320
    },
    {
      "epoch": 0.20713333333333334,
      "grad_norm": 1.46703040599823,
      "learning_rate": 0.0001586085796843743,
      "loss": 2.0004,
      "step": 9321
    },
    {
      "epoch": 0.20715555555555556,
      "grad_norm": 1.5211985111236572,
      "learning_rate": 0.00015860413425205602,
      "loss": 2.1802,
      "step": 9322
    },
    {
      "epoch": 0.20717777777777777,
      "grad_norm": 1.3321279287338257,
      "learning_rate": 0.00015859968881973773,
      "loss": 1.8731,
      "step": 9323
    },
    {
      "epoch": 0.2072,
      "grad_norm": 1.7334074974060059,
      "learning_rate": 0.0001585952433874194,
      "loss": 2.4247,
      "step": 9324
    },
    {
      "epoch": 0.20722222222222222,
      "grad_norm": 1.3366566896438599,
      "learning_rate": 0.00015859079795510115,
      "loss": 2.1839,
      "step": 9325
    },
    {
      "epoch": 0.20724444444444445,
      "grad_norm": 1.5408291816711426,
      "learning_rate": 0.00015858635252278283,
      "loss": 2.2734,
      "step": 9326
    },
    {
      "epoch": 0.20726666666666665,
      "grad_norm": 1.4683811664581299,
      "learning_rate": 0.00015858190709046457,
      "loss": 2.09,
      "step": 9327
    },
    {
      "epoch": 0.20728888888888888,
      "grad_norm": 1.0197769403457642,
      "learning_rate": 0.00015857746165814628,
      "loss": 1.1436,
      "step": 9328
    },
    {
      "epoch": 0.2073111111111111,
      "grad_norm": 2.0909698009490967,
      "learning_rate": 0.00015857301622582796,
      "loss": 2.1226,
      "step": 9329
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 1.4789177179336548,
      "learning_rate": 0.0001585685707935097,
      "loss": 1.8324,
      "step": 9330
    },
    {
      "epoch": 0.20735555555555554,
      "grad_norm": 1.4557774066925049,
      "learning_rate": 0.00015856412536119138,
      "loss": 1.8783,
      "step": 9331
    },
    {
      "epoch": 0.20737777777777777,
      "grad_norm": 1.5570160150527954,
      "learning_rate": 0.0001585596799288731,
      "loss": 1.9211,
      "step": 9332
    },
    {
      "epoch": 0.2074,
      "grad_norm": 1.3564271926879883,
      "learning_rate": 0.0001585552344965548,
      "loss": 2.0173,
      "step": 9333
    },
    {
      "epoch": 0.20742222222222223,
      "grad_norm": 1.651080846786499,
      "learning_rate": 0.0001585507890642365,
      "loss": 1.6826,
      "step": 9334
    },
    {
      "epoch": 0.20744444444444443,
      "grad_norm": 1.7031806707382202,
      "learning_rate": 0.0001585463436319182,
      "loss": 1.686,
      "step": 9335
    },
    {
      "epoch": 0.20746666666666666,
      "grad_norm": 1.265480875968933,
      "learning_rate": 0.00015854189819959993,
      "loss": 1.6442,
      "step": 9336
    },
    {
      "epoch": 0.2074888888888889,
      "grad_norm": 1.1958503723144531,
      "learning_rate": 0.00015853745276728164,
      "loss": 1.4337,
      "step": 9337
    },
    {
      "epoch": 0.20751111111111112,
      "grad_norm": 1.604322910308838,
      "learning_rate": 0.00015853300733496332,
      "loss": 2.047,
      "step": 9338
    },
    {
      "epoch": 0.20753333333333332,
      "grad_norm": 1.3044029474258423,
      "learning_rate": 0.00015852856190264506,
      "loss": 1.695,
      "step": 9339
    },
    {
      "epoch": 0.20755555555555555,
      "grad_norm": 1.3646914958953857,
      "learning_rate": 0.00015852411647032674,
      "loss": 1.4956,
      "step": 9340
    },
    {
      "epoch": 0.20757777777777778,
      "grad_norm": 1.5602104663848877,
      "learning_rate": 0.00015851967103800845,
      "loss": 2.1761,
      "step": 9341
    },
    {
      "epoch": 0.2076,
      "grad_norm": 1.7651820182800293,
      "learning_rate": 0.00015851522560569016,
      "loss": 2.3276,
      "step": 9342
    },
    {
      "epoch": 0.20762222222222224,
      "grad_norm": 1.2805413007736206,
      "learning_rate": 0.00015851078017337187,
      "loss": 1.9011,
      "step": 9343
    },
    {
      "epoch": 0.20764444444444444,
      "grad_norm": 1.7965363264083862,
      "learning_rate": 0.00015850633474105358,
      "loss": 2.108,
      "step": 9344
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 1.4383206367492676,
      "learning_rate": 0.0001585018893087353,
      "loss": 1.8529,
      "step": 9345
    },
    {
      "epoch": 0.2076888888888889,
      "grad_norm": 1.9442732334136963,
      "learning_rate": 0.000158497443876417,
      "loss": 2.3501,
      "step": 9346
    },
    {
      "epoch": 0.20771111111111112,
      "grad_norm": 1.8512080907821655,
      "learning_rate": 0.0001584929984440987,
      "loss": 2.233,
      "step": 9347
    },
    {
      "epoch": 0.20773333333333333,
      "grad_norm": 2.1298835277557373,
      "learning_rate": 0.00015848855301178042,
      "loss": 2.3068,
      "step": 9348
    },
    {
      "epoch": 0.20775555555555555,
      "grad_norm": 1.7318297624588013,
      "learning_rate": 0.0001584841075794621,
      "loss": 1.8119,
      "step": 9349
    },
    {
      "epoch": 0.20777777777777778,
      "grad_norm": 1.3713067770004272,
      "learning_rate": 0.00015847966214714384,
      "loss": 1.3106,
      "step": 9350
    },
    {
      "epoch": 0.2078,
      "grad_norm": 1.4414738416671753,
      "learning_rate": 0.00015847521671482552,
      "loss": 1.4306,
      "step": 9351
    },
    {
      "epoch": 0.2078222222222222,
      "grad_norm": 1.3878345489501953,
      "learning_rate": 0.00015847077128250723,
      "loss": 2.6911,
      "step": 9352
    },
    {
      "epoch": 0.20784444444444444,
      "grad_norm": 1.194998860359192,
      "learning_rate": 0.00015846632585018894,
      "loss": 2.0656,
      "step": 9353
    },
    {
      "epoch": 0.20786666666666667,
      "grad_norm": 1.0366227626800537,
      "learning_rate": 0.00015846188041787065,
      "loss": 1.4529,
      "step": 9354
    },
    {
      "epoch": 0.2078888888888889,
      "grad_norm": 1.1481266021728516,
      "learning_rate": 0.00015845743498555236,
      "loss": 2.1762,
      "step": 9355
    },
    {
      "epoch": 0.2079111111111111,
      "grad_norm": 1.2472578287124634,
      "learning_rate": 0.00015845298955323407,
      "loss": 2.1622,
      "step": 9356
    },
    {
      "epoch": 0.20793333333333333,
      "grad_norm": 1.3211934566497803,
      "learning_rate": 0.00015844854412091578,
      "loss": 2.5187,
      "step": 9357
    },
    {
      "epoch": 0.20795555555555556,
      "grad_norm": 1.5156288146972656,
      "learning_rate": 0.00015844409868859746,
      "loss": 2.7829,
      "step": 9358
    },
    {
      "epoch": 0.2079777777777778,
      "grad_norm": 1.297473430633545,
      "learning_rate": 0.0001584396532562792,
      "loss": 2.2484,
      "step": 9359
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.2095088958740234,
      "learning_rate": 0.00015843520782396088,
      "loss": 2.2082,
      "step": 9360
    },
    {
      "epoch": 0.20802222222222222,
      "grad_norm": 1.2246737480163574,
      "learning_rate": 0.0001584307623916426,
      "loss": 2.2005,
      "step": 9361
    },
    {
      "epoch": 0.20804444444444445,
      "grad_norm": 1.197526216506958,
      "learning_rate": 0.0001584263169593243,
      "loss": 1.7698,
      "step": 9362
    },
    {
      "epoch": 0.20806666666666668,
      "grad_norm": 1.5180044174194336,
      "learning_rate": 0.000158421871527006,
      "loss": 2.1801,
      "step": 9363
    },
    {
      "epoch": 0.20808888888888888,
      "grad_norm": 1.7076783180236816,
      "learning_rate": 0.00015841742609468772,
      "loss": 2.3691,
      "step": 9364
    },
    {
      "epoch": 0.2081111111111111,
      "grad_norm": 1.2035304307937622,
      "learning_rate": 0.00015841298066236943,
      "loss": 1.2431,
      "step": 9365
    },
    {
      "epoch": 0.20813333333333334,
      "grad_norm": 1.297541856765747,
      "learning_rate": 0.00015840853523005114,
      "loss": 2.2002,
      "step": 9366
    },
    {
      "epoch": 0.20815555555555557,
      "grad_norm": 1.495057225227356,
      "learning_rate": 0.00015840408979773284,
      "loss": 2.0579,
      "step": 9367
    },
    {
      "epoch": 0.20817777777777777,
      "grad_norm": 1.6432925462722778,
      "learning_rate": 0.00015839964436541455,
      "loss": 2.4199,
      "step": 9368
    },
    {
      "epoch": 0.2082,
      "grad_norm": 1.1311742067337036,
      "learning_rate": 0.00015839519893309624,
      "loss": 0.0334,
      "step": 9369
    },
    {
      "epoch": 0.20822222222222223,
      "grad_norm": 1.7974746227264404,
      "learning_rate": 0.00015839075350077797,
      "loss": 2.1203,
      "step": 9370
    },
    {
      "epoch": 0.20824444444444445,
      "grad_norm": 1.3426352739334106,
      "learning_rate": 0.00015838630806845966,
      "loss": 1.8893,
      "step": 9371
    },
    {
      "epoch": 0.20826666666666666,
      "grad_norm": 1.5026578903198242,
      "learning_rate": 0.00015838186263614137,
      "loss": 2.2774,
      "step": 9372
    },
    {
      "epoch": 0.20828888888888888,
      "grad_norm": 1.3519642353057861,
      "learning_rate": 0.00015837741720382308,
      "loss": 1.8642,
      "step": 9373
    },
    {
      "epoch": 0.2083111111111111,
      "grad_norm": 1.903664469718933,
      "learning_rate": 0.00015837297177150478,
      "loss": 2.4742,
      "step": 9374
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 1.3878833055496216,
      "learning_rate": 0.0001583685263391865,
      "loss": 1.998,
      "step": 9375
    },
    {
      "epoch": 0.20835555555555554,
      "grad_norm": 1.392377495765686,
      "learning_rate": 0.0001583640809068682,
      "loss": 1.8025,
      "step": 9376
    },
    {
      "epoch": 0.20837777777777777,
      "grad_norm": 1.3567692041397095,
      "learning_rate": 0.00015835963547454991,
      "loss": 1.9321,
      "step": 9377
    },
    {
      "epoch": 0.2084,
      "grad_norm": 1.7765889167785645,
      "learning_rate": 0.0001583551900422316,
      "loss": 2.382,
      "step": 9378
    },
    {
      "epoch": 0.20842222222222223,
      "grad_norm": 1.5539906024932861,
      "learning_rate": 0.00015835074460991333,
      "loss": 2.0596,
      "step": 9379
    },
    {
      "epoch": 0.20844444444444443,
      "grad_norm": 2.0272178649902344,
      "learning_rate": 0.00015834629917759502,
      "loss": 2.5279,
      "step": 9380
    },
    {
      "epoch": 0.20846666666666666,
      "grad_norm": 1.3871915340423584,
      "learning_rate": 0.00015834185374527673,
      "loss": 1.7541,
      "step": 9381
    },
    {
      "epoch": 0.2084888888888889,
      "grad_norm": 1.5450371503829956,
      "learning_rate": 0.00015833740831295843,
      "loss": 1.8874,
      "step": 9382
    },
    {
      "epoch": 0.20851111111111112,
      "grad_norm": 1.8024379014968872,
      "learning_rate": 0.00015833296288064014,
      "loss": 2.0532,
      "step": 9383
    },
    {
      "epoch": 0.20853333333333332,
      "grad_norm": 1.343417763710022,
      "learning_rate": 0.00015832851744832185,
      "loss": 1.7399,
      "step": 9384
    },
    {
      "epoch": 0.20855555555555555,
      "grad_norm": 1.7514344453811646,
      "learning_rate": 0.00015832407201600356,
      "loss": 2.2879,
      "step": 9385
    },
    {
      "epoch": 0.20857777777777778,
      "grad_norm": 1.8467023372650146,
      "learning_rate": 0.00015831962658368527,
      "loss": 1.8967,
      "step": 9386
    },
    {
      "epoch": 0.2086,
      "grad_norm": 1.9398609399795532,
      "learning_rate": 0.00015831518115136698,
      "loss": 2.73,
      "step": 9387
    },
    {
      "epoch": 0.2086222222222222,
      "grad_norm": 1.6768906116485596,
      "learning_rate": 0.0001583107357190487,
      "loss": 2.2611,
      "step": 9388
    },
    {
      "epoch": 0.20864444444444444,
      "grad_norm": 1.7136387825012207,
      "learning_rate": 0.00015830629028673038,
      "loss": 1.9237,
      "step": 9389
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 1.4989862442016602,
      "learning_rate": 0.0001583018448544121,
      "loss": 1.4874,
      "step": 9390
    },
    {
      "epoch": 0.2086888888888889,
      "grad_norm": 1.666558027267456,
      "learning_rate": 0.0001582973994220938,
      "loss": 2.246,
      "step": 9391
    },
    {
      "epoch": 0.2087111111111111,
      "grad_norm": 1.3828072547912598,
      "learning_rate": 0.0001582929539897755,
      "loss": 1.8915,
      "step": 9392
    },
    {
      "epoch": 0.20873333333333333,
      "grad_norm": 1.7117966413497925,
      "learning_rate": 0.0001582885085574572,
      "loss": 2.2201,
      "step": 9393
    },
    {
      "epoch": 0.20875555555555556,
      "grad_norm": 1.537273645401001,
      "learning_rate": 0.00015828406312513892,
      "loss": 1.9482,
      "step": 9394
    },
    {
      "epoch": 0.20877777777777778,
      "grad_norm": 1.5064940452575684,
      "learning_rate": 0.00015827961769282063,
      "loss": 1.6515,
      "step": 9395
    },
    {
      "epoch": 0.2088,
      "grad_norm": 1.4310667514801025,
      "learning_rate": 0.00015827517226050234,
      "loss": 1.7747,
      "step": 9396
    },
    {
      "epoch": 0.20882222222222221,
      "grad_norm": 1.5720784664154053,
      "learning_rate": 0.00015827072682818405,
      "loss": 1.8954,
      "step": 9397
    },
    {
      "epoch": 0.20884444444444444,
      "grad_norm": 1.6497477293014526,
      "learning_rate": 0.00015826628139586573,
      "loss": 1.7402,
      "step": 9398
    },
    {
      "epoch": 0.20886666666666667,
      "grad_norm": 1.4383260011672974,
      "learning_rate": 0.00015826183596354747,
      "loss": 1.2223,
      "step": 9399
    },
    {
      "epoch": 0.2088888888888889,
      "grad_norm": 1.8881608247756958,
      "learning_rate": 0.00015825739053122915,
      "loss": 2.1334,
      "step": 9400
    },
    {
      "epoch": 0.2089111111111111,
      "grad_norm": 1.453050971031189,
      "learning_rate": 0.0001582529450989109,
      "loss": 2.3939,
      "step": 9401
    },
    {
      "epoch": 0.20893333333333333,
      "grad_norm": 1.2853225469589233,
      "learning_rate": 0.0001582484996665926,
      "loss": 2.3165,
      "step": 9402
    },
    {
      "epoch": 0.20895555555555556,
      "grad_norm": 1.5983312129974365,
      "learning_rate": 0.00015824405423427428,
      "loss": 2.4306,
      "step": 9403
    },
    {
      "epoch": 0.2089777777777778,
      "grad_norm": 1.384416937828064,
      "learning_rate": 0.00015823960880195602,
      "loss": 2.6975,
      "step": 9404
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.897845447063446,
      "learning_rate": 0.0001582351633696377,
      "loss": 1.0881,
      "step": 9405
    },
    {
      "epoch": 0.20902222222222222,
      "grad_norm": 1.3407723903656006,
      "learning_rate": 0.0001582307179373194,
      "loss": 2.5113,
      "step": 9406
    },
    {
      "epoch": 0.20904444444444445,
      "grad_norm": 1.4922075271606445,
      "learning_rate": 0.00015822627250500112,
      "loss": 2.434,
      "step": 9407
    },
    {
      "epoch": 0.20906666666666668,
      "grad_norm": 1.3365256786346436,
      "learning_rate": 0.00015822182707268283,
      "loss": 1.4485,
      "step": 9408
    },
    {
      "epoch": 0.20908888888888888,
      "grad_norm": 1.2937077283859253,
      "learning_rate": 0.0001582173816403645,
      "loss": 2.1082,
      "step": 9409
    },
    {
      "epoch": 0.2091111111111111,
      "grad_norm": 1.6686038970947266,
      "learning_rate": 0.00015821293620804625,
      "loss": 1.8275,
      "step": 9410
    },
    {
      "epoch": 0.20913333333333334,
      "grad_norm": 1.7168127298355103,
      "learning_rate": 0.00015820849077572796,
      "loss": 2.1979,
      "step": 9411
    },
    {
      "epoch": 0.20915555555555557,
      "grad_norm": 1.0984135866165161,
      "learning_rate": 0.00015820404534340964,
      "loss": 0.9866,
      "step": 9412
    },
    {
      "epoch": 0.20917777777777777,
      "grad_norm": 1.3618056774139404,
      "learning_rate": 0.00015819959991109138,
      "loss": 2.1846,
      "step": 9413
    },
    {
      "epoch": 0.2092,
      "grad_norm": 1.0710574388504028,
      "learning_rate": 0.00015819515447877306,
      "loss": 1.8884,
      "step": 9414
    },
    {
      "epoch": 0.20922222222222223,
      "grad_norm": 1.538212776184082,
      "learning_rate": 0.00015819070904645477,
      "loss": 2.1954,
      "step": 9415
    },
    {
      "epoch": 0.20924444444444446,
      "grad_norm": 1.3541203737258911,
      "learning_rate": 0.00015818626361413648,
      "loss": 1.7418,
      "step": 9416
    },
    {
      "epoch": 0.20926666666666666,
      "grad_norm": 1.5584548711776733,
      "learning_rate": 0.0001581818181818182,
      "loss": 2.4419,
      "step": 9417
    },
    {
      "epoch": 0.20928888888888889,
      "grad_norm": 1.5293501615524292,
      "learning_rate": 0.00015817737274949987,
      "loss": 1.8069,
      "step": 9418
    },
    {
      "epoch": 0.20931111111111111,
      "grad_norm": 1.2849360704421997,
      "learning_rate": 0.0001581729273171816,
      "loss": 1.988,
      "step": 9419
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 1.2708412408828735,
      "learning_rate": 0.00015816848188486332,
      "loss": 1.1065,
      "step": 9420
    },
    {
      "epoch": 0.20935555555555554,
      "grad_norm": 1.340005874633789,
      "learning_rate": 0.00015816403645254503,
      "loss": 1.5876,
      "step": 9421
    },
    {
      "epoch": 0.20937777777777777,
      "grad_norm": 1.4015567302703857,
      "learning_rate": 0.00015815959102022674,
      "loss": 2.1709,
      "step": 9422
    },
    {
      "epoch": 0.2094,
      "grad_norm": 1.8168426752090454,
      "learning_rate": 0.00015815514558790842,
      "loss": 1.9562,
      "step": 9423
    },
    {
      "epoch": 0.20942222222222223,
      "grad_norm": 1.246436595916748,
      "learning_rate": 0.00015815070015559016,
      "loss": 1.9249,
      "step": 9424
    },
    {
      "epoch": 0.20944444444444443,
      "grad_norm": 1.8576042652130127,
      "learning_rate": 0.00015814625472327184,
      "loss": 2.6407,
      "step": 9425
    },
    {
      "epoch": 0.20946666666666666,
      "grad_norm": 1.63101065158844,
      "learning_rate": 0.00015814180929095355,
      "loss": 1.6739,
      "step": 9426
    },
    {
      "epoch": 0.2094888888888889,
      "grad_norm": 1.5850459337234497,
      "learning_rate": 0.00015813736385863526,
      "loss": 1.9636,
      "step": 9427
    },
    {
      "epoch": 0.20951111111111112,
      "grad_norm": 1.516005277633667,
      "learning_rate": 0.00015813291842631697,
      "loss": 1.9358,
      "step": 9428
    },
    {
      "epoch": 0.20953333333333332,
      "grad_norm": 1.6315383911132812,
      "learning_rate": 0.00015812847299399868,
      "loss": 2.0436,
      "step": 9429
    },
    {
      "epoch": 0.20955555555555555,
      "grad_norm": 1.3077458143234253,
      "learning_rate": 0.0001581240275616804,
      "loss": 1.7098,
      "step": 9430
    },
    {
      "epoch": 0.20957777777777778,
      "grad_norm": 1.4259889125823975,
      "learning_rate": 0.0001581195821293621,
      "loss": 1.8414,
      "step": 9431
    },
    {
      "epoch": 0.2096,
      "grad_norm": 1.660496711730957,
      "learning_rate": 0.00015811513669704378,
      "loss": 2.29,
      "step": 9432
    },
    {
      "epoch": 0.2096222222222222,
      "grad_norm": 1.883182168006897,
      "learning_rate": 0.00015811069126472552,
      "loss": 1.8861,
      "step": 9433
    },
    {
      "epoch": 0.20964444444444444,
      "grad_norm": 0.7697542905807495,
      "learning_rate": 0.0001581062458324072,
      "loss": 0.7745,
      "step": 9434
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 1.349679946899414,
      "learning_rate": 0.0001581018004000889,
      "loss": 0.8232,
      "step": 9435
    },
    {
      "epoch": 0.2096888888888889,
      "grad_norm": 1.9026103019714355,
      "learning_rate": 0.00015809735496777062,
      "loss": 2.0569,
      "step": 9436
    },
    {
      "epoch": 0.2097111111111111,
      "grad_norm": 1.7395811080932617,
      "learning_rate": 0.00015809290953545233,
      "loss": 2.0217,
      "step": 9437
    },
    {
      "epoch": 0.20973333333333333,
      "grad_norm": 1.4570777416229248,
      "learning_rate": 0.00015808846410313404,
      "loss": 1.8561,
      "step": 9438
    },
    {
      "epoch": 0.20975555555555556,
      "grad_norm": 1.595816969871521,
      "learning_rate": 0.00015808401867081575,
      "loss": 1.7603,
      "step": 9439
    },
    {
      "epoch": 0.20977777777777779,
      "grad_norm": 1.5293402671813965,
      "learning_rate": 0.00015807957323849746,
      "loss": 2.0398,
      "step": 9440
    },
    {
      "epoch": 0.2098,
      "grad_norm": 1.1661505699157715,
      "learning_rate": 0.00015807512780617917,
      "loss": 1.0709,
      "step": 9441
    },
    {
      "epoch": 0.20982222222222222,
      "grad_norm": 1.6935466527938843,
      "learning_rate": 0.00015807068237386088,
      "loss": 1.9809,
      "step": 9442
    },
    {
      "epoch": 0.20984444444444444,
      "grad_norm": 1.6339062452316284,
      "learning_rate": 0.00015806623694154256,
      "loss": 2.0359,
      "step": 9443
    },
    {
      "epoch": 0.20986666666666667,
      "grad_norm": 1.5926408767700195,
      "learning_rate": 0.0001580617915092243,
      "loss": 1.9784,
      "step": 9444
    },
    {
      "epoch": 0.2098888888888889,
      "grad_norm": 1.3900201320648193,
      "learning_rate": 0.00015805734607690598,
      "loss": 1.6408,
      "step": 9445
    },
    {
      "epoch": 0.2099111111111111,
      "grad_norm": 1.7211602926254272,
      "learning_rate": 0.0001580529006445877,
      "loss": 2.0187,
      "step": 9446
    },
    {
      "epoch": 0.20993333333333333,
      "grad_norm": 1.6906044483184814,
      "learning_rate": 0.0001580484552122694,
      "loss": 1.6523,
      "step": 9447
    },
    {
      "epoch": 0.20995555555555556,
      "grad_norm": 1.6991264820098877,
      "learning_rate": 0.0001580440097799511,
      "loss": 1.9448,
      "step": 9448
    },
    {
      "epoch": 0.2099777777777778,
      "grad_norm": 1.6998827457427979,
      "learning_rate": 0.00015803956434763282,
      "loss": 1.9204,
      "step": 9449
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.7009855508804321,
      "learning_rate": 0.00015803511891531453,
      "loss": 1.9684,
      "step": 9450
    },
    {
      "epoch": 0.21002222222222222,
      "grad_norm": 1.3916493654251099,
      "learning_rate": 0.00015803067348299624,
      "loss": 2.3566,
      "step": 9451
    },
    {
      "epoch": 0.21004444444444445,
      "grad_norm": 1.398660659790039,
      "learning_rate": 0.00015802622805067792,
      "loss": 2.1901,
      "step": 9452
    },
    {
      "epoch": 0.21006666666666668,
      "grad_norm": 1.3140701055526733,
      "learning_rate": 0.00015802178261835966,
      "loss": 2.4179,
      "step": 9453
    },
    {
      "epoch": 0.21008888888888888,
      "grad_norm": 1.3464281558990479,
      "learning_rate": 0.00015801733718604134,
      "loss": 2.7096,
      "step": 9454
    },
    {
      "epoch": 0.2101111111111111,
      "grad_norm": 0.9793185591697693,
      "learning_rate": 0.00015801289175372305,
      "loss": 1.2192,
      "step": 9455
    },
    {
      "epoch": 0.21013333333333334,
      "grad_norm": 1.2266767024993896,
      "learning_rate": 0.00015800844632140476,
      "loss": 2.3203,
      "step": 9456
    },
    {
      "epoch": 0.21015555555555557,
      "grad_norm": 1.1720942258834839,
      "learning_rate": 0.00015800400088908647,
      "loss": 1.6981,
      "step": 9457
    },
    {
      "epoch": 0.21017777777777777,
      "grad_norm": 1.5319360494613647,
      "learning_rate": 0.00015799955545676818,
      "loss": 2.4499,
      "step": 9458
    },
    {
      "epoch": 0.2102,
      "grad_norm": 1.381299376487732,
      "learning_rate": 0.00015799511002444989,
      "loss": 2.3508,
      "step": 9459
    },
    {
      "epoch": 0.21022222222222223,
      "grad_norm": 1.2314064502716064,
      "learning_rate": 0.0001579906645921316,
      "loss": 2.1484,
      "step": 9460
    },
    {
      "epoch": 0.21024444444444446,
      "grad_norm": 1.9757893085479736,
      "learning_rate": 0.0001579862191598133,
      "loss": 2.3855,
      "step": 9461
    },
    {
      "epoch": 0.21026666666666666,
      "grad_norm": 1.3692021369934082,
      "learning_rate": 0.00015798177372749501,
      "loss": 2.078,
      "step": 9462
    },
    {
      "epoch": 0.2102888888888889,
      "grad_norm": 1.3377074003219604,
      "learning_rate": 0.0001579773282951767,
      "loss": 2.2573,
      "step": 9463
    },
    {
      "epoch": 0.21031111111111112,
      "grad_norm": 1.490582823753357,
      "learning_rate": 0.00015797288286285843,
      "loss": 1.9286,
      "step": 9464
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 1.7983829975128174,
      "learning_rate": 0.00015796843743054012,
      "loss": 2.1181,
      "step": 9465
    },
    {
      "epoch": 0.21035555555555555,
      "grad_norm": 1.294155478477478,
      "learning_rate": 0.00015796399199822183,
      "loss": 1.8826,
      "step": 9466
    },
    {
      "epoch": 0.21037777777777777,
      "grad_norm": 1.241506814956665,
      "learning_rate": 0.00015795954656590354,
      "loss": 1.8607,
      "step": 9467
    },
    {
      "epoch": 0.2104,
      "grad_norm": 1.642166018486023,
      "learning_rate": 0.00015795510113358525,
      "loss": 2.3995,
      "step": 9468
    },
    {
      "epoch": 0.21042222222222223,
      "grad_norm": 1.6114739179611206,
      "learning_rate": 0.00015795065570126695,
      "loss": 2.3648,
      "step": 9469
    },
    {
      "epoch": 0.21044444444444443,
      "grad_norm": 1.3137439489364624,
      "learning_rate": 0.00015794621026894866,
      "loss": 2.0039,
      "step": 9470
    },
    {
      "epoch": 0.21046666666666666,
      "grad_norm": 1.3366023302078247,
      "learning_rate": 0.00015794176483663037,
      "loss": 1.2533,
      "step": 9471
    },
    {
      "epoch": 0.2104888888888889,
      "grad_norm": 1.5627554655075073,
      "learning_rate": 0.00015793731940431206,
      "loss": 1.9638,
      "step": 9472
    },
    {
      "epoch": 0.21051111111111112,
      "grad_norm": 1.5006526708602905,
      "learning_rate": 0.0001579328739719938,
      "loss": 2.187,
      "step": 9473
    },
    {
      "epoch": 0.21053333333333332,
      "grad_norm": 1.5256942510604858,
      "learning_rate": 0.00015792842853967548,
      "loss": 1.7758,
      "step": 9474
    },
    {
      "epoch": 0.21055555555555555,
      "grad_norm": 1.599682092666626,
      "learning_rate": 0.00015792398310735719,
      "loss": 2.2385,
      "step": 9475
    },
    {
      "epoch": 0.21057777777777778,
      "grad_norm": 1.6778409481048584,
      "learning_rate": 0.00015791953767503892,
      "loss": 2.6702,
      "step": 9476
    },
    {
      "epoch": 0.2106,
      "grad_norm": 1.4093517065048218,
      "learning_rate": 0.0001579150922427206,
      "loss": 2.245,
      "step": 9477
    },
    {
      "epoch": 0.2106222222222222,
      "grad_norm": 1.3480662107467651,
      "learning_rate": 0.00015791064681040234,
      "loss": 1.5719,
      "step": 9478
    },
    {
      "epoch": 0.21064444444444444,
      "grad_norm": 1.7667663097381592,
      "learning_rate": 0.00015790620137808402,
      "loss": 2.2126,
      "step": 9479
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 0.9514330625534058,
      "learning_rate": 0.00015790175594576573,
      "loss": 1.0258,
      "step": 9480
    },
    {
      "epoch": 0.2106888888888889,
      "grad_norm": 1.4034240245819092,
      "learning_rate": 0.00015789731051344744,
      "loss": 1.8306,
      "step": 9481
    },
    {
      "epoch": 0.2107111111111111,
      "grad_norm": 1.6032487154006958,
      "learning_rate": 0.00015789286508112915,
      "loss": 2.2661,
      "step": 9482
    },
    {
      "epoch": 0.21073333333333333,
      "grad_norm": 1.5219534635543823,
      "learning_rate": 0.00015788841964881084,
      "loss": 2.5386,
      "step": 9483
    },
    {
      "epoch": 0.21075555555555556,
      "grad_norm": 1.2810617685317993,
      "learning_rate": 0.00015788397421649257,
      "loss": 1.2408,
      "step": 9484
    },
    {
      "epoch": 0.21077777777777779,
      "grad_norm": 1.1662116050720215,
      "learning_rate": 0.00015787952878417428,
      "loss": 1.1686,
      "step": 9485
    },
    {
      "epoch": 0.2108,
      "grad_norm": 1.5628982782363892,
      "learning_rate": 0.00015787508335185596,
      "loss": 2.094,
      "step": 9486
    },
    {
      "epoch": 0.21082222222222222,
      "grad_norm": 1.6817048788070679,
      "learning_rate": 0.0001578706379195377,
      "loss": 1.9051,
      "step": 9487
    },
    {
      "epoch": 0.21084444444444445,
      "grad_norm": 1.4748566150665283,
      "learning_rate": 0.00015786619248721938,
      "loss": 1.965,
      "step": 9488
    },
    {
      "epoch": 0.21086666666666667,
      "grad_norm": 1.4108623266220093,
      "learning_rate": 0.0001578617470549011,
      "loss": 2.0554,
      "step": 9489
    },
    {
      "epoch": 0.21088888888888888,
      "grad_norm": 1.2668651342391968,
      "learning_rate": 0.0001578573016225828,
      "loss": 1.5055,
      "step": 9490
    },
    {
      "epoch": 0.2109111111111111,
      "grad_norm": 1.4531774520874023,
      "learning_rate": 0.0001578528561902645,
      "loss": 1.5892,
      "step": 9491
    },
    {
      "epoch": 0.21093333333333333,
      "grad_norm": 1.5120043754577637,
      "learning_rate": 0.0001578484107579462,
      "loss": 2.2029,
      "step": 9492
    },
    {
      "epoch": 0.21095555555555556,
      "grad_norm": 1.8942304849624634,
      "learning_rate": 0.00015784396532562793,
      "loss": 1.9154,
      "step": 9493
    },
    {
      "epoch": 0.21097777777777776,
      "grad_norm": 1.7750166654586792,
      "learning_rate": 0.00015783951989330964,
      "loss": 1.6664,
      "step": 9494
    },
    {
      "epoch": 0.211,
      "grad_norm": 1.4473799467086792,
      "learning_rate": 0.00015783507446099132,
      "loss": 1.7244,
      "step": 9495
    },
    {
      "epoch": 0.21102222222222222,
      "grad_norm": 1.5169285535812378,
      "learning_rate": 0.00015783062902867306,
      "loss": 1.7193,
      "step": 9496
    },
    {
      "epoch": 0.21104444444444445,
      "grad_norm": 1.5611293315887451,
      "learning_rate": 0.00015782618359635474,
      "loss": 1.9365,
      "step": 9497
    },
    {
      "epoch": 0.21106666666666668,
      "grad_norm": 1.7020589113235474,
      "learning_rate": 0.00015782173816403648,
      "loss": 2.3183,
      "step": 9498
    },
    {
      "epoch": 0.21108888888888888,
      "grad_norm": 1.5333129167556763,
      "learning_rate": 0.00015781729273171816,
      "loss": 1.3078,
      "step": 9499
    },
    {
      "epoch": 0.2111111111111111,
      "grad_norm": 2.0729782581329346,
      "learning_rate": 0.00015781284729939987,
      "loss": 1.8413,
      "step": 9500
    },
    {
      "epoch": 0.21113333333333334,
      "grad_norm": 1.4559266567230225,
      "learning_rate": 0.00015780840186708158,
      "loss": 2.7265,
      "step": 9501
    },
    {
      "epoch": 0.21115555555555557,
      "grad_norm": 1.339570164680481,
      "learning_rate": 0.0001578039564347633,
      "loss": 2.2968,
      "step": 9502
    },
    {
      "epoch": 0.21117777777777777,
      "grad_norm": 1.2764532566070557,
      "learning_rate": 0.000157799511002445,
      "loss": 1.2438,
      "step": 9503
    },
    {
      "epoch": 0.2112,
      "grad_norm": 1.2539739608764648,
      "learning_rate": 0.0001577950655701267,
      "loss": 2.3521,
      "step": 9504
    },
    {
      "epoch": 0.21122222222222223,
      "grad_norm": 1.3003621101379395,
      "learning_rate": 0.00015779062013780842,
      "loss": 1.8421,
      "step": 9505
    },
    {
      "epoch": 0.21124444444444446,
      "grad_norm": 1.1738638877868652,
      "learning_rate": 0.0001577861747054901,
      "loss": 2.0216,
      "step": 9506
    },
    {
      "epoch": 0.21126666666666666,
      "grad_norm": 1.379979133605957,
      "learning_rate": 0.00015778172927317184,
      "loss": 1.8492,
      "step": 9507
    },
    {
      "epoch": 0.2112888888888889,
      "grad_norm": 1.5764005184173584,
      "learning_rate": 0.00015777728384085352,
      "loss": 2.2366,
      "step": 9508
    },
    {
      "epoch": 0.21131111111111112,
      "grad_norm": 1.381851315498352,
      "learning_rate": 0.00015777283840853523,
      "loss": 2.2296,
      "step": 9509
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 1.3722866773605347,
      "learning_rate": 0.00015776839297621694,
      "loss": 2.4602,
      "step": 9510
    },
    {
      "epoch": 0.21135555555555555,
      "grad_norm": 1.6569212675094604,
      "learning_rate": 0.00015776394754389865,
      "loss": 2.521,
      "step": 9511
    },
    {
      "epoch": 0.21137777777777778,
      "grad_norm": 1.3014343976974487,
      "learning_rate": 0.00015775950211158036,
      "loss": 1.9482,
      "step": 9512
    },
    {
      "epoch": 0.2114,
      "grad_norm": 1.3542009592056274,
      "learning_rate": 0.00015775505667926207,
      "loss": 2.1491,
      "step": 9513
    },
    {
      "epoch": 0.21142222222222223,
      "grad_norm": 1.5048863887786865,
      "learning_rate": 0.00015775061124694378,
      "loss": 2.0366,
      "step": 9514
    },
    {
      "epoch": 0.21144444444444443,
      "grad_norm": 1.6439040899276733,
      "learning_rate": 0.0001577461658146255,
      "loss": 2.0799,
      "step": 9515
    },
    {
      "epoch": 0.21146666666666666,
      "grad_norm": 1.491109848022461,
      "learning_rate": 0.0001577417203823072,
      "loss": 1.8691,
      "step": 9516
    },
    {
      "epoch": 0.2114888888888889,
      "grad_norm": 1.7225568294525146,
      "learning_rate": 0.00015773727494998888,
      "loss": 1.7625,
      "step": 9517
    },
    {
      "epoch": 0.21151111111111112,
      "grad_norm": 1.259023666381836,
      "learning_rate": 0.00015773282951767062,
      "loss": 1.9417,
      "step": 9518
    },
    {
      "epoch": 0.21153333333333332,
      "grad_norm": 1.3562076091766357,
      "learning_rate": 0.0001577283840853523,
      "loss": 1.656,
      "step": 9519
    },
    {
      "epoch": 0.21155555555555555,
      "grad_norm": 1.6152814626693726,
      "learning_rate": 0.000157723938653034,
      "loss": 2.4946,
      "step": 9520
    },
    {
      "epoch": 0.21157777777777778,
      "grad_norm": 1.1895558834075928,
      "learning_rate": 0.00015771949322071572,
      "loss": 1.2603,
      "step": 9521
    },
    {
      "epoch": 0.2116,
      "grad_norm": 1.3755637407302856,
      "learning_rate": 0.00015771504778839743,
      "loss": 1.8572,
      "step": 9522
    },
    {
      "epoch": 0.2116222222222222,
      "grad_norm": 1.5324302911758423,
      "learning_rate": 0.00015771060235607914,
      "loss": 1.9492,
      "step": 9523
    },
    {
      "epoch": 0.21164444444444444,
      "grad_norm": 1.4686192274093628,
      "learning_rate": 0.00015770615692376085,
      "loss": 2.2265,
      "step": 9524
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 1.322622537612915,
      "learning_rate": 0.00015770171149144256,
      "loss": 2.0289,
      "step": 9525
    },
    {
      "epoch": 0.2116888888888889,
      "grad_norm": 1.2509326934814453,
      "learning_rate": 0.00015769726605912424,
      "loss": 1.3517,
      "step": 9526
    },
    {
      "epoch": 0.2117111111111111,
      "grad_norm": 1.2003635168075562,
      "learning_rate": 0.00015769282062680598,
      "loss": 1.6507,
      "step": 9527
    },
    {
      "epoch": 0.21173333333333333,
      "grad_norm": 1.4692578315734863,
      "learning_rate": 0.00015768837519448766,
      "loss": 1.8802,
      "step": 9528
    },
    {
      "epoch": 0.21175555555555556,
      "grad_norm": 1.4919543266296387,
      "learning_rate": 0.00015768392976216937,
      "loss": 2.0445,
      "step": 9529
    },
    {
      "epoch": 0.2117777777777778,
      "grad_norm": 1.5683742761611938,
      "learning_rate": 0.00015767948432985108,
      "loss": 2.0707,
      "step": 9530
    },
    {
      "epoch": 0.2118,
      "grad_norm": 1.271296501159668,
      "learning_rate": 0.0001576750388975328,
      "loss": 0.9467,
      "step": 9531
    },
    {
      "epoch": 0.21182222222222222,
      "grad_norm": 1.1151267290115356,
      "learning_rate": 0.0001576705934652145,
      "loss": 0.9674,
      "step": 9532
    },
    {
      "epoch": 0.21184444444444445,
      "grad_norm": 1.5522680282592773,
      "learning_rate": 0.0001576661480328962,
      "loss": 2.0618,
      "step": 9533
    },
    {
      "epoch": 0.21186666666666668,
      "grad_norm": 1.256810188293457,
      "learning_rate": 0.00015766170260057792,
      "loss": 1.7652,
      "step": 9534
    },
    {
      "epoch": 0.21188888888888888,
      "grad_norm": 1.5722377300262451,
      "learning_rate": 0.00015765725716825963,
      "loss": 1.9091,
      "step": 9535
    },
    {
      "epoch": 0.2119111111111111,
      "grad_norm": 1.5316405296325684,
      "learning_rate": 0.00015765281173594134,
      "loss": 2.1855,
      "step": 9536
    },
    {
      "epoch": 0.21193333333333333,
      "grad_norm": 1.5902130603790283,
      "learning_rate": 0.00015764836630362302,
      "loss": 1.8501,
      "step": 9537
    },
    {
      "epoch": 0.21195555555555556,
      "grad_norm": 1.4610508680343628,
      "learning_rate": 0.00015764392087130476,
      "loss": 1.7142,
      "step": 9538
    },
    {
      "epoch": 0.21197777777777776,
      "grad_norm": 0.9332330226898193,
      "learning_rate": 0.00015763947543898644,
      "loss": 0.8468,
      "step": 9539
    },
    {
      "epoch": 0.212,
      "grad_norm": 1.6518791913986206,
      "learning_rate": 0.00015763503000666815,
      "loss": 1.7811,
      "step": 9540
    },
    {
      "epoch": 0.21202222222222222,
      "grad_norm": 1.2910019159317017,
      "learning_rate": 0.00015763058457434986,
      "loss": 1.5703,
      "step": 9541
    },
    {
      "epoch": 0.21204444444444445,
      "grad_norm": 1.8197605609893799,
      "learning_rate": 0.00015762613914203157,
      "loss": 1.9958,
      "step": 9542
    },
    {
      "epoch": 0.21206666666666665,
      "grad_norm": 1.493137001991272,
      "learning_rate": 0.00015762169370971328,
      "loss": 1.6983,
      "step": 9543
    },
    {
      "epoch": 0.21208888888888888,
      "grad_norm": 1.7800718545913696,
      "learning_rate": 0.000157617248277395,
      "loss": 1.6201,
      "step": 9544
    },
    {
      "epoch": 0.2121111111111111,
      "grad_norm": 2.0248758792877197,
      "learning_rate": 0.0001576128028450767,
      "loss": 2.0743,
      "step": 9545
    },
    {
      "epoch": 0.21213333333333334,
      "grad_norm": 1.7316893339157104,
      "learning_rate": 0.00015760835741275838,
      "loss": 1.8875,
      "step": 9546
    },
    {
      "epoch": 0.21215555555555554,
      "grad_norm": 1.5079509019851685,
      "learning_rate": 0.00015760391198044012,
      "loss": 1.6298,
      "step": 9547
    },
    {
      "epoch": 0.21217777777777777,
      "grad_norm": 1.2225311994552612,
      "learning_rate": 0.0001575994665481218,
      "loss": 0.9257,
      "step": 9548
    },
    {
      "epoch": 0.2122,
      "grad_norm": 1.69394052028656,
      "learning_rate": 0.0001575950211158035,
      "loss": 1.537,
      "step": 9549
    },
    {
      "epoch": 0.21222222222222223,
      "grad_norm": 1.0208446979522705,
      "learning_rate": 0.00015759057568348524,
      "loss": 0.5445,
      "step": 9550
    },
    {
      "epoch": 0.21224444444444446,
      "grad_norm": 1.372890830039978,
      "learning_rate": 0.00015758613025116693,
      "loss": 2.5836,
      "step": 9551
    },
    {
      "epoch": 0.21226666666666666,
      "grad_norm": 0.9396095275878906,
      "learning_rate": 0.00015758168481884866,
      "loss": 1.0445,
      "step": 9552
    },
    {
      "epoch": 0.2122888888888889,
      "grad_norm": 1.227510929107666,
      "learning_rate": 0.00015757723938653035,
      "loss": 2.1419,
      "step": 9553
    },
    {
      "epoch": 0.21231111111111112,
      "grad_norm": 1.4000799655914307,
      "learning_rate": 0.00015757279395421206,
      "loss": 2.6166,
      "step": 9554
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 1.0912622213363647,
      "learning_rate": 0.00015756834852189377,
      "loss": 2.1625,
      "step": 9555
    },
    {
      "epoch": 0.21235555555555555,
      "grad_norm": 1.086487889289856,
      "learning_rate": 0.00015756390308957547,
      "loss": 1.634,
      "step": 9556
    },
    {
      "epoch": 0.21237777777777778,
      "grad_norm": 1.2927091121673584,
      "learning_rate": 0.00015755945765725716,
      "loss": 1.9237,
      "step": 9557
    },
    {
      "epoch": 0.2124,
      "grad_norm": 1.2662962675094604,
      "learning_rate": 0.0001575550122249389,
      "loss": 2.1702,
      "step": 9558
    },
    {
      "epoch": 0.21242222222222223,
      "grad_norm": 1.7671009302139282,
      "learning_rate": 0.0001575505667926206,
      "loss": 2.1532,
      "step": 9559
    },
    {
      "epoch": 0.21244444444444444,
      "grad_norm": 1.201658010482788,
      "learning_rate": 0.00015754612136030229,
      "loss": 1.7213,
      "step": 9560
    },
    {
      "epoch": 0.21246666666666666,
      "grad_norm": 1.3575314283370972,
      "learning_rate": 0.00015754167592798402,
      "loss": 1.9629,
      "step": 9561
    },
    {
      "epoch": 0.2124888888888889,
      "grad_norm": 1.4114903211593628,
      "learning_rate": 0.0001575372304956657,
      "loss": 2.0133,
      "step": 9562
    },
    {
      "epoch": 0.21251111111111112,
      "grad_norm": 2.255302906036377,
      "learning_rate": 0.00015753278506334742,
      "loss": 2.2688,
      "step": 9563
    },
    {
      "epoch": 0.21253333333333332,
      "grad_norm": 1.348035454750061,
      "learning_rate": 0.00015752833963102912,
      "loss": 1.6692,
      "step": 9564
    },
    {
      "epoch": 0.21255555555555555,
      "grad_norm": 1.5158532857894897,
      "learning_rate": 0.00015752389419871083,
      "loss": 1.9501,
      "step": 9565
    },
    {
      "epoch": 0.21257777777777778,
      "grad_norm": 1.5554239749908447,
      "learning_rate": 0.00015751944876639252,
      "loss": 2.2722,
      "step": 9566
    },
    {
      "epoch": 0.2126,
      "grad_norm": 1.2942215204238892,
      "learning_rate": 0.00015751500333407425,
      "loss": 1.7998,
      "step": 9567
    },
    {
      "epoch": 0.2126222222222222,
      "grad_norm": 1.2811657190322876,
      "learning_rate": 0.00015751055790175596,
      "loss": 1.8351,
      "step": 9568
    },
    {
      "epoch": 0.21264444444444444,
      "grad_norm": 1.3447628021240234,
      "learning_rate": 0.00015750611246943765,
      "loss": 2.0415,
      "step": 9569
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 1.6480118036270142,
      "learning_rate": 0.00015750166703711938,
      "loss": 2.7367,
      "step": 9570
    },
    {
      "epoch": 0.2126888888888889,
      "grad_norm": 1.5474839210510254,
      "learning_rate": 0.00015749722160480106,
      "loss": 1.5826,
      "step": 9571
    },
    {
      "epoch": 0.2127111111111111,
      "grad_norm": 1.4129070043563843,
      "learning_rate": 0.0001574927761724828,
      "loss": 2.1779,
      "step": 9572
    },
    {
      "epoch": 0.21273333333333333,
      "grad_norm": 1.8301538228988647,
      "learning_rate": 0.00015748833074016448,
      "loss": 2.0289,
      "step": 9573
    },
    {
      "epoch": 0.21275555555555556,
      "grad_norm": 1.5180602073669434,
      "learning_rate": 0.0001574838853078462,
      "loss": 2.0275,
      "step": 9574
    },
    {
      "epoch": 0.2127777777777778,
      "grad_norm": 1.5375535488128662,
      "learning_rate": 0.0001574794398755279,
      "loss": 2.0123,
      "step": 9575
    },
    {
      "epoch": 0.2128,
      "grad_norm": 1.8756523132324219,
      "learning_rate": 0.0001574749944432096,
      "loss": 2.2081,
      "step": 9576
    },
    {
      "epoch": 0.21282222222222222,
      "grad_norm": 1.3535890579223633,
      "learning_rate": 0.00015747054901089132,
      "loss": 1.8139,
      "step": 9577
    },
    {
      "epoch": 0.21284444444444445,
      "grad_norm": 1.4679334163665771,
      "learning_rate": 0.00015746610357857303,
      "loss": 2.3932,
      "step": 9578
    },
    {
      "epoch": 0.21286666666666668,
      "grad_norm": 1.398962140083313,
      "learning_rate": 0.00015746165814625474,
      "loss": 2.0789,
      "step": 9579
    },
    {
      "epoch": 0.21288888888888888,
      "grad_norm": 1.317628264427185,
      "learning_rate": 0.00015745721271393642,
      "loss": 1.8154,
      "step": 9580
    },
    {
      "epoch": 0.2129111111111111,
      "grad_norm": 1.3508003950119019,
      "learning_rate": 0.00015745276728161816,
      "loss": 1.7323,
      "step": 9581
    },
    {
      "epoch": 0.21293333333333334,
      "grad_norm": 1.532711386680603,
      "learning_rate": 0.00015744832184929984,
      "loss": 2.0756,
      "step": 9582
    },
    {
      "epoch": 0.21295555555555556,
      "grad_norm": 1.459999918937683,
      "learning_rate": 0.00015744387641698155,
      "loss": 1.7092,
      "step": 9583
    },
    {
      "epoch": 0.21297777777777777,
      "grad_norm": 1.3883118629455566,
      "learning_rate": 0.00015743943098466326,
      "loss": 1.6887,
      "step": 9584
    },
    {
      "epoch": 0.213,
      "grad_norm": 1.5080755949020386,
      "learning_rate": 0.00015743498555234497,
      "loss": 1.7967,
      "step": 9585
    },
    {
      "epoch": 0.21302222222222222,
      "grad_norm": 1.5389403104782104,
      "learning_rate": 0.00015743054012002668,
      "loss": 2.2301,
      "step": 9586
    },
    {
      "epoch": 0.21304444444444445,
      "grad_norm": 1.5754859447479248,
      "learning_rate": 0.0001574260946877084,
      "loss": 1.8906,
      "step": 9587
    },
    {
      "epoch": 0.21306666666666665,
      "grad_norm": 1.5235244035720825,
      "learning_rate": 0.0001574216492553901,
      "loss": 1.9701,
      "step": 9588
    },
    {
      "epoch": 0.21308888888888888,
      "grad_norm": 1.9475958347320557,
      "learning_rate": 0.00015741720382307178,
      "loss": 2.5918,
      "step": 9589
    },
    {
      "epoch": 0.2131111111111111,
      "grad_norm": 1.4405674934387207,
      "learning_rate": 0.00015741275839075352,
      "loss": 1.8203,
      "step": 9590
    },
    {
      "epoch": 0.21313333333333334,
      "grad_norm": 1.4635385274887085,
      "learning_rate": 0.0001574083129584352,
      "loss": 1.9023,
      "step": 9591
    },
    {
      "epoch": 0.21315555555555554,
      "grad_norm": 1.5372812747955322,
      "learning_rate": 0.00015740386752611694,
      "loss": 1.9052,
      "step": 9592
    },
    {
      "epoch": 0.21317777777777777,
      "grad_norm": 1.2527427673339844,
      "learning_rate": 0.00015739942209379862,
      "loss": 1.4983,
      "step": 9593
    },
    {
      "epoch": 0.2132,
      "grad_norm": 1.5170085430145264,
      "learning_rate": 0.00015739497666148033,
      "loss": 2.0083,
      "step": 9594
    },
    {
      "epoch": 0.21322222222222223,
      "grad_norm": 1.8144969940185547,
      "learning_rate": 0.00015739053122916204,
      "loss": 1.9546,
      "step": 9595
    },
    {
      "epoch": 0.21324444444444443,
      "grad_norm": 1.7780649662017822,
      "learning_rate": 0.00015738608579684375,
      "loss": 2.0208,
      "step": 9596
    },
    {
      "epoch": 0.21326666666666666,
      "grad_norm": 1.5989187955856323,
      "learning_rate": 0.00015738164036452546,
      "loss": 2.1083,
      "step": 9597
    },
    {
      "epoch": 0.2132888888888889,
      "grad_norm": 2.1481008529663086,
      "learning_rate": 0.00015737719493220717,
      "loss": 1.5782,
      "step": 9598
    },
    {
      "epoch": 0.21331111111111112,
      "grad_norm": 1.5939074754714966,
      "learning_rate": 0.00015737274949988888,
      "loss": 1.379,
      "step": 9599
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 1.3466012477874756,
      "learning_rate": 0.00015736830406757056,
      "loss": 0.8009,
      "step": 9600
    },
    {
      "epoch": 0.21335555555555555,
      "grad_norm": 1.3754734992980957,
      "learning_rate": 0.0001573638586352523,
      "loss": 1.2106,
      "step": 9601
    },
    {
      "epoch": 0.21337777777777778,
      "grad_norm": 1.3753502368927002,
      "learning_rate": 0.00015735941320293398,
      "loss": 2.5106,
      "step": 9602
    },
    {
      "epoch": 0.2134,
      "grad_norm": 1.0934921503067017,
      "learning_rate": 0.0001573549677706157,
      "loss": 1.9745,
      "step": 9603
    },
    {
      "epoch": 0.21342222222222224,
      "grad_norm": 1.2872843742370605,
      "learning_rate": 0.0001573505223382974,
      "loss": 2.3136,
      "step": 9604
    },
    {
      "epoch": 0.21344444444444444,
      "grad_norm": 1.2954535484313965,
      "learning_rate": 0.0001573460769059791,
      "loss": 2.5095,
      "step": 9605
    },
    {
      "epoch": 0.21346666666666667,
      "grad_norm": 1.3760312795639038,
      "learning_rate": 0.00015734163147366082,
      "loss": 2.4016,
      "step": 9606
    },
    {
      "epoch": 0.2134888888888889,
      "grad_norm": 1.630873441696167,
      "learning_rate": 0.00015733718604134253,
      "loss": 2.5391,
      "step": 9607
    },
    {
      "epoch": 0.21351111111111112,
      "grad_norm": 1.4985600709915161,
      "learning_rate": 0.00015733274060902424,
      "loss": 2.4656,
      "step": 9608
    },
    {
      "epoch": 0.21353333333333332,
      "grad_norm": 1.4045952558517456,
      "learning_rate": 0.00015732829517670595,
      "loss": 2.3941,
      "step": 9609
    },
    {
      "epoch": 0.21355555555555555,
      "grad_norm": 1.595115065574646,
      "learning_rate": 0.00015732384974438766,
      "loss": 2.4026,
      "step": 9610
    },
    {
      "epoch": 0.21357777777777778,
      "grad_norm": 1.4047449827194214,
      "learning_rate": 0.00015731940431206934,
      "loss": 2.1633,
      "step": 9611
    },
    {
      "epoch": 0.2136,
      "grad_norm": 1.391985535621643,
      "learning_rate": 0.00015731495887975108,
      "loss": 2.0277,
      "step": 9612
    },
    {
      "epoch": 0.2136222222222222,
      "grad_norm": 1.31850266456604,
      "learning_rate": 0.00015731051344743276,
      "loss": 2.2253,
      "step": 9613
    },
    {
      "epoch": 0.21364444444444444,
      "grad_norm": 1.5686761140823364,
      "learning_rate": 0.00015730606801511447,
      "loss": 2.4293,
      "step": 9614
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 1.3476723432540894,
      "learning_rate": 0.00015730162258279618,
      "loss": 1.7824,
      "step": 9615
    },
    {
      "epoch": 0.2136888888888889,
      "grad_norm": 1.2254160642623901,
      "learning_rate": 0.0001572971771504779,
      "loss": 2.0139,
      "step": 9616
    },
    {
      "epoch": 0.2137111111111111,
      "grad_norm": 1.316386103630066,
      "learning_rate": 0.0001572927317181596,
      "loss": 1.9361,
      "step": 9617
    },
    {
      "epoch": 0.21373333333333333,
      "grad_norm": 1.5517507791519165,
      "learning_rate": 0.0001572882862858413,
      "loss": 2.1787,
      "step": 9618
    },
    {
      "epoch": 0.21375555555555556,
      "grad_norm": 1.5552361011505127,
      "learning_rate": 0.00015728384085352302,
      "loss": 2.0306,
      "step": 9619
    },
    {
      "epoch": 0.2137777777777778,
      "grad_norm": 1.5052745342254639,
      "learning_rate": 0.0001572793954212047,
      "loss": 2.1646,
      "step": 9620
    },
    {
      "epoch": 0.2138,
      "grad_norm": 1.5474562644958496,
      "learning_rate": 0.00015727494998888644,
      "loss": 2.0031,
      "step": 9621
    },
    {
      "epoch": 0.21382222222222222,
      "grad_norm": 1.4618486166000366,
      "learning_rate": 0.00015727050455656812,
      "loss": 1.9479,
      "step": 9622
    },
    {
      "epoch": 0.21384444444444445,
      "grad_norm": 1.3639613389968872,
      "learning_rate": 0.00015726605912424983,
      "loss": 2.0436,
      "step": 9623
    },
    {
      "epoch": 0.21386666666666668,
      "grad_norm": 1.465760588645935,
      "learning_rate": 0.00015726161369193157,
      "loss": 1.9743,
      "step": 9624
    },
    {
      "epoch": 0.21388888888888888,
      "grad_norm": 1.4947434663772583,
      "learning_rate": 0.00015725716825961325,
      "loss": 2.2029,
      "step": 9625
    },
    {
      "epoch": 0.2139111111111111,
      "grad_norm": 1.5278364419937134,
      "learning_rate": 0.00015725272282729496,
      "loss": 1.8896,
      "step": 9626
    },
    {
      "epoch": 0.21393333333333334,
      "grad_norm": 1.3394042253494263,
      "learning_rate": 0.00015724827739497667,
      "loss": 1.7762,
      "step": 9627
    },
    {
      "epoch": 0.21395555555555557,
      "grad_norm": 1.5978813171386719,
      "learning_rate": 0.00015724383196265838,
      "loss": 2.0056,
      "step": 9628
    },
    {
      "epoch": 0.21397777777777777,
      "grad_norm": 1.4554920196533203,
      "learning_rate": 0.0001572393865303401,
      "loss": 1.8789,
      "step": 9629
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.9226452112197876,
      "learning_rate": 0.0001572349410980218,
      "loss": 0.9571,
      "step": 9630
    },
    {
      "epoch": 0.21402222222222222,
      "grad_norm": 1.321506381034851,
      "learning_rate": 0.00015723049566570348,
      "loss": 1.6916,
      "step": 9631
    },
    {
      "epoch": 0.21404444444444445,
      "grad_norm": 1.2589225769042969,
      "learning_rate": 0.00015722605023338522,
      "loss": 1.604,
      "step": 9632
    },
    {
      "epoch": 0.21406666666666666,
      "grad_norm": 1.6952109336853027,
      "learning_rate": 0.00015722160480106693,
      "loss": 2.1761,
      "step": 9633
    },
    {
      "epoch": 0.21408888888888888,
      "grad_norm": 1.6307495832443237,
      "learning_rate": 0.0001572171593687486,
      "loss": 2.0322,
      "step": 9634
    },
    {
      "epoch": 0.2141111111111111,
      "grad_norm": 1.5851315259933472,
      "learning_rate": 0.00015721271393643034,
      "loss": 1.8345,
      "step": 9635
    },
    {
      "epoch": 0.21413333333333334,
      "grad_norm": 1.874607801437378,
      "learning_rate": 0.00015720826850411203,
      "loss": 2.4738,
      "step": 9636
    },
    {
      "epoch": 0.21415555555555554,
      "grad_norm": 1.8941004276275635,
      "learning_rate": 0.00015720382307179374,
      "loss": 2.3753,
      "step": 9637
    },
    {
      "epoch": 0.21417777777777777,
      "grad_norm": 1.248689889907837,
      "learning_rate": 0.00015719937763947545,
      "loss": 1.5044,
      "step": 9638
    },
    {
      "epoch": 0.2142,
      "grad_norm": 1.3730891942977905,
      "learning_rate": 0.00015719493220715716,
      "loss": 1.7727,
      "step": 9639
    },
    {
      "epoch": 0.21422222222222223,
      "grad_norm": 1.373753309249878,
      "learning_rate": 0.00015719048677483884,
      "loss": 1.6532,
      "step": 9640
    },
    {
      "epoch": 0.21424444444444443,
      "grad_norm": 1.4473062753677368,
      "learning_rate": 0.00015718604134252058,
      "loss": 1.8563,
      "step": 9641
    },
    {
      "epoch": 0.21426666666666666,
      "grad_norm": 1.9083926677703857,
      "learning_rate": 0.00015718159591020229,
      "loss": 2.1289,
      "step": 9642
    },
    {
      "epoch": 0.2142888888888889,
      "grad_norm": 1.5794612169265747,
      "learning_rate": 0.00015717715047788397,
      "loss": 1.6937,
      "step": 9643
    },
    {
      "epoch": 0.21431111111111112,
      "grad_norm": 1.5460240840911865,
      "learning_rate": 0.0001571727050455657,
      "loss": 1.6777,
      "step": 9644
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 1.7554776668548584,
      "learning_rate": 0.0001571682596132474,
      "loss": 1.9589,
      "step": 9645
    },
    {
      "epoch": 0.21435555555555555,
      "grad_norm": 1.5251609086990356,
      "learning_rate": 0.0001571638141809291,
      "loss": 1.9822,
      "step": 9646
    },
    {
      "epoch": 0.21437777777777778,
      "grad_norm": 1.8183269500732422,
      "learning_rate": 0.0001571593687486108,
      "loss": 2.0865,
      "step": 9647
    },
    {
      "epoch": 0.2144,
      "grad_norm": 1.813166618347168,
      "learning_rate": 0.00015715492331629252,
      "loss": 2.0578,
      "step": 9648
    },
    {
      "epoch": 0.2144222222222222,
      "grad_norm": 2.2304041385650635,
      "learning_rate": 0.00015715047788397423,
      "loss": 2.2856,
      "step": 9649
    },
    {
      "epoch": 0.21444444444444444,
      "grad_norm": 1.421217679977417,
      "learning_rate": 0.00015714603245165594,
      "loss": 1.4239,
      "step": 9650
    },
    {
      "epoch": 0.21446666666666667,
      "grad_norm": 1.419940710067749,
      "learning_rate": 0.00015714158701933764,
      "loss": 2.46,
      "step": 9651
    },
    {
      "epoch": 0.2144888888888889,
      "grad_norm": 1.5109293460845947,
      "learning_rate": 0.00015713714158701935,
      "loss": 2.2577,
      "step": 9652
    },
    {
      "epoch": 0.21451111111111112,
      "grad_norm": 1.2832449674606323,
      "learning_rate": 0.00015713269615470106,
      "loss": 2.1597,
      "step": 9653
    },
    {
      "epoch": 0.21453333333333333,
      "grad_norm": 1.32225501537323,
      "learning_rate": 0.00015712825072238275,
      "loss": 2.2553,
      "step": 9654
    },
    {
      "epoch": 0.21455555555555555,
      "grad_norm": 1.3208558559417725,
      "learning_rate": 0.00015712380529006448,
      "loss": 2.3724,
      "step": 9655
    },
    {
      "epoch": 0.21457777777777778,
      "grad_norm": 1.273186206817627,
      "learning_rate": 0.00015711935985774617,
      "loss": 2.1982,
      "step": 9656
    },
    {
      "epoch": 0.2146,
      "grad_norm": 0.975774884223938,
      "learning_rate": 0.00015711491442542788,
      "loss": 1.2306,
      "step": 9657
    },
    {
      "epoch": 0.21462222222222221,
      "grad_norm": 1.2067514657974243,
      "learning_rate": 0.00015711046899310958,
      "loss": 1.9507,
      "step": 9658
    },
    {
      "epoch": 0.21464444444444444,
      "grad_norm": 1.520881175994873,
      "learning_rate": 0.0001571060235607913,
      "loss": 2.6532,
      "step": 9659
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 1.6535990238189697,
      "learning_rate": 0.000157101578128473,
      "loss": 1.5692,
      "step": 9660
    },
    {
      "epoch": 0.2146888888888889,
      "grad_norm": 1.5005027055740356,
      "learning_rate": 0.00015709713269615471,
      "loss": 2.1441,
      "step": 9661
    },
    {
      "epoch": 0.2147111111111111,
      "grad_norm": 1.468940019607544,
      "learning_rate": 0.00015709268726383642,
      "loss": 2.0004,
      "step": 9662
    },
    {
      "epoch": 0.21473333333333333,
      "grad_norm": 1.3420000076293945,
      "learning_rate": 0.0001570882418315181,
      "loss": 1.9517,
      "step": 9663
    },
    {
      "epoch": 0.21475555555555556,
      "grad_norm": 1.4350758790969849,
      "learning_rate": 0.00015708379639919984,
      "loss": 2.1788,
      "step": 9664
    },
    {
      "epoch": 0.2147777777777778,
      "grad_norm": 1.560622215270996,
      "learning_rate": 0.00015707935096688153,
      "loss": 2.0935,
      "step": 9665
    },
    {
      "epoch": 0.2148,
      "grad_norm": 1.9049267768859863,
      "learning_rate": 0.00015707490553456326,
      "loss": 1.7688,
      "step": 9666
    },
    {
      "epoch": 0.21482222222222222,
      "grad_norm": 1.4411770105361938,
      "learning_rate": 0.00015707046010224494,
      "loss": 1.8694,
      "step": 9667
    },
    {
      "epoch": 0.21484444444444445,
      "grad_norm": 1.8044567108154297,
      "learning_rate": 0.00015706601466992665,
      "loss": 2.0305,
      "step": 9668
    },
    {
      "epoch": 0.21486666666666668,
      "grad_norm": 1.3057172298431396,
      "learning_rate": 0.00015706156923760836,
      "loss": 1.8797,
      "step": 9669
    },
    {
      "epoch": 0.21488888888888888,
      "grad_norm": 1.4542080163955688,
      "learning_rate": 0.00015705712380529007,
      "loss": 2.0644,
      "step": 9670
    },
    {
      "epoch": 0.2149111111111111,
      "grad_norm": 1.5433874130249023,
      "learning_rate": 0.00015705267837297178,
      "loss": 2.1164,
      "step": 9671
    },
    {
      "epoch": 0.21493333333333334,
      "grad_norm": 1.4221858978271484,
      "learning_rate": 0.0001570482329406535,
      "loss": 1.9471,
      "step": 9672
    },
    {
      "epoch": 0.21495555555555557,
      "grad_norm": 1.7143139839172363,
      "learning_rate": 0.0001570437875083352,
      "loss": 2.1433,
      "step": 9673
    },
    {
      "epoch": 0.21497777777777777,
      "grad_norm": 1.401647925376892,
      "learning_rate": 0.00015703934207601688,
      "loss": 2.0322,
      "step": 9674
    },
    {
      "epoch": 0.215,
      "grad_norm": 1.7828731536865234,
      "learning_rate": 0.00015703489664369862,
      "loss": 2.688,
      "step": 9675
    },
    {
      "epoch": 0.21502222222222223,
      "grad_norm": 1.9467707872390747,
      "learning_rate": 0.0001570304512113803,
      "loss": 1.9669,
      "step": 9676
    },
    {
      "epoch": 0.21504444444444445,
      "grad_norm": 1.1232656240463257,
      "learning_rate": 0.000157026005779062,
      "loss": 0.789,
      "step": 9677
    },
    {
      "epoch": 0.21506666666666666,
      "grad_norm": 1.8991520404815674,
      "learning_rate": 0.00015702156034674372,
      "loss": 1.8065,
      "step": 9678
    },
    {
      "epoch": 0.21508888888888889,
      "grad_norm": 1.2744826078414917,
      "learning_rate": 0.00015701711491442543,
      "loss": 1.5183,
      "step": 9679
    },
    {
      "epoch": 0.21511111111111111,
      "grad_norm": 1.4588286876678467,
      "learning_rate": 0.00015701266948210714,
      "loss": 1.9179,
      "step": 9680
    },
    {
      "epoch": 0.21513333333333334,
      "grad_norm": 1.4537135362625122,
      "learning_rate": 0.00015700822404978885,
      "loss": 2.2105,
      "step": 9681
    },
    {
      "epoch": 0.21515555555555554,
      "grad_norm": 1.53248929977417,
      "learning_rate": 0.00015700377861747056,
      "loss": 2.2289,
      "step": 9682
    },
    {
      "epoch": 0.21517777777777777,
      "grad_norm": 1.4798805713653564,
      "learning_rate": 0.00015699933318515224,
      "loss": 1.4661,
      "step": 9683
    },
    {
      "epoch": 0.2152,
      "grad_norm": 1.345216155052185,
      "learning_rate": 0.00015699488775283398,
      "loss": 1.9576,
      "step": 9684
    },
    {
      "epoch": 0.21522222222222223,
      "grad_norm": 1.6350843906402588,
      "learning_rate": 0.00015699044232051566,
      "loss": 2.2658,
      "step": 9685
    },
    {
      "epoch": 0.21524444444444443,
      "grad_norm": 1.7105486392974854,
      "learning_rate": 0.0001569859968881974,
      "loss": 2.0821,
      "step": 9686
    },
    {
      "epoch": 0.21526666666666666,
      "grad_norm": 1.3660454750061035,
      "learning_rate": 0.00015698155145587908,
      "loss": 1.4716,
      "step": 9687
    },
    {
      "epoch": 0.2152888888888889,
      "grad_norm": 1.386573314666748,
      "learning_rate": 0.0001569771060235608,
      "loss": 1.6884,
      "step": 9688
    },
    {
      "epoch": 0.21531111111111112,
      "grad_norm": 1.4320636987686157,
      "learning_rate": 0.0001569726605912425,
      "loss": 2.1169,
      "step": 9689
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 1.7451183795928955,
      "learning_rate": 0.0001569682151589242,
      "loss": 1.7149,
      "step": 9690
    },
    {
      "epoch": 0.21535555555555555,
      "grad_norm": 1.4721295833587646,
      "learning_rate": 0.00015696376972660592,
      "loss": 2.1811,
      "step": 9691
    },
    {
      "epoch": 0.21537777777777778,
      "grad_norm": 1.7040692567825317,
      "learning_rate": 0.00015695932429428763,
      "loss": 2.1207,
      "step": 9692
    },
    {
      "epoch": 0.2154,
      "grad_norm": 1.433899998664856,
      "learning_rate": 0.00015695487886196934,
      "loss": 1.8823,
      "step": 9693
    },
    {
      "epoch": 0.2154222222222222,
      "grad_norm": 1.7800654172897339,
      "learning_rate": 0.00015695043342965102,
      "loss": 1.7192,
      "step": 9694
    },
    {
      "epoch": 0.21544444444444444,
      "grad_norm": 1.823649287223816,
      "learning_rate": 0.00015694598799733276,
      "loss": 2.181,
      "step": 9695
    },
    {
      "epoch": 0.21546666666666667,
      "grad_norm": 1.6137033700942993,
      "learning_rate": 0.00015694154256501444,
      "loss": 1.4671,
      "step": 9696
    },
    {
      "epoch": 0.2154888888888889,
      "grad_norm": 1.89322829246521,
      "learning_rate": 0.00015693709713269615,
      "loss": 1.7642,
      "step": 9697
    },
    {
      "epoch": 0.2155111111111111,
      "grad_norm": 1.7879523038864136,
      "learning_rate": 0.0001569326517003779,
      "loss": 1.9758,
      "step": 9698
    },
    {
      "epoch": 0.21553333333333333,
      "grad_norm": 1.978438138961792,
      "learning_rate": 0.00015692820626805957,
      "loss": 1.7083,
      "step": 9699
    },
    {
      "epoch": 0.21555555555555556,
      "grad_norm": 1.205246090888977,
      "learning_rate": 0.00015692376083574128,
      "loss": 0.1041,
      "step": 9700
    },
    {
      "epoch": 0.21557777777777778,
      "grad_norm": 1.1044270992279053,
      "learning_rate": 0.000156919315403423,
      "loss": 2.6037,
      "step": 9701
    },
    {
      "epoch": 0.2156,
      "grad_norm": 13.09228801727295,
      "learning_rate": 0.0001569148699711047,
      "loss": 0.2155,
      "step": 9702
    },
    {
      "epoch": 0.21562222222222222,
      "grad_norm": 1.3406643867492676,
      "learning_rate": 0.00015691042453878638,
      "loss": 2.2461,
      "step": 9703
    },
    {
      "epoch": 0.21564444444444444,
      "grad_norm": 0.9272159934043884,
      "learning_rate": 0.00015690597910646812,
      "loss": 1.312,
      "step": 9704
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 1.3983514308929443,
      "learning_rate": 0.0001569015336741498,
      "loss": 2.3462,
      "step": 9705
    },
    {
      "epoch": 0.2156888888888889,
      "grad_norm": 1.3483765125274658,
      "learning_rate": 0.00015689708824183154,
      "loss": 2.2374,
      "step": 9706
    },
    {
      "epoch": 0.2157111111111111,
      "grad_norm": 1.6003098487854004,
      "learning_rate": 0.00015689264280951325,
      "loss": 2.442,
      "step": 9707
    },
    {
      "epoch": 0.21573333333333333,
      "grad_norm": 1.481289029121399,
      "learning_rate": 0.00015688819737719493,
      "loss": 2.408,
      "step": 9708
    },
    {
      "epoch": 0.21575555555555556,
      "grad_norm": 1.5008352994918823,
      "learning_rate": 0.00015688375194487667,
      "loss": 2.4793,
      "step": 9709
    },
    {
      "epoch": 0.2157777777777778,
      "grad_norm": 1.2885974645614624,
      "learning_rate": 0.00015687930651255835,
      "loss": 2.3099,
      "step": 9710
    },
    {
      "epoch": 0.2158,
      "grad_norm": 1.23928964138031,
      "learning_rate": 0.00015687486108024006,
      "loss": 1.8701,
      "step": 9711
    },
    {
      "epoch": 0.21582222222222222,
      "grad_norm": 1.4981489181518555,
      "learning_rate": 0.00015687041564792177,
      "loss": 2.1402,
      "step": 9712
    },
    {
      "epoch": 0.21584444444444445,
      "grad_norm": 1.5852553844451904,
      "learning_rate": 0.00015686597021560348,
      "loss": 2.583,
      "step": 9713
    },
    {
      "epoch": 0.21586666666666668,
      "grad_norm": 1.4517415761947632,
      "learning_rate": 0.00015686152478328516,
      "loss": 2.2044,
      "step": 9714
    },
    {
      "epoch": 0.21588888888888888,
      "grad_norm": 1.7144746780395508,
      "learning_rate": 0.0001568570793509669,
      "loss": 2.1908,
      "step": 9715
    },
    {
      "epoch": 0.2159111111111111,
      "grad_norm": 1.228813648223877,
      "learning_rate": 0.0001568526339186486,
      "loss": 1.4652,
      "step": 9716
    },
    {
      "epoch": 0.21593333333333334,
      "grad_norm": 1.4733682870864868,
      "learning_rate": 0.0001568481884863303,
      "loss": 2.2429,
      "step": 9717
    },
    {
      "epoch": 0.21595555555555557,
      "grad_norm": 0.9706540107727051,
      "learning_rate": 0.00015684374305401203,
      "loss": 0.8744,
      "step": 9718
    },
    {
      "epoch": 0.21597777777777777,
      "grad_norm": 1.3986878395080566,
      "learning_rate": 0.0001568392976216937,
      "loss": 2.1478,
      "step": 9719
    },
    {
      "epoch": 0.216,
      "grad_norm": 1.3503309488296509,
      "learning_rate": 0.00015683485218937542,
      "loss": 2.2425,
      "step": 9720
    },
    {
      "epoch": 0.21602222222222223,
      "grad_norm": 1.8133959770202637,
      "learning_rate": 0.00015683040675705713,
      "loss": 1.5315,
      "step": 9721
    },
    {
      "epoch": 0.21604444444444446,
      "grad_norm": 1.4064737558364868,
      "learning_rate": 0.00015682596132473884,
      "loss": 1.8368,
      "step": 9722
    },
    {
      "epoch": 0.21606666666666666,
      "grad_norm": 1.3272171020507812,
      "learning_rate": 0.00015682151589242055,
      "loss": 1.8508,
      "step": 9723
    },
    {
      "epoch": 0.21608888888888889,
      "grad_norm": 1.725070595741272,
      "learning_rate": 0.00015681707046010226,
      "loss": 2.2823,
      "step": 9724
    },
    {
      "epoch": 0.21611111111111111,
      "grad_norm": 1.4699783325195312,
      "learning_rate": 0.00015681262502778397,
      "loss": 1.9534,
      "step": 9725
    },
    {
      "epoch": 0.21613333333333334,
      "grad_norm": 1.3950308561325073,
      "learning_rate": 0.00015680817959546568,
      "loss": 1.8344,
      "step": 9726
    },
    {
      "epoch": 0.21615555555555555,
      "grad_norm": 1.5045981407165527,
      "learning_rate": 0.00015680373416314739,
      "loss": 1.9271,
      "step": 9727
    },
    {
      "epoch": 0.21617777777777777,
      "grad_norm": 1.3652106523513794,
      "learning_rate": 0.00015679928873082907,
      "loss": 1.6516,
      "step": 9728
    },
    {
      "epoch": 0.2162,
      "grad_norm": 1.6071876287460327,
      "learning_rate": 0.0001567948432985108,
      "loss": 2.0354,
      "step": 9729
    },
    {
      "epoch": 0.21622222222222223,
      "grad_norm": 1.3537095785140991,
      "learning_rate": 0.0001567903978661925,
      "loss": 1.7206,
      "step": 9730
    },
    {
      "epoch": 0.21624444444444443,
      "grad_norm": 1.7445365190505981,
      "learning_rate": 0.0001567859524338742,
      "loss": 2.1328,
      "step": 9731
    },
    {
      "epoch": 0.21626666666666666,
      "grad_norm": 1.6747190952301025,
      "learning_rate": 0.0001567815070015559,
      "loss": 2.1809,
      "step": 9732
    },
    {
      "epoch": 0.2162888888888889,
      "grad_norm": 1.8605698347091675,
      "learning_rate": 0.00015677706156923762,
      "loss": 1.8913,
      "step": 9733
    },
    {
      "epoch": 0.21631111111111112,
      "grad_norm": 1.8764829635620117,
      "learning_rate": 0.00015677261613691933,
      "loss": 1.969,
      "step": 9734
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 1.8465664386749268,
      "learning_rate": 0.00015676817070460104,
      "loss": 2.7298,
      "step": 9735
    },
    {
      "epoch": 0.21635555555555555,
      "grad_norm": 1.4996371269226074,
      "learning_rate": 0.00015676372527228275,
      "loss": 1.2127,
      "step": 9736
    },
    {
      "epoch": 0.21637777777777778,
      "grad_norm": 1.4382545948028564,
      "learning_rate": 0.00015675927983996443,
      "loss": 2.0282,
      "step": 9737
    },
    {
      "epoch": 0.2164,
      "grad_norm": 1.60065758228302,
      "learning_rate": 0.00015675483440764616,
      "loss": 1.8981,
      "step": 9738
    },
    {
      "epoch": 0.2164222222222222,
      "grad_norm": 1.9215238094329834,
      "learning_rate": 0.00015675038897532785,
      "loss": 2.3185,
      "step": 9739
    },
    {
      "epoch": 0.21644444444444444,
      "grad_norm": 1.6834723949432373,
      "learning_rate": 0.00015674594354300956,
      "loss": 1.9706,
      "step": 9740
    },
    {
      "epoch": 0.21646666666666667,
      "grad_norm": 1.4273933172225952,
      "learning_rate": 0.00015674149811069127,
      "loss": 2.0781,
      "step": 9741
    },
    {
      "epoch": 0.2164888888888889,
      "grad_norm": 1.4070426225662231,
      "learning_rate": 0.00015673705267837298,
      "loss": 1.9891,
      "step": 9742
    },
    {
      "epoch": 0.2165111111111111,
      "grad_norm": 1.5903173685073853,
      "learning_rate": 0.00015673260724605469,
      "loss": 1.8163,
      "step": 9743
    },
    {
      "epoch": 0.21653333333333333,
      "grad_norm": 1.8555797338485718,
      "learning_rate": 0.0001567281618137364,
      "loss": 1.8213,
      "step": 9744
    },
    {
      "epoch": 0.21655555555555556,
      "grad_norm": 1.4762738943099976,
      "learning_rate": 0.0001567237163814181,
      "loss": 1.6107,
      "step": 9745
    },
    {
      "epoch": 0.21657777777777779,
      "grad_norm": 1.7246320247650146,
      "learning_rate": 0.00015671927094909981,
      "loss": 2.0745,
      "step": 9746
    },
    {
      "epoch": 0.2166,
      "grad_norm": 1.4931972026824951,
      "learning_rate": 0.00015671482551678152,
      "loss": 1.7807,
      "step": 9747
    },
    {
      "epoch": 0.21662222222222222,
      "grad_norm": 1.2566388845443726,
      "learning_rate": 0.0001567103800844632,
      "loss": 1.3136,
      "step": 9748
    },
    {
      "epoch": 0.21664444444444445,
      "grad_norm": 1.1140543222427368,
      "learning_rate": 0.00015670593465214494,
      "loss": 0.8938,
      "step": 9749
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 1.822068452835083,
      "learning_rate": 0.00015670148921982663,
      "loss": 1.4984,
      "step": 9750
    },
    {
      "epoch": 0.21668888888888888,
      "grad_norm": 1.1916898488998413,
      "learning_rate": 0.00015669704378750834,
      "loss": 2.3591,
      "step": 9751
    },
    {
      "epoch": 0.2167111111111111,
      "grad_norm": 1.4888314008712769,
      "learning_rate": 0.00015669259835519005,
      "loss": 1.3756,
      "step": 9752
    },
    {
      "epoch": 0.21673333333333333,
      "grad_norm": 1.2690776586532593,
      "learning_rate": 0.00015668815292287175,
      "loss": 2.3302,
      "step": 9753
    },
    {
      "epoch": 0.21675555555555556,
      "grad_norm": 1.9008080959320068,
      "learning_rate": 0.00015668370749055346,
      "loss": 2.6233,
      "step": 9754
    },
    {
      "epoch": 0.2167777777777778,
      "grad_norm": 1.2736138105392456,
      "learning_rate": 0.00015667926205823517,
      "loss": 2.531,
      "step": 9755
    },
    {
      "epoch": 0.2168,
      "grad_norm": 1.7107583284378052,
      "learning_rate": 0.00015667481662591688,
      "loss": 2.8825,
      "step": 9756
    },
    {
      "epoch": 0.21682222222222222,
      "grad_norm": 1.268712043762207,
      "learning_rate": 0.00015667037119359857,
      "loss": 2.6754,
      "step": 9757
    },
    {
      "epoch": 0.21684444444444445,
      "grad_norm": 1.3548099994659424,
      "learning_rate": 0.0001566659257612803,
      "loss": 2.5129,
      "step": 9758
    },
    {
      "epoch": 0.21686666666666668,
      "grad_norm": 1.3094062805175781,
      "learning_rate": 0.00015666148032896199,
      "loss": 2.2272,
      "step": 9759
    },
    {
      "epoch": 0.21688888888888888,
      "grad_norm": 1.5959763526916504,
      "learning_rate": 0.0001566570348966437,
      "loss": 2.0891,
      "step": 9760
    },
    {
      "epoch": 0.2169111111111111,
      "grad_norm": 1.0649805068969727,
      "learning_rate": 0.0001566525894643254,
      "loss": 0.8292,
      "step": 9761
    },
    {
      "epoch": 0.21693333333333334,
      "grad_norm": 1.2482267618179321,
      "learning_rate": 0.00015664814403200711,
      "loss": 2.0051,
      "step": 9762
    },
    {
      "epoch": 0.21695555555555557,
      "grad_norm": 1.3835957050323486,
      "learning_rate": 0.00015664369859968882,
      "loss": 2.3291,
      "step": 9763
    },
    {
      "epoch": 0.21697777777777777,
      "grad_norm": 1.3786505460739136,
      "learning_rate": 0.00015663925316737053,
      "loss": 2.1574,
      "step": 9764
    },
    {
      "epoch": 0.217,
      "grad_norm": 1.1577900648117065,
      "learning_rate": 0.00015663480773505224,
      "loss": 1.6965,
      "step": 9765
    },
    {
      "epoch": 0.21702222222222223,
      "grad_norm": 1.3127070665359497,
      "learning_rate": 0.00015663036230273395,
      "loss": 1.8902,
      "step": 9766
    },
    {
      "epoch": 0.21704444444444446,
      "grad_norm": 1.5164748430252075,
      "learning_rate": 0.00015662591687041566,
      "loss": 2.0291,
      "step": 9767
    },
    {
      "epoch": 0.21706666666666666,
      "grad_norm": 1.2620925903320312,
      "learning_rate": 0.00015662147143809734,
      "loss": 1.6423,
      "step": 9768
    },
    {
      "epoch": 0.2170888888888889,
      "grad_norm": 1.5090683698654175,
      "learning_rate": 0.00015661702600577908,
      "loss": 2.3897,
      "step": 9769
    },
    {
      "epoch": 0.21711111111111112,
      "grad_norm": 1.3345935344696045,
      "learning_rate": 0.00015661258057346076,
      "loss": 1.4744,
      "step": 9770
    },
    {
      "epoch": 0.21713333333333334,
      "grad_norm": 1.477117657661438,
      "learning_rate": 0.00015660813514114247,
      "loss": 1.6532,
      "step": 9771
    },
    {
      "epoch": 0.21715555555555555,
      "grad_norm": 2.098073959350586,
      "learning_rate": 0.0001566036897088242,
      "loss": 2.2407,
      "step": 9772
    },
    {
      "epoch": 0.21717777777777778,
      "grad_norm": 1.716845154762268,
      "learning_rate": 0.0001565992442765059,
      "loss": 2.0081,
      "step": 9773
    },
    {
      "epoch": 0.2172,
      "grad_norm": 1.583426833152771,
      "learning_rate": 0.0001565947988441876,
      "loss": 2.2649,
      "step": 9774
    },
    {
      "epoch": 0.21722222222222223,
      "grad_norm": 1.7508355379104614,
      "learning_rate": 0.0001565903534118693,
      "loss": 2.4148,
      "step": 9775
    },
    {
      "epoch": 0.21724444444444443,
      "grad_norm": 1.5792924165725708,
      "learning_rate": 0.00015658590797955102,
      "loss": 1.7786,
      "step": 9776
    },
    {
      "epoch": 0.21726666666666666,
      "grad_norm": 1.4977710247039795,
      "learning_rate": 0.0001565814625472327,
      "loss": 1.5759,
      "step": 9777
    },
    {
      "epoch": 0.2172888888888889,
      "grad_norm": 1.5691171884536743,
      "learning_rate": 0.00015657701711491444,
      "loss": 2.0326,
      "step": 9778
    },
    {
      "epoch": 0.21731111111111112,
      "grad_norm": 1.4184706211090088,
      "learning_rate": 0.00015657257168259612,
      "loss": 1.6532,
      "step": 9779
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 1.724711298942566,
      "learning_rate": 0.00015656812625027786,
      "loss": 1.039,
      "step": 9780
    },
    {
      "epoch": 0.21735555555555555,
      "grad_norm": 1.6157426834106445,
      "learning_rate": 0.00015656368081795957,
      "loss": 1.5769,
      "step": 9781
    },
    {
      "epoch": 0.21737777777777778,
      "grad_norm": 1.3811603784561157,
      "learning_rate": 0.00015655923538564125,
      "loss": 1.5595,
      "step": 9782
    },
    {
      "epoch": 0.2174,
      "grad_norm": 1.5461022853851318,
      "learning_rate": 0.000156554789953323,
      "loss": 1.9961,
      "step": 9783
    },
    {
      "epoch": 0.2174222222222222,
      "grad_norm": 1.8467206954956055,
      "learning_rate": 0.00015655034452100467,
      "loss": 2.1085,
      "step": 9784
    },
    {
      "epoch": 0.21744444444444444,
      "grad_norm": 1.1722841262817383,
      "learning_rate": 0.00015654589908868638,
      "loss": 0.9715,
      "step": 9785
    },
    {
      "epoch": 0.21746666666666667,
      "grad_norm": 1.8013231754302979,
      "learning_rate": 0.0001565414536563681,
      "loss": 1.6659,
      "step": 9786
    },
    {
      "epoch": 0.2174888888888889,
      "grad_norm": 1.4896653890609741,
      "learning_rate": 0.0001565370082240498,
      "loss": 2.0124,
      "step": 9787
    },
    {
      "epoch": 0.2175111111111111,
      "grad_norm": 2.167428970336914,
      "learning_rate": 0.00015653256279173148,
      "loss": 2.2895,
      "step": 9788
    },
    {
      "epoch": 0.21753333333333333,
      "grad_norm": 1.3969365358352661,
      "learning_rate": 0.00015652811735941322,
      "loss": 1.7187,
      "step": 9789
    },
    {
      "epoch": 0.21755555555555556,
      "grad_norm": 1.6804717779159546,
      "learning_rate": 0.00015652367192709493,
      "loss": 2.3268,
      "step": 9790
    },
    {
      "epoch": 0.2175777777777778,
      "grad_norm": 1.5326035022735596,
      "learning_rate": 0.0001565192264947766,
      "loss": 1.688,
      "step": 9791
    },
    {
      "epoch": 0.2176,
      "grad_norm": 1.6751337051391602,
      "learning_rate": 0.00015651478106245835,
      "loss": 1.7669,
      "step": 9792
    },
    {
      "epoch": 0.21762222222222222,
      "grad_norm": 1.8933303356170654,
      "learning_rate": 0.00015651033563014003,
      "loss": 2.048,
      "step": 9793
    },
    {
      "epoch": 0.21764444444444445,
      "grad_norm": 1.314442753791809,
      "learning_rate": 0.00015650589019782174,
      "loss": 1.6252,
      "step": 9794
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 2.1804890632629395,
      "learning_rate": 0.00015650144476550345,
      "loss": 1.7217,
      "step": 9795
    },
    {
      "epoch": 0.21768888888888888,
      "grad_norm": 1.5883805751800537,
      "learning_rate": 0.00015649699933318516,
      "loss": 1.9076,
      "step": 9796
    },
    {
      "epoch": 0.2177111111111111,
      "grad_norm": 1.7147635221481323,
      "learning_rate": 0.00015649255390086687,
      "loss": 2.3427,
      "step": 9797
    },
    {
      "epoch": 0.21773333333333333,
      "grad_norm": 1.774824857711792,
      "learning_rate": 0.00015648810846854858,
      "loss": 1.8571,
      "step": 9798
    },
    {
      "epoch": 0.21775555555555556,
      "grad_norm": 1.45883047580719,
      "learning_rate": 0.0001564836630362303,
      "loss": 1.7029,
      "step": 9799
    },
    {
      "epoch": 0.21777777777777776,
      "grad_norm": 1.4520511627197266,
      "learning_rate": 0.000156479217603912,
      "loss": 1.8288,
      "step": 9800
    },
    {
      "epoch": 0.2178,
      "grad_norm": 1.3605386018753052,
      "learning_rate": 0.0001564747721715937,
      "loss": 1.4876,
      "step": 9801
    },
    {
      "epoch": 0.21782222222222222,
      "grad_norm": 1.6308649778366089,
      "learning_rate": 0.0001564703267392754,
      "loss": 3.038,
      "step": 9802
    },
    {
      "epoch": 0.21784444444444445,
      "grad_norm": 1.52211594581604,
      "learning_rate": 0.00015646588130695713,
      "loss": 2.3578,
      "step": 9803
    },
    {
      "epoch": 0.21786666666666665,
      "grad_norm": 1.4292441606521606,
      "learning_rate": 0.0001564614358746388,
      "loss": 2.3846,
      "step": 9804
    },
    {
      "epoch": 0.21788888888888888,
      "grad_norm": 1.364469051361084,
      "learning_rate": 0.00015645699044232052,
      "loss": 2.4793,
      "step": 9805
    },
    {
      "epoch": 0.2179111111111111,
      "grad_norm": 2.085110664367676,
      "learning_rate": 0.00015645254501000223,
      "loss": 2.5705,
      "step": 9806
    },
    {
      "epoch": 0.21793333333333334,
      "grad_norm": 1.4576059579849243,
      "learning_rate": 0.00015644809957768394,
      "loss": 2.6405,
      "step": 9807
    },
    {
      "epoch": 0.21795555555555557,
      "grad_norm": 1.4373652935028076,
      "learning_rate": 0.00015644365414536565,
      "loss": 1.7871,
      "step": 9808
    },
    {
      "epoch": 0.21797777777777777,
      "grad_norm": 1.531250238418579,
      "learning_rate": 0.00015643920871304736,
      "loss": 2.2261,
      "step": 9809
    },
    {
      "epoch": 0.218,
      "grad_norm": 1.238038182258606,
      "learning_rate": 0.00015643476328072907,
      "loss": 1.9549,
      "step": 9810
    },
    {
      "epoch": 0.21802222222222223,
      "grad_norm": 1.7056339979171753,
      "learning_rate": 0.00015643031784841075,
      "loss": 3.0371,
      "step": 9811
    },
    {
      "epoch": 0.21804444444444446,
      "grad_norm": 1.4755730628967285,
      "learning_rate": 0.0001564258724160925,
      "loss": 2.1257,
      "step": 9812
    },
    {
      "epoch": 0.21806666666666666,
      "grad_norm": 1.2358624935150146,
      "learning_rate": 0.00015642142698377417,
      "loss": 2.055,
      "step": 9813
    },
    {
      "epoch": 0.2180888888888889,
      "grad_norm": 1.2768803834915161,
      "learning_rate": 0.00015641698155145588,
      "loss": 1.9183,
      "step": 9814
    },
    {
      "epoch": 0.21811111111111112,
      "grad_norm": 1.412028431892395,
      "learning_rate": 0.0001564125361191376,
      "loss": 1.8606,
      "step": 9815
    },
    {
      "epoch": 0.21813333333333335,
      "grad_norm": 1.3069682121276855,
      "learning_rate": 0.0001564080906868193,
      "loss": 2.2696,
      "step": 9816
    },
    {
      "epoch": 0.21815555555555555,
      "grad_norm": 1.699023723602295,
      "learning_rate": 0.000156403645254501,
      "loss": 2.3771,
      "step": 9817
    },
    {
      "epoch": 0.21817777777777778,
      "grad_norm": 1.387850046157837,
      "learning_rate": 0.00015639919982218272,
      "loss": 1.7614,
      "step": 9818
    },
    {
      "epoch": 0.2182,
      "grad_norm": 1.2701185941696167,
      "learning_rate": 0.00015639475438986443,
      "loss": 1.6568,
      "step": 9819
    },
    {
      "epoch": 0.21822222222222223,
      "grad_norm": 1.6706664562225342,
      "learning_rate": 0.00015639030895754614,
      "loss": 1.8557,
      "step": 9820
    },
    {
      "epoch": 0.21824444444444444,
      "grad_norm": 1.5769935846328735,
      "learning_rate": 0.00015638586352522785,
      "loss": 2.0134,
      "step": 9821
    },
    {
      "epoch": 0.21826666666666666,
      "grad_norm": 1.4700157642364502,
      "learning_rate": 0.00015638141809290953,
      "loss": 1.9546,
      "step": 9822
    },
    {
      "epoch": 0.2182888888888889,
      "grad_norm": 1.5177044868469238,
      "learning_rate": 0.00015637697266059127,
      "loss": 2.2591,
      "step": 9823
    },
    {
      "epoch": 0.21831111111111112,
      "grad_norm": 1.3457623720169067,
      "learning_rate": 0.00015637252722827295,
      "loss": 1.8558,
      "step": 9824
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 1.538753867149353,
      "learning_rate": 0.00015636808179595466,
      "loss": 2.3455,
      "step": 9825
    },
    {
      "epoch": 0.21835555555555555,
      "grad_norm": 1.5322130918502808,
      "learning_rate": 0.00015636363636363637,
      "loss": 2.3066,
      "step": 9826
    },
    {
      "epoch": 0.21837777777777778,
      "grad_norm": 1.6399599313735962,
      "learning_rate": 0.00015635919093131808,
      "loss": 2.446,
      "step": 9827
    },
    {
      "epoch": 0.2184,
      "grad_norm": 1.4735759496688843,
      "learning_rate": 0.00015635474549899979,
      "loss": 2.2708,
      "step": 9828
    },
    {
      "epoch": 0.2184222222222222,
      "grad_norm": 1.8067748546600342,
      "learning_rate": 0.0001563503000666815,
      "loss": 1.8004,
      "step": 9829
    },
    {
      "epoch": 0.21844444444444444,
      "grad_norm": 2.1571178436279297,
      "learning_rate": 0.0001563458546343632,
      "loss": 1.9092,
      "step": 9830
    },
    {
      "epoch": 0.21846666666666667,
      "grad_norm": 1.9678208827972412,
      "learning_rate": 0.0001563414092020449,
      "loss": 0.0581,
      "step": 9831
    },
    {
      "epoch": 0.2184888888888889,
      "grad_norm": 1.6564005613327026,
      "learning_rate": 0.00015633696376972662,
      "loss": 1.9818,
      "step": 9832
    },
    {
      "epoch": 0.2185111111111111,
      "grad_norm": 1.8555351495742798,
      "learning_rate": 0.0001563325183374083,
      "loss": 2.0326,
      "step": 9833
    },
    {
      "epoch": 0.21853333333333333,
      "grad_norm": 1.3912760019302368,
      "learning_rate": 0.00015632807290509002,
      "loss": 1.5757,
      "step": 9834
    },
    {
      "epoch": 0.21855555555555556,
      "grad_norm": 1.69173264503479,
      "learning_rate": 0.00015632362747277173,
      "loss": 1.8159,
      "step": 9835
    },
    {
      "epoch": 0.2185777777777778,
      "grad_norm": 1.5259350538253784,
      "learning_rate": 0.00015631918204045344,
      "loss": 1.8887,
      "step": 9836
    },
    {
      "epoch": 0.2186,
      "grad_norm": 1.4663606882095337,
      "learning_rate": 0.00015631473660813515,
      "loss": 2.3346,
      "step": 9837
    },
    {
      "epoch": 0.21862222222222222,
      "grad_norm": 1.4184216260910034,
      "learning_rate": 0.00015631029117581686,
      "loss": 1.9,
      "step": 9838
    },
    {
      "epoch": 0.21864444444444445,
      "grad_norm": 1.679687261581421,
      "learning_rate": 0.00015630584574349857,
      "loss": 2.0598,
      "step": 9839
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 1.524084210395813,
      "learning_rate": 0.00015630140031118027,
      "loss": 1.8181,
      "step": 9840
    },
    {
      "epoch": 0.21868888888888888,
      "grad_norm": 1.5593328475952148,
      "learning_rate": 0.00015629695487886198,
      "loss": 1.5752,
      "step": 9841
    },
    {
      "epoch": 0.2187111111111111,
      "grad_norm": 1.4821991920471191,
      "learning_rate": 0.00015629250944654367,
      "loss": 1.871,
      "step": 9842
    },
    {
      "epoch": 0.21873333333333334,
      "grad_norm": 1.7232463359832764,
      "learning_rate": 0.0001562880640142254,
      "loss": 2.0791,
      "step": 9843
    },
    {
      "epoch": 0.21875555555555556,
      "grad_norm": 1.5989385843276978,
      "learning_rate": 0.00015628361858190709,
      "loss": 2.0221,
      "step": 9844
    },
    {
      "epoch": 0.21877777777777777,
      "grad_norm": 1.5870583057403564,
      "learning_rate": 0.0001562791731495888,
      "loss": 1.8439,
      "step": 9845
    },
    {
      "epoch": 0.2188,
      "grad_norm": 1.5963996648788452,
      "learning_rate": 0.00015627472771727053,
      "loss": 1.9352,
      "step": 9846
    },
    {
      "epoch": 0.21882222222222222,
      "grad_norm": 1.7038837671279907,
      "learning_rate": 0.00015627028228495221,
      "loss": 2.0189,
      "step": 9847
    },
    {
      "epoch": 0.21884444444444445,
      "grad_norm": 1.5103439092636108,
      "learning_rate": 0.00015626583685263392,
      "loss": 1.9431,
      "step": 9848
    },
    {
      "epoch": 0.21886666666666665,
      "grad_norm": 1.6760708093643188,
      "learning_rate": 0.00015626139142031563,
      "loss": 1.7382,
      "step": 9849
    },
    {
      "epoch": 0.21888888888888888,
      "grad_norm": 1.0299749374389648,
      "learning_rate": 0.00015625694598799734,
      "loss": 0.635,
      "step": 9850
    },
    {
      "epoch": 0.2189111111111111,
      "grad_norm": 1.4613714218139648,
      "learning_rate": 0.00015625250055567903,
      "loss": 2.6393,
      "step": 9851
    },
    {
      "epoch": 0.21893333333333334,
      "grad_norm": 0.9100279808044434,
      "learning_rate": 0.00015624805512336076,
      "loss": 1.3784,
      "step": 9852
    },
    {
      "epoch": 0.21895555555555554,
      "grad_norm": 1.0519732236862183,
      "learning_rate": 0.00015624360969104245,
      "loss": 1.1531,
      "step": 9853
    },
    {
      "epoch": 0.21897777777777777,
      "grad_norm": 1.2796761989593506,
      "learning_rate": 0.00015623916425872416,
      "loss": 1.7781,
      "step": 9854
    },
    {
      "epoch": 0.219,
      "grad_norm": 1.284176230430603,
      "learning_rate": 0.0001562347188264059,
      "loss": 2.2341,
      "step": 9855
    },
    {
      "epoch": 0.21902222222222223,
      "grad_norm": 1.6380395889282227,
      "learning_rate": 0.00015623027339408757,
      "loss": 2.215,
      "step": 9856
    },
    {
      "epoch": 0.21904444444444446,
      "grad_norm": 1.4564884901046753,
      "learning_rate": 0.0001562258279617693,
      "loss": 2.2196,
      "step": 9857
    },
    {
      "epoch": 0.21906666666666666,
      "grad_norm": 1.0457359552383423,
      "learning_rate": 0.000156221382529451,
      "loss": 1.1031,
      "step": 9858
    },
    {
      "epoch": 0.2190888888888889,
      "grad_norm": 1.7920206785202026,
      "learning_rate": 0.0001562169370971327,
      "loss": 2.1768,
      "step": 9859
    },
    {
      "epoch": 0.21911111111111112,
      "grad_norm": 1.3102563619613647,
      "learning_rate": 0.0001562124916648144,
      "loss": 1.6066,
      "step": 9860
    },
    {
      "epoch": 0.21913333333333335,
      "grad_norm": 1.18064284324646,
      "learning_rate": 0.00015620804623249612,
      "loss": 1.9011,
      "step": 9861
    },
    {
      "epoch": 0.21915555555555555,
      "grad_norm": 1.3357577323913574,
      "learning_rate": 0.0001562036008001778,
      "loss": 2.1684,
      "step": 9862
    },
    {
      "epoch": 0.21917777777777778,
      "grad_norm": 1.2821540832519531,
      "learning_rate": 0.00015619915536785954,
      "loss": 2.0135,
      "step": 9863
    },
    {
      "epoch": 0.2192,
      "grad_norm": 1.5663548707962036,
      "learning_rate": 0.00015619470993554125,
      "loss": 2.9692,
      "step": 9864
    },
    {
      "epoch": 0.21922222222222223,
      "grad_norm": 1.386045217514038,
      "learning_rate": 0.00015619026450322293,
      "loss": 1.5571,
      "step": 9865
    },
    {
      "epoch": 0.21924444444444444,
      "grad_norm": 1.154465675354004,
      "learning_rate": 0.00015618581907090467,
      "loss": 0.8232,
      "step": 9866
    },
    {
      "epoch": 0.21926666666666667,
      "grad_norm": 0.9284383654594421,
      "learning_rate": 0.00015618137363858635,
      "loss": 1.0883,
      "step": 9867
    },
    {
      "epoch": 0.2192888888888889,
      "grad_norm": 1.2852061986923218,
      "learning_rate": 0.00015617692820626806,
      "loss": 1.5973,
      "step": 9868
    },
    {
      "epoch": 0.21931111111111112,
      "grad_norm": 1.3724459409713745,
      "learning_rate": 0.00015617248277394977,
      "loss": 1.8902,
      "step": 9869
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 1.4663468599319458,
      "learning_rate": 0.00015616803734163148,
      "loss": 1.9305,
      "step": 9870
    },
    {
      "epoch": 0.21935555555555555,
      "grad_norm": 4.6700029373168945,
      "learning_rate": 0.0001561635919093132,
      "loss": 1.7662,
      "step": 9871
    },
    {
      "epoch": 0.21937777777777778,
      "grad_norm": 1.5482555627822876,
      "learning_rate": 0.0001561591464769949,
      "loss": 2.1686,
      "step": 9872
    },
    {
      "epoch": 0.2194,
      "grad_norm": 1.444333791732788,
      "learning_rate": 0.0001561547010446766,
      "loss": 2.4557,
      "step": 9873
    },
    {
      "epoch": 0.2194222222222222,
      "grad_norm": 1.5186877250671387,
      "learning_rate": 0.0001561502556123583,
      "loss": 1.879,
      "step": 9874
    },
    {
      "epoch": 0.21944444444444444,
      "grad_norm": 1.4436538219451904,
      "learning_rate": 0.00015614581018004003,
      "loss": 2.1682,
      "step": 9875
    },
    {
      "epoch": 0.21946666666666667,
      "grad_norm": 1.3289862871170044,
      "learning_rate": 0.0001561413647477217,
      "loss": 1.9654,
      "step": 9876
    },
    {
      "epoch": 0.2194888888888889,
      "grad_norm": 1.4760408401489258,
      "learning_rate": 0.00015613691931540345,
      "loss": 2.2022,
      "step": 9877
    },
    {
      "epoch": 0.2195111111111111,
      "grad_norm": 1.4400177001953125,
      "learning_rate": 0.00015613247388308513,
      "loss": 2.4333,
      "step": 9878
    },
    {
      "epoch": 0.21953333333333333,
      "grad_norm": 1.6164370775222778,
      "learning_rate": 0.00015612802845076684,
      "loss": 2.1545,
      "step": 9879
    },
    {
      "epoch": 0.21955555555555556,
      "grad_norm": 1.4496495723724365,
      "learning_rate": 0.00015612358301844855,
      "loss": 1.6255,
      "step": 9880
    },
    {
      "epoch": 0.2195777777777778,
      "grad_norm": 21.47437286376953,
      "learning_rate": 0.00015611913758613026,
      "loss": 0.9187,
      "step": 9881
    },
    {
      "epoch": 0.2196,
      "grad_norm": 1.7236872911453247,
      "learning_rate": 0.00015611469215381197,
      "loss": 1.8133,
      "step": 9882
    },
    {
      "epoch": 0.21962222222222222,
      "grad_norm": 1.4370393753051758,
      "learning_rate": 0.00015611024672149368,
      "loss": 2.0645,
      "step": 9883
    },
    {
      "epoch": 0.21964444444444445,
      "grad_norm": 1.7368584871292114,
      "learning_rate": 0.0001561058012891754,
      "loss": 1.8049,
      "step": 9884
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 1.4407308101654053,
      "learning_rate": 0.00015610135585685707,
      "loss": 2.2876,
      "step": 9885
    },
    {
      "epoch": 0.21968888888888888,
      "grad_norm": 1.4288396835327148,
      "learning_rate": 0.0001560969104245388,
      "loss": 1.3411,
      "step": 9886
    },
    {
      "epoch": 0.2197111111111111,
      "grad_norm": 1.5782259702682495,
      "learning_rate": 0.0001560924649922205,
      "loss": 1.7766,
      "step": 9887
    },
    {
      "epoch": 0.21973333333333334,
      "grad_norm": 1.3108693361282349,
      "learning_rate": 0.0001560880195599022,
      "loss": 1.5597,
      "step": 9888
    },
    {
      "epoch": 0.21975555555555557,
      "grad_norm": 1.3991655111312866,
      "learning_rate": 0.0001560835741275839,
      "loss": 1.7055,
      "step": 9889
    },
    {
      "epoch": 0.21977777777777777,
      "grad_norm": 1.4587452411651611,
      "learning_rate": 0.00015607912869526562,
      "loss": 1.5267,
      "step": 9890
    },
    {
      "epoch": 0.2198,
      "grad_norm": 1.671960473060608,
      "learning_rate": 0.00015607468326294733,
      "loss": 1.7769,
      "step": 9891
    },
    {
      "epoch": 0.21982222222222222,
      "grad_norm": 1.6749262809753418,
      "learning_rate": 0.00015607023783062904,
      "loss": 1.7616,
      "step": 9892
    },
    {
      "epoch": 0.21984444444444445,
      "grad_norm": 1.5303972959518433,
      "learning_rate": 0.00015606579239831075,
      "loss": 1.8084,
      "step": 9893
    },
    {
      "epoch": 0.21986666666666665,
      "grad_norm": 1.4715490341186523,
      "learning_rate": 0.00015606134696599246,
      "loss": 1.7431,
      "step": 9894
    },
    {
      "epoch": 0.21988888888888888,
      "grad_norm": 1.6913073062896729,
      "learning_rate": 0.00015605690153367417,
      "loss": 2.107,
      "step": 9895
    },
    {
      "epoch": 0.2199111111111111,
      "grad_norm": 1.449769377708435,
      "learning_rate": 0.00015605245610135585,
      "loss": 1.9063,
      "step": 9896
    },
    {
      "epoch": 0.21993333333333334,
      "grad_norm": 1.8684179782867432,
      "learning_rate": 0.0001560480106690376,
      "loss": 2.3629,
      "step": 9897
    },
    {
      "epoch": 0.21995555555555554,
      "grad_norm": 1.5089136362075806,
      "learning_rate": 0.00015604356523671927,
      "loss": 1.6419,
      "step": 9898
    },
    {
      "epoch": 0.21997777777777777,
      "grad_norm": 1.86050283908844,
      "learning_rate": 0.00015603911980440098,
      "loss": 2.0963,
      "step": 9899
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3267866373062134,
      "learning_rate": 0.0001560346743720827,
      "loss": 1.5612,
      "step": 9900
    },
    {
      "epoch": 0.22002222222222223,
      "grad_norm": 1.547016978263855,
      "learning_rate": 0.0001560302289397644,
      "loss": 2.1087,
      "step": 9901
    },
    {
      "epoch": 0.22004444444444443,
      "grad_norm": 1.4020222425460815,
      "learning_rate": 0.0001560257835074461,
      "loss": 2.9647,
      "step": 9902
    },
    {
      "epoch": 0.22006666666666666,
      "grad_norm": 1.3081153631210327,
      "learning_rate": 0.00015602133807512782,
      "loss": 2.24,
      "step": 9903
    },
    {
      "epoch": 0.2200888888888889,
      "grad_norm": 1.4256936311721802,
      "learning_rate": 0.00015601689264280953,
      "loss": 2.1845,
      "step": 9904
    },
    {
      "epoch": 0.22011111111111112,
      "grad_norm": 1.2800184488296509,
      "learning_rate": 0.0001560124472104912,
      "loss": 2.1451,
      "step": 9905
    },
    {
      "epoch": 0.22013333333333332,
      "grad_norm": 1.5455706119537354,
      "learning_rate": 0.00015600800177817295,
      "loss": 2.5337,
      "step": 9906
    },
    {
      "epoch": 0.22015555555555555,
      "grad_norm": 1.3660141229629517,
      "learning_rate": 0.00015600355634585463,
      "loss": 2.1961,
      "step": 9907
    },
    {
      "epoch": 0.22017777777777778,
      "grad_norm": 1.509796142578125,
      "learning_rate": 0.00015599911091353634,
      "loss": 2.4425,
      "step": 9908
    },
    {
      "epoch": 0.2202,
      "grad_norm": 1.419748067855835,
      "learning_rate": 0.00015599466548121805,
      "loss": 1.7731,
      "step": 9909
    },
    {
      "epoch": 0.22022222222222224,
      "grad_norm": 1.4639053344726562,
      "learning_rate": 0.00015599022004889976,
      "loss": 2.0836,
      "step": 9910
    },
    {
      "epoch": 0.22024444444444444,
      "grad_norm": 1.2266309261322021,
      "learning_rate": 0.00015598577461658147,
      "loss": 2.1894,
      "step": 9911
    },
    {
      "epoch": 0.22026666666666667,
      "grad_norm": 1.2483235597610474,
      "learning_rate": 0.00015598132918426318,
      "loss": 1.993,
      "step": 9912
    },
    {
      "epoch": 0.2202888888888889,
      "grad_norm": 1.4266618490219116,
      "learning_rate": 0.0001559768837519449,
      "loss": 1.9639,
      "step": 9913
    },
    {
      "epoch": 0.22031111111111112,
      "grad_norm": 1.4239763021469116,
      "learning_rate": 0.0001559724383196266,
      "loss": 1.935,
      "step": 9914
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 1.6998847723007202,
      "learning_rate": 0.0001559679928873083,
      "loss": 2.8211,
      "step": 9915
    },
    {
      "epoch": 0.22035555555555555,
      "grad_norm": 1.3841062784194946,
      "learning_rate": 0.00015596354745499,
      "loss": 1.8006,
      "step": 9916
    },
    {
      "epoch": 0.22037777777777778,
      "grad_norm": 1.313927173614502,
      "learning_rate": 0.00015595910202267173,
      "loss": 1.4818,
      "step": 9917
    },
    {
      "epoch": 0.2204,
      "grad_norm": 1.3051515817642212,
      "learning_rate": 0.0001559546565903534,
      "loss": 2.0923,
      "step": 9918
    },
    {
      "epoch": 0.2204222222222222,
      "grad_norm": 1.414305329322815,
      "learning_rate": 0.00015595021115803512,
      "loss": 1.7058,
      "step": 9919
    },
    {
      "epoch": 0.22044444444444444,
      "grad_norm": 1.5288209915161133,
      "learning_rate": 0.00015594576572571685,
      "loss": 2.3948,
      "step": 9920
    },
    {
      "epoch": 0.22046666666666667,
      "grad_norm": 1.5292863845825195,
      "learning_rate": 0.00015594132029339854,
      "loss": 1.9858,
      "step": 9921
    },
    {
      "epoch": 0.2204888888888889,
      "grad_norm": 1.3495420217514038,
      "learning_rate": 0.00015593687486108025,
      "loss": 1.8477,
      "step": 9922
    },
    {
      "epoch": 0.2205111111111111,
      "grad_norm": 1.4634495973587036,
      "learning_rate": 0.00015593242942876196,
      "loss": 1.7209,
      "step": 9923
    },
    {
      "epoch": 0.22053333333333333,
      "grad_norm": 2.5050787925720215,
      "learning_rate": 0.00015592798399644367,
      "loss": 2.2144,
      "step": 9924
    },
    {
      "epoch": 0.22055555555555556,
      "grad_norm": 1.3938140869140625,
      "learning_rate": 0.00015592353856412535,
      "loss": 1.9741,
      "step": 9925
    },
    {
      "epoch": 0.2205777777777778,
      "grad_norm": 1.3830938339233398,
      "learning_rate": 0.00015591909313180709,
      "loss": 1.9779,
      "step": 9926
    },
    {
      "epoch": 0.2206,
      "grad_norm": 1.4163765907287598,
      "learning_rate": 0.00015591464769948877,
      "loss": 1.7829,
      "step": 9927
    },
    {
      "epoch": 0.22062222222222222,
      "grad_norm": 1.461361289024353,
      "learning_rate": 0.00015591020226717048,
      "loss": 2.2076,
      "step": 9928
    },
    {
      "epoch": 0.22064444444444445,
      "grad_norm": 1.5419676303863525,
      "learning_rate": 0.00015590575683485221,
      "loss": 1.9685,
      "step": 9929
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 1.5500556230545044,
      "learning_rate": 0.0001559013114025339,
      "loss": 1.9786,
      "step": 9930
    },
    {
      "epoch": 0.22068888888888888,
      "grad_norm": 1.4410799741744995,
      "learning_rate": 0.00015589686597021563,
      "loss": 1.4748,
      "step": 9931
    },
    {
      "epoch": 0.2207111111111111,
      "grad_norm": 1.236201286315918,
      "learning_rate": 0.00015589242053789732,
      "loss": 1.2102,
      "step": 9932
    },
    {
      "epoch": 0.22073333333333334,
      "grad_norm": 1.571278691291809,
      "learning_rate": 0.00015588797510557903,
      "loss": 1.6265,
      "step": 9933
    },
    {
      "epoch": 0.22075555555555557,
      "grad_norm": 1.678101658821106,
      "learning_rate": 0.00015588352967326073,
      "loss": 2.3561,
      "step": 9934
    },
    {
      "epoch": 0.22077777777777777,
      "grad_norm": 1.4013656377792358,
      "learning_rate": 0.00015587908424094244,
      "loss": 1.7104,
      "step": 9935
    },
    {
      "epoch": 0.2208,
      "grad_norm": 1.9889028072357178,
      "learning_rate": 0.00015587463880862413,
      "loss": 1.9709,
      "step": 9936
    },
    {
      "epoch": 0.22082222222222223,
      "grad_norm": 2.331796407699585,
      "learning_rate": 0.00015587019337630586,
      "loss": 2.1676,
      "step": 9937
    },
    {
      "epoch": 0.22084444444444445,
      "grad_norm": 1.4530377388000488,
      "learning_rate": 0.00015586574794398757,
      "loss": 1.4844,
      "step": 9938
    },
    {
      "epoch": 0.22086666666666666,
      "grad_norm": 1.7282981872558594,
      "learning_rate": 0.00015586130251166926,
      "loss": 1.9698,
      "step": 9939
    },
    {
      "epoch": 0.22088888888888888,
      "grad_norm": 1.6278632879257202,
      "learning_rate": 0.000155856857079351,
      "loss": 1.8808,
      "step": 9940
    },
    {
      "epoch": 0.2209111111111111,
      "grad_norm": 1.643814206123352,
      "learning_rate": 0.00015585241164703268,
      "loss": 1.686,
      "step": 9941
    },
    {
      "epoch": 0.22093333333333334,
      "grad_norm": 1.4137182235717773,
      "learning_rate": 0.00015584796621471438,
      "loss": 1.7925,
      "step": 9942
    },
    {
      "epoch": 0.22095555555555554,
      "grad_norm": 2.0771021842956543,
      "learning_rate": 0.0001558435207823961,
      "loss": 2.0937,
      "step": 9943
    },
    {
      "epoch": 0.22097777777777777,
      "grad_norm": 1.5268906354904175,
      "learning_rate": 0.0001558390753500778,
      "loss": 1.4784,
      "step": 9944
    },
    {
      "epoch": 0.221,
      "grad_norm": 1.2140618562698364,
      "learning_rate": 0.00015583462991775951,
      "loss": 1.4154,
      "step": 9945
    },
    {
      "epoch": 0.22102222222222223,
      "grad_norm": 1.580906867980957,
      "learning_rate": 0.00015583018448544122,
      "loss": 2.1362,
      "step": 9946
    },
    {
      "epoch": 0.22104444444444443,
      "grad_norm": 1.6362473964691162,
      "learning_rate": 0.00015582573905312293,
      "loss": 2.1087,
      "step": 9947
    },
    {
      "epoch": 0.22106666666666666,
      "grad_norm": 1.8633071184158325,
      "learning_rate": 0.00015582129362080462,
      "loss": 1.8933,
      "step": 9948
    },
    {
      "epoch": 0.2210888888888889,
      "grad_norm": 1.4578670263290405,
      "learning_rate": 0.00015581684818848635,
      "loss": 1.3714,
      "step": 9949
    },
    {
      "epoch": 0.22111111111111112,
      "grad_norm": 1.8755855560302734,
      "learning_rate": 0.00015581240275616803,
      "loss": 1.1291,
      "step": 9950
    },
    {
      "epoch": 0.22113333333333332,
      "grad_norm": 1.1659215688705444,
      "learning_rate": 0.00015580795732384977,
      "loss": 1.0492,
      "step": 9951
    },
    {
      "epoch": 0.22115555555555555,
      "grad_norm": 1.2829232215881348,
      "learning_rate": 0.00015580351189153145,
      "loss": 2.6081,
      "step": 9952
    },
    {
      "epoch": 0.22117777777777778,
      "grad_norm": 1.4198781251907349,
      "learning_rate": 0.00015579906645921316,
      "loss": 2.5508,
      "step": 9953
    },
    {
      "epoch": 0.2212,
      "grad_norm": 0.9309708476066589,
      "learning_rate": 0.00015579462102689487,
      "loss": 1.2869,
      "step": 9954
    },
    {
      "epoch": 0.2212222222222222,
      "grad_norm": 1.855238914489746,
      "learning_rate": 0.00015579017559457658,
      "loss": 2.1615,
      "step": 9955
    },
    {
      "epoch": 0.22124444444444444,
      "grad_norm": 1.3953245878219604,
      "learning_rate": 0.0001557857301622583,
      "loss": 1.9144,
      "step": 9956
    },
    {
      "epoch": 0.22126666666666667,
      "grad_norm": 1.394924521446228,
      "learning_rate": 0.00015578128472994,
      "loss": 2.8434,
      "step": 9957
    },
    {
      "epoch": 0.2212888888888889,
      "grad_norm": 1.4566779136657715,
      "learning_rate": 0.0001557768392976217,
      "loss": 2.4058,
      "step": 9958
    },
    {
      "epoch": 0.2213111111111111,
      "grad_norm": 1.5004478693008423,
      "learning_rate": 0.0001557723938653034,
      "loss": 2.6053,
      "step": 9959
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 1.4315792322158813,
      "learning_rate": 0.00015576794843298513,
      "loss": 2.2139,
      "step": 9960
    },
    {
      "epoch": 0.22135555555555556,
      "grad_norm": 1.4743170738220215,
      "learning_rate": 0.0001557635030006668,
      "loss": 1.4537,
      "step": 9961
    },
    {
      "epoch": 0.22137777777777778,
      "grad_norm": 1.3847254514694214,
      "learning_rate": 0.00015575905756834852,
      "loss": 2.2851,
      "step": 9962
    },
    {
      "epoch": 0.2214,
      "grad_norm": 1.4159139394760132,
      "learning_rate": 0.00015575461213603023,
      "loss": 1.9651,
      "step": 9963
    },
    {
      "epoch": 0.22142222222222221,
      "grad_norm": 1.5697602033615112,
      "learning_rate": 0.00015575016670371194,
      "loss": 1.6294,
      "step": 9964
    },
    {
      "epoch": 0.22144444444444444,
      "grad_norm": 1.508967399597168,
      "learning_rate": 0.00015574572127139365,
      "loss": 2.0095,
      "step": 9965
    },
    {
      "epoch": 0.22146666666666667,
      "grad_norm": 1.1985065937042236,
      "learning_rate": 0.00015574127583907536,
      "loss": 1.6005,
      "step": 9966
    },
    {
      "epoch": 0.2214888888888889,
      "grad_norm": 1.3237500190734863,
      "learning_rate": 0.00015573683040675707,
      "loss": 2.359,
      "step": 9967
    },
    {
      "epoch": 0.2215111111111111,
      "grad_norm": 1.693881630897522,
      "learning_rate": 0.00015573238497443875,
      "loss": 2.323,
      "step": 9968
    },
    {
      "epoch": 0.22153333333333333,
      "grad_norm": 1.5558362007141113,
      "learning_rate": 0.0001557279395421205,
      "loss": 2.0147,
      "step": 9969
    },
    {
      "epoch": 0.22155555555555556,
      "grad_norm": 1.4655523300170898,
      "learning_rate": 0.00015572349410980217,
      "loss": 1.8553,
      "step": 9970
    },
    {
      "epoch": 0.2215777777777778,
      "grad_norm": 1.5349358320236206,
      "learning_rate": 0.0001557190486774839,
      "loss": 2.2839,
      "step": 9971
    },
    {
      "epoch": 0.2216,
      "grad_norm": 2.210629463195801,
      "learning_rate": 0.0001557146032451656,
      "loss": 2.3695,
      "step": 9972
    },
    {
      "epoch": 0.22162222222222222,
      "grad_norm": 1.5230494737625122,
      "learning_rate": 0.0001557101578128473,
      "loss": 1.9313,
      "step": 9973
    },
    {
      "epoch": 0.22164444444444445,
      "grad_norm": 1.260297417640686,
      "learning_rate": 0.000155705712380529,
      "loss": 1.872,
      "step": 9974
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 1.4963802099227905,
      "learning_rate": 0.00015570126694821072,
      "loss": 1.6553,
      "step": 9975
    },
    {
      "epoch": 0.22168888888888888,
      "grad_norm": 1.4097768068313599,
      "learning_rate": 0.00015569682151589243,
      "loss": 1.6396,
      "step": 9976
    },
    {
      "epoch": 0.2217111111111111,
      "grad_norm": 1.6510854959487915,
      "learning_rate": 0.00015569237608357414,
      "loss": 2.1332,
      "step": 9977
    },
    {
      "epoch": 0.22173333333333334,
      "grad_norm": 1.5846548080444336,
      "learning_rate": 0.00015568793065125585,
      "loss": 2.2174,
      "step": 9978
    },
    {
      "epoch": 0.22175555555555557,
      "grad_norm": 1.4123843908309937,
      "learning_rate": 0.00015568348521893753,
      "loss": 1.953,
      "step": 9979
    },
    {
      "epoch": 0.22177777777777777,
      "grad_norm": 1.5352323055267334,
      "learning_rate": 0.00015567903978661927,
      "loss": 2.214,
      "step": 9980
    },
    {
      "epoch": 0.2218,
      "grad_norm": 1.6239832639694214,
      "learning_rate": 0.00015567459435430095,
      "loss": 1.9187,
      "step": 9981
    },
    {
      "epoch": 0.22182222222222223,
      "grad_norm": 1.1879315376281738,
      "learning_rate": 0.00015567014892198266,
      "loss": 1.3905,
      "step": 9982
    },
    {
      "epoch": 0.22184444444444446,
      "grad_norm": 2.251682758331299,
      "learning_rate": 0.00015566570348966437,
      "loss": 2.2833,
      "step": 9983
    },
    {
      "epoch": 0.22186666666666666,
      "grad_norm": 1.5613234043121338,
      "learning_rate": 0.00015566125805734608,
      "loss": 1.9596,
      "step": 9984
    },
    {
      "epoch": 0.22188888888888889,
      "grad_norm": 2.692500591278076,
      "learning_rate": 0.0001556568126250278,
      "loss": 2.3837,
      "step": 9985
    },
    {
      "epoch": 0.22191111111111111,
      "grad_norm": 1.4451991319656372,
      "learning_rate": 0.0001556523671927095,
      "loss": 2.0222,
      "step": 9986
    },
    {
      "epoch": 0.22193333333333334,
      "grad_norm": 1.5309959650039673,
      "learning_rate": 0.0001556479217603912,
      "loss": 1.658,
      "step": 9987
    },
    {
      "epoch": 0.22195555555555554,
      "grad_norm": 1.4553594589233398,
      "learning_rate": 0.00015564347632807292,
      "loss": 2.0117,
      "step": 9988
    },
    {
      "epoch": 0.22197777777777777,
      "grad_norm": 1.4339807033538818,
      "learning_rate": 0.00015563903089575463,
      "loss": 1.7999,
      "step": 9989
    },
    {
      "epoch": 0.222,
      "grad_norm": 1.651482343673706,
      "learning_rate": 0.0001556345854634363,
      "loss": 1.8626,
      "step": 9990
    },
    {
      "epoch": 0.22202222222222223,
      "grad_norm": 1.6081209182739258,
      "learning_rate": 0.00015563014003111805,
      "loss": 1.8721,
      "step": 9991
    },
    {
      "epoch": 0.22204444444444443,
      "grad_norm": 2.260624408721924,
      "learning_rate": 0.00015562569459879973,
      "loss": 1.8522,
      "step": 9992
    },
    {
      "epoch": 0.22206666666666666,
      "grad_norm": 1.45169198513031,
      "learning_rate": 0.00015562124916648144,
      "loss": 1.5099,
      "step": 9993
    },
    {
      "epoch": 0.2220888888888889,
      "grad_norm": 1.6848162412643433,
      "learning_rate": 0.00015561680373416318,
      "loss": 1.6297,
      "step": 9994
    },
    {
      "epoch": 0.22211111111111112,
      "grad_norm": 1.5735406875610352,
      "learning_rate": 0.00015561235830184486,
      "loss": 1.8083,
      "step": 9995
    },
    {
      "epoch": 0.22213333333333332,
      "grad_norm": 1.7066445350646973,
      "learning_rate": 0.00015560791286952657,
      "loss": 1.8256,
      "step": 9996
    },
    {
      "epoch": 0.22215555555555555,
      "grad_norm": 1.6695032119750977,
      "learning_rate": 0.00015560346743720828,
      "loss": 1.6605,
      "step": 9997
    },
    {
      "epoch": 0.22217777777777778,
      "grad_norm": 2.148066997528076,
      "learning_rate": 0.00015559902200489,
      "loss": 1.9307,
      "step": 9998
    },
    {
      "epoch": 0.2222,
      "grad_norm": 1.5754776000976562,
      "learning_rate": 0.00015559457657257167,
      "loss": 1.6592,
      "step": 9999
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 1.8126168251037598,
      "learning_rate": 0.0001555901311402534,
      "loss": 1.5673,
      "step": 10000
    },
    {
      "epoch": 0.22224444444444444,
      "grad_norm": 1.3088970184326172,
      "learning_rate": 0.0001555856857079351,
      "loss": 2.4774,
      "step": 10001
    },
    {
      "epoch": 0.22226666666666667,
      "grad_norm": 1.6124495267868042,
      "learning_rate": 0.0001555812402756168,
      "loss": 2.4778,
      "step": 10002
    },
    {
      "epoch": 0.2222888888888889,
      "grad_norm": 0.8304834961891174,
      "learning_rate": 0.00015557679484329854,
      "loss": 1.1972,
      "step": 10003
    },
    {
      "epoch": 0.2223111111111111,
      "grad_norm": 1.9137519598007202,
      "learning_rate": 0.00015557234941098022,
      "loss": 1.1897,
      "step": 10004
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 1.4927034378051758,
      "learning_rate": 0.00015556790397866193,
      "loss": 2.4247,
      "step": 10005
    },
    {
      "epoch": 0.22235555555555556,
      "grad_norm": 1.405173420906067,
      "learning_rate": 0.00015556345854634364,
      "loss": 1.3937,
      "step": 10006
    },
    {
      "epoch": 0.22237777777777779,
      "grad_norm": 1.1327133178710938,
      "learning_rate": 0.00015555901311402535,
      "loss": 1.059,
      "step": 10007
    },
    {
      "epoch": 0.2224,
      "grad_norm": 1.4414726495742798,
      "learning_rate": 0.00015555456768170706,
      "loss": 2.4352,
      "step": 10008
    },
    {
      "epoch": 0.22242222222222222,
      "grad_norm": 1.519399642944336,
      "learning_rate": 0.00015555012224938877,
      "loss": 2.3598,
      "step": 10009
    },
    {
      "epoch": 0.22244444444444444,
      "grad_norm": 1.4266096353530884,
      "learning_rate": 0.00015554567681707045,
      "loss": 2.3444,
      "step": 10010
    },
    {
      "epoch": 0.22246666666666667,
      "grad_norm": 1.6848294734954834,
      "learning_rate": 0.00015554123138475219,
      "loss": 2.2681,
      "step": 10011
    },
    {
      "epoch": 0.2224888888888889,
      "grad_norm": 1.4532450437545776,
      "learning_rate": 0.0001555367859524339,
      "loss": 2.1625,
      "step": 10012
    },
    {
      "epoch": 0.2225111111111111,
      "grad_norm": 1.3334674835205078,
      "learning_rate": 0.00015553234052011558,
      "loss": 2.179,
      "step": 10013
    },
    {
      "epoch": 0.22253333333333333,
      "grad_norm": 1.3131141662597656,
      "learning_rate": 0.00015552789508779731,
      "loss": 2.0552,
      "step": 10014
    },
    {
      "epoch": 0.22255555555555556,
      "grad_norm": 1.3625659942626953,
      "learning_rate": 0.000155523449655479,
      "loss": 1.7882,
      "step": 10015
    },
    {
      "epoch": 0.2225777777777778,
      "grad_norm": 1.304909110069275,
      "learning_rate": 0.0001555190042231607,
      "loss": 1.4762,
      "step": 10016
    },
    {
      "epoch": 0.2226,
      "grad_norm": 0.9708808064460754,
      "learning_rate": 0.00015551455879084242,
      "loss": 1.0157,
      "step": 10017
    },
    {
      "epoch": 0.22262222222222222,
      "grad_norm": 1.4122142791748047,
      "learning_rate": 0.00015551011335852413,
      "loss": 2.2999,
      "step": 10018
    },
    {
      "epoch": 0.22264444444444445,
      "grad_norm": 1.3392889499664307,
      "learning_rate": 0.00015550566792620584,
      "loss": 1.9164,
      "step": 10019
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 1.5173358917236328,
      "learning_rate": 0.00015550122249388755,
      "loss": 1.993,
      "step": 10020
    },
    {
      "epoch": 0.22268888888888888,
      "grad_norm": 1.3084189891815186,
      "learning_rate": 0.00015549677706156925,
      "loss": 1.6596,
      "step": 10021
    },
    {
      "epoch": 0.2227111111111111,
      "grad_norm": 1.3592292070388794,
      "learning_rate": 0.00015549233162925094,
      "loss": 1.9865,
      "step": 10022
    },
    {
      "epoch": 0.22273333333333334,
      "grad_norm": 1.5016493797302246,
      "learning_rate": 0.00015548788619693267,
      "loss": 1.7732,
      "step": 10023
    },
    {
      "epoch": 0.22275555555555557,
      "grad_norm": 1.5648410320281982,
      "learning_rate": 0.00015548344076461436,
      "loss": 2.6088,
      "step": 10024
    },
    {
      "epoch": 0.22277777777777777,
      "grad_norm": 1.4775950908660889,
      "learning_rate": 0.00015547899533229607,
      "loss": 2.051,
      "step": 10025
    },
    {
      "epoch": 0.2228,
      "grad_norm": 1.2258412837982178,
      "learning_rate": 0.00015547454989997778,
      "loss": 1.8053,
      "step": 10026
    },
    {
      "epoch": 0.22282222222222223,
      "grad_norm": 1.596308946609497,
      "learning_rate": 0.00015547010446765949,
      "loss": 2.3691,
      "step": 10027
    },
    {
      "epoch": 0.22284444444444446,
      "grad_norm": 1.6487263441085815,
      "learning_rate": 0.0001554656590353412,
      "loss": 1.0038,
      "step": 10028
    },
    {
      "epoch": 0.22286666666666666,
      "grad_norm": 1.48601496219635,
      "learning_rate": 0.0001554612136030229,
      "loss": 2.2997,
      "step": 10029
    },
    {
      "epoch": 0.2228888888888889,
      "grad_norm": 1.4437997341156006,
      "learning_rate": 0.00015545676817070461,
      "loss": 1.8254,
      "step": 10030
    },
    {
      "epoch": 0.22291111111111112,
      "grad_norm": 1.2855591773986816,
      "learning_rate": 0.00015545232273838632,
      "loss": 1.1405,
      "step": 10031
    },
    {
      "epoch": 0.22293333333333334,
      "grad_norm": 2.1046059131622314,
      "learning_rate": 0.00015544787730606803,
      "loss": 2.4643,
      "step": 10032
    },
    {
      "epoch": 0.22295555555555555,
      "grad_norm": 1.3023196458816528,
      "learning_rate": 0.00015544343187374972,
      "loss": 1.1993,
      "step": 10033
    },
    {
      "epoch": 0.22297777777777777,
      "grad_norm": 1.4448599815368652,
      "learning_rate": 0.00015543898644143145,
      "loss": 1.9934,
      "step": 10034
    },
    {
      "epoch": 0.223,
      "grad_norm": 1.574858546257019,
      "learning_rate": 0.00015543454100911314,
      "loss": 1.6415,
      "step": 10035
    },
    {
      "epoch": 0.22302222222222223,
      "grad_norm": 1.3733296394348145,
      "learning_rate": 0.00015543009557679485,
      "loss": 1.8091,
      "step": 10036
    },
    {
      "epoch": 0.22304444444444443,
      "grad_norm": 1.5784903764724731,
      "learning_rate": 0.00015542565014447655,
      "loss": 1.8392,
      "step": 10037
    },
    {
      "epoch": 0.22306666666666666,
      "grad_norm": 1.6121748685836792,
      "learning_rate": 0.00015542120471215826,
      "loss": 2.0912,
      "step": 10038
    },
    {
      "epoch": 0.2230888888888889,
      "grad_norm": 2.0364394187927246,
      "learning_rate": 0.00015541675927983997,
      "loss": 1.9143,
      "step": 10039
    },
    {
      "epoch": 0.22311111111111112,
      "grad_norm": 1.5647828578948975,
      "learning_rate": 0.00015541231384752168,
      "loss": 1.6408,
      "step": 10040
    },
    {
      "epoch": 0.22313333333333332,
      "grad_norm": 1.4592792987823486,
      "learning_rate": 0.0001554078684152034,
      "loss": 1.699,
      "step": 10041
    },
    {
      "epoch": 0.22315555555555555,
      "grad_norm": 2.779114246368408,
      "learning_rate": 0.00015540342298288508,
      "loss": 1.9678,
      "step": 10042
    },
    {
      "epoch": 0.22317777777777778,
      "grad_norm": 1.5922260284423828,
      "learning_rate": 0.0001553989775505668,
      "loss": 1.8386,
      "step": 10043
    },
    {
      "epoch": 0.2232,
      "grad_norm": 1.3688185214996338,
      "learning_rate": 0.0001553945321182485,
      "loss": 1.4248,
      "step": 10044
    },
    {
      "epoch": 0.2232222222222222,
      "grad_norm": 1.427061676979065,
      "learning_rate": 0.00015539008668593023,
      "loss": 1.5277,
      "step": 10045
    },
    {
      "epoch": 0.22324444444444444,
      "grad_norm": 1.6950896978378296,
      "learning_rate": 0.00015538564125361191,
      "loss": 1.8047,
      "step": 10046
    },
    {
      "epoch": 0.22326666666666667,
      "grad_norm": 1.73673677444458,
      "learning_rate": 0.00015538119582129362,
      "loss": 1.5512,
      "step": 10047
    },
    {
      "epoch": 0.2232888888888889,
      "grad_norm": 1.10012686252594,
      "learning_rate": 0.00015537675038897533,
      "loss": 0.7092,
      "step": 10048
    },
    {
      "epoch": 0.2233111111111111,
      "grad_norm": 1.1780439615249634,
      "learning_rate": 0.00015537230495665704,
      "loss": 0.8409,
      "step": 10049
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 1.546955943107605,
      "learning_rate": 0.00015536785952433875,
      "loss": 1.3739,
      "step": 10050
    },
    {
      "epoch": 0.22335555555555556,
      "grad_norm": 0.9265143275260925,
      "learning_rate": 0.00015536341409202046,
      "loss": 1.1711,
      "step": 10051
    },
    {
      "epoch": 0.2233777777777778,
      "grad_norm": 1.1022217273712158,
      "learning_rate": 0.00015535896865970217,
      "loss": 1.9806,
      "step": 10052
    },
    {
      "epoch": 0.2234,
      "grad_norm": 1.1833117008209229,
      "learning_rate": 0.00015535452322738385,
      "loss": 2.4924,
      "step": 10053
    },
    {
      "epoch": 0.22342222222222222,
      "grad_norm": 1.2431302070617676,
      "learning_rate": 0.0001553500777950656,
      "loss": 2.3825,
      "step": 10054
    },
    {
      "epoch": 0.22344444444444445,
      "grad_norm": 1.1891428232192993,
      "learning_rate": 0.00015534563236274727,
      "loss": 2.089,
      "step": 10055
    },
    {
      "epoch": 0.22346666666666667,
      "grad_norm": 1.3561471700668335,
      "learning_rate": 0.00015534118693042898,
      "loss": 2.4289,
      "step": 10056
    },
    {
      "epoch": 0.22348888888888888,
      "grad_norm": 1.3908841609954834,
      "learning_rate": 0.0001553367414981107,
      "loss": 2.1773,
      "step": 10057
    },
    {
      "epoch": 0.2235111111111111,
      "grad_norm": 1.371139407157898,
      "learning_rate": 0.0001553322960657924,
      "loss": 2.5081,
      "step": 10058
    },
    {
      "epoch": 0.22353333333333333,
      "grad_norm": 1.3752213716506958,
      "learning_rate": 0.0001553278506334741,
      "loss": 2.2533,
      "step": 10059
    },
    {
      "epoch": 0.22355555555555556,
      "grad_norm": 1.5238604545593262,
      "learning_rate": 0.00015532340520115582,
      "loss": 2.5442,
      "step": 10060
    },
    {
      "epoch": 0.22357777777777776,
      "grad_norm": 1.3897268772125244,
      "learning_rate": 0.00015531895976883753,
      "loss": 2.3644,
      "step": 10061
    },
    {
      "epoch": 0.2236,
      "grad_norm": 1.6970858573913574,
      "learning_rate": 0.00015531451433651921,
      "loss": 2.5282,
      "step": 10062
    },
    {
      "epoch": 0.22362222222222222,
      "grad_norm": 1.4279506206512451,
      "learning_rate": 0.00015531006890420095,
      "loss": 1.8347,
      "step": 10063
    },
    {
      "epoch": 0.22364444444444445,
      "grad_norm": 1.2768793106079102,
      "learning_rate": 0.00015530562347188263,
      "loss": 1.8724,
      "step": 10064
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 1.5717129707336426,
      "learning_rate": 0.00015530117803956437,
      "loss": 2.2955,
      "step": 10065
    },
    {
      "epoch": 0.22368888888888888,
      "grad_norm": 1.3445167541503906,
      "learning_rate": 0.00015529673260724605,
      "loss": 2.2903,
      "step": 10066
    },
    {
      "epoch": 0.2237111111111111,
      "grad_norm": 1.3641899824142456,
      "learning_rate": 0.00015529228717492776,
      "loss": 1.9395,
      "step": 10067
    },
    {
      "epoch": 0.22373333333333334,
      "grad_norm": 1.3600902557373047,
      "learning_rate": 0.0001552878417426095,
      "loss": 2.2197,
      "step": 10068
    },
    {
      "epoch": 0.22375555555555557,
      "grad_norm": 1.2624120712280273,
      "learning_rate": 0.00015528339631029118,
      "loss": 1.8365,
      "step": 10069
    },
    {
      "epoch": 0.22377777777777777,
      "grad_norm": 1.7431063652038574,
      "learning_rate": 0.0001552789508779729,
      "loss": 2.311,
      "step": 10070
    },
    {
      "epoch": 0.2238,
      "grad_norm": 1.488267183303833,
      "learning_rate": 0.0001552745054456546,
      "loss": 2.1407,
      "step": 10071
    },
    {
      "epoch": 0.22382222222222223,
      "grad_norm": 1.6307733058929443,
      "learning_rate": 0.0001552700600133363,
      "loss": 2.4599,
      "step": 10072
    },
    {
      "epoch": 0.22384444444444446,
      "grad_norm": 1.5965577363967896,
      "learning_rate": 0.000155265614581018,
      "loss": 1.9653,
      "step": 10073
    },
    {
      "epoch": 0.22386666666666666,
      "grad_norm": 1.586717963218689,
      "learning_rate": 0.00015526116914869973,
      "loss": 2.363,
      "step": 10074
    },
    {
      "epoch": 0.2238888888888889,
      "grad_norm": 1.5426069498062134,
      "learning_rate": 0.0001552567237163814,
      "loss": 2.0908,
      "step": 10075
    },
    {
      "epoch": 0.22391111111111112,
      "grad_norm": 1.1723586320877075,
      "learning_rate": 0.00015525227828406312,
      "loss": 1.4303,
      "step": 10076
    },
    {
      "epoch": 0.22393333333333335,
      "grad_norm": 1.5982428789138794,
      "learning_rate": 0.00015524783285174486,
      "loss": 2.2536,
      "step": 10077
    },
    {
      "epoch": 0.22395555555555555,
      "grad_norm": 1.4283393621444702,
      "learning_rate": 0.00015524338741942654,
      "loss": 2.165,
      "step": 10078
    },
    {
      "epoch": 0.22397777777777778,
      "grad_norm": 1.305727481842041,
      "learning_rate": 0.00015523894198710825,
      "loss": 1.7914,
      "step": 10079
    },
    {
      "epoch": 0.224,
      "grad_norm": 1.6747773885726929,
      "learning_rate": 0.00015523449655478996,
      "loss": 1.9025,
      "step": 10080
    },
    {
      "epoch": 0.22402222222222223,
      "grad_norm": 1.6416034698486328,
      "learning_rate": 0.00015523005112247167,
      "loss": 2.2994,
      "step": 10081
    },
    {
      "epoch": 0.22404444444444443,
      "grad_norm": 1.442326307296753,
      "learning_rate": 0.00015522560569015335,
      "loss": 2.3203,
      "step": 10082
    },
    {
      "epoch": 0.22406666666666666,
      "grad_norm": 1.527072548866272,
      "learning_rate": 0.0001552211602578351,
      "loss": 1.7776,
      "step": 10083
    },
    {
      "epoch": 0.2240888888888889,
      "grad_norm": 1.090780258178711,
      "learning_rate": 0.00015521671482551677,
      "loss": 1.2431,
      "step": 10084
    },
    {
      "epoch": 0.22411111111111112,
      "grad_norm": 1.3359354734420776,
      "learning_rate": 0.0001552122693931985,
      "loss": 1.1932,
      "step": 10085
    },
    {
      "epoch": 0.22413333333333332,
      "grad_norm": 1.0576062202453613,
      "learning_rate": 0.00015520782396088022,
      "loss": 1.1075,
      "step": 10086
    },
    {
      "epoch": 0.22415555555555555,
      "grad_norm": 1.586921215057373,
      "learning_rate": 0.0001552033785285619,
      "loss": 2.054,
      "step": 10087
    },
    {
      "epoch": 0.22417777777777778,
      "grad_norm": 1.7609221935272217,
      "learning_rate": 0.00015519893309624364,
      "loss": 2.231,
      "step": 10088
    },
    {
      "epoch": 0.2242,
      "grad_norm": 1.6886471509933472,
      "learning_rate": 0.00015519448766392532,
      "loss": 2.1728,
      "step": 10089
    },
    {
      "epoch": 0.2242222222222222,
      "grad_norm": 1.3591902256011963,
      "learning_rate": 0.00015519004223160703,
      "loss": 1.5083,
      "step": 10090
    },
    {
      "epoch": 0.22424444444444444,
      "grad_norm": 1.40017831325531,
      "learning_rate": 0.00015518559679928874,
      "loss": 1.5875,
      "step": 10091
    },
    {
      "epoch": 0.22426666666666667,
      "grad_norm": 1.4185526371002197,
      "learning_rate": 0.00015518115136697045,
      "loss": 1.7612,
      "step": 10092
    },
    {
      "epoch": 0.2242888888888889,
      "grad_norm": 1.7624719142913818,
      "learning_rate": 0.00015517670593465216,
      "loss": 1.8082,
      "step": 10093
    },
    {
      "epoch": 0.2243111111111111,
      "grad_norm": 1.4876432418823242,
      "learning_rate": 0.00015517226050233387,
      "loss": 1.5785,
      "step": 10094
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 1.766555666923523,
      "learning_rate": 0.00015516781507001558,
      "loss": 1.4435,
      "step": 10095
    },
    {
      "epoch": 0.22435555555555556,
      "grad_norm": 1.845126748085022,
      "learning_rate": 0.00015516336963769726,
      "loss": 1.8668,
      "step": 10096
    },
    {
      "epoch": 0.2243777777777778,
      "grad_norm": 1.7958199977874756,
      "learning_rate": 0.000155158924205379,
      "loss": 1.9666,
      "step": 10097
    },
    {
      "epoch": 0.2244,
      "grad_norm": 1.7714844942092896,
      "learning_rate": 0.00015515447877306068,
      "loss": 2.2957,
      "step": 10098
    },
    {
      "epoch": 0.22442222222222222,
      "grad_norm": 1.6209744215011597,
      "learning_rate": 0.0001551500333407424,
      "loss": 1.7053,
      "step": 10099
    },
    {
      "epoch": 0.22444444444444445,
      "grad_norm": 1.487899661064148,
      "learning_rate": 0.0001551455879084241,
      "loss": 1.7267,
      "step": 10100
    },
    {
      "epoch": 0.22446666666666668,
      "grad_norm": 1.3450590372085571,
      "learning_rate": 0.0001551411424761058,
      "loss": 2.6716,
      "step": 10101
    },
    {
      "epoch": 0.22448888888888888,
      "grad_norm": 0.8395718336105347,
      "learning_rate": 0.00015513669704378752,
      "loss": 1.2261,
      "step": 10102
    },
    {
      "epoch": 0.2245111111111111,
      "grad_norm": 1.2591768503189087,
      "learning_rate": 0.00015513225161146923,
      "loss": 2.2166,
      "step": 10103
    },
    {
      "epoch": 0.22453333333333333,
      "grad_norm": 0.9425977468490601,
      "learning_rate": 0.00015512780617915094,
      "loss": 0.9276,
      "step": 10104
    },
    {
      "epoch": 0.22455555555555556,
      "grad_norm": 1.2580770254135132,
      "learning_rate": 0.00015512336074683265,
      "loss": 2.2181,
      "step": 10105
    },
    {
      "epoch": 0.22457777777777777,
      "grad_norm": 1.3588124513626099,
      "learning_rate": 0.00015511891531451436,
      "loss": 2.6878,
      "step": 10106
    },
    {
      "epoch": 0.2246,
      "grad_norm": 1.5159879922866821,
      "learning_rate": 0.00015511446988219604,
      "loss": 2.607,
      "step": 10107
    },
    {
      "epoch": 0.22462222222222222,
      "grad_norm": 1.7017155885696411,
      "learning_rate": 0.00015511002444987777,
      "loss": 2.29,
      "step": 10108
    },
    {
      "epoch": 0.22464444444444445,
      "grad_norm": 1.4825897216796875,
      "learning_rate": 0.00015510557901755946,
      "loss": 2.2021,
      "step": 10109
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 1.4602717161178589,
      "learning_rate": 0.00015510113358524117,
      "loss": 2.1833,
      "step": 10110
    },
    {
      "epoch": 0.22468888888888888,
      "grad_norm": 1.4814716577529907,
      "learning_rate": 0.00015509668815292288,
      "loss": 1.8087,
      "step": 10111
    },
    {
      "epoch": 0.2247111111111111,
      "grad_norm": 1.3979800939559937,
      "learning_rate": 0.00015509224272060459,
      "loss": 1.9905,
      "step": 10112
    },
    {
      "epoch": 0.22473333333333334,
      "grad_norm": 1.2624605894088745,
      "learning_rate": 0.0001550877972882863,
      "loss": 1.903,
      "step": 10113
    },
    {
      "epoch": 0.22475555555555554,
      "grad_norm": 1.6119951009750366,
      "learning_rate": 0.000155083351855968,
      "loss": 2.689,
      "step": 10114
    },
    {
      "epoch": 0.22477777777777777,
      "grad_norm": 1.8237864971160889,
      "learning_rate": 0.00015507890642364972,
      "loss": 2.155,
      "step": 10115
    },
    {
      "epoch": 0.2248,
      "grad_norm": 1.518409013748169,
      "learning_rate": 0.0001550744609913314,
      "loss": 1.3927,
      "step": 10116
    },
    {
      "epoch": 0.22482222222222223,
      "grad_norm": 1.4254158735275269,
      "learning_rate": 0.00015507001555901313,
      "loss": 1.9131,
      "step": 10117
    },
    {
      "epoch": 0.22484444444444446,
      "grad_norm": 1.3175662755966187,
      "learning_rate": 0.00015506557012669482,
      "loss": 1.985,
      "step": 10118
    },
    {
      "epoch": 0.22486666666666666,
      "grad_norm": 1.3633935451507568,
      "learning_rate": 0.00015506112469437653,
      "loss": 1.7499,
      "step": 10119
    },
    {
      "epoch": 0.2248888888888889,
      "grad_norm": 2.1052212715148926,
      "learning_rate": 0.00015505667926205824,
      "loss": 2.3668,
      "step": 10120
    },
    {
      "epoch": 0.22491111111111112,
      "grad_norm": 1.4369696378707886,
      "learning_rate": 0.00015505223382973995,
      "loss": 2.3643,
      "step": 10121
    },
    {
      "epoch": 0.22493333333333335,
      "grad_norm": 1.3921452760696411,
      "learning_rate": 0.00015504778839742166,
      "loss": 2.2876,
      "step": 10122
    },
    {
      "epoch": 0.22495555555555555,
      "grad_norm": 1.3596693277359009,
      "learning_rate": 0.00015504334296510337,
      "loss": 1.8213,
      "step": 10123
    },
    {
      "epoch": 0.22497777777777778,
      "grad_norm": 1.7277324199676514,
      "learning_rate": 0.00015503889753278507,
      "loss": 2.3462,
      "step": 10124
    },
    {
      "epoch": 0.225,
      "grad_norm": 1.3136534690856934,
      "learning_rate": 0.00015503445210046678,
      "loss": 1.9558,
      "step": 10125
    },
    {
      "epoch": 0.22502222222222223,
      "grad_norm": 1.3135336637496948,
      "learning_rate": 0.0001550300066681485,
      "loss": 1.9154,
      "step": 10126
    },
    {
      "epoch": 0.22504444444444444,
      "grad_norm": 1.6130468845367432,
      "learning_rate": 0.00015502556123583018,
      "loss": 1.9424,
      "step": 10127
    },
    {
      "epoch": 0.22506666666666666,
      "grad_norm": 1.2625114917755127,
      "learning_rate": 0.0001550211158035119,
      "loss": 1.6481,
      "step": 10128
    },
    {
      "epoch": 0.2250888888888889,
      "grad_norm": 1.768955945968628,
      "learning_rate": 0.0001550166703711936,
      "loss": 2.2257,
      "step": 10129
    },
    {
      "epoch": 0.22511111111111112,
      "grad_norm": 0.8842741250991821,
      "learning_rate": 0.0001550122249388753,
      "loss": 0.0355,
      "step": 10130
    },
    {
      "epoch": 0.22513333333333332,
      "grad_norm": 1.4311026334762573,
      "learning_rate": 0.00015500777950655701,
      "loss": 1.7293,
      "step": 10131
    },
    {
      "epoch": 0.22515555555555555,
      "grad_norm": 1.590330958366394,
      "learning_rate": 0.00015500333407423872,
      "loss": 1.8137,
      "step": 10132
    },
    {
      "epoch": 0.22517777777777778,
      "grad_norm": 1.8770875930786133,
      "learning_rate": 0.00015499888864192043,
      "loss": 2.0827,
      "step": 10133
    },
    {
      "epoch": 0.2252,
      "grad_norm": 1.4521536827087402,
      "learning_rate": 0.00015499444320960214,
      "loss": 1.7564,
      "step": 10134
    },
    {
      "epoch": 0.2252222222222222,
      "grad_norm": 1.5273187160491943,
      "learning_rate": 0.00015498999777728385,
      "loss": 1.8702,
      "step": 10135
    },
    {
      "epoch": 0.22524444444444444,
      "grad_norm": 1.576312780380249,
      "learning_rate": 0.00015498555234496554,
      "loss": 1.7516,
      "step": 10136
    },
    {
      "epoch": 0.22526666666666667,
      "grad_norm": 1.601215124130249,
      "learning_rate": 0.00015498110691264727,
      "loss": 1.9304,
      "step": 10137
    },
    {
      "epoch": 0.2252888888888889,
      "grad_norm": 1.8618751764297485,
      "learning_rate": 0.00015497666148032896,
      "loss": 2.0419,
      "step": 10138
    },
    {
      "epoch": 0.2253111111111111,
      "grad_norm": 1.5300542116165161,
      "learning_rate": 0.00015497221604801066,
      "loss": 1.9268,
      "step": 10139
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 1.4398193359375,
      "learning_rate": 0.00015496777061569237,
      "loss": 1.4953,
      "step": 10140
    },
    {
      "epoch": 0.22535555555555556,
      "grad_norm": 1.762159824371338,
      "learning_rate": 0.00015496332518337408,
      "loss": 2.2906,
      "step": 10141
    },
    {
      "epoch": 0.2253777777777778,
      "grad_norm": 1.759114384651184,
      "learning_rate": 0.00015495887975105582,
      "loss": 2.0735,
      "step": 10142
    },
    {
      "epoch": 0.2254,
      "grad_norm": 1.535940170288086,
      "learning_rate": 0.0001549544343187375,
      "loss": 1.7545,
      "step": 10143
    },
    {
      "epoch": 0.22542222222222222,
      "grad_norm": 1.5099787712097168,
      "learning_rate": 0.0001549499888864192,
      "loss": 1.9513,
      "step": 10144
    },
    {
      "epoch": 0.22544444444444445,
      "grad_norm": 1.5456128120422363,
      "learning_rate": 0.00015494554345410092,
      "loss": 1.7898,
      "step": 10145
    },
    {
      "epoch": 0.22546666666666668,
      "grad_norm": 1.914391040802002,
      "learning_rate": 0.00015494109802178263,
      "loss": 1.9273,
      "step": 10146
    },
    {
      "epoch": 0.22548888888888888,
      "grad_norm": 1.3894624710083008,
      "learning_rate": 0.00015493665258946431,
      "loss": 1.7347,
      "step": 10147
    },
    {
      "epoch": 0.2255111111111111,
      "grad_norm": 1.5545235872268677,
      "learning_rate": 0.00015493220715714605,
      "loss": 1.9218,
      "step": 10148
    },
    {
      "epoch": 0.22553333333333334,
      "grad_norm": 1.4863964319229126,
      "learning_rate": 0.00015492776172482773,
      "loss": 1.5415,
      "step": 10149
    },
    {
      "epoch": 0.22555555555555556,
      "grad_norm": 1.0118087530136108,
      "learning_rate": 0.00015492331629250944,
      "loss": 0.7835,
      "step": 10150
    },
    {
      "epoch": 0.22557777777777777,
      "grad_norm": 1.3395490646362305,
      "learning_rate": 0.00015491887086019118,
      "loss": 2.691,
      "step": 10151
    },
    {
      "epoch": 0.2256,
      "grad_norm": 1.4256640672683716,
      "learning_rate": 0.00015491442542787286,
      "loss": 2.5497,
      "step": 10152
    },
    {
      "epoch": 0.22562222222222222,
      "grad_norm": 1.2187572717666626,
      "learning_rate": 0.00015490997999555457,
      "loss": 2.4591,
      "step": 10153
    },
    {
      "epoch": 0.22564444444444445,
      "grad_norm": 1.2533851861953735,
      "learning_rate": 0.00015490553456323628,
      "loss": 2.4462,
      "step": 10154
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 1.3904798030853271,
      "learning_rate": 0.000154901089130918,
      "loss": 2.2953,
      "step": 10155
    },
    {
      "epoch": 0.22568888888888888,
      "grad_norm": 1.2461626529693604,
      "learning_rate": 0.00015489664369859967,
      "loss": 2.2317,
      "step": 10156
    },
    {
      "epoch": 0.2257111111111111,
      "grad_norm": 1.2475180625915527,
      "learning_rate": 0.0001548921982662814,
      "loss": 2.2183,
      "step": 10157
    },
    {
      "epoch": 0.22573333333333334,
      "grad_norm": 1.5704749822616577,
      "learning_rate": 0.0001548877528339631,
      "loss": 2.3448,
      "step": 10158
    },
    {
      "epoch": 0.22575555555555554,
      "grad_norm": 1.282156229019165,
      "learning_rate": 0.00015488330740164483,
      "loss": 1.923,
      "step": 10159
    },
    {
      "epoch": 0.22577777777777777,
      "grad_norm": 1.3177438974380493,
      "learning_rate": 0.00015487886196932654,
      "loss": 1.1548,
      "step": 10160
    },
    {
      "epoch": 0.2258,
      "grad_norm": 1.2771003246307373,
      "learning_rate": 0.00015487441653700822,
      "loss": 1.8698,
      "step": 10161
    },
    {
      "epoch": 0.22582222222222223,
      "grad_norm": 1.5067269802093506,
      "learning_rate": 0.00015486997110468996,
      "loss": 2.6423,
      "step": 10162
    },
    {
      "epoch": 0.22584444444444443,
      "grad_norm": 1.326674222946167,
      "learning_rate": 0.00015486552567237164,
      "loss": 1.7931,
      "step": 10163
    },
    {
      "epoch": 0.22586666666666666,
      "grad_norm": 2.7555062770843506,
      "learning_rate": 0.00015486108024005335,
      "loss": 1.353,
      "step": 10164
    },
    {
      "epoch": 0.2258888888888889,
      "grad_norm": 1.6646376848220825,
      "learning_rate": 0.00015485663480773506,
      "loss": 2.3662,
      "step": 10165
    },
    {
      "epoch": 0.22591111111111112,
      "grad_norm": 1.333358883857727,
      "learning_rate": 0.00015485218937541677,
      "loss": 2.0239,
      "step": 10166
    },
    {
      "epoch": 0.22593333333333335,
      "grad_norm": 1.7236244678497314,
      "learning_rate": 0.00015484774394309848,
      "loss": 2.4968,
      "step": 10167
    },
    {
      "epoch": 0.22595555555555555,
      "grad_norm": 1.6174181699752808,
      "learning_rate": 0.0001548432985107802,
      "loss": 2.0127,
      "step": 10168
    },
    {
      "epoch": 0.22597777777777778,
      "grad_norm": 1.033079981803894,
      "learning_rate": 0.0001548388530784619,
      "loss": 1.2662,
      "step": 10169
    },
    {
      "epoch": 0.226,
      "grad_norm": 1.3085566759109497,
      "learning_rate": 0.00015483440764614358,
      "loss": 1.9899,
      "step": 10170
    },
    {
      "epoch": 0.22602222222222224,
      "grad_norm": 1.3660650253295898,
      "learning_rate": 0.00015482996221382532,
      "loss": 1.761,
      "step": 10171
    },
    {
      "epoch": 0.22604444444444444,
      "grad_norm": 1.371589183807373,
      "learning_rate": 0.000154825516781507,
      "loss": 2.2145,
      "step": 10172
    },
    {
      "epoch": 0.22606666666666667,
      "grad_norm": 1.6195738315582275,
      "learning_rate": 0.0001548210713491887,
      "loss": 2.1572,
      "step": 10173
    },
    {
      "epoch": 0.2260888888888889,
      "grad_norm": 1.436583161354065,
      "learning_rate": 0.00015481662591687042,
      "loss": 2.0055,
      "step": 10174
    },
    {
      "epoch": 0.22611111111111112,
      "grad_norm": 1.6189044713974,
      "learning_rate": 0.00015481218048455213,
      "loss": 1.9517,
      "step": 10175
    },
    {
      "epoch": 0.22613333333333333,
      "grad_norm": 1.3563653230667114,
      "learning_rate": 0.00015480773505223384,
      "loss": 1.9923,
      "step": 10176
    },
    {
      "epoch": 0.22615555555555555,
      "grad_norm": 1.604334831237793,
      "learning_rate": 0.00015480328961991555,
      "loss": 1.6027,
      "step": 10177
    },
    {
      "epoch": 0.22617777777777778,
      "grad_norm": 1.828936219215393,
      "learning_rate": 0.00015479884418759726,
      "loss": 2.0742,
      "step": 10178
    },
    {
      "epoch": 0.2262,
      "grad_norm": 1.4410927295684814,
      "learning_rate": 0.00015479439875527897,
      "loss": 2.0766,
      "step": 10179
    },
    {
      "epoch": 0.2262222222222222,
      "grad_norm": 1.5459784269332886,
      "learning_rate": 0.00015478995332296068,
      "loss": 1.9732,
      "step": 10180
    },
    {
      "epoch": 0.22624444444444444,
      "grad_norm": 1.6347702741622925,
      "learning_rate": 0.00015478550789064236,
      "loss": 2.2311,
      "step": 10181
    },
    {
      "epoch": 0.22626666666666667,
      "grad_norm": 1.8293087482452393,
      "learning_rate": 0.0001547810624583241,
      "loss": 2.4444,
      "step": 10182
    },
    {
      "epoch": 0.2262888888888889,
      "grad_norm": 1.4260627031326294,
      "learning_rate": 0.00015477661702600578,
      "loss": 1.989,
      "step": 10183
    },
    {
      "epoch": 0.2263111111111111,
      "grad_norm": 1.7570996284484863,
      "learning_rate": 0.0001547721715936875,
      "loss": 2.1649,
      "step": 10184
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 1.594768762588501,
      "learning_rate": 0.0001547677261613692,
      "loss": 2.0534,
      "step": 10185
    },
    {
      "epoch": 0.22635555555555556,
      "grad_norm": 1.7807058095932007,
      "learning_rate": 0.0001547632807290509,
      "loss": 1.7606,
      "step": 10186
    },
    {
      "epoch": 0.2263777777777778,
      "grad_norm": 1.4498497247695923,
      "learning_rate": 0.00015475883529673262,
      "loss": 1.6465,
      "step": 10187
    },
    {
      "epoch": 0.2264,
      "grad_norm": 1.3184736967086792,
      "learning_rate": 0.00015475438986441433,
      "loss": 1.6888,
      "step": 10188
    },
    {
      "epoch": 0.22642222222222222,
      "grad_norm": 0.36551958322525024,
      "learning_rate": 0.00015474994443209604,
      "loss": 0.0422,
      "step": 10189
    },
    {
      "epoch": 0.22644444444444445,
      "grad_norm": 1.5312974452972412,
      "learning_rate": 0.00015474549899977772,
      "loss": 1.5898,
      "step": 10190
    },
    {
      "epoch": 0.22646666666666668,
      "grad_norm": 1.4483976364135742,
      "learning_rate": 0.00015474105356745946,
      "loss": 1.9413,
      "step": 10191
    },
    {
      "epoch": 0.22648888888888888,
      "grad_norm": 1.41487717628479,
      "learning_rate": 0.00015473660813514114,
      "loss": 1.4751,
      "step": 10192
    },
    {
      "epoch": 0.2265111111111111,
      "grad_norm": 1.6043354272842407,
      "learning_rate": 0.00015473216270282285,
      "loss": 2.2694,
      "step": 10193
    },
    {
      "epoch": 0.22653333333333334,
      "grad_norm": 1.4308221340179443,
      "learning_rate": 0.00015472771727050456,
      "loss": 1.6954,
      "step": 10194
    },
    {
      "epoch": 0.22655555555555557,
      "grad_norm": 2.0375142097473145,
      "learning_rate": 0.00015472327183818627,
      "loss": 2.2671,
      "step": 10195
    },
    {
      "epoch": 0.22657777777777777,
      "grad_norm": 1.4393290281295776,
      "learning_rate": 0.00015471882640586798,
      "loss": 1.7618,
      "step": 10196
    },
    {
      "epoch": 0.2266,
      "grad_norm": 1.9481580257415771,
      "learning_rate": 0.0001547143809735497,
      "loss": 2.3834,
      "step": 10197
    },
    {
      "epoch": 0.22662222222222222,
      "grad_norm": 1.4449845552444458,
      "learning_rate": 0.0001547099355412314,
      "loss": 1.5452,
      "step": 10198
    },
    {
      "epoch": 0.22664444444444445,
      "grad_norm": 1.493156909942627,
      "learning_rate": 0.0001547054901089131,
      "loss": 1.4874,
      "step": 10199
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 1.7573938369750977,
      "learning_rate": 0.00015470104467659482,
      "loss": 1.796,
      "step": 10200
    },
    {
      "epoch": 0.22668888888888888,
      "grad_norm": 1.2231202125549316,
      "learning_rate": 0.0001546965992442765,
      "loss": 2.34,
      "step": 10201
    },
    {
      "epoch": 0.2267111111111111,
      "grad_norm": 1.2918124198913574,
      "learning_rate": 0.00015469215381195824,
      "loss": 1.4217,
      "step": 10202
    },
    {
      "epoch": 0.22673333333333334,
      "grad_norm": 1.4996882677078247,
      "learning_rate": 0.00015468770837963992,
      "loss": 2.3244,
      "step": 10203
    },
    {
      "epoch": 0.22675555555555554,
      "grad_norm": 1.2047278881072998,
      "learning_rate": 0.00015468326294732163,
      "loss": 2.2662,
      "step": 10204
    },
    {
      "epoch": 0.22677777777777777,
      "grad_norm": 1.3804370164871216,
      "learning_rate": 0.00015467881751500334,
      "loss": 2.5831,
      "step": 10205
    },
    {
      "epoch": 0.2268,
      "grad_norm": 1.3876166343688965,
      "learning_rate": 0.00015467437208268505,
      "loss": 2.4021,
      "step": 10206
    },
    {
      "epoch": 0.22682222222222223,
      "grad_norm": 1.3648313283920288,
      "learning_rate": 0.00015466992665036676,
      "loss": 2.2205,
      "step": 10207
    },
    {
      "epoch": 0.22684444444444443,
      "grad_norm": 1.4981473684310913,
      "learning_rate": 0.00015466548121804847,
      "loss": 1.711,
      "step": 10208
    },
    {
      "epoch": 0.22686666666666666,
      "grad_norm": 1.5891038179397583,
      "learning_rate": 0.00015466103578573018,
      "loss": 2.2926,
      "step": 10209
    },
    {
      "epoch": 0.2268888888888889,
      "grad_norm": 1.604457139968872,
      "learning_rate": 0.00015465659035341186,
      "loss": 2.251,
      "step": 10210
    },
    {
      "epoch": 0.22691111111111112,
      "grad_norm": 1.4433647394180298,
      "learning_rate": 0.0001546521449210936,
      "loss": 2.1725,
      "step": 10211
    },
    {
      "epoch": 0.22693333333333332,
      "grad_norm": 1.6091079711914062,
      "learning_rate": 0.00015464769948877528,
      "loss": 1.6356,
      "step": 10212
    },
    {
      "epoch": 0.22695555555555555,
      "grad_norm": 1.5086511373519897,
      "learning_rate": 0.000154643254056457,
      "loss": 1.7269,
      "step": 10213
    },
    {
      "epoch": 0.22697777777777778,
      "grad_norm": 1.3878531455993652,
      "learning_rate": 0.0001546388086241387,
      "loss": 2.2114,
      "step": 10214
    },
    {
      "epoch": 0.227,
      "grad_norm": 1.403980016708374,
      "learning_rate": 0.0001546343631918204,
      "loss": 1.843,
      "step": 10215
    },
    {
      "epoch": 0.2270222222222222,
      "grad_norm": 1.1162054538726807,
      "learning_rate": 0.00015462991775950214,
      "loss": 1.4547,
      "step": 10216
    },
    {
      "epoch": 0.22704444444444444,
      "grad_norm": 1.2429803609848022,
      "learning_rate": 0.00015462547232718383,
      "loss": 0.8495,
      "step": 10217
    },
    {
      "epoch": 0.22706666666666667,
      "grad_norm": 2.08805513381958,
      "learning_rate": 0.00015462102689486553,
      "loss": 2.4479,
      "step": 10218
    },
    {
      "epoch": 0.2270888888888889,
      "grad_norm": 1.3950810432434082,
      "learning_rate": 0.00015461658146254724,
      "loss": 2.1763,
      "step": 10219
    },
    {
      "epoch": 0.22711111111111112,
      "grad_norm": 1.6133016347885132,
      "learning_rate": 0.00015461213603022895,
      "loss": 2.3811,
      "step": 10220
    },
    {
      "epoch": 0.22713333333333333,
      "grad_norm": 1.6123570203781128,
      "learning_rate": 0.00015460769059791064,
      "loss": 1.4141,
      "step": 10221
    },
    {
      "epoch": 0.22715555555555556,
      "grad_norm": 1.2570041418075562,
      "learning_rate": 0.00015460324516559237,
      "loss": 1.675,
      "step": 10222
    },
    {
      "epoch": 0.22717777777777778,
      "grad_norm": 1.4886807203292847,
      "learning_rate": 0.00015459879973327406,
      "loss": 1.5479,
      "step": 10223
    },
    {
      "epoch": 0.2272,
      "grad_norm": 1.3893110752105713,
      "learning_rate": 0.00015459435430095577,
      "loss": 1.6206,
      "step": 10224
    },
    {
      "epoch": 0.22722222222222221,
      "grad_norm": 1.334491491317749,
      "learning_rate": 0.0001545899088686375,
      "loss": 1.7655,
      "step": 10225
    },
    {
      "epoch": 0.22724444444444444,
      "grad_norm": 1.2825974225997925,
      "learning_rate": 0.00015458546343631918,
      "loss": 1.7255,
      "step": 10226
    },
    {
      "epoch": 0.22726666666666667,
      "grad_norm": 1.7265349626541138,
      "learning_rate": 0.0001545810180040009,
      "loss": 2.1392,
      "step": 10227
    },
    {
      "epoch": 0.2272888888888889,
      "grad_norm": 1.420515537261963,
      "learning_rate": 0.0001545765725716826,
      "loss": 1.8006,
      "step": 10228
    },
    {
      "epoch": 0.2273111111111111,
      "grad_norm": 1.3036377429962158,
      "learning_rate": 0.00015457212713936431,
      "loss": 0.9497,
      "step": 10229
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 1.3811211585998535,
      "learning_rate": 0.000154567681707046,
      "loss": 1.8574,
      "step": 10230
    },
    {
      "epoch": 0.22735555555555556,
      "grad_norm": 1.4542920589447021,
      "learning_rate": 0.00015456323627472773,
      "loss": 1.8392,
      "step": 10231
    },
    {
      "epoch": 0.2273777777777778,
      "grad_norm": 1.740797758102417,
      "learning_rate": 0.00015455879084240942,
      "loss": 2.1875,
      "step": 10232
    },
    {
      "epoch": 0.2274,
      "grad_norm": 1.3356009721755981,
      "learning_rate": 0.00015455434541009112,
      "loss": 1.6682,
      "step": 10233
    },
    {
      "epoch": 0.22742222222222222,
      "grad_norm": 1.4053515195846558,
      "learning_rate": 0.00015454989997777286,
      "loss": 1.6075,
      "step": 10234
    },
    {
      "epoch": 0.22744444444444445,
      "grad_norm": 1.5776840448379517,
      "learning_rate": 0.00015454545454545454,
      "loss": 1.8885,
      "step": 10235
    },
    {
      "epoch": 0.22746666666666668,
      "grad_norm": 1.4946023225784302,
      "learning_rate": 0.00015454100911313628,
      "loss": 2.065,
      "step": 10236
    },
    {
      "epoch": 0.22748888888888888,
      "grad_norm": 1.2474738359451294,
      "learning_rate": 0.00015453656368081796,
      "loss": 1.1176,
      "step": 10237
    },
    {
      "epoch": 0.2275111111111111,
      "grad_norm": 1.2855194807052612,
      "learning_rate": 0.00015453211824849967,
      "loss": 1.7953,
      "step": 10238
    },
    {
      "epoch": 0.22753333333333334,
      "grad_norm": 1.4912700653076172,
      "learning_rate": 0.00015452767281618138,
      "loss": 1.8614,
      "step": 10239
    },
    {
      "epoch": 0.22755555555555557,
      "grad_norm": 1.7821588516235352,
      "learning_rate": 0.0001545232273838631,
      "loss": 2.5264,
      "step": 10240
    },
    {
      "epoch": 0.22757777777777777,
      "grad_norm": 1.616464614868164,
      "learning_rate": 0.0001545187819515448,
      "loss": 1.9892,
      "step": 10241
    },
    {
      "epoch": 0.2276,
      "grad_norm": 1.6551616191864014,
      "learning_rate": 0.0001545143365192265,
      "loss": 2.0476,
      "step": 10242
    },
    {
      "epoch": 0.22762222222222223,
      "grad_norm": 1.5844076871871948,
      "learning_rate": 0.00015450989108690822,
      "loss": 1.8607,
      "step": 10243
    },
    {
      "epoch": 0.22764444444444445,
      "grad_norm": 1.7175642251968384,
      "learning_rate": 0.0001545054456545899,
      "loss": 2.2213,
      "step": 10244
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 1.9799731969833374,
      "learning_rate": 0.00015450100022227164,
      "loss": 2.2153,
      "step": 10245
    },
    {
      "epoch": 0.22768888888888889,
      "grad_norm": 1.3581255674362183,
      "learning_rate": 0.00015449655478995332,
      "loss": 1.466,
      "step": 10246
    },
    {
      "epoch": 0.22771111111111111,
      "grad_norm": 1.818245530128479,
      "learning_rate": 0.00015449210935763503,
      "loss": 2.0153,
      "step": 10247
    },
    {
      "epoch": 0.22773333333333334,
      "grad_norm": 1.101330280303955,
      "learning_rate": 0.00015448766392531674,
      "loss": 0.9998,
      "step": 10248
    },
    {
      "epoch": 0.22775555555555554,
      "grad_norm": 1.8915300369262695,
      "learning_rate": 0.00015448321849299845,
      "loss": 1.2038,
      "step": 10249
    },
    {
      "epoch": 0.22777777777777777,
      "grad_norm": 1.4763662815093994,
      "learning_rate": 0.00015447877306068016,
      "loss": 1.2719,
      "step": 10250
    },
    {
      "epoch": 0.2278,
      "grad_norm": 1.2080551385879517,
      "learning_rate": 0.00015447432762836187,
      "loss": 2.5577,
      "step": 10251
    },
    {
      "epoch": 0.22782222222222223,
      "grad_norm": 1.201323390007019,
      "learning_rate": 0.00015446988219604358,
      "loss": 2.0513,
      "step": 10252
    },
    {
      "epoch": 0.22784444444444443,
      "grad_norm": 1.341765284538269,
      "learning_rate": 0.00015446543676372526,
      "loss": 2.9266,
      "step": 10253
    },
    {
      "epoch": 0.22786666666666666,
      "grad_norm": 1.4514048099517822,
      "learning_rate": 0.000154460991331407,
      "loss": 1.7003,
      "step": 10254
    },
    {
      "epoch": 0.2278888888888889,
      "grad_norm": 1.2653210163116455,
      "learning_rate": 0.00015445654589908868,
      "loss": 2.4705,
      "step": 10255
    },
    {
      "epoch": 0.22791111111111112,
      "grad_norm": 1.2486485242843628,
      "learning_rate": 0.00015445210046677042,
      "loss": 2.3189,
      "step": 10256
    },
    {
      "epoch": 0.22793333333333332,
      "grad_norm": 1.2605915069580078,
      "learning_rate": 0.0001544476550344521,
      "loss": 1.9889,
      "step": 10257
    },
    {
      "epoch": 0.22795555555555555,
      "grad_norm": 1.3545948266983032,
      "learning_rate": 0.0001544432096021338,
      "loss": 2.5659,
      "step": 10258
    },
    {
      "epoch": 0.22797777777777778,
      "grad_norm": 1.50555419921875,
      "learning_rate": 0.00015443876416981552,
      "loss": 2.3703,
      "step": 10259
    },
    {
      "epoch": 0.228,
      "grad_norm": 1.4515026807785034,
      "learning_rate": 0.00015443431873749723,
      "loss": 2.4413,
      "step": 10260
    },
    {
      "epoch": 0.2280222222222222,
      "grad_norm": 1.6488397121429443,
      "learning_rate": 0.00015442987330517894,
      "loss": 2.0971,
      "step": 10261
    },
    {
      "epoch": 0.22804444444444444,
      "grad_norm": 1.3715105056762695,
      "learning_rate": 0.00015442542787286065,
      "loss": 1.7689,
      "step": 10262
    },
    {
      "epoch": 0.22806666666666667,
      "grad_norm": 1.5199345350265503,
      "learning_rate": 0.00015442098244054236,
      "loss": 2.1973,
      "step": 10263
    },
    {
      "epoch": 0.2280888888888889,
      "grad_norm": 1.2140191793441772,
      "learning_rate": 0.00015441653700822404,
      "loss": 2.1828,
      "step": 10264
    },
    {
      "epoch": 0.2281111111111111,
      "grad_norm": 1.319759488105774,
      "learning_rate": 0.00015441209157590578,
      "loss": 2.4271,
      "step": 10265
    },
    {
      "epoch": 0.22813333333333333,
      "grad_norm": 1.4822275638580322,
      "learning_rate": 0.00015440764614358746,
      "loss": 1.9941,
      "step": 10266
    },
    {
      "epoch": 0.22815555555555556,
      "grad_norm": 1.5337672233581543,
      "learning_rate": 0.00015440320071126917,
      "loss": 2.2809,
      "step": 10267
    },
    {
      "epoch": 0.22817777777777778,
      "grad_norm": 1.343893051147461,
      "learning_rate": 0.00015439875527895088,
      "loss": 2.3735,
      "step": 10268
    },
    {
      "epoch": 0.2282,
      "grad_norm": 1.1724580526351929,
      "learning_rate": 0.0001543943098466326,
      "loss": 1.748,
      "step": 10269
    },
    {
      "epoch": 0.22822222222222222,
      "grad_norm": 1.2849617004394531,
      "learning_rate": 0.0001543898644143143,
      "loss": 2.1294,
      "step": 10270
    },
    {
      "epoch": 0.22824444444444444,
      "grad_norm": 1.3079907894134521,
      "learning_rate": 0.000154385418981996,
      "loss": 1.8507,
      "step": 10271
    },
    {
      "epoch": 0.22826666666666667,
      "grad_norm": 1.3666744232177734,
      "learning_rate": 0.00015438097354967772,
      "loss": 1.5684,
      "step": 10272
    },
    {
      "epoch": 0.2282888888888889,
      "grad_norm": 1.5551824569702148,
      "learning_rate": 0.00015437652811735943,
      "loss": 2.2911,
      "step": 10273
    },
    {
      "epoch": 0.2283111111111111,
      "grad_norm": 1.3835980892181396,
      "learning_rate": 0.00015437208268504114,
      "loss": 2.2531,
      "step": 10274
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 1.8798424005508423,
      "learning_rate": 0.00015436763725272282,
      "loss": 1.903,
      "step": 10275
    },
    {
      "epoch": 0.22835555555555556,
      "grad_norm": 1.1883667707443237,
      "learning_rate": 0.00015436319182040456,
      "loss": 1.5534,
      "step": 10276
    },
    {
      "epoch": 0.2283777777777778,
      "grad_norm": 1.5409884452819824,
      "learning_rate": 0.00015435874638808624,
      "loss": 1.1764,
      "step": 10277
    },
    {
      "epoch": 0.2284,
      "grad_norm": 1.537774920463562,
      "learning_rate": 0.00015435430095576795,
      "loss": 1.9165,
      "step": 10278
    },
    {
      "epoch": 0.22842222222222222,
      "grad_norm": 1.4061458110809326,
      "learning_rate": 0.00015434985552344966,
      "loss": 1.7685,
      "step": 10279
    },
    {
      "epoch": 0.22844444444444445,
      "grad_norm": 1.9748241901397705,
      "learning_rate": 0.00015434541009113137,
      "loss": 1.7211,
      "step": 10280
    },
    {
      "epoch": 0.22846666666666668,
      "grad_norm": 1.609598994255066,
      "learning_rate": 0.00015434096465881308,
      "loss": 2.1897,
      "step": 10281
    },
    {
      "epoch": 0.22848888888888888,
      "grad_norm": 1.6331385374069214,
      "learning_rate": 0.0001543365192264948,
      "loss": 2.0834,
      "step": 10282
    },
    {
      "epoch": 0.2285111111111111,
      "grad_norm": 1.6223589181900024,
      "learning_rate": 0.0001543320737941765,
      "loss": 1.9004,
      "step": 10283
    },
    {
      "epoch": 0.22853333333333334,
      "grad_norm": 1.555153727531433,
      "learning_rate": 0.00015432762836185818,
      "loss": 2.2022,
      "step": 10284
    },
    {
      "epoch": 0.22855555555555557,
      "grad_norm": 1.5229732990264893,
      "learning_rate": 0.00015432318292953992,
      "loss": 2.1514,
      "step": 10285
    },
    {
      "epoch": 0.22857777777777777,
      "grad_norm": 1.8399220705032349,
      "learning_rate": 0.0001543187374972216,
      "loss": 2.314,
      "step": 10286
    },
    {
      "epoch": 0.2286,
      "grad_norm": 1.7901978492736816,
      "learning_rate": 0.0001543142920649033,
      "loss": 1.9567,
      "step": 10287
    },
    {
      "epoch": 0.22862222222222223,
      "grad_norm": 1.6306076049804688,
      "learning_rate": 0.00015430984663258502,
      "loss": 2.0198,
      "step": 10288
    },
    {
      "epoch": 0.22864444444444446,
      "grad_norm": 1.3711521625518799,
      "learning_rate": 0.00015430540120026673,
      "loss": 1.988,
      "step": 10289
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 1.6970840692520142,
      "learning_rate": 0.00015430095576794844,
      "loss": 2.4811,
      "step": 10290
    },
    {
      "epoch": 0.22868888888888889,
      "grad_norm": 1.5470614433288574,
      "learning_rate": 0.00015429651033563015,
      "loss": 1.8285,
      "step": 10291
    },
    {
      "epoch": 0.22871111111111112,
      "grad_norm": 1.6946874856948853,
      "learning_rate": 0.00015429206490331186,
      "loss": 1.8987,
      "step": 10292
    },
    {
      "epoch": 0.22873333333333334,
      "grad_norm": 1.7563576698303223,
      "learning_rate": 0.00015428761947099357,
      "loss": 1.8233,
      "step": 10293
    },
    {
      "epoch": 0.22875555555555555,
      "grad_norm": 1.656870722770691,
      "learning_rate": 0.00015428317403867528,
      "loss": 1.7279,
      "step": 10294
    },
    {
      "epoch": 0.22877777777777777,
      "grad_norm": 1.7413841485977173,
      "learning_rate": 0.00015427872860635696,
      "loss": 1.9175,
      "step": 10295
    },
    {
      "epoch": 0.2288,
      "grad_norm": 1.9294776916503906,
      "learning_rate": 0.0001542742831740387,
      "loss": 2.0017,
      "step": 10296
    },
    {
      "epoch": 0.22882222222222223,
      "grad_norm": 1.6133953332901,
      "learning_rate": 0.00015426983774172038,
      "loss": 2.1242,
      "step": 10297
    },
    {
      "epoch": 0.22884444444444443,
      "grad_norm": 1.7442669868469238,
      "learning_rate": 0.0001542653923094021,
      "loss": 2.0189,
      "step": 10298
    },
    {
      "epoch": 0.22886666666666666,
      "grad_norm": 1.5877918004989624,
      "learning_rate": 0.00015426094687708382,
      "loss": 1.697,
      "step": 10299
    },
    {
      "epoch": 0.2288888888888889,
      "grad_norm": 1.7497256994247437,
      "learning_rate": 0.0001542565014447655,
      "loss": 1.6332,
      "step": 10300
    },
    {
      "epoch": 0.22891111111111112,
      "grad_norm": 1.6773544549942017,
      "learning_rate": 0.00015425205601244722,
      "loss": 2.8507,
      "step": 10301
    },
    {
      "epoch": 0.22893333333333332,
      "grad_norm": 1.1749457120895386,
      "learning_rate": 0.00015424761058012893,
      "loss": 2.5132,
      "step": 10302
    },
    {
      "epoch": 0.22895555555555555,
      "grad_norm": 1.3824912309646606,
      "learning_rate": 0.00015424316514781064,
      "loss": 2.596,
      "step": 10303
    },
    {
      "epoch": 0.22897777777777778,
      "grad_norm": 1.3346600532531738,
      "learning_rate": 0.00015423871971549232,
      "loss": 2.1147,
      "step": 10304
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.4188426733016968,
      "learning_rate": 0.00015423427428317405,
      "loss": 2.3229,
      "step": 10305
    },
    {
      "epoch": 0.2290222222222222,
      "grad_norm": 1.441651701927185,
      "learning_rate": 0.00015422982885085574,
      "loss": 2.6393,
      "step": 10306
    },
    {
      "epoch": 0.22904444444444444,
      "grad_norm": 1.443420648574829,
      "learning_rate": 0.00015422538341853745,
      "loss": 2.6745,
      "step": 10307
    },
    {
      "epoch": 0.22906666666666667,
      "grad_norm": 1.5101810693740845,
      "learning_rate": 0.00015422093798621918,
      "loss": 1.9735,
      "step": 10308
    },
    {
      "epoch": 0.2290888888888889,
      "grad_norm": 1.513335108757019,
      "learning_rate": 0.00015421649255390087,
      "loss": 1.5057,
      "step": 10309
    },
    {
      "epoch": 0.2291111111111111,
      "grad_norm": 1.3630000352859497,
      "learning_rate": 0.0001542120471215826,
      "loss": 2.1692,
      "step": 10310
    },
    {
      "epoch": 0.22913333333333333,
      "grad_norm": 1.330412745475769,
      "learning_rate": 0.00015420760168926429,
      "loss": 2.2223,
      "step": 10311
    },
    {
      "epoch": 0.22915555555555556,
      "grad_norm": 1.5786402225494385,
      "learning_rate": 0.000154203156256946,
      "loss": 2.448,
      "step": 10312
    },
    {
      "epoch": 0.22917777777777779,
      "grad_norm": 1.2507671117782593,
      "learning_rate": 0.0001541987108246277,
      "loss": 2.1333,
      "step": 10313
    },
    {
      "epoch": 0.2292,
      "grad_norm": 1.314167857170105,
      "learning_rate": 0.00015419426539230941,
      "loss": 2.0368,
      "step": 10314
    },
    {
      "epoch": 0.22922222222222222,
      "grad_norm": 1.3283531665802002,
      "learning_rate": 0.00015418981995999112,
      "loss": 1.8468,
      "step": 10315
    },
    {
      "epoch": 0.22924444444444445,
      "grad_norm": 1.4444862604141235,
      "learning_rate": 0.00015418537452767283,
      "loss": 2.1562,
      "step": 10316
    },
    {
      "epoch": 0.22926666666666667,
      "grad_norm": 1.5888910293579102,
      "learning_rate": 0.00015418092909535454,
      "loss": 2.111,
      "step": 10317
    },
    {
      "epoch": 0.22928888888888888,
      "grad_norm": 1.324820637702942,
      "learning_rate": 0.00015417648366303623,
      "loss": 1.89,
      "step": 10318
    },
    {
      "epoch": 0.2293111111111111,
      "grad_norm": 1.3783063888549805,
      "learning_rate": 0.00015417203823071796,
      "loss": 1.6665,
      "step": 10319
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 1.5971823930740356,
      "learning_rate": 0.00015416759279839965,
      "loss": 2.1024,
      "step": 10320
    },
    {
      "epoch": 0.22935555555555556,
      "grad_norm": 1.3043392896652222,
      "learning_rate": 0.00015416314736608135,
      "loss": 1.5285,
      "step": 10321
    },
    {
      "epoch": 0.2293777777777778,
      "grad_norm": 1.5828036069869995,
      "learning_rate": 0.00015415870193376306,
      "loss": 2.2666,
      "step": 10322
    },
    {
      "epoch": 0.2294,
      "grad_norm": 1.300513505935669,
      "learning_rate": 0.00015415425650144477,
      "loss": 1.5211,
      "step": 10323
    },
    {
      "epoch": 0.22942222222222222,
      "grad_norm": 1.4227404594421387,
      "learning_rate": 0.00015414981106912648,
      "loss": 1.0323,
      "step": 10324
    },
    {
      "epoch": 0.22944444444444445,
      "grad_norm": 1.2124131917953491,
      "learning_rate": 0.0001541453656368082,
      "loss": 0.6187,
      "step": 10325
    },
    {
      "epoch": 0.22946666666666668,
      "grad_norm": 1.2717478275299072,
      "learning_rate": 0.0001541409202044899,
      "loss": 1.873,
      "step": 10326
    },
    {
      "epoch": 0.22948888888888888,
      "grad_norm": 1.9603825807571411,
      "learning_rate": 0.00015413647477217159,
      "loss": 2.5196,
      "step": 10327
    },
    {
      "epoch": 0.2295111111111111,
      "grad_norm": 1.383036494255066,
      "learning_rate": 0.00015413202933985332,
      "loss": 1.62,
      "step": 10328
    },
    {
      "epoch": 0.22953333333333334,
      "grad_norm": 1.5877333879470825,
      "learning_rate": 0.000154127583907535,
      "loss": 1.7816,
      "step": 10329
    },
    {
      "epoch": 0.22955555555555557,
      "grad_norm": 1.5265600681304932,
      "learning_rate": 0.00015412313847521674,
      "loss": 1.9423,
      "step": 10330
    },
    {
      "epoch": 0.22957777777777777,
      "grad_norm": 1.6579617261886597,
      "learning_rate": 0.00015411869304289842,
      "loss": 1.6114,
      "step": 10331
    },
    {
      "epoch": 0.2296,
      "grad_norm": 1.5723575353622437,
      "learning_rate": 0.00015411424761058013,
      "loss": 2.132,
      "step": 10332
    },
    {
      "epoch": 0.22962222222222223,
      "grad_norm": 1.8274006843566895,
      "learning_rate": 0.00015410980217826184,
      "loss": 2.3488,
      "step": 10333
    },
    {
      "epoch": 0.22964444444444446,
      "grad_norm": 1.6012959480285645,
      "learning_rate": 0.00015410535674594355,
      "loss": 2.0308,
      "step": 10334
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 1.7647068500518799,
      "learning_rate": 0.00015410091131362526,
      "loss": 2.2508,
      "step": 10335
    },
    {
      "epoch": 0.2296888888888889,
      "grad_norm": 1.4054902791976929,
      "learning_rate": 0.00015409646588130697,
      "loss": 2.1593,
      "step": 10336
    },
    {
      "epoch": 0.22971111111111112,
      "grad_norm": 1.3512835502624512,
      "learning_rate": 0.00015409202044898868,
      "loss": 1.6253,
      "step": 10337
    },
    {
      "epoch": 0.22973333333333334,
      "grad_norm": 1.462485909461975,
      "learning_rate": 0.00015408757501667036,
      "loss": 1.6379,
      "step": 10338
    },
    {
      "epoch": 0.22975555555555555,
      "grad_norm": 1.6133816242218018,
      "learning_rate": 0.0001540831295843521,
      "loss": 2.1211,
      "step": 10339
    },
    {
      "epoch": 0.22977777777777778,
      "grad_norm": 1.9874402284622192,
      "learning_rate": 0.00015407868415203378,
      "loss": 2.0987,
      "step": 10340
    },
    {
      "epoch": 0.2298,
      "grad_norm": 1.7668696641921997,
      "learning_rate": 0.0001540742387197155,
      "loss": 2.0349,
      "step": 10341
    },
    {
      "epoch": 0.22982222222222223,
      "grad_norm": 1.4834333658218384,
      "learning_rate": 0.0001540697932873972,
      "loss": 2.0489,
      "step": 10342
    },
    {
      "epoch": 0.22984444444444443,
      "grad_norm": 1.5159311294555664,
      "learning_rate": 0.0001540653478550789,
      "loss": 2.0515,
      "step": 10343
    },
    {
      "epoch": 0.22986666666666666,
      "grad_norm": 1.6605643033981323,
      "learning_rate": 0.00015406090242276062,
      "loss": 2.3051,
      "step": 10344
    },
    {
      "epoch": 0.2298888888888889,
      "grad_norm": 1.3987808227539062,
      "learning_rate": 0.00015405645699044233,
      "loss": 1.8954,
      "step": 10345
    },
    {
      "epoch": 0.22991111111111112,
      "grad_norm": 2.046105146408081,
      "learning_rate": 0.00015405201155812404,
      "loss": 2.5783,
      "step": 10346
    },
    {
      "epoch": 0.22993333333333332,
      "grad_norm": 1.3535761833190918,
      "learning_rate": 0.00015404756612580572,
      "loss": 1.703,
      "step": 10347
    },
    {
      "epoch": 0.22995555555555555,
      "grad_norm": 1.5914121866226196,
      "learning_rate": 0.00015404312069348746,
      "loss": 1.7356,
      "step": 10348
    },
    {
      "epoch": 0.22997777777777778,
      "grad_norm": 2.186056613922119,
      "learning_rate": 0.00015403867526116914,
      "loss": 2.3642,
      "step": 10349
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7853413820266724,
      "learning_rate": 0.00015403422982885088,
      "loss": 1.4325,
      "step": 10350
    },
    {
      "epoch": 0.2300222222222222,
      "grad_norm": 1.134385108947754,
      "learning_rate": 0.00015402978439653256,
      "loss": 2.3538,
      "step": 10351
    },
    {
      "epoch": 0.23004444444444444,
      "grad_norm": 1.3608702421188354,
      "learning_rate": 0.00015402533896421427,
      "loss": 2.3706,
      "step": 10352
    },
    {
      "epoch": 0.23006666666666667,
      "grad_norm": 1.2066459655761719,
      "learning_rate": 0.00015402089353189598,
      "loss": 1.4228,
      "step": 10353
    },
    {
      "epoch": 0.2300888888888889,
      "grad_norm": 1.3949103355407715,
      "learning_rate": 0.0001540164480995777,
      "loss": 2.1665,
      "step": 10354
    },
    {
      "epoch": 0.2301111111111111,
      "grad_norm": 1.2512725591659546,
      "learning_rate": 0.0001540120026672594,
      "loss": 2.3265,
      "step": 10355
    },
    {
      "epoch": 0.23013333333333333,
      "grad_norm": 1.190934181213379,
      "learning_rate": 0.0001540075572349411,
      "loss": 1.9265,
      "step": 10356
    },
    {
      "epoch": 0.23015555555555556,
      "grad_norm": 1.3580063581466675,
      "learning_rate": 0.00015400311180262282,
      "loss": 2.4636,
      "step": 10357
    },
    {
      "epoch": 0.2301777777777778,
      "grad_norm": 1.2796379327774048,
      "learning_rate": 0.0001539986663703045,
      "loss": 1.9478,
      "step": 10358
    },
    {
      "epoch": 0.2302,
      "grad_norm": 1.4584687948226929,
      "learning_rate": 0.00015399422093798624,
      "loss": 2.3795,
      "step": 10359
    },
    {
      "epoch": 0.23022222222222222,
      "grad_norm": 1.3906986713409424,
      "learning_rate": 0.00015398977550566792,
      "loss": 2.206,
      "step": 10360
    },
    {
      "epoch": 0.23024444444444445,
      "grad_norm": 1.8121050596237183,
      "learning_rate": 0.00015398533007334963,
      "loss": 2.9175,
      "step": 10361
    },
    {
      "epoch": 0.23026666666666668,
      "grad_norm": 1.7632278203964233,
      "learning_rate": 0.00015398088464103134,
      "loss": 1.2632,
      "step": 10362
    },
    {
      "epoch": 0.23028888888888888,
      "grad_norm": 1.6570619344711304,
      "learning_rate": 0.00015397643920871305,
      "loss": 2.3664,
      "step": 10363
    },
    {
      "epoch": 0.2303111111111111,
      "grad_norm": 1.4661649465560913,
      "learning_rate": 0.00015397199377639476,
      "loss": 1.9335,
      "step": 10364
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 1.548247218132019,
      "learning_rate": 0.00015396754834407647,
      "loss": 2.0966,
      "step": 10365
    },
    {
      "epoch": 0.23035555555555556,
      "grad_norm": 1.384717583656311,
      "learning_rate": 0.00015396310291175818,
      "loss": 2.1114,
      "step": 10366
    },
    {
      "epoch": 0.23037777777777776,
      "grad_norm": 1.596994161605835,
      "learning_rate": 0.0001539586574794399,
      "loss": 2.375,
      "step": 10367
    },
    {
      "epoch": 0.2304,
      "grad_norm": 1.8181320428848267,
      "learning_rate": 0.0001539542120471216,
      "loss": 2.1943,
      "step": 10368
    },
    {
      "epoch": 0.23042222222222222,
      "grad_norm": 1.899389624595642,
      "learning_rate": 0.00015394976661480328,
      "loss": 2.1524,
      "step": 10369
    },
    {
      "epoch": 0.23044444444444445,
      "grad_norm": 1.5466238260269165,
      "learning_rate": 0.00015394532118248502,
      "loss": 1.7583,
      "step": 10370
    },
    {
      "epoch": 0.23046666666666665,
      "grad_norm": 1.5619362592697144,
      "learning_rate": 0.0001539408757501667,
      "loss": 1.6173,
      "step": 10371
    },
    {
      "epoch": 0.23048888888888888,
      "grad_norm": 1.467538595199585,
      "learning_rate": 0.0001539364303178484,
      "loss": 1.6888,
      "step": 10372
    },
    {
      "epoch": 0.2305111111111111,
      "grad_norm": 1.4462357759475708,
      "learning_rate": 0.00015393198488553015,
      "loss": 2.3377,
      "step": 10373
    },
    {
      "epoch": 0.23053333333333334,
      "grad_norm": 1.5328487157821655,
      "learning_rate": 0.00015392753945321183,
      "loss": 2.1631,
      "step": 10374
    },
    {
      "epoch": 0.23055555555555557,
      "grad_norm": 1.73149836063385,
      "learning_rate": 0.00015392309402089354,
      "loss": 1.7828,
      "step": 10375
    },
    {
      "epoch": 0.23057777777777777,
      "grad_norm": 1.7037006616592407,
      "learning_rate": 0.00015391864858857525,
      "loss": 1.9958,
      "step": 10376
    },
    {
      "epoch": 0.2306,
      "grad_norm": 1.4935213327407837,
      "learning_rate": 0.00015391420315625696,
      "loss": 2.1345,
      "step": 10377
    },
    {
      "epoch": 0.23062222222222223,
      "grad_norm": 1.2743816375732422,
      "learning_rate": 0.00015390975772393864,
      "loss": 0.5574,
      "step": 10378
    },
    {
      "epoch": 0.23064444444444446,
      "grad_norm": 1.4731287956237793,
      "learning_rate": 0.00015390531229162038,
      "loss": 1.9106,
      "step": 10379
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 1.6022069454193115,
      "learning_rate": 0.00015390086685930206,
      "loss": 2.2181,
      "step": 10380
    },
    {
      "epoch": 0.2306888888888889,
      "grad_norm": 1.4278584718704224,
      "learning_rate": 0.00015389642142698377,
      "loss": 2.1786,
      "step": 10381
    },
    {
      "epoch": 0.23071111111111112,
      "grad_norm": 1.7113702297210693,
      "learning_rate": 0.0001538919759946655,
      "loss": 1.7685,
      "step": 10382
    },
    {
      "epoch": 0.23073333333333335,
      "grad_norm": 1.7180784940719604,
      "learning_rate": 0.0001538875305623472,
      "loss": 2.4448,
      "step": 10383
    },
    {
      "epoch": 0.23075555555555555,
      "grad_norm": 1.591376543045044,
      "learning_rate": 0.0001538830851300289,
      "loss": 1.8285,
      "step": 10384
    },
    {
      "epoch": 0.23077777777777778,
      "grad_norm": 1.3573780059814453,
      "learning_rate": 0.0001538786396977106,
      "loss": 1.6115,
      "step": 10385
    },
    {
      "epoch": 0.2308,
      "grad_norm": 1.560453176498413,
      "learning_rate": 0.00015387419426539232,
      "loss": 1.5758,
      "step": 10386
    },
    {
      "epoch": 0.23082222222222223,
      "grad_norm": 1.5993443727493286,
      "learning_rate": 0.00015386974883307403,
      "loss": 2.1099,
      "step": 10387
    },
    {
      "epoch": 0.23084444444444444,
      "grad_norm": 1.4169871807098389,
      "learning_rate": 0.00015386530340075574,
      "loss": 2.0017,
      "step": 10388
    },
    {
      "epoch": 0.23086666666666666,
      "grad_norm": 1.35526442527771,
      "learning_rate": 0.00015386085796843745,
      "loss": 1.4222,
      "step": 10389
    },
    {
      "epoch": 0.2308888888888889,
      "grad_norm": 0.9642833471298218,
      "learning_rate": 0.00015385641253611916,
      "loss": 0.7599,
      "step": 10390
    },
    {
      "epoch": 0.23091111111111112,
      "grad_norm": 1.7226331233978271,
      "learning_rate": 0.00015385196710380087,
      "loss": 1.7318,
      "step": 10391
    },
    {
      "epoch": 0.23093333333333332,
      "grad_norm": 1.6892766952514648,
      "learning_rate": 0.00015384752167148255,
      "loss": 1.9701,
      "step": 10392
    },
    {
      "epoch": 0.23095555555555555,
      "grad_norm": 1.2385764122009277,
      "learning_rate": 0.00015384307623916428,
      "loss": 1.3614,
      "step": 10393
    },
    {
      "epoch": 0.23097777777777778,
      "grad_norm": 1.477439522743225,
      "learning_rate": 0.00015383863080684597,
      "loss": 1.7075,
      "step": 10394
    },
    {
      "epoch": 0.231,
      "grad_norm": 1.5540554523468018,
      "learning_rate": 0.00015383418537452768,
      "loss": 1.8147,
      "step": 10395
    },
    {
      "epoch": 0.2310222222222222,
      "grad_norm": 2.0731871128082275,
      "learning_rate": 0.00015382973994220939,
      "loss": 1.8996,
      "step": 10396
    },
    {
      "epoch": 0.23104444444444444,
      "grad_norm": 1.4222681522369385,
      "learning_rate": 0.0001538252945098911,
      "loss": 2.0306,
      "step": 10397
    },
    {
      "epoch": 0.23106666666666667,
      "grad_norm": 1.5273584127426147,
      "learning_rate": 0.0001538208490775728,
      "loss": 1.7313,
      "step": 10398
    },
    {
      "epoch": 0.2310888888888889,
      "grad_norm": 1.8114498853683472,
      "learning_rate": 0.00015381640364525452,
      "loss": 2.027,
      "step": 10399
    },
    {
      "epoch": 0.2311111111111111,
      "grad_norm": 1.2689049243927002,
      "learning_rate": 0.00015381195821293622,
      "loss": 1.0233,
      "step": 10400
    },
    {
      "epoch": 0.23113333333333333,
      "grad_norm": 0.8688957691192627,
      "learning_rate": 0.0001538075127806179,
      "loss": 0.9518,
      "step": 10401
    },
    {
      "epoch": 0.23115555555555556,
      "grad_norm": 1.5021610260009766,
      "learning_rate": 0.00015380306734829964,
      "loss": 3.1268,
      "step": 10402
    },
    {
      "epoch": 0.2311777777777778,
      "grad_norm": 0.8906372785568237,
      "learning_rate": 0.00015379862191598133,
      "loss": 1.0744,
      "step": 10403
    },
    {
      "epoch": 0.2312,
      "grad_norm": 1.129862666130066,
      "learning_rate": 0.00015379417648366304,
      "loss": 2.2547,
      "step": 10404
    },
    {
      "epoch": 0.23122222222222222,
      "grad_norm": 1.3912016153335571,
      "learning_rate": 0.00015378973105134475,
      "loss": 2.3991,
      "step": 10405
    },
    {
      "epoch": 0.23124444444444445,
      "grad_norm": 1.3621833324432373,
      "learning_rate": 0.00015378528561902646,
      "loss": 2.4413,
      "step": 10406
    },
    {
      "epoch": 0.23126666666666668,
      "grad_norm": 1.3135136365890503,
      "learning_rate": 0.00015378084018670817,
      "loss": 2.1064,
      "step": 10407
    },
    {
      "epoch": 0.23128888888888888,
      "grad_norm": 1.3227105140686035,
      "learning_rate": 0.00015377639475438987,
      "loss": 2.4948,
      "step": 10408
    },
    {
      "epoch": 0.2313111111111111,
      "grad_norm": 1.6436281204223633,
      "learning_rate": 0.00015377194932207158,
      "loss": 2.4163,
      "step": 10409
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 1.4240968227386475,
      "learning_rate": 0.0001537675038897533,
      "loss": 2.0773,
      "step": 10410
    },
    {
      "epoch": 0.23135555555555556,
      "grad_norm": 1.2981442213058472,
      "learning_rate": 0.000153763058457435,
      "loss": 2.0096,
      "step": 10411
    },
    {
      "epoch": 0.23137777777777777,
      "grad_norm": 1.5675591230392456,
      "learning_rate": 0.00015375861302511669,
      "loss": 2.3769,
      "step": 10412
    },
    {
      "epoch": 0.2314,
      "grad_norm": 1.594346523284912,
      "learning_rate": 0.00015375416759279842,
      "loss": 1.9176,
      "step": 10413
    },
    {
      "epoch": 0.23142222222222222,
      "grad_norm": 1.6224721670150757,
      "learning_rate": 0.0001537497221604801,
      "loss": 2.3013,
      "step": 10414
    },
    {
      "epoch": 0.23144444444444445,
      "grad_norm": 1.676944375038147,
      "learning_rate": 0.00015374527672816181,
      "loss": 2.3047,
      "step": 10415
    },
    {
      "epoch": 0.23146666666666665,
      "grad_norm": 1.1810855865478516,
      "learning_rate": 0.00015374083129584352,
      "loss": 1.1298,
      "step": 10416
    },
    {
      "epoch": 0.23148888888888888,
      "grad_norm": 1.552882432937622,
      "learning_rate": 0.00015373638586352523,
      "loss": 1.8412,
      "step": 10417
    },
    {
      "epoch": 0.2315111111111111,
      "grad_norm": 1.5414597988128662,
      "learning_rate": 0.00015373194043120694,
      "loss": 2.1045,
      "step": 10418
    },
    {
      "epoch": 0.23153333333333334,
      "grad_norm": 1.5567160844802856,
      "learning_rate": 0.00015372749499888865,
      "loss": 2.0559,
      "step": 10419
    },
    {
      "epoch": 0.23155555555555554,
      "grad_norm": 1.518999695777893,
      "learning_rate": 0.00015372304956657036,
      "loss": 2.1057,
      "step": 10420
    },
    {
      "epoch": 0.23157777777777777,
      "grad_norm": 1.3295563459396362,
      "learning_rate": 0.00015371860413425205,
      "loss": 2.1049,
      "step": 10421
    },
    {
      "epoch": 0.2316,
      "grad_norm": 1.7292633056640625,
      "learning_rate": 0.00015371415870193378,
      "loss": 2.1434,
      "step": 10422
    },
    {
      "epoch": 0.23162222222222223,
      "grad_norm": 1.4817545413970947,
      "learning_rate": 0.00015370971326961546,
      "loss": 2.0967,
      "step": 10423
    },
    {
      "epoch": 0.23164444444444443,
      "grad_norm": 1.8623989820480347,
      "learning_rate": 0.0001537052678372972,
      "loss": 2.5184,
      "step": 10424
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 1.3524017333984375,
      "learning_rate": 0.00015370082240497888,
      "loss": 1.6474,
      "step": 10425
    },
    {
      "epoch": 0.2316888888888889,
      "grad_norm": 1.6094869375228882,
      "learning_rate": 0.0001536963769726606,
      "loss": 1.684,
      "step": 10426
    },
    {
      "epoch": 0.23171111111111112,
      "grad_norm": 1.4675745964050293,
      "learning_rate": 0.0001536919315403423,
      "loss": 2.2321,
      "step": 10427
    },
    {
      "epoch": 0.23173333333333335,
      "grad_norm": 1.3750362396240234,
      "learning_rate": 0.000153687486108024,
      "loss": 1.7895,
      "step": 10428
    },
    {
      "epoch": 0.23175555555555555,
      "grad_norm": 1.6126503944396973,
      "learning_rate": 0.00015368304067570572,
      "loss": 2.4689,
      "step": 10429
    },
    {
      "epoch": 0.23177777777777778,
      "grad_norm": 1.0156104564666748,
      "learning_rate": 0.00015367859524338743,
      "loss": 0.9376,
      "step": 10430
    },
    {
      "epoch": 0.2318,
      "grad_norm": 1.5712065696716309,
      "learning_rate": 0.00015367414981106914,
      "loss": 1.6662,
      "step": 10431
    },
    {
      "epoch": 0.23182222222222224,
      "grad_norm": 1.619045615196228,
      "learning_rate": 0.00015366970437875082,
      "loss": 1.9295,
      "step": 10432
    },
    {
      "epoch": 0.23184444444444444,
      "grad_norm": 1.3963639736175537,
      "learning_rate": 0.00015366525894643256,
      "loss": 1.5962,
      "step": 10433
    },
    {
      "epoch": 0.23186666666666667,
      "grad_norm": 1.3162764310836792,
      "learning_rate": 0.00015366081351411424,
      "loss": 1.5523,
      "step": 10434
    },
    {
      "epoch": 0.2318888888888889,
      "grad_norm": 1.3181743621826172,
      "learning_rate": 0.00015365636808179595,
      "loss": 1.5118,
      "step": 10435
    },
    {
      "epoch": 0.23191111111111112,
      "grad_norm": 1.9068670272827148,
      "learning_rate": 0.00015365192264947766,
      "loss": 2.2629,
      "step": 10436
    },
    {
      "epoch": 0.23193333333333332,
      "grad_norm": 1.9845161437988281,
      "learning_rate": 0.00015364747721715937,
      "loss": 2.1044,
      "step": 10437
    },
    {
      "epoch": 0.23195555555555555,
      "grad_norm": 1.5998570919036865,
      "learning_rate": 0.00015364303178484108,
      "loss": 2.4425,
      "step": 10438
    },
    {
      "epoch": 0.23197777777777778,
      "grad_norm": 1.6296396255493164,
      "learning_rate": 0.0001536385863525228,
      "loss": 2.3226,
      "step": 10439
    },
    {
      "epoch": 0.232,
      "grad_norm": 1.7438819408416748,
      "learning_rate": 0.0001536341409202045,
      "loss": 2.0225,
      "step": 10440
    },
    {
      "epoch": 0.2320222222222222,
      "grad_norm": 1.509796380996704,
      "learning_rate": 0.00015362969548788618,
      "loss": 1.8614,
      "step": 10441
    },
    {
      "epoch": 0.23204444444444444,
      "grad_norm": 1.997747540473938,
      "learning_rate": 0.00015362525005556792,
      "loss": 2.4199,
      "step": 10442
    },
    {
      "epoch": 0.23206666666666667,
      "grad_norm": 1.7526054382324219,
      "learning_rate": 0.0001536208046232496,
      "loss": 2.2034,
      "step": 10443
    },
    {
      "epoch": 0.2320888888888889,
      "grad_norm": 1.3997204303741455,
      "learning_rate": 0.00015361635919093134,
      "loss": 1.2252,
      "step": 10444
    },
    {
      "epoch": 0.2321111111111111,
      "grad_norm": 1.8892353773117065,
      "learning_rate": 0.00015361191375861302,
      "loss": 2.1349,
      "step": 10445
    },
    {
      "epoch": 0.23213333333333333,
      "grad_norm": 1.298324704170227,
      "learning_rate": 0.00015360746832629473,
      "loss": 1.4667,
      "step": 10446
    },
    {
      "epoch": 0.23215555555555556,
      "grad_norm": 1.787527084350586,
      "learning_rate": 0.00015360302289397647,
      "loss": 1.8741,
      "step": 10447
    },
    {
      "epoch": 0.2321777777777778,
      "grad_norm": 1.5995187759399414,
      "learning_rate": 0.00015359857746165815,
      "loss": 0.9642,
      "step": 10448
    },
    {
      "epoch": 0.2322,
      "grad_norm": 1.8636419773101807,
      "learning_rate": 0.00015359413202933986,
      "loss": 1.9174,
      "step": 10449
    },
    {
      "epoch": 0.23222222222222222,
      "grad_norm": 2.1991753578186035,
      "learning_rate": 0.00015358968659702157,
      "loss": 1.8686,
      "step": 10450
    },
    {
      "epoch": 0.23224444444444445,
      "grad_norm": 1.4570034742355347,
      "learning_rate": 0.00015358524116470328,
      "loss": 2.576,
      "step": 10451
    },
    {
      "epoch": 0.23226666666666668,
      "grad_norm": 1.4408161640167236,
      "learning_rate": 0.00015358079573238496,
      "loss": 1.9984,
      "step": 10452
    },
    {
      "epoch": 0.23228888888888888,
      "grad_norm": 1.3583524227142334,
      "learning_rate": 0.0001535763503000667,
      "loss": 2.3019,
      "step": 10453
    },
    {
      "epoch": 0.2323111111111111,
      "grad_norm": 1.442389726638794,
      "learning_rate": 0.0001535719048677484,
      "loss": 1.9801,
      "step": 10454
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 1.5798991918563843,
      "learning_rate": 0.0001535674594354301,
      "loss": 2.9715,
      "step": 10455
    },
    {
      "epoch": 0.23235555555555557,
      "grad_norm": 1.127361536026001,
      "learning_rate": 0.00015356301400311183,
      "loss": 2.0602,
      "step": 10456
    },
    {
      "epoch": 0.23237777777777777,
      "grad_norm": 1.5118151903152466,
      "learning_rate": 0.0001535585685707935,
      "loss": 2.2518,
      "step": 10457
    },
    {
      "epoch": 0.2324,
      "grad_norm": 1.3796650171279907,
      "learning_rate": 0.00015355412313847522,
      "loss": 2.0661,
      "step": 10458
    },
    {
      "epoch": 0.23242222222222222,
      "grad_norm": 1.2237286567687988,
      "learning_rate": 0.00015354967770615693,
      "loss": 1.757,
      "step": 10459
    },
    {
      "epoch": 0.23244444444444445,
      "grad_norm": 1.511192798614502,
      "learning_rate": 0.00015354523227383864,
      "loss": 2.6879,
      "step": 10460
    },
    {
      "epoch": 0.23246666666666665,
      "grad_norm": 1.3665632009506226,
      "learning_rate": 0.00015354078684152032,
      "loss": 2.0593,
      "step": 10461
    },
    {
      "epoch": 0.23248888888888888,
      "grad_norm": 1.3832552433013916,
      "learning_rate": 0.00015353634140920206,
      "loss": 2.3383,
      "step": 10462
    },
    {
      "epoch": 0.2325111111111111,
      "grad_norm": 1.3169152736663818,
      "learning_rate": 0.00015353189597688377,
      "loss": 1.998,
      "step": 10463
    },
    {
      "epoch": 0.23253333333333334,
      "grad_norm": 1.2028104066848755,
      "learning_rate": 0.00015352745054456548,
      "loss": 1.4671,
      "step": 10464
    },
    {
      "epoch": 0.23255555555555554,
      "grad_norm": 1.2238520383834839,
      "learning_rate": 0.0001535230051122472,
      "loss": 1.9672,
      "step": 10465
    },
    {
      "epoch": 0.23257777777777777,
      "grad_norm": 1.1867865324020386,
      "learning_rate": 0.00015351855967992887,
      "loss": 1.0892,
      "step": 10466
    },
    {
      "epoch": 0.2326,
      "grad_norm": 1.4228525161743164,
      "learning_rate": 0.0001535141142476106,
      "loss": 2.2228,
      "step": 10467
    },
    {
      "epoch": 0.23262222222222223,
      "grad_norm": 1.6433379650115967,
      "learning_rate": 0.0001535096688152923,
      "loss": 1.8765,
      "step": 10468
    },
    {
      "epoch": 0.23264444444444443,
      "grad_norm": 1.2916347980499268,
      "learning_rate": 0.000153505223382974,
      "loss": 1.8639,
      "step": 10469
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 1.4652420282363892,
      "learning_rate": 0.0001535007779506557,
      "loss": 1.9607,
      "step": 10470
    },
    {
      "epoch": 0.2326888888888889,
      "grad_norm": 1.7085095643997192,
      "learning_rate": 0.00015349633251833742,
      "loss": 1.7377,
      "step": 10471
    },
    {
      "epoch": 0.23271111111111112,
      "grad_norm": 1.3183157444000244,
      "learning_rate": 0.00015349188708601913,
      "loss": 1.7217,
      "step": 10472
    },
    {
      "epoch": 0.23273333333333332,
      "grad_norm": 1.3497623205184937,
      "learning_rate": 0.00015348744165370084,
      "loss": 1.9366,
      "step": 10473
    },
    {
      "epoch": 0.23275555555555555,
      "grad_norm": 1.3050097227096558,
      "learning_rate": 0.00015348299622138255,
      "loss": 1.7677,
      "step": 10474
    },
    {
      "epoch": 0.23277777777777778,
      "grad_norm": 1.5671002864837646,
      "learning_rate": 0.00015347855078906423,
      "loss": 1.9855,
      "step": 10475
    },
    {
      "epoch": 0.2328,
      "grad_norm": 1.516140103340149,
      "learning_rate": 0.00015347410535674597,
      "loss": 2.2815,
      "step": 10476
    },
    {
      "epoch": 0.23282222222222224,
      "grad_norm": 1.6460877656936646,
      "learning_rate": 0.00015346965992442765,
      "loss": 2.1041,
      "step": 10477
    },
    {
      "epoch": 0.23284444444444444,
      "grad_norm": 1.3285751342773438,
      "learning_rate": 0.00015346521449210936,
      "loss": 1.742,
      "step": 10478
    },
    {
      "epoch": 0.23286666666666667,
      "grad_norm": 1.6712101697921753,
      "learning_rate": 0.00015346076905979107,
      "loss": 2.0282,
      "step": 10479
    },
    {
      "epoch": 0.2328888888888889,
      "grad_norm": 1.5755623579025269,
      "learning_rate": 0.00015345632362747278,
      "loss": 2.1083,
      "step": 10480
    },
    {
      "epoch": 0.23291111111111112,
      "grad_norm": 1.4008325338363647,
      "learning_rate": 0.0001534518781951545,
      "loss": 1.6244,
      "step": 10481
    },
    {
      "epoch": 0.23293333333333333,
      "grad_norm": 1.3790324926376343,
      "learning_rate": 0.0001534474327628362,
      "loss": 1.6031,
      "step": 10482
    },
    {
      "epoch": 0.23295555555555555,
      "grad_norm": 1.5761510133743286,
      "learning_rate": 0.0001534429873305179,
      "loss": 2.0258,
      "step": 10483
    },
    {
      "epoch": 0.23297777777777778,
      "grad_norm": 1.687366247177124,
      "learning_rate": 0.00015343854189819962,
      "loss": 1.8534,
      "step": 10484
    },
    {
      "epoch": 0.233,
      "grad_norm": 1.7213259935379028,
      "learning_rate": 0.00015343409646588133,
      "loss": 1.7513,
      "step": 10485
    },
    {
      "epoch": 0.23302222222222221,
      "grad_norm": 1.5126796960830688,
      "learning_rate": 0.000153429651033563,
      "loss": 1.4368,
      "step": 10486
    },
    {
      "epoch": 0.23304444444444444,
      "grad_norm": 1.4337104558944702,
      "learning_rate": 0.00015342520560124474,
      "loss": 1.9981,
      "step": 10487
    },
    {
      "epoch": 0.23306666666666667,
      "grad_norm": 1.6448464393615723,
      "learning_rate": 0.00015342076016892643,
      "loss": 2.1633,
      "step": 10488
    },
    {
      "epoch": 0.2330888888888889,
      "grad_norm": 1.4816160202026367,
      "learning_rate": 0.00015341631473660814,
      "loss": 1.9857,
      "step": 10489
    },
    {
      "epoch": 0.2331111111111111,
      "grad_norm": 1.5764700174331665,
      "learning_rate": 0.00015341186930428985,
      "loss": 2.0544,
      "step": 10490
    },
    {
      "epoch": 0.23313333333333333,
      "grad_norm": 2.3014919757843018,
      "learning_rate": 0.00015340742387197156,
      "loss": 1.8607,
      "step": 10491
    },
    {
      "epoch": 0.23315555555555556,
      "grad_norm": 1.5323963165283203,
      "learning_rate": 0.00015340297843965327,
      "loss": 1.9398,
      "step": 10492
    },
    {
      "epoch": 0.2331777777777778,
      "grad_norm": 1.8650434017181396,
      "learning_rate": 0.00015339853300733498,
      "loss": 2.5373,
      "step": 10493
    },
    {
      "epoch": 0.2332,
      "grad_norm": 1.4812654256820679,
      "learning_rate": 0.00015339408757501669,
      "loss": 1.9088,
      "step": 10494
    },
    {
      "epoch": 0.23322222222222222,
      "grad_norm": 1.8079391717910767,
      "learning_rate": 0.00015338964214269837,
      "loss": 1.7002,
      "step": 10495
    },
    {
      "epoch": 0.23324444444444445,
      "grad_norm": 1.3899062871932983,
      "learning_rate": 0.0001533851967103801,
      "loss": 1.5398,
      "step": 10496
    },
    {
      "epoch": 0.23326666666666668,
      "grad_norm": 1.7581698894500732,
      "learning_rate": 0.0001533807512780618,
      "loss": 1.729,
      "step": 10497
    },
    {
      "epoch": 0.23328888888888888,
      "grad_norm": 1.7700538635253906,
      "learning_rate": 0.0001533763058457435,
      "loss": 1.7794,
      "step": 10498
    },
    {
      "epoch": 0.2333111111111111,
      "grad_norm": 1.789098858833313,
      "learning_rate": 0.0001533718604134252,
      "loss": 1.856,
      "step": 10499
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 1.797091007232666,
      "learning_rate": 0.00015336741498110692,
      "loss": 1.5726,
      "step": 10500
    },
    {
      "epoch": 0.23335555555555557,
      "grad_norm": 0.8273236155509949,
      "learning_rate": 0.00015336296954878863,
      "loss": 1.1603,
      "step": 10501
    },
    {
      "epoch": 0.23337777777777777,
      "grad_norm": 1.3590235710144043,
      "learning_rate": 0.00015335852411647033,
      "loss": 2.4823,
      "step": 10502
    },
    {
      "epoch": 0.2334,
      "grad_norm": 1.3311949968338013,
      "learning_rate": 0.00015335407868415204,
      "loss": 2.1766,
      "step": 10503
    },
    {
      "epoch": 0.23342222222222223,
      "grad_norm": 1.2761077880859375,
      "learning_rate": 0.00015334963325183375,
      "loss": 2.0956,
      "step": 10504
    },
    {
      "epoch": 0.23344444444444445,
      "grad_norm": 1.4262562990188599,
      "learning_rate": 0.00015334518781951546,
      "loss": 1.9897,
      "step": 10505
    },
    {
      "epoch": 0.23346666666666666,
      "grad_norm": 1.4072134494781494,
      "learning_rate": 0.00015334074238719715,
      "loss": 2.1922,
      "step": 10506
    },
    {
      "epoch": 0.23348888888888888,
      "grad_norm": 1.3195208311080933,
      "learning_rate": 0.00015333629695487888,
      "loss": 2.0424,
      "step": 10507
    },
    {
      "epoch": 0.2335111111111111,
      "grad_norm": 1.9146511554718018,
      "learning_rate": 0.00015333185152256057,
      "loss": 1.9072,
      "step": 10508
    },
    {
      "epoch": 0.23353333333333334,
      "grad_norm": 1.5864981412887573,
      "learning_rate": 0.00015332740609024228,
      "loss": 2.0607,
      "step": 10509
    },
    {
      "epoch": 0.23355555555555554,
      "grad_norm": 1.257490634918213,
      "learning_rate": 0.00015332296065792398,
      "loss": 1.9912,
      "step": 10510
    },
    {
      "epoch": 0.23357777777777777,
      "grad_norm": 1.5503535270690918,
      "learning_rate": 0.0001533185152256057,
      "loss": 2.4058,
      "step": 10511
    },
    {
      "epoch": 0.2336,
      "grad_norm": 1.3576581478118896,
      "learning_rate": 0.0001533140697932874,
      "loss": 1.9262,
      "step": 10512
    },
    {
      "epoch": 0.23362222222222223,
      "grad_norm": 1.372450351715088,
      "learning_rate": 0.00015330962436096911,
      "loss": 1.9648,
      "step": 10513
    },
    {
      "epoch": 0.23364444444444443,
      "grad_norm": 1.2895241975784302,
      "learning_rate": 0.00015330517892865082,
      "loss": 2.151,
      "step": 10514
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 1.5332177877426147,
      "learning_rate": 0.0001533007334963325,
      "loss": 2.1334,
      "step": 10515
    },
    {
      "epoch": 0.2336888888888889,
      "grad_norm": 1.6633137464523315,
      "learning_rate": 0.00015329628806401424,
      "loss": 2.2599,
      "step": 10516
    },
    {
      "epoch": 0.23371111111111112,
      "grad_norm": 1.4669758081436157,
      "learning_rate": 0.00015329184263169592,
      "loss": 1.8689,
      "step": 10517
    },
    {
      "epoch": 0.23373333333333332,
      "grad_norm": 1.5139225721359253,
      "learning_rate": 0.00015328739719937763,
      "loss": 2.0211,
      "step": 10518
    },
    {
      "epoch": 0.23375555555555555,
      "grad_norm": 1.3954706192016602,
      "learning_rate": 0.00015328295176705934,
      "loss": 2.2054,
      "step": 10519
    },
    {
      "epoch": 0.23377777777777778,
      "grad_norm": 1.2147773504257202,
      "learning_rate": 0.00015327850633474105,
      "loss": 1.583,
      "step": 10520
    },
    {
      "epoch": 0.2338,
      "grad_norm": 1.391000509262085,
      "learning_rate": 0.0001532740609024228,
      "loss": 2.3072,
      "step": 10521
    },
    {
      "epoch": 0.2338222222222222,
      "grad_norm": 1.5032802820205688,
      "learning_rate": 0.00015326961547010447,
      "loss": 2.1313,
      "step": 10522
    },
    {
      "epoch": 0.23384444444444444,
      "grad_norm": 1.4189740419387817,
      "learning_rate": 0.00015326517003778618,
      "loss": 2.2007,
      "step": 10523
    },
    {
      "epoch": 0.23386666666666667,
      "grad_norm": 1.4676456451416016,
      "learning_rate": 0.0001532607246054679,
      "loss": 2.0509,
      "step": 10524
    },
    {
      "epoch": 0.2338888888888889,
      "grad_norm": 1.9278959035873413,
      "learning_rate": 0.0001532562791731496,
      "loss": 2.3778,
      "step": 10525
    },
    {
      "epoch": 0.2339111111111111,
      "grad_norm": 1.8163264989852905,
      "learning_rate": 0.00015325183374083128,
      "loss": 2.2453,
      "step": 10526
    },
    {
      "epoch": 0.23393333333333333,
      "grad_norm": 1.78935706615448,
      "learning_rate": 0.00015324738830851302,
      "loss": 2.4466,
      "step": 10527
    },
    {
      "epoch": 0.23395555555555556,
      "grad_norm": 1.715418815612793,
      "learning_rate": 0.00015324294287619473,
      "loss": 1.9302,
      "step": 10528
    },
    {
      "epoch": 0.23397777777777778,
      "grad_norm": 1.8612051010131836,
      "learning_rate": 0.0001532384974438764,
      "loss": 2.3639,
      "step": 10529
    },
    {
      "epoch": 0.234,
      "grad_norm": 1.4767221212387085,
      "learning_rate": 0.00015323405201155815,
      "loss": 1.7939,
      "step": 10530
    },
    {
      "epoch": 0.23402222222222221,
      "grad_norm": 1.4680348634719849,
      "learning_rate": 0.00015322960657923983,
      "loss": 2.0313,
      "step": 10531
    },
    {
      "epoch": 0.23404444444444444,
      "grad_norm": 1.3980870246887207,
      "learning_rate": 0.00015322516114692154,
      "loss": 1.711,
      "step": 10532
    },
    {
      "epoch": 0.23406666666666667,
      "grad_norm": 1.5320178270339966,
      "learning_rate": 0.00015322071571460325,
      "loss": 1.863,
      "step": 10533
    },
    {
      "epoch": 0.2340888888888889,
      "grad_norm": 1.426977515220642,
      "learning_rate": 0.00015321627028228496,
      "loss": 2.22,
      "step": 10534
    },
    {
      "epoch": 0.2341111111111111,
      "grad_norm": 1.5769957304000854,
      "learning_rate": 0.00015321182484996664,
      "loss": 1.7015,
      "step": 10535
    },
    {
      "epoch": 0.23413333333333333,
      "grad_norm": 1.6785780191421509,
      "learning_rate": 0.00015320737941764838,
      "loss": 2.0175,
      "step": 10536
    },
    {
      "epoch": 0.23415555555555556,
      "grad_norm": 1.3874351978302002,
      "learning_rate": 0.0001532029339853301,
      "loss": 1.6364,
      "step": 10537
    },
    {
      "epoch": 0.2341777777777778,
      "grad_norm": 1.649877905845642,
      "learning_rate": 0.0001531984885530118,
      "loss": 2.0356,
      "step": 10538
    },
    {
      "epoch": 0.2342,
      "grad_norm": 1.4536535739898682,
      "learning_rate": 0.0001531940431206935,
      "loss": 1.9813,
      "step": 10539
    },
    {
      "epoch": 0.23422222222222222,
      "grad_norm": 1.6094307899475098,
      "learning_rate": 0.0001531895976883752,
      "loss": 2.3184,
      "step": 10540
    },
    {
      "epoch": 0.23424444444444445,
      "grad_norm": 1.5296101570129395,
      "learning_rate": 0.00015318515225605693,
      "loss": 1.7802,
      "step": 10541
    },
    {
      "epoch": 0.23426666666666668,
      "grad_norm": 1.3353532552719116,
      "learning_rate": 0.0001531807068237386,
      "loss": 1.4187,
      "step": 10542
    },
    {
      "epoch": 0.23428888888888888,
      "grad_norm": 1.33303701877594,
      "learning_rate": 0.00015317626139142032,
      "loss": 1.8346,
      "step": 10543
    },
    {
      "epoch": 0.2343111111111111,
      "grad_norm": 1.508063793182373,
      "learning_rate": 0.00015317181595910203,
      "loss": 1.6713,
      "step": 10544
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 1.7319705486297607,
      "learning_rate": 0.00015316737052678374,
      "loss": 2.071,
      "step": 10545
    },
    {
      "epoch": 0.23435555555555557,
      "grad_norm": 1.8885579109191895,
      "learning_rate": 0.00015316292509446545,
      "loss": 1.7599,
      "step": 10546
    },
    {
      "epoch": 0.23437777777777777,
      "grad_norm": 1.6590858697891235,
      "learning_rate": 0.00015315847966214716,
      "loss": 1.9333,
      "step": 10547
    },
    {
      "epoch": 0.2344,
      "grad_norm": 1.440407395362854,
      "learning_rate": 0.00015315403422982887,
      "loss": 1.6854,
      "step": 10548
    },
    {
      "epoch": 0.23442222222222223,
      "grad_norm": 1.8135188817977905,
      "learning_rate": 0.00015314958879751055,
      "loss": 1.6634,
      "step": 10549
    },
    {
      "epoch": 0.23444444444444446,
      "grad_norm": 1.5104435682296753,
      "learning_rate": 0.0001531451433651923,
      "loss": 1.2189,
      "step": 10550
    },
    {
      "epoch": 0.23446666666666666,
      "grad_norm": 1.3762246370315552,
      "learning_rate": 0.00015314069793287397,
      "loss": 2.5898,
      "step": 10551
    },
    {
      "epoch": 0.23448888888888889,
      "grad_norm": 1.4899091720581055,
      "learning_rate": 0.00015313625250055568,
      "loss": 3.0096,
      "step": 10552
    },
    {
      "epoch": 0.23451111111111111,
      "grad_norm": 1.1945858001708984,
      "learning_rate": 0.0001531318070682374,
      "loss": 2.0976,
      "step": 10553
    },
    {
      "epoch": 0.23453333333333334,
      "grad_norm": 1.3914531469345093,
      "learning_rate": 0.0001531273616359191,
      "loss": 2.224,
      "step": 10554
    },
    {
      "epoch": 0.23455555555555554,
      "grad_norm": 1.1607186794281006,
      "learning_rate": 0.0001531229162036008,
      "loss": 2.1407,
      "step": 10555
    },
    {
      "epoch": 0.23457777777777777,
      "grad_norm": 1.7496057748794556,
      "learning_rate": 0.00015311847077128252,
      "loss": 2.1452,
      "step": 10556
    },
    {
      "epoch": 0.2346,
      "grad_norm": 1.257744312286377,
      "learning_rate": 0.00015311402533896423,
      "loss": 2.1308,
      "step": 10557
    },
    {
      "epoch": 0.23462222222222223,
      "grad_norm": 1.456822156906128,
      "learning_rate": 0.00015310957990664594,
      "loss": 2.4152,
      "step": 10558
    },
    {
      "epoch": 0.23464444444444443,
      "grad_norm": 1.335447072982788,
      "learning_rate": 0.00015310513447432765,
      "loss": 2.1835,
      "step": 10559
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 1.2141807079315186,
      "learning_rate": 0.00015310068904200933,
      "loss": 2.0644,
      "step": 10560
    },
    {
      "epoch": 0.2346888888888889,
      "grad_norm": 1.9947571754455566,
      "learning_rate": 0.00015309624360969107,
      "loss": 2.0352,
      "step": 10561
    },
    {
      "epoch": 0.23471111111111112,
      "grad_norm": 1.3632864952087402,
      "learning_rate": 0.00015309179817737275,
      "loss": 1.9372,
      "step": 10562
    },
    {
      "epoch": 0.23473333333333332,
      "grad_norm": 1.361128807067871,
      "learning_rate": 0.00015308735274505446,
      "loss": 1.9033,
      "step": 10563
    },
    {
      "epoch": 0.23475555555555555,
      "grad_norm": 1.2474037408828735,
      "learning_rate": 0.00015308290731273617,
      "loss": 1.766,
      "step": 10564
    },
    {
      "epoch": 0.23477777777777778,
      "grad_norm": 1.2689841985702515,
      "learning_rate": 0.00015307846188041788,
      "loss": 1.9198,
      "step": 10565
    },
    {
      "epoch": 0.2348,
      "grad_norm": 1.4928659200668335,
      "learning_rate": 0.0001530740164480996,
      "loss": 1.9623,
      "step": 10566
    },
    {
      "epoch": 0.2348222222222222,
      "grad_norm": 1.4385719299316406,
      "learning_rate": 0.0001530695710157813,
      "loss": 1.6764,
      "step": 10567
    },
    {
      "epoch": 0.23484444444444444,
      "grad_norm": 1.2825251817703247,
      "learning_rate": 0.000153065125583463,
      "loss": 1.8853,
      "step": 10568
    },
    {
      "epoch": 0.23486666666666667,
      "grad_norm": 1.461738109588623,
      "learning_rate": 0.0001530606801511447,
      "loss": 1.7605,
      "step": 10569
    },
    {
      "epoch": 0.2348888888888889,
      "grad_norm": 1.1964118480682373,
      "learning_rate": 0.00015305623471882643,
      "loss": 1.1842,
      "step": 10570
    },
    {
      "epoch": 0.2349111111111111,
      "grad_norm": 1.527881383895874,
      "learning_rate": 0.0001530517892865081,
      "loss": 1.5926,
      "step": 10571
    },
    {
      "epoch": 0.23493333333333333,
      "grad_norm": 1.628902554512024,
      "learning_rate": 0.00015304734385418982,
      "loss": 2.2521,
      "step": 10572
    },
    {
      "epoch": 0.23495555555555556,
      "grad_norm": 1.2729930877685547,
      "learning_rate": 0.00015304289842187153,
      "loss": 1.5074,
      "step": 10573
    },
    {
      "epoch": 0.23497777777777779,
      "grad_norm": 1.4898614883422852,
      "learning_rate": 0.00015303845298955324,
      "loss": 1.8018,
      "step": 10574
    },
    {
      "epoch": 0.235,
      "grad_norm": 1.507150650024414,
      "learning_rate": 0.00015303400755723495,
      "loss": 1.6472,
      "step": 10575
    },
    {
      "epoch": 0.23502222222222222,
      "grad_norm": 1.6502000093460083,
      "learning_rate": 0.00015302956212491666,
      "loss": 2.0597,
      "step": 10576
    },
    {
      "epoch": 0.23504444444444444,
      "grad_norm": 1.6151970624923706,
      "learning_rate": 0.00015302511669259837,
      "loss": 2.0495,
      "step": 10577
    },
    {
      "epoch": 0.23506666666666667,
      "grad_norm": 1.5256625413894653,
      "learning_rate": 0.00015302067126028008,
      "loss": 2.1834,
      "step": 10578
    },
    {
      "epoch": 0.23508888888888888,
      "grad_norm": 1.1298866271972656,
      "learning_rate": 0.00015301622582796179,
      "loss": 1.0129,
      "step": 10579
    },
    {
      "epoch": 0.2351111111111111,
      "grad_norm": 1.7027969360351562,
      "learning_rate": 0.00015301178039564347,
      "loss": 2.0954,
      "step": 10580
    },
    {
      "epoch": 0.23513333333333333,
      "grad_norm": 1.2643637657165527,
      "learning_rate": 0.0001530073349633252,
      "loss": 1.6248,
      "step": 10581
    },
    {
      "epoch": 0.23515555555555556,
      "grad_norm": 1.8053008317947388,
      "learning_rate": 0.0001530028895310069,
      "loss": 1.6818,
      "step": 10582
    },
    {
      "epoch": 0.2351777777777778,
      "grad_norm": 1.1110315322875977,
      "learning_rate": 0.0001529984440986886,
      "loss": 0.8384,
      "step": 10583
    },
    {
      "epoch": 0.2352,
      "grad_norm": 1.758550763130188,
      "learning_rate": 0.0001529939986663703,
      "loss": 1.7296,
      "step": 10584
    },
    {
      "epoch": 0.23522222222222222,
      "grad_norm": 1.5163441896438599,
      "learning_rate": 0.00015298955323405202,
      "loss": 2.0154,
      "step": 10585
    },
    {
      "epoch": 0.23524444444444445,
      "grad_norm": 1.385402798652649,
      "learning_rate": 0.00015298510780173373,
      "loss": 1.5074,
      "step": 10586
    },
    {
      "epoch": 0.23526666666666668,
      "grad_norm": 1.386800765991211,
      "learning_rate": 0.00015298066236941544,
      "loss": 1.6978,
      "step": 10587
    },
    {
      "epoch": 0.23528888888888888,
      "grad_norm": 1.5229641199111938,
      "learning_rate": 0.00015297621693709715,
      "loss": 1.8914,
      "step": 10588
    },
    {
      "epoch": 0.2353111111111111,
      "grad_norm": 1.9543962478637695,
      "learning_rate": 0.00015297177150477883,
      "loss": 1.932,
      "step": 10589
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 1.735929012298584,
      "learning_rate": 0.00015296732607246056,
      "loss": 2.1647,
      "step": 10590
    },
    {
      "epoch": 0.23535555555555557,
      "grad_norm": 1.615688681602478,
      "learning_rate": 0.00015296288064014225,
      "loss": 1.6232,
      "step": 10591
    },
    {
      "epoch": 0.23537777777777777,
      "grad_norm": 1.6723580360412598,
      "learning_rate": 0.00015295843520782396,
      "loss": 2.2462,
      "step": 10592
    },
    {
      "epoch": 0.2354,
      "grad_norm": 1.5237317085266113,
      "learning_rate": 0.00015295398977550567,
      "loss": 1.7047,
      "step": 10593
    },
    {
      "epoch": 0.23542222222222223,
      "grad_norm": 1.7690767049789429,
      "learning_rate": 0.00015294954434318738,
      "loss": 1.928,
      "step": 10594
    },
    {
      "epoch": 0.23544444444444446,
      "grad_norm": 1.6187726259231567,
      "learning_rate": 0.0001529450989108691,
      "loss": 1.9972,
      "step": 10595
    },
    {
      "epoch": 0.23546666666666666,
      "grad_norm": 1.5136263370513916,
      "learning_rate": 0.0001529406534785508,
      "loss": 1.8724,
      "step": 10596
    },
    {
      "epoch": 0.2354888888888889,
      "grad_norm": 1.7561030387878418,
      "learning_rate": 0.0001529362080462325,
      "loss": 2.0024,
      "step": 10597
    },
    {
      "epoch": 0.23551111111111112,
      "grad_norm": 1.745241403579712,
      "learning_rate": 0.00015293176261391421,
      "loss": 1.3906,
      "step": 10598
    },
    {
      "epoch": 0.23553333333333334,
      "grad_norm": 1.5089246034622192,
      "learning_rate": 0.00015292731718159592,
      "loss": 1.2517,
      "step": 10599
    },
    {
      "epoch": 0.23555555555555555,
      "grad_norm": 1.192705750465393,
      "learning_rate": 0.0001529228717492776,
      "loss": 0.9569,
      "step": 10600
    },
    {
      "epoch": 0.23557777777777777,
      "grad_norm": 1.211569905281067,
      "learning_rate": 0.00015291842631695934,
      "loss": 2.2545,
      "step": 10601
    },
    {
      "epoch": 0.2356,
      "grad_norm": 1.3803004026412964,
      "learning_rate": 0.00015291398088464105,
      "loss": 2.7564,
      "step": 10602
    },
    {
      "epoch": 0.23562222222222223,
      "grad_norm": 1.4002079963684082,
      "learning_rate": 0.00015290953545232274,
      "loss": 2.8472,
      "step": 10603
    },
    {
      "epoch": 0.23564444444444443,
      "grad_norm": 1.139053225517273,
      "learning_rate": 0.00015290509002000447,
      "loss": 1.1196,
      "step": 10604
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 1.3329980373382568,
      "learning_rate": 0.00015290064458768615,
      "loss": 2.0389,
      "step": 10605
    },
    {
      "epoch": 0.2356888888888889,
      "grad_norm": 1.152787446975708,
      "learning_rate": 0.00015289619915536786,
      "loss": 2.0149,
      "step": 10606
    },
    {
      "epoch": 0.23571111111111112,
      "grad_norm": 1.447237253189087,
      "learning_rate": 0.00015289175372304957,
      "loss": 1.8953,
      "step": 10607
    },
    {
      "epoch": 0.23573333333333332,
      "grad_norm": 1.3393654823303223,
      "learning_rate": 0.00015288730829073128,
      "loss": 2.2465,
      "step": 10608
    },
    {
      "epoch": 0.23575555555555555,
      "grad_norm": 1.4356898069381714,
      "learning_rate": 0.00015288286285841297,
      "loss": 2.0722,
      "step": 10609
    },
    {
      "epoch": 0.23577777777777778,
      "grad_norm": 1.5778495073318481,
      "learning_rate": 0.0001528784174260947,
      "loss": 2.5963,
      "step": 10610
    },
    {
      "epoch": 0.2358,
      "grad_norm": 1.2152931690216064,
      "learning_rate": 0.0001528739719937764,
      "loss": 1.908,
      "step": 10611
    },
    {
      "epoch": 0.2358222222222222,
      "grad_norm": 1.1933130025863647,
      "learning_rate": 0.0001528695265614581,
      "loss": 2.0019,
      "step": 10612
    },
    {
      "epoch": 0.23584444444444444,
      "grad_norm": 1.532379388809204,
      "learning_rate": 0.00015286508112913983,
      "loss": 2.1474,
      "step": 10613
    },
    {
      "epoch": 0.23586666666666667,
      "grad_norm": 1.345652461051941,
      "learning_rate": 0.00015286063569682151,
      "loss": 2.045,
      "step": 10614
    },
    {
      "epoch": 0.2358888888888889,
      "grad_norm": 1.4467921257019043,
      "learning_rate": 0.00015285619026450325,
      "loss": 2.1433,
      "step": 10615
    },
    {
      "epoch": 0.2359111111111111,
      "grad_norm": 1.4212474822998047,
      "learning_rate": 0.00015285174483218493,
      "loss": 2.0676,
      "step": 10616
    },
    {
      "epoch": 0.23593333333333333,
      "grad_norm": 1.5792382955551147,
      "learning_rate": 0.00015284729939986664,
      "loss": 2.1761,
      "step": 10617
    },
    {
      "epoch": 0.23595555555555556,
      "grad_norm": 1.3945361375808716,
      "learning_rate": 0.00015284285396754835,
      "loss": 1.9702,
      "step": 10618
    },
    {
      "epoch": 0.2359777777777778,
      "grad_norm": 1.3467432260513306,
      "learning_rate": 0.00015283840853523006,
      "loss": 1.9053,
      "step": 10619
    },
    {
      "epoch": 0.236,
      "grad_norm": 1.553332805633545,
      "learning_rate": 0.00015283396310291177,
      "loss": 2.0354,
      "step": 10620
    },
    {
      "epoch": 0.23602222222222222,
      "grad_norm": 1.7701025009155273,
      "learning_rate": 0.00015282951767059348,
      "loss": 2.1167,
      "step": 10621
    },
    {
      "epoch": 0.23604444444444445,
      "grad_norm": 1.6433051824569702,
      "learning_rate": 0.0001528250722382752,
      "loss": 2.1744,
      "step": 10622
    },
    {
      "epoch": 0.23606666666666667,
      "grad_norm": 1.302318811416626,
      "learning_rate": 0.00015282062680595687,
      "loss": 1.5256,
      "step": 10623
    },
    {
      "epoch": 0.23608888888888888,
      "grad_norm": 1.895383358001709,
      "learning_rate": 0.0001528161813736386,
      "loss": 2.4133,
      "step": 10624
    },
    {
      "epoch": 0.2361111111111111,
      "grad_norm": 1.687174916267395,
      "learning_rate": 0.0001528117359413203,
      "loss": 1.9072,
      "step": 10625
    },
    {
      "epoch": 0.23613333333333333,
      "grad_norm": 1.184968113899231,
      "learning_rate": 0.000152807290509002,
      "loss": 1.0631,
      "step": 10626
    },
    {
      "epoch": 0.23615555555555556,
      "grad_norm": 1.7834235429763794,
      "learning_rate": 0.0001528028450766837,
      "loss": 2.0843,
      "step": 10627
    },
    {
      "epoch": 0.23617777777777776,
      "grad_norm": 1.6071175336837769,
      "learning_rate": 0.00015279839964436542,
      "loss": 1.8889,
      "step": 10628
    },
    {
      "epoch": 0.2362,
      "grad_norm": 1.739479899406433,
      "learning_rate": 0.00015279395421204713,
      "loss": 2.1849,
      "step": 10629
    },
    {
      "epoch": 0.23622222222222222,
      "grad_norm": 1.4762823581695557,
      "learning_rate": 0.00015278950877972884,
      "loss": 2.1543,
      "step": 10630
    },
    {
      "epoch": 0.23624444444444445,
      "grad_norm": 1.2061707973480225,
      "learning_rate": 0.00015278506334741055,
      "loss": 1.1061,
      "step": 10631
    },
    {
      "epoch": 0.23626666666666668,
      "grad_norm": 1.4953807592391968,
      "learning_rate": 0.00015278061791509223,
      "loss": 2.2832,
      "step": 10632
    },
    {
      "epoch": 0.23628888888888888,
      "grad_norm": 1.6353296041488647,
      "learning_rate": 0.00015277617248277397,
      "loss": 2.0482,
      "step": 10633
    },
    {
      "epoch": 0.2363111111111111,
      "grad_norm": 1.466459035873413,
      "learning_rate": 0.00015277172705045565,
      "loss": 1.6944,
      "step": 10634
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 1.6180278062820435,
      "learning_rate": 0.0001527672816181374,
      "loss": 1.6697,
      "step": 10635
    },
    {
      "epoch": 0.23635555555555557,
      "grad_norm": 1.571199655532837,
      "learning_rate": 0.00015276283618581907,
      "loss": 1.4875,
      "step": 10636
    },
    {
      "epoch": 0.23637777777777777,
      "grad_norm": 1.6190872192382812,
      "learning_rate": 0.00015275839075350078,
      "loss": 1.9684,
      "step": 10637
    },
    {
      "epoch": 0.2364,
      "grad_norm": 1.5395148992538452,
      "learning_rate": 0.0001527539453211825,
      "loss": 1.6744,
      "step": 10638
    },
    {
      "epoch": 0.23642222222222223,
      "grad_norm": 1.3299890756607056,
      "learning_rate": 0.0001527494998888642,
      "loss": 1.4819,
      "step": 10639
    },
    {
      "epoch": 0.23644444444444446,
      "grad_norm": 1.5388880968093872,
      "learning_rate": 0.0001527450544565459,
      "loss": 2.2072,
      "step": 10640
    },
    {
      "epoch": 0.23646666666666666,
      "grad_norm": 1.2043001651763916,
      "learning_rate": 0.00015274060902422762,
      "loss": 0.9852,
      "step": 10641
    },
    {
      "epoch": 0.2364888888888889,
      "grad_norm": 1.7020076513290405,
      "learning_rate": 0.00015273616359190933,
      "loss": 1.8895,
      "step": 10642
    },
    {
      "epoch": 0.23651111111111112,
      "grad_norm": 1.6507067680358887,
      "learning_rate": 0.000152731718159591,
      "loss": 2.2017,
      "step": 10643
    },
    {
      "epoch": 0.23653333333333335,
      "grad_norm": 1.42155122756958,
      "learning_rate": 0.00015272727272727275,
      "loss": 1.6152,
      "step": 10644
    },
    {
      "epoch": 0.23655555555555555,
      "grad_norm": 2.216043710708618,
      "learning_rate": 0.00015272282729495443,
      "loss": 2.3862,
      "step": 10645
    },
    {
      "epoch": 0.23657777777777778,
      "grad_norm": 1.755989909172058,
      "learning_rate": 0.00015271838186263614,
      "loss": 1.617,
      "step": 10646
    },
    {
      "epoch": 0.2366,
      "grad_norm": 1.7809613943099976,
      "learning_rate": 0.00015271393643031785,
      "loss": 1.7855,
      "step": 10647
    },
    {
      "epoch": 0.23662222222222223,
      "grad_norm": 1.5638079643249512,
      "learning_rate": 0.00015270949099799956,
      "loss": 1.4571,
      "step": 10648
    },
    {
      "epoch": 0.23664444444444444,
      "grad_norm": 1.6334372758865356,
      "learning_rate": 0.00015270504556568127,
      "loss": 1.5713,
      "step": 10649
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 1.637852668762207,
      "learning_rate": 0.00015270060013336298,
      "loss": 1.5714,
      "step": 10650
    },
    {
      "epoch": 0.2366888888888889,
      "grad_norm": 1.3040680885314941,
      "learning_rate": 0.0001526961547010447,
      "loss": 2.6847,
      "step": 10651
    },
    {
      "epoch": 0.23671111111111112,
      "grad_norm": 1.169243574142456,
      "learning_rate": 0.0001526917092687264,
      "loss": 0.883,
      "step": 10652
    },
    {
      "epoch": 0.23673333333333332,
      "grad_norm": 1.2581950426101685,
      "learning_rate": 0.0001526872638364081,
      "loss": 2.3587,
      "step": 10653
    },
    {
      "epoch": 0.23675555555555555,
      "grad_norm": 1.204903244972229,
      "learning_rate": 0.0001526828184040898,
      "loss": 2.2699,
      "step": 10654
    },
    {
      "epoch": 0.23677777777777778,
      "grad_norm": 1.5224542617797852,
      "learning_rate": 0.00015267837297177153,
      "loss": 2.1573,
      "step": 10655
    },
    {
      "epoch": 0.2368,
      "grad_norm": 1.30958890914917,
      "learning_rate": 0.0001526739275394532,
      "loss": 2.0742,
      "step": 10656
    },
    {
      "epoch": 0.2368222222222222,
      "grad_norm": 1.3116869926452637,
      "learning_rate": 0.00015266948210713492,
      "loss": 1.7396,
      "step": 10657
    },
    {
      "epoch": 0.23684444444444444,
      "grad_norm": 1.166676640510559,
      "learning_rate": 0.00015266503667481663,
      "loss": 1.8621,
      "step": 10658
    },
    {
      "epoch": 0.23686666666666667,
      "grad_norm": 1.3956631422042847,
      "learning_rate": 0.00015266059124249834,
      "loss": 1.8866,
      "step": 10659
    },
    {
      "epoch": 0.2368888888888889,
      "grad_norm": 1.530666470527649,
      "learning_rate": 0.00015265614581018005,
      "loss": 1.0135,
      "step": 10660
    },
    {
      "epoch": 0.2369111111111111,
      "grad_norm": 1.4418296813964844,
      "learning_rate": 0.00015265170037786176,
      "loss": 1.8751,
      "step": 10661
    },
    {
      "epoch": 0.23693333333333333,
      "grad_norm": 1.283774733543396,
      "learning_rate": 0.00015264725494554347,
      "loss": 1.8652,
      "step": 10662
    },
    {
      "epoch": 0.23695555555555556,
      "grad_norm": 1.4324100017547607,
      "learning_rate": 0.00015264280951322515,
      "loss": 2.131,
      "step": 10663
    },
    {
      "epoch": 0.2369777777777778,
      "grad_norm": 1.5011719465255737,
      "learning_rate": 0.0001526383640809069,
      "loss": 1.8239,
      "step": 10664
    },
    {
      "epoch": 0.237,
      "grad_norm": 1.1105538606643677,
      "learning_rate": 0.00015263391864858857,
      "loss": 1.0055,
      "step": 10665
    },
    {
      "epoch": 0.23702222222222222,
      "grad_norm": 1.5635154247283936,
      "learning_rate": 0.00015262947321627028,
      "loss": 2.1767,
      "step": 10666
    },
    {
      "epoch": 0.23704444444444445,
      "grad_norm": 1.529178261756897,
      "learning_rate": 0.000152625027783952,
      "loss": 2.409,
      "step": 10667
    },
    {
      "epoch": 0.23706666666666668,
      "grad_norm": 1.4999741315841675,
      "learning_rate": 0.0001526205823516337,
      "loss": 2.0018,
      "step": 10668
    },
    {
      "epoch": 0.23708888888888888,
      "grad_norm": 1.5332612991333008,
      "learning_rate": 0.0001526161369193154,
      "loss": 2.2639,
      "step": 10669
    },
    {
      "epoch": 0.2371111111111111,
      "grad_norm": 1.8986181020736694,
      "learning_rate": 0.00015261169148699712,
      "loss": 2.7673,
      "step": 10670
    },
    {
      "epoch": 0.23713333333333333,
      "grad_norm": 1.197473406791687,
      "learning_rate": 0.00015260724605467883,
      "loss": 1.8086,
      "step": 10671
    },
    {
      "epoch": 0.23715555555555556,
      "grad_norm": 1.3302170038223267,
      "learning_rate": 0.00015260280062236054,
      "loss": 1.8322,
      "step": 10672
    },
    {
      "epoch": 0.23717777777777777,
      "grad_norm": 1.5977716445922852,
      "learning_rate": 0.00015259835519004225,
      "loss": 1.9433,
      "step": 10673
    },
    {
      "epoch": 0.2372,
      "grad_norm": 1.4644824266433716,
      "learning_rate": 0.00015259390975772393,
      "loss": 1.884,
      "step": 10674
    },
    {
      "epoch": 0.23722222222222222,
      "grad_norm": 1.7828623056411743,
      "learning_rate": 0.00015258946432540567,
      "loss": 2.4771,
      "step": 10675
    },
    {
      "epoch": 0.23724444444444445,
      "grad_norm": 1.5015392303466797,
      "learning_rate": 0.00015258501889308737,
      "loss": 1.8666,
      "step": 10676
    },
    {
      "epoch": 0.23726666666666665,
      "grad_norm": 1.004441738128662,
      "learning_rate": 0.00015258057346076906,
      "loss": 1.2946,
      "step": 10677
    },
    {
      "epoch": 0.23728888888888888,
      "grad_norm": 1.4783400297164917,
      "learning_rate": 0.0001525761280284508,
      "loss": 1.7649,
      "step": 10678
    },
    {
      "epoch": 0.2373111111111111,
      "grad_norm": 1.669148325920105,
      "learning_rate": 0.00015257168259613248,
      "loss": 2.2377,
      "step": 10679
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 1.2956002950668335,
      "learning_rate": 0.00015256723716381419,
      "loss": 1.8298,
      "step": 10680
    },
    {
      "epoch": 0.23735555555555554,
      "grad_norm": 1.120141625404358,
      "learning_rate": 0.0001525627917314959,
      "loss": 0.9225,
      "step": 10681
    },
    {
      "epoch": 0.23737777777777777,
      "grad_norm": 1.3237923383712769,
      "learning_rate": 0.0001525583462991776,
      "loss": 1.8012,
      "step": 10682
    },
    {
      "epoch": 0.2374,
      "grad_norm": 1.9556124210357666,
      "learning_rate": 0.0001525539008668593,
      "loss": 1.9036,
      "step": 10683
    },
    {
      "epoch": 0.23742222222222223,
      "grad_norm": 1.4356621503829956,
      "learning_rate": 0.00015254945543454102,
      "loss": 1.8836,
      "step": 10684
    },
    {
      "epoch": 0.23744444444444446,
      "grad_norm": 1.3244868516921997,
      "learning_rate": 0.00015254501000222273,
      "loss": 1.5315,
      "step": 10685
    },
    {
      "epoch": 0.23746666666666666,
      "grad_norm": 1.4946792125701904,
      "learning_rate": 0.00015254056456990442,
      "loss": 2.1246,
      "step": 10686
    },
    {
      "epoch": 0.2374888888888889,
      "grad_norm": 0.9836385846138,
      "learning_rate": 0.00015253611913758615,
      "loss": 0.5906,
      "step": 10687
    },
    {
      "epoch": 0.23751111111111112,
      "grad_norm": 1.791619896888733,
      "learning_rate": 0.00015253167370526784,
      "loss": 2.0151,
      "step": 10688
    },
    {
      "epoch": 0.23753333333333335,
      "grad_norm": 1.6972811222076416,
      "learning_rate": 0.00015252722827294957,
      "loss": 1.8765,
      "step": 10689
    },
    {
      "epoch": 0.23755555555555555,
      "grad_norm": 1.5558016300201416,
      "learning_rate": 0.00015252278284063126,
      "loss": 1.7122,
      "step": 10690
    },
    {
      "epoch": 0.23757777777777778,
      "grad_norm": 1.9377769231796265,
      "learning_rate": 0.00015251833740831296,
      "loss": 1.789,
      "step": 10691
    },
    {
      "epoch": 0.2376,
      "grad_norm": 1.5487064123153687,
      "learning_rate": 0.00015251389197599467,
      "loss": 1.6648,
      "step": 10692
    },
    {
      "epoch": 0.23762222222222223,
      "grad_norm": 2.105311393737793,
      "learning_rate": 0.00015250944654367638,
      "loss": 1.9632,
      "step": 10693
    },
    {
      "epoch": 0.23764444444444444,
      "grad_norm": 2.05338454246521,
      "learning_rate": 0.0001525050011113581,
      "loss": 1.8608,
      "step": 10694
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 1.6896573305130005,
      "learning_rate": 0.0001525005556790398,
      "loss": 2.0309,
      "step": 10695
    },
    {
      "epoch": 0.2376888888888889,
      "grad_norm": 1.3891018629074097,
      "learning_rate": 0.0001524961102467215,
      "loss": 1.507,
      "step": 10696
    },
    {
      "epoch": 0.23771111111111112,
      "grad_norm": 1.9181854724884033,
      "learning_rate": 0.0001524916648144032,
      "loss": 1.8727,
      "step": 10697
    },
    {
      "epoch": 0.23773333333333332,
      "grad_norm": 1.5692417621612549,
      "learning_rate": 0.00015248721938208493,
      "loss": 1.5242,
      "step": 10698
    },
    {
      "epoch": 0.23775555555555555,
      "grad_norm": 1.2740224599838257,
      "learning_rate": 0.00015248277394976661,
      "loss": 0.9101,
      "step": 10699
    },
    {
      "epoch": 0.23777777777777778,
      "grad_norm": 1.687997817993164,
      "learning_rate": 0.00015247832851744832,
      "loss": 1.8999,
      "step": 10700
    },
    {
      "epoch": 0.2378,
      "grad_norm": 0.9718964099884033,
      "learning_rate": 0.00015247388308513003,
      "loss": 1.0893,
      "step": 10701
    },
    {
      "epoch": 0.2378222222222222,
      "grad_norm": 1.3866065740585327,
      "learning_rate": 0.00015246943765281174,
      "loss": 2.431,
      "step": 10702
    },
    {
      "epoch": 0.23784444444444444,
      "grad_norm": 1.2420222759246826,
      "learning_rate": 0.00015246499222049345,
      "loss": 2.3223,
      "step": 10703
    },
    {
      "epoch": 0.23786666666666667,
      "grad_norm": 1.3264459371566772,
      "learning_rate": 0.00015246054678817516,
      "loss": 2.2102,
      "step": 10704
    },
    {
      "epoch": 0.2378888888888889,
      "grad_norm": 1.3390086889266968,
      "learning_rate": 0.00015245610135585687,
      "loss": 2.0386,
      "step": 10705
    },
    {
      "epoch": 0.2379111111111111,
      "grad_norm": 1.1218276023864746,
      "learning_rate": 0.00015245165592353856,
      "loss": 2.127,
      "step": 10706
    },
    {
      "epoch": 0.23793333333333333,
      "grad_norm": 1.3779511451721191,
      "learning_rate": 0.0001524472104912203,
      "loss": 2.1055,
      "step": 10707
    },
    {
      "epoch": 0.23795555555555556,
      "grad_norm": 1.5560086965560913,
      "learning_rate": 0.00015244276505890197,
      "loss": 2.5552,
      "step": 10708
    },
    {
      "epoch": 0.2379777777777778,
      "grad_norm": 1.338718295097351,
      "learning_rate": 0.0001524383196265837,
      "loss": 2.6144,
      "step": 10709
    },
    {
      "epoch": 0.238,
      "grad_norm": 1.4614139795303345,
      "learning_rate": 0.0001524338741942654,
      "loss": 2.2803,
      "step": 10710
    },
    {
      "epoch": 0.23802222222222222,
      "grad_norm": 1.9237561225891113,
      "learning_rate": 0.0001524294287619471,
      "loss": 1.9227,
      "step": 10711
    },
    {
      "epoch": 0.23804444444444445,
      "grad_norm": 1.2801998853683472,
      "learning_rate": 0.0001524249833296288,
      "loss": 1.7418,
      "step": 10712
    },
    {
      "epoch": 0.23806666666666668,
      "grad_norm": 1.354777216911316,
      "learning_rate": 0.00015242053789731052,
      "loss": 1.9921,
      "step": 10713
    },
    {
      "epoch": 0.23808888888888888,
      "grad_norm": 1.5891193151474,
      "learning_rate": 0.00015241609246499223,
      "loss": 2.1347,
      "step": 10714
    },
    {
      "epoch": 0.2381111111111111,
      "grad_norm": 1.235822081565857,
      "learning_rate": 0.00015241164703267394,
      "loss": 1.6376,
      "step": 10715
    },
    {
      "epoch": 0.23813333333333334,
      "grad_norm": 1.5097756385803223,
      "learning_rate": 0.00015240720160035565,
      "loss": 2.2131,
      "step": 10716
    },
    {
      "epoch": 0.23815555555555556,
      "grad_norm": 1.392863392829895,
      "learning_rate": 0.00015240275616803733,
      "loss": 2.0636,
      "step": 10717
    },
    {
      "epoch": 0.23817777777777777,
      "grad_norm": 1.647400975227356,
      "learning_rate": 0.00015239831073571907,
      "loss": 2.2071,
      "step": 10718
    },
    {
      "epoch": 0.2382,
      "grad_norm": 1.1566048860549927,
      "learning_rate": 0.00015239386530340075,
      "loss": 1.0279,
      "step": 10719
    },
    {
      "epoch": 0.23822222222222222,
      "grad_norm": 1.6289467811584473,
      "learning_rate": 0.00015238941987108246,
      "loss": 2.6042,
      "step": 10720
    },
    {
      "epoch": 0.23824444444444445,
      "grad_norm": 1.6604448556900024,
      "learning_rate": 0.00015238497443876417,
      "loss": 2.0533,
      "step": 10721
    },
    {
      "epoch": 0.23826666666666665,
      "grad_norm": 1.4354612827301025,
      "learning_rate": 0.00015238052900644588,
      "loss": 1.8001,
      "step": 10722
    },
    {
      "epoch": 0.23828888888888888,
      "grad_norm": 1.2830482721328735,
      "learning_rate": 0.0001523760835741276,
      "loss": 2.0826,
      "step": 10723
    },
    {
      "epoch": 0.2383111111111111,
      "grad_norm": 1.437416434288025,
      "learning_rate": 0.0001523716381418093,
      "loss": 2.2854,
      "step": 10724
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 1.8792016506195068,
      "learning_rate": 0.000152367192709491,
      "loss": 2.299,
      "step": 10725
    },
    {
      "epoch": 0.23835555555555554,
      "grad_norm": 1.6443697214126587,
      "learning_rate": 0.0001523627472771727,
      "loss": 1.1255,
      "step": 10726
    },
    {
      "epoch": 0.23837777777777777,
      "grad_norm": 1.5888853073120117,
      "learning_rate": 0.00015235830184485443,
      "loss": 2.3145,
      "step": 10727
    },
    {
      "epoch": 0.2384,
      "grad_norm": 1.4107390642166138,
      "learning_rate": 0.0001523538564125361,
      "loss": 1.9859,
      "step": 10728
    },
    {
      "epoch": 0.23842222222222223,
      "grad_norm": 2.472825050354004,
      "learning_rate": 0.00015234941098021785,
      "loss": 2.4647,
      "step": 10729
    },
    {
      "epoch": 0.23844444444444443,
      "grad_norm": 1.8446173667907715,
      "learning_rate": 0.00015234496554789953,
      "loss": 2.3479,
      "step": 10730
    },
    {
      "epoch": 0.23846666666666666,
      "grad_norm": 1.3672665357589722,
      "learning_rate": 0.00015234052011558124,
      "loss": 1.7828,
      "step": 10731
    },
    {
      "epoch": 0.2384888888888889,
      "grad_norm": 1.547677993774414,
      "learning_rate": 0.00015233607468326295,
      "loss": 1.9841,
      "step": 10732
    },
    {
      "epoch": 0.23851111111111112,
      "grad_norm": 1.6027576923370361,
      "learning_rate": 0.00015233162925094466,
      "loss": 1.8993,
      "step": 10733
    },
    {
      "epoch": 0.23853333333333335,
      "grad_norm": 1.472694993019104,
      "learning_rate": 0.00015232718381862637,
      "loss": 1.5907,
      "step": 10734
    },
    {
      "epoch": 0.23855555555555555,
      "grad_norm": 1.6962348222732544,
      "learning_rate": 0.00015232273838630808,
      "loss": 2.1611,
      "step": 10735
    },
    {
      "epoch": 0.23857777777777778,
      "grad_norm": 2.0225226879119873,
      "learning_rate": 0.0001523182929539898,
      "loss": 1.8449,
      "step": 10736
    },
    {
      "epoch": 0.2386,
      "grad_norm": 1.842087745666504,
      "learning_rate": 0.00015231384752167147,
      "loss": 2.2724,
      "step": 10737
    },
    {
      "epoch": 0.23862222222222224,
      "grad_norm": 1.5634396076202393,
      "learning_rate": 0.0001523094020893532,
      "loss": 2.072,
      "step": 10738
    },
    {
      "epoch": 0.23864444444444444,
      "grad_norm": 1.243026852607727,
      "learning_rate": 0.0001523049566570349,
      "loss": 1.5378,
      "step": 10739
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 1.4006638526916504,
      "learning_rate": 0.0001523005112247166,
      "loss": 1.821,
      "step": 10740
    },
    {
      "epoch": 0.2386888888888889,
      "grad_norm": 1.6201343536376953,
      "learning_rate": 0.0001522960657923983,
      "loss": 1.8938,
      "step": 10741
    },
    {
      "epoch": 0.23871111111111112,
      "grad_norm": 1.6432340145111084,
      "learning_rate": 0.00015229162036008002,
      "loss": 1.7903,
      "step": 10742
    },
    {
      "epoch": 0.23873333333333333,
      "grad_norm": 1.2976891994476318,
      "learning_rate": 0.00015228717492776173,
      "loss": 1.522,
      "step": 10743
    },
    {
      "epoch": 0.23875555555555555,
      "grad_norm": 1.6213032007217407,
      "learning_rate": 0.00015228272949544344,
      "loss": 1.8703,
      "step": 10744
    },
    {
      "epoch": 0.23877777777777778,
      "grad_norm": 1.6451996564865112,
      "learning_rate": 0.00015227828406312515,
      "loss": 1.833,
      "step": 10745
    },
    {
      "epoch": 0.2388,
      "grad_norm": 1.696729063987732,
      "learning_rate": 0.00015227383863080686,
      "loss": 1.7821,
      "step": 10746
    },
    {
      "epoch": 0.2388222222222222,
      "grad_norm": 1.7610799074172974,
      "learning_rate": 0.00015226939319848857,
      "loss": 2.0087,
      "step": 10747
    },
    {
      "epoch": 0.23884444444444444,
      "grad_norm": 1.5552048683166504,
      "learning_rate": 0.00015226494776617025,
      "loss": 1.4601,
      "step": 10748
    },
    {
      "epoch": 0.23886666666666667,
      "grad_norm": 1.6570098400115967,
      "learning_rate": 0.000152260502333852,
      "loss": 1.6939,
      "step": 10749
    },
    {
      "epoch": 0.2388888888888889,
      "grad_norm": 2.037187099456787,
      "learning_rate": 0.0001522560569015337,
      "loss": 1.7929,
      "step": 10750
    },
    {
      "epoch": 0.2389111111111111,
      "grad_norm": 1.4923529624938965,
      "learning_rate": 0.00015225161146921538,
      "loss": 2.4639,
      "step": 10751
    },
    {
      "epoch": 0.23893333333333333,
      "grad_norm": 1.3981101512908936,
      "learning_rate": 0.00015224716603689712,
      "loss": 2.4576,
      "step": 10752
    },
    {
      "epoch": 0.23895555555555556,
      "grad_norm": 1.4141522645950317,
      "learning_rate": 0.0001522427206045788,
      "loss": 1.2065,
      "step": 10753
    },
    {
      "epoch": 0.2389777777777778,
      "grad_norm": 1.0212304592132568,
      "learning_rate": 0.0001522382751722605,
      "loss": 1.1986,
      "step": 10754
    },
    {
      "epoch": 0.239,
      "grad_norm": 1.256868600845337,
      "learning_rate": 0.00015223382973994222,
      "loss": 2.3999,
      "step": 10755
    },
    {
      "epoch": 0.23902222222222222,
      "grad_norm": 1.2197333574295044,
      "learning_rate": 0.00015222938430762393,
      "loss": 2.1112,
      "step": 10756
    },
    {
      "epoch": 0.23904444444444445,
      "grad_norm": 1.309787392616272,
      "learning_rate": 0.0001522249388753056,
      "loss": 2.1539,
      "step": 10757
    },
    {
      "epoch": 0.23906666666666668,
      "grad_norm": 1.6086255311965942,
      "learning_rate": 0.00015222049344298735,
      "loss": 1.9321,
      "step": 10758
    },
    {
      "epoch": 0.23908888888888888,
      "grad_norm": 1.624589204788208,
      "learning_rate": 0.00015221604801066906,
      "loss": 1.5883,
      "step": 10759
    },
    {
      "epoch": 0.2391111111111111,
      "grad_norm": 1.8373457193374634,
      "learning_rate": 0.00015221160257835074,
      "loss": 2.2378,
      "step": 10760
    },
    {
      "epoch": 0.23913333333333334,
      "grad_norm": 1.3194141387939453,
      "learning_rate": 0.00015220715714603248,
      "loss": 2.2764,
      "step": 10761
    },
    {
      "epoch": 0.23915555555555557,
      "grad_norm": 2.11478328704834,
      "learning_rate": 0.00015220271171371416,
      "loss": 2.2333,
      "step": 10762
    },
    {
      "epoch": 0.23917777777777777,
      "grad_norm": 1.5195931196212769,
      "learning_rate": 0.00015219826628139587,
      "loss": 2.1307,
      "step": 10763
    },
    {
      "epoch": 0.2392,
      "grad_norm": 1.192492127418518,
      "learning_rate": 0.00015219382084907758,
      "loss": 1.6302,
      "step": 10764
    },
    {
      "epoch": 0.23922222222222222,
      "grad_norm": 1.3588588237762451,
      "learning_rate": 0.0001521893754167593,
      "loss": 1.9727,
      "step": 10765
    },
    {
      "epoch": 0.23924444444444445,
      "grad_norm": 0.5053417682647705,
      "learning_rate": 0.000152184929984441,
      "loss": 0.0305,
      "step": 10766
    },
    {
      "epoch": 0.23926666666666666,
      "grad_norm": 1.5867918729782104,
      "learning_rate": 0.0001521804845521227,
      "loss": 2.1611,
      "step": 10767
    },
    {
      "epoch": 0.23928888888888888,
      "grad_norm": 1.551360845565796,
      "learning_rate": 0.00015217603911980442,
      "loss": 2.0723,
      "step": 10768
    },
    {
      "epoch": 0.2393111111111111,
      "grad_norm": 1.324171543121338,
      "learning_rate": 0.00015217159368748613,
      "loss": 1.8177,
      "step": 10769
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 1.39983332157135,
      "learning_rate": 0.00015216714825516784,
      "loss": 2.0104,
      "step": 10770
    },
    {
      "epoch": 0.23935555555555554,
      "grad_norm": 1.3692578077316284,
      "learning_rate": 0.00015216270282284952,
      "loss": 1.995,
      "step": 10771
    },
    {
      "epoch": 0.23937777777777777,
      "grad_norm": 1.4272428750991821,
      "learning_rate": 0.00015215825739053125,
      "loss": 1.9606,
      "step": 10772
    },
    {
      "epoch": 0.2394,
      "grad_norm": 1.4067076444625854,
      "learning_rate": 0.00015215381195821294,
      "loss": 1.5902,
      "step": 10773
    },
    {
      "epoch": 0.23942222222222223,
      "grad_norm": 1.4644309282302856,
      "learning_rate": 0.00015214936652589465,
      "loss": 2.1344,
      "step": 10774
    },
    {
      "epoch": 0.23944444444444443,
      "grad_norm": 1.8572561740875244,
      "learning_rate": 0.00015214492109357636,
      "loss": 2.0477,
      "step": 10775
    },
    {
      "epoch": 0.23946666666666666,
      "grad_norm": 1.4801660776138306,
      "learning_rate": 0.00015214047566125807,
      "loss": 2.3076,
      "step": 10776
    },
    {
      "epoch": 0.2394888888888889,
      "grad_norm": 1.43483304977417,
      "learning_rate": 0.00015213603022893978,
      "loss": 1.8591,
      "step": 10777
    },
    {
      "epoch": 0.23951111111111112,
      "grad_norm": 1.2603003978729248,
      "learning_rate": 0.00015213158479662148,
      "loss": 1.754,
      "step": 10778
    },
    {
      "epoch": 0.23953333333333332,
      "grad_norm": 1.8238787651062012,
      "learning_rate": 0.0001521271393643032,
      "loss": 2.1618,
      "step": 10779
    },
    {
      "epoch": 0.23955555555555555,
      "grad_norm": 1.2945672273635864,
      "learning_rate": 0.00015212269393198488,
      "loss": 1.7255,
      "step": 10780
    },
    {
      "epoch": 0.23957777777777778,
      "grad_norm": 1.7945410013198853,
      "learning_rate": 0.00015211824849966661,
      "loss": 2.1124,
      "step": 10781
    },
    {
      "epoch": 0.2396,
      "grad_norm": 1.346912145614624,
      "learning_rate": 0.0001521138030673483,
      "loss": 1.9057,
      "step": 10782
    },
    {
      "epoch": 0.2396222222222222,
      "grad_norm": 1.4644432067871094,
      "learning_rate": 0.00015210935763503,
      "loss": 1.8079,
      "step": 10783
    },
    {
      "epoch": 0.23964444444444444,
      "grad_norm": 2.1192004680633545,
      "learning_rate": 0.00015210491220271172,
      "loss": 2.1951,
      "step": 10784
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 1.3669774532318115,
      "learning_rate": 0.00015210046677039343,
      "loss": 1.6905,
      "step": 10785
    },
    {
      "epoch": 0.2396888888888889,
      "grad_norm": 1.6269199848175049,
      "learning_rate": 0.00015209602133807513,
      "loss": 2.2164,
      "step": 10786
    },
    {
      "epoch": 0.23971111111111112,
      "grad_norm": 1.547505497932434,
      "learning_rate": 0.00015209157590575684,
      "loss": 2.0857,
      "step": 10787
    },
    {
      "epoch": 0.23973333333333333,
      "grad_norm": 1.3856984376907349,
      "learning_rate": 0.00015208713047343855,
      "loss": 1.8803,
      "step": 10788
    },
    {
      "epoch": 0.23975555555555556,
      "grad_norm": 1.303885579109192,
      "learning_rate": 0.00015208268504112026,
      "loss": 1.1015,
      "step": 10789
    },
    {
      "epoch": 0.23977777777777778,
      "grad_norm": 1.7526510953903198,
      "learning_rate": 0.00015207823960880197,
      "loss": 2.1439,
      "step": 10790
    },
    {
      "epoch": 0.2398,
      "grad_norm": 1.804795742034912,
      "learning_rate": 0.00015207379417648366,
      "loss": 1.6676,
      "step": 10791
    },
    {
      "epoch": 0.23982222222222221,
      "grad_norm": 1.7147631645202637,
      "learning_rate": 0.0001520693487441654,
      "loss": 1.9254,
      "step": 10792
    },
    {
      "epoch": 0.23984444444444444,
      "grad_norm": 1.5516717433929443,
      "learning_rate": 0.00015206490331184708,
      "loss": 1.5814,
      "step": 10793
    },
    {
      "epoch": 0.23986666666666667,
      "grad_norm": 1.5513026714324951,
      "learning_rate": 0.00015206045787952878,
      "loss": 2.1124,
      "step": 10794
    },
    {
      "epoch": 0.2398888888888889,
      "grad_norm": 1.4069167375564575,
      "learning_rate": 0.0001520560124472105,
      "loss": 1.5126,
      "step": 10795
    },
    {
      "epoch": 0.2399111111111111,
      "grad_norm": 1.5829116106033325,
      "learning_rate": 0.0001520515670148922,
      "loss": 1.8277,
      "step": 10796
    },
    {
      "epoch": 0.23993333333333333,
      "grad_norm": 1.3926866054534912,
      "learning_rate": 0.0001520471215825739,
      "loss": 1.686,
      "step": 10797
    },
    {
      "epoch": 0.23995555555555556,
      "grad_norm": 1.8663667440414429,
      "learning_rate": 0.00015204267615025562,
      "loss": 1.881,
      "step": 10798
    },
    {
      "epoch": 0.2399777777777778,
      "grad_norm": 1.5997235774993896,
      "learning_rate": 0.00015203823071793733,
      "loss": 1.8691,
      "step": 10799
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6694139242172241,
      "learning_rate": 0.00015203378528561902,
      "loss": 1.7605,
      "step": 10800
    },
    {
      "epoch": 0.24002222222222222,
      "grad_norm": 1.5239157676696777,
      "learning_rate": 0.00015202933985330075,
      "loss": 2.4025,
      "step": 10801
    },
    {
      "epoch": 0.24004444444444445,
      "grad_norm": 1.3389962911605835,
      "learning_rate": 0.00015202489442098243,
      "loss": 1.1169,
      "step": 10802
    },
    {
      "epoch": 0.24006666666666668,
      "grad_norm": 1.1758360862731934,
      "learning_rate": 0.00015202044898866417,
      "loss": 1.7868,
      "step": 10803
    },
    {
      "epoch": 0.24008888888888888,
      "grad_norm": 1.6065071821212769,
      "learning_rate": 0.00015201600355634585,
      "loss": 2.5713,
      "step": 10804
    },
    {
      "epoch": 0.2401111111111111,
      "grad_norm": 2.4834673404693604,
      "learning_rate": 0.00015201155812402756,
      "loss": 2.1279,
      "step": 10805
    },
    {
      "epoch": 0.24013333333333334,
      "grad_norm": 1.1351797580718994,
      "learning_rate": 0.00015200711269170927,
      "loss": 2.0982,
      "step": 10806
    },
    {
      "epoch": 0.24015555555555557,
      "grad_norm": 1.3686124086380005,
      "learning_rate": 0.00015200266725939098,
      "loss": 2.6572,
      "step": 10807
    },
    {
      "epoch": 0.24017777777777777,
      "grad_norm": 1.7427945137023926,
      "learning_rate": 0.0001519982218270727,
      "loss": 2.2138,
      "step": 10808
    },
    {
      "epoch": 0.2402,
      "grad_norm": 1.3271619081497192,
      "learning_rate": 0.0001519937763947544,
      "loss": 2.2789,
      "step": 10809
    },
    {
      "epoch": 0.24022222222222223,
      "grad_norm": 1.433516263961792,
      "learning_rate": 0.0001519893309624361,
      "loss": 2.2019,
      "step": 10810
    },
    {
      "epoch": 0.24024444444444445,
      "grad_norm": 1.5248935222625732,
      "learning_rate": 0.0001519848855301178,
      "loss": 2.5612,
      "step": 10811
    },
    {
      "epoch": 0.24026666666666666,
      "grad_norm": 1.194536566734314,
      "learning_rate": 0.00015198044009779953,
      "loss": 1.8566,
      "step": 10812
    },
    {
      "epoch": 0.24028888888888889,
      "grad_norm": 0.9858778119087219,
      "learning_rate": 0.0001519759946654812,
      "loss": 1.7499,
      "step": 10813
    },
    {
      "epoch": 0.24031111111111111,
      "grad_norm": 1.7286217212677002,
      "learning_rate": 0.00015197154923316292,
      "loss": 2.3491,
      "step": 10814
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 1.4344316720962524,
      "learning_rate": 0.00015196710380084463,
      "loss": 1.7812,
      "step": 10815
    },
    {
      "epoch": 0.24035555555555554,
      "grad_norm": 1.6037887334823608,
      "learning_rate": 0.00015196265836852634,
      "loss": 2.1008,
      "step": 10816
    },
    {
      "epoch": 0.24037777777777777,
      "grad_norm": 1.349485993385315,
      "learning_rate": 0.00015195821293620805,
      "loss": 2.2151,
      "step": 10817
    },
    {
      "epoch": 0.2404,
      "grad_norm": 1.3671714067459106,
      "learning_rate": 0.00015195376750388976,
      "loss": 1.9937,
      "step": 10818
    },
    {
      "epoch": 0.24042222222222223,
      "grad_norm": 1.4765138626098633,
      "learning_rate": 0.00015194932207157147,
      "loss": 2.358,
      "step": 10819
    },
    {
      "epoch": 0.24044444444444443,
      "grad_norm": 1.5528254508972168,
      "learning_rate": 0.00015194487663925315,
      "loss": 2.2111,
      "step": 10820
    },
    {
      "epoch": 0.24046666666666666,
      "grad_norm": 1.9992518424987793,
      "learning_rate": 0.0001519404312069349,
      "loss": 2.3325,
      "step": 10821
    },
    {
      "epoch": 0.2404888888888889,
      "grad_norm": 1.5554957389831543,
      "learning_rate": 0.00015193598577461657,
      "loss": 2.4963,
      "step": 10822
    },
    {
      "epoch": 0.24051111111111112,
      "grad_norm": 1.5176547765731812,
      "learning_rate": 0.0001519315403422983,
      "loss": 1.9563,
      "step": 10823
    },
    {
      "epoch": 0.24053333333333332,
      "grad_norm": 1.1767032146453857,
      "learning_rate": 0.00015192709490998002,
      "loss": 1.8498,
      "step": 10824
    },
    {
      "epoch": 0.24055555555555555,
      "grad_norm": 1.6368978023529053,
      "learning_rate": 0.0001519226494776617,
      "loss": 1.8856,
      "step": 10825
    },
    {
      "epoch": 0.24057777777777778,
      "grad_norm": 1.4711846113204956,
      "learning_rate": 0.00015191820404534344,
      "loss": 1.5066,
      "step": 10826
    },
    {
      "epoch": 0.2406,
      "grad_norm": 1.5064367055892944,
      "learning_rate": 0.00015191375861302512,
      "loss": 2.049,
      "step": 10827
    },
    {
      "epoch": 0.2406222222222222,
      "grad_norm": 1.7355883121490479,
      "learning_rate": 0.00015190931318070683,
      "loss": 2.103,
      "step": 10828
    },
    {
      "epoch": 0.24064444444444444,
      "grad_norm": 1.6511094570159912,
      "learning_rate": 0.00015190486774838854,
      "loss": 2.0498,
      "step": 10829
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 1.4951924085617065,
      "learning_rate": 0.00015190042231607025,
      "loss": 2.0086,
      "step": 10830
    },
    {
      "epoch": 0.2406888888888889,
      "grad_norm": 1.3537380695343018,
      "learning_rate": 0.00015189597688375193,
      "loss": 1.8255,
      "step": 10831
    },
    {
      "epoch": 0.2407111111111111,
      "grad_norm": 1.7189027070999146,
      "learning_rate": 0.00015189153145143367,
      "loss": 1.1472,
      "step": 10832
    },
    {
      "epoch": 0.24073333333333333,
      "grad_norm": 1.622196912765503,
      "learning_rate": 0.00015188708601911538,
      "loss": 2.1938,
      "step": 10833
    },
    {
      "epoch": 0.24075555555555556,
      "grad_norm": 1.3323009014129639,
      "learning_rate": 0.00015188264058679706,
      "loss": 1.8697,
      "step": 10834
    },
    {
      "epoch": 0.24077777777777779,
      "grad_norm": 1.6723213195800781,
      "learning_rate": 0.0001518781951544788,
      "loss": 1.7502,
      "step": 10835
    },
    {
      "epoch": 0.2408,
      "grad_norm": 1.310020923614502,
      "learning_rate": 0.00015187374972216048,
      "loss": 1.6008,
      "step": 10836
    },
    {
      "epoch": 0.24082222222222222,
      "grad_norm": 1.3070993423461914,
      "learning_rate": 0.0001518693042898422,
      "loss": 1.4807,
      "step": 10837
    },
    {
      "epoch": 0.24084444444444444,
      "grad_norm": 1.692430853843689,
      "learning_rate": 0.0001518648588575239,
      "loss": 1.7926,
      "step": 10838
    },
    {
      "epoch": 0.24086666666666667,
      "grad_norm": 1.638010859489441,
      "learning_rate": 0.0001518604134252056,
      "loss": 2.1818,
      "step": 10839
    },
    {
      "epoch": 0.2408888888888889,
      "grad_norm": 1.4744855165481567,
      "learning_rate": 0.0001518559679928873,
      "loss": 1.9102,
      "step": 10840
    },
    {
      "epoch": 0.2409111111111111,
      "grad_norm": 1.6434258222579956,
      "learning_rate": 0.00015185152256056903,
      "loss": 1.9124,
      "step": 10841
    },
    {
      "epoch": 0.24093333333333333,
      "grad_norm": 1.4894448518753052,
      "learning_rate": 0.00015184707712825074,
      "loss": 2.1953,
      "step": 10842
    },
    {
      "epoch": 0.24095555555555556,
      "grad_norm": 1.8492510318756104,
      "learning_rate": 0.00015184263169593245,
      "loss": 2.1122,
      "step": 10843
    },
    {
      "epoch": 0.2409777777777778,
      "grad_norm": 1.5853999853134155,
      "learning_rate": 0.00015183818626361416,
      "loss": 2.0473,
      "step": 10844
    },
    {
      "epoch": 0.241,
      "grad_norm": 1.478710412979126,
      "learning_rate": 0.00015183374083129584,
      "loss": 1.868,
      "step": 10845
    },
    {
      "epoch": 0.24102222222222222,
      "grad_norm": 1.4859957695007324,
      "learning_rate": 0.00015182929539897758,
      "loss": 1.6641,
      "step": 10846
    },
    {
      "epoch": 0.24104444444444445,
      "grad_norm": 1.9462714195251465,
      "learning_rate": 0.00015182484996665926,
      "loss": 2.1335,
      "step": 10847
    },
    {
      "epoch": 0.24106666666666668,
      "grad_norm": 0.9471624493598938,
      "learning_rate": 0.00015182040453434097,
      "loss": 0.854,
      "step": 10848
    },
    {
      "epoch": 0.24108888888888888,
      "grad_norm": 1.4804242849349976,
      "learning_rate": 0.00015181595910202268,
      "loss": 1.7109,
      "step": 10849
    },
    {
      "epoch": 0.2411111111111111,
      "grad_norm": 1.175119161605835,
      "learning_rate": 0.0001518115136697044,
      "loss": 0.6722,
      "step": 10850
    },
    {
      "epoch": 0.24113333333333334,
      "grad_norm": 0.836450457572937,
      "learning_rate": 0.0001518070682373861,
      "loss": 1.08,
      "step": 10851
    },
    {
      "epoch": 0.24115555555555557,
      "grad_norm": 1.652470350265503,
      "learning_rate": 0.0001518026228050678,
      "loss": 2.4544,
      "step": 10852
    },
    {
      "epoch": 0.24117777777777777,
      "grad_norm": 1.2638188600540161,
      "learning_rate": 0.00015179817737274952,
      "loss": 2.0445,
      "step": 10853
    },
    {
      "epoch": 0.2412,
      "grad_norm": 1.305166482925415,
      "learning_rate": 0.0001517937319404312,
      "loss": 1.9725,
      "step": 10854
    },
    {
      "epoch": 0.24122222222222223,
      "grad_norm": 1.690906047821045,
      "learning_rate": 0.00015178928650811294,
      "loss": 2.2723,
      "step": 10855
    },
    {
      "epoch": 0.24124444444444446,
      "grad_norm": 1.4486987590789795,
      "learning_rate": 0.00015178484107579462,
      "loss": 2.2157,
      "step": 10856
    },
    {
      "epoch": 0.24126666666666666,
      "grad_norm": 1.4586230516433716,
      "learning_rate": 0.00015178039564347633,
      "loss": 2.06,
      "step": 10857
    },
    {
      "epoch": 0.24128888888888889,
      "grad_norm": 1.4137951135635376,
      "learning_rate": 0.00015177595021115804,
      "loss": 1.9464,
      "step": 10858
    },
    {
      "epoch": 0.24131111111111112,
      "grad_norm": 1.6399283409118652,
      "learning_rate": 0.00015177150477883975,
      "loss": 2.4598,
      "step": 10859
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 1.5959035158157349,
      "learning_rate": 0.00015176705934652146,
      "loss": 2.3228,
      "step": 10860
    },
    {
      "epoch": 0.24135555555555555,
      "grad_norm": 1.3512734174728394,
      "learning_rate": 0.00015176261391420317,
      "loss": 2.1399,
      "step": 10861
    },
    {
      "epoch": 0.24137777777777777,
      "grad_norm": 1.4213571548461914,
      "learning_rate": 0.00015175816848188488,
      "loss": 1.8731,
      "step": 10862
    },
    {
      "epoch": 0.2414,
      "grad_norm": 1.4304872751235962,
      "learning_rate": 0.00015175372304956659,
      "loss": 1.873,
      "step": 10863
    },
    {
      "epoch": 0.24142222222222223,
      "grad_norm": 1.6860593557357788,
      "learning_rate": 0.0001517492776172483,
      "loss": 0.8324,
      "step": 10864
    },
    {
      "epoch": 0.24144444444444443,
      "grad_norm": 1.4000847339630127,
      "learning_rate": 0.00015174483218492998,
      "loss": 1.9824,
      "step": 10865
    },
    {
      "epoch": 0.24146666666666666,
      "grad_norm": 1.4665545225143433,
      "learning_rate": 0.00015174038675261171,
      "loss": 1.9339,
      "step": 10866
    },
    {
      "epoch": 0.2414888888888889,
      "grad_norm": 1.5222887992858887,
      "learning_rate": 0.0001517359413202934,
      "loss": 2.239,
      "step": 10867
    },
    {
      "epoch": 0.24151111111111112,
      "grad_norm": 1.631158709526062,
      "learning_rate": 0.0001517314958879751,
      "loss": 2.3104,
      "step": 10868
    },
    {
      "epoch": 0.24153333333333332,
      "grad_norm": 1.7328883409500122,
      "learning_rate": 0.00015172705045565682,
      "loss": 2.4857,
      "step": 10869
    },
    {
      "epoch": 0.24155555555555555,
      "grad_norm": 1.3892546892166138,
      "learning_rate": 0.00015172260502333853,
      "loss": 1.622,
      "step": 10870
    },
    {
      "epoch": 0.24157777777777778,
      "grad_norm": 1.3642255067825317,
      "learning_rate": 0.00015171815959102024,
      "loss": 2.0295,
      "step": 10871
    },
    {
      "epoch": 0.2416,
      "grad_norm": 1.5131139755249023,
      "learning_rate": 0.00015171371415870195,
      "loss": 2.1328,
      "step": 10872
    },
    {
      "epoch": 0.2416222222222222,
      "grad_norm": 1.6132615804672241,
      "learning_rate": 0.00015170926872638365,
      "loss": 1.9679,
      "step": 10873
    },
    {
      "epoch": 0.24164444444444444,
      "grad_norm": 2.0180916786193848,
      "learning_rate": 0.00015170482329406534,
      "loss": 1.5494,
      "step": 10874
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 1.8115869760513306,
      "learning_rate": 0.00015170037786174707,
      "loss": 2.3607,
      "step": 10875
    },
    {
      "epoch": 0.2416888888888889,
      "grad_norm": 1.710898756980896,
      "learning_rate": 0.00015169593242942876,
      "loss": 2.3281,
      "step": 10876
    },
    {
      "epoch": 0.2417111111111111,
      "grad_norm": 1.4901087284088135,
      "learning_rate": 0.00015169148699711047,
      "loss": 2.1274,
      "step": 10877
    },
    {
      "epoch": 0.24173333333333333,
      "grad_norm": 1.3270137310028076,
      "learning_rate": 0.00015168704156479218,
      "loss": 1.8067,
      "step": 10878
    },
    {
      "epoch": 0.24175555555555556,
      "grad_norm": 0.9155410528182983,
      "learning_rate": 0.00015168259613247389,
      "loss": 0.8267,
      "step": 10879
    },
    {
      "epoch": 0.24177777777777779,
      "grad_norm": 1.4073632955551147,
      "learning_rate": 0.0001516781507001556,
      "loss": 1.8648,
      "step": 10880
    },
    {
      "epoch": 0.2418,
      "grad_norm": 1.3592673540115356,
      "learning_rate": 0.0001516737052678373,
      "loss": 1.6565,
      "step": 10881
    },
    {
      "epoch": 0.24182222222222222,
      "grad_norm": 1.5891823768615723,
      "learning_rate": 0.00015166925983551901,
      "loss": 2.1452,
      "step": 10882
    },
    {
      "epoch": 0.24184444444444445,
      "grad_norm": 1.5638723373413086,
      "learning_rate": 0.00015166481440320072,
      "loss": 1.8997,
      "step": 10883
    },
    {
      "epoch": 0.24186666666666667,
      "grad_norm": 1.7347862720489502,
      "learning_rate": 0.00015166036897088243,
      "loss": 2.1524,
      "step": 10884
    },
    {
      "epoch": 0.24188888888888888,
      "grad_norm": 1.6560665369033813,
      "learning_rate": 0.00015165592353856412,
      "loss": 0.9245,
      "step": 10885
    },
    {
      "epoch": 0.2419111111111111,
      "grad_norm": 1.5584995746612549,
      "learning_rate": 0.00015165147810624585,
      "loss": 1.8689,
      "step": 10886
    },
    {
      "epoch": 0.24193333333333333,
      "grad_norm": 1.7884618043899536,
      "learning_rate": 0.00015164703267392754,
      "loss": 2.1845,
      "step": 10887
    },
    {
      "epoch": 0.24195555555555556,
      "grad_norm": 1.4639307260513306,
      "learning_rate": 0.00015164258724160924,
      "loss": 1.5054,
      "step": 10888
    },
    {
      "epoch": 0.2419777777777778,
      "grad_norm": 1.918265461921692,
      "learning_rate": 0.00015163814180929095,
      "loss": 1.8139,
      "step": 10889
    },
    {
      "epoch": 0.242,
      "grad_norm": 1.4252345561981201,
      "learning_rate": 0.00015163369637697266,
      "loss": 1.5047,
      "step": 10890
    },
    {
      "epoch": 0.24202222222222222,
      "grad_norm": 1.3693565130233765,
      "learning_rate": 0.00015162925094465437,
      "loss": 1.6352,
      "step": 10891
    },
    {
      "epoch": 0.24204444444444445,
      "grad_norm": 2.0653247833251953,
      "learning_rate": 0.00015162480551233608,
      "loss": 2.2297,
      "step": 10892
    },
    {
      "epoch": 0.24206666666666668,
      "grad_norm": 1.4835200309753418,
      "learning_rate": 0.0001516203600800178,
      "loss": 1.7634,
      "step": 10893
    },
    {
      "epoch": 0.24208888888888888,
      "grad_norm": 1.4508458375930786,
      "learning_rate": 0.00015161591464769948,
      "loss": 1.563,
      "step": 10894
    },
    {
      "epoch": 0.2421111111111111,
      "grad_norm": 1.7288572788238525,
      "learning_rate": 0.0001516114692153812,
      "loss": 1.8233,
      "step": 10895
    },
    {
      "epoch": 0.24213333333333334,
      "grad_norm": 1.750587821006775,
      "learning_rate": 0.0001516070237830629,
      "loss": 1.8402,
      "step": 10896
    },
    {
      "epoch": 0.24215555555555557,
      "grad_norm": 1.8232409954071045,
      "learning_rate": 0.0001516025783507446,
      "loss": 2.0305,
      "step": 10897
    },
    {
      "epoch": 0.24217777777777777,
      "grad_norm": 1.716575264930725,
      "learning_rate": 0.00015159813291842634,
      "loss": 1.5026,
      "step": 10898
    },
    {
      "epoch": 0.2422,
      "grad_norm": 1.630292296409607,
      "learning_rate": 0.00015159368748610802,
      "loss": 1.8921,
      "step": 10899
    },
    {
      "epoch": 0.24222222222222223,
      "grad_norm": 1.7578003406524658,
      "learning_rate": 0.00015158924205378976,
      "loss": 1.8887,
      "step": 10900
    },
    {
      "epoch": 0.24224444444444446,
      "grad_norm": 1.180457353591919,
      "learning_rate": 0.00015158479662147144,
      "loss": 2.1951,
      "step": 10901
    },
    {
      "epoch": 0.24226666666666666,
      "grad_norm": 1.2008237838745117,
      "learning_rate": 0.00015158035118915315,
      "loss": 1.9695,
      "step": 10902
    },
    {
      "epoch": 0.2422888888888889,
      "grad_norm": 1.455917477607727,
      "learning_rate": 0.00015157590575683486,
      "loss": 2.7101,
      "step": 10903
    },
    {
      "epoch": 0.24231111111111112,
      "grad_norm": 1.4043856859207153,
      "learning_rate": 0.00015157146032451657,
      "loss": 2.6439,
      "step": 10904
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 1.4907110929489136,
      "learning_rate": 0.00015156701489219825,
      "loss": 2.7378,
      "step": 10905
    },
    {
      "epoch": 0.24235555555555555,
      "grad_norm": 1.306350827217102,
      "learning_rate": 0.00015156256945988,
      "loss": 1.7062,
      "step": 10906
    },
    {
      "epoch": 0.24237777777777778,
      "grad_norm": 1.3829220533370972,
      "learning_rate": 0.0001515581240275617,
      "loss": 1.9585,
      "step": 10907
    },
    {
      "epoch": 0.2424,
      "grad_norm": 1.666258692741394,
      "learning_rate": 0.00015155367859524338,
      "loss": 2.0433,
      "step": 10908
    },
    {
      "epoch": 0.24242222222222223,
      "grad_norm": 1.2792384624481201,
      "learning_rate": 0.00015154923316292512,
      "loss": 2.0728,
      "step": 10909
    },
    {
      "epoch": 0.24244444444444443,
      "grad_norm": 1.643380045890808,
      "learning_rate": 0.0001515447877306068,
      "loss": 2.3457,
      "step": 10910
    },
    {
      "epoch": 0.24246666666666666,
      "grad_norm": 1.4833587408065796,
      "learning_rate": 0.0001515403422982885,
      "loss": 2.4969,
      "step": 10911
    },
    {
      "epoch": 0.2424888888888889,
      "grad_norm": 1.2698625326156616,
      "learning_rate": 0.00015153589686597022,
      "loss": 1.5638,
      "step": 10912
    },
    {
      "epoch": 0.24251111111111112,
      "grad_norm": 1.573198914527893,
      "learning_rate": 0.00015153145143365193,
      "loss": 2.1983,
      "step": 10913
    },
    {
      "epoch": 0.24253333333333332,
      "grad_norm": 1.9764608144760132,
      "learning_rate": 0.00015152700600133361,
      "loss": 2.3252,
      "step": 10914
    },
    {
      "epoch": 0.24255555555555555,
      "grad_norm": 1.2300225496292114,
      "learning_rate": 0.00015152256056901535,
      "loss": 1.0884,
      "step": 10915
    },
    {
      "epoch": 0.24257777777777778,
      "grad_norm": 1.3428493738174438,
      "learning_rate": 0.00015151811513669706,
      "loss": 1.835,
      "step": 10916
    },
    {
      "epoch": 0.2426,
      "grad_norm": 1.6586945056915283,
      "learning_rate": 0.00015151366970437877,
      "loss": 1.88,
      "step": 10917
    },
    {
      "epoch": 0.2426222222222222,
      "grad_norm": 1.625580906867981,
      "learning_rate": 0.00015150922427206048,
      "loss": 1.7607,
      "step": 10918
    },
    {
      "epoch": 0.24264444444444444,
      "grad_norm": 1.6730825901031494,
      "learning_rate": 0.00015150477883974216,
      "loss": 1.6502,
      "step": 10919
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 1.735285997390747,
      "learning_rate": 0.0001515003334074239,
      "loss": 2.2889,
      "step": 10920
    },
    {
      "epoch": 0.2426888888888889,
      "grad_norm": 1.615335464477539,
      "learning_rate": 0.00015149588797510558,
      "loss": 1.7841,
      "step": 10921
    },
    {
      "epoch": 0.2427111111111111,
      "grad_norm": 1.5836573839187622,
      "learning_rate": 0.0001514914425427873,
      "loss": 1.8025,
      "step": 10922
    },
    {
      "epoch": 0.24273333333333333,
      "grad_norm": 1.5599639415740967,
      "learning_rate": 0.000151486997110469,
      "loss": 2.4007,
      "step": 10923
    },
    {
      "epoch": 0.24275555555555556,
      "grad_norm": 2.0499160289764404,
      "learning_rate": 0.0001514825516781507,
      "loss": 2.3536,
      "step": 10924
    },
    {
      "epoch": 0.2427777777777778,
      "grad_norm": 1.3476096391677856,
      "learning_rate": 0.00015147810624583242,
      "loss": 1.9938,
      "step": 10925
    },
    {
      "epoch": 0.2428,
      "grad_norm": 1.5150576829910278,
      "learning_rate": 0.00015147366081351413,
      "loss": 1.8957,
      "step": 10926
    },
    {
      "epoch": 0.24282222222222222,
      "grad_norm": 1.4138668775558472,
      "learning_rate": 0.00015146921538119584,
      "loss": 2.1774,
      "step": 10927
    },
    {
      "epoch": 0.24284444444444445,
      "grad_norm": 1.3582768440246582,
      "learning_rate": 0.00015146476994887752,
      "loss": 1.6332,
      "step": 10928
    },
    {
      "epoch": 0.24286666666666668,
      "grad_norm": 1.5712895393371582,
      "learning_rate": 0.00015146032451655926,
      "loss": 1.734,
      "step": 10929
    },
    {
      "epoch": 0.24288888888888888,
      "grad_norm": 1.3525739908218384,
      "learning_rate": 0.00015145587908424094,
      "loss": 1.3723,
      "step": 10930
    },
    {
      "epoch": 0.2429111111111111,
      "grad_norm": 1.449981927871704,
      "learning_rate": 0.00015145143365192265,
      "loss": 1.4183,
      "step": 10931
    },
    {
      "epoch": 0.24293333333333333,
      "grad_norm": 1.3143324851989746,
      "learning_rate": 0.00015144698821960436,
      "loss": 1.89,
      "step": 10932
    },
    {
      "epoch": 0.24295555555555556,
      "grad_norm": 1.5372004508972168,
      "learning_rate": 0.00015144254278728607,
      "loss": 1.5219,
      "step": 10933
    },
    {
      "epoch": 0.24297777777777776,
      "grad_norm": 1.6591064929962158,
      "learning_rate": 0.00015143809735496778,
      "loss": 2.0261,
      "step": 10934
    },
    {
      "epoch": 0.243,
      "grad_norm": 1.87589430809021,
      "learning_rate": 0.0001514336519226495,
      "loss": 2.3329,
      "step": 10935
    },
    {
      "epoch": 0.24302222222222222,
      "grad_norm": 1.368973731994629,
      "learning_rate": 0.0001514292064903312,
      "loss": 1.9404,
      "step": 10936
    },
    {
      "epoch": 0.24304444444444445,
      "grad_norm": 1.771804690361023,
      "learning_rate": 0.0001514247610580129,
      "loss": 2.1565,
      "step": 10937
    },
    {
      "epoch": 0.24306666666666665,
      "grad_norm": 1.330080509185791,
      "learning_rate": 0.00015142031562569462,
      "loss": 1.6856,
      "step": 10938
    },
    {
      "epoch": 0.24308888888888888,
      "grad_norm": 1.4662336111068726,
      "learning_rate": 0.0001514158701933763,
      "loss": 1.6868,
      "step": 10939
    },
    {
      "epoch": 0.2431111111111111,
      "grad_norm": 1.5513782501220703,
      "learning_rate": 0.00015141142476105804,
      "loss": 1.6844,
      "step": 10940
    },
    {
      "epoch": 0.24313333333333334,
      "grad_norm": 1.650179147720337,
      "learning_rate": 0.00015140697932873972,
      "loss": 1.8335,
      "step": 10941
    },
    {
      "epoch": 0.24315555555555557,
      "grad_norm": 1.6510100364685059,
      "learning_rate": 0.00015140253389642143,
      "loss": 1.7834,
      "step": 10942
    },
    {
      "epoch": 0.24317777777777777,
      "grad_norm": 1.6485345363616943,
      "learning_rate": 0.00015139808846410314,
      "loss": 2.082,
      "step": 10943
    },
    {
      "epoch": 0.2432,
      "grad_norm": 1.4897737503051758,
      "learning_rate": 0.00015139364303178485,
      "loss": 1.5836,
      "step": 10944
    },
    {
      "epoch": 0.24322222222222223,
      "grad_norm": 1.3669419288635254,
      "learning_rate": 0.00015138919759946656,
      "loss": 1.4574,
      "step": 10945
    },
    {
      "epoch": 0.24324444444444446,
      "grad_norm": 1.6419484615325928,
      "learning_rate": 0.00015138475216714827,
      "loss": 1.8134,
      "step": 10946
    },
    {
      "epoch": 0.24326666666666666,
      "grad_norm": 1.558356761932373,
      "learning_rate": 0.00015138030673482998,
      "loss": 1.7595,
      "step": 10947
    },
    {
      "epoch": 0.2432888888888889,
      "grad_norm": 1.7084342241287231,
      "learning_rate": 0.00015137586130251166,
      "loss": 1.899,
      "step": 10948
    },
    {
      "epoch": 0.24331111111111112,
      "grad_norm": 1.2469521760940552,
      "learning_rate": 0.0001513714158701934,
      "loss": 1.5108,
      "step": 10949
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 1.7260749340057373,
      "learning_rate": 0.00015136697043787508,
      "loss": 1.9031,
      "step": 10950
    },
    {
      "epoch": 0.24335555555555555,
      "grad_norm": 1.8533774614334106,
      "learning_rate": 0.0001513625250055568,
      "loss": 3.0237,
      "step": 10951
    },
    {
      "epoch": 0.24337777777777778,
      "grad_norm": 1.5423355102539062,
      "learning_rate": 0.0001513580795732385,
      "loss": 2.528,
      "step": 10952
    },
    {
      "epoch": 0.2434,
      "grad_norm": 1.2404000759124756,
      "learning_rate": 0.0001513536341409202,
      "loss": 2.4055,
      "step": 10953
    },
    {
      "epoch": 0.24342222222222223,
      "grad_norm": 1.3482847213745117,
      "learning_rate": 0.00015134918870860192,
      "loss": 1.9797,
      "step": 10954
    },
    {
      "epoch": 0.24344444444444444,
      "grad_norm": 1.4340429306030273,
      "learning_rate": 0.00015134474327628363,
      "loss": 2.4591,
      "step": 10955
    },
    {
      "epoch": 0.24346666666666666,
      "grad_norm": 1.478639006614685,
      "learning_rate": 0.00015134029784396534,
      "loss": 2.0939,
      "step": 10956
    },
    {
      "epoch": 0.2434888888888889,
      "grad_norm": 1.4330552816390991,
      "learning_rate": 0.00015133585241164705,
      "loss": 1.9883,
      "step": 10957
    },
    {
      "epoch": 0.24351111111111112,
      "grad_norm": 1.525572657585144,
      "learning_rate": 0.00015133140697932876,
      "loss": 2.283,
      "step": 10958
    },
    {
      "epoch": 0.24353333333333332,
      "grad_norm": 1.860453724861145,
      "learning_rate": 0.00015132696154701044,
      "loss": 2.3779,
      "step": 10959
    },
    {
      "epoch": 0.24355555555555555,
      "grad_norm": 1.3542015552520752,
      "learning_rate": 0.00015132251611469217,
      "loss": 2.0913,
      "step": 10960
    },
    {
      "epoch": 0.24357777777777778,
      "grad_norm": 5.246976852416992,
      "learning_rate": 0.00015131807068237386,
      "loss": 0.677,
      "step": 10961
    },
    {
      "epoch": 0.2436,
      "grad_norm": 1.6924302577972412,
      "learning_rate": 0.00015131362525005557,
      "loss": 2.4649,
      "step": 10962
    },
    {
      "epoch": 0.2436222222222222,
      "grad_norm": 1.4138978719711304,
      "learning_rate": 0.00015130917981773728,
      "loss": 1.7584,
      "step": 10963
    },
    {
      "epoch": 0.24364444444444444,
      "grad_norm": 1.367470145225525,
      "learning_rate": 0.00015130473438541899,
      "loss": 2.1185,
      "step": 10964
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 1.3942965269088745,
      "learning_rate": 0.0001513002889531007,
      "loss": 1.7302,
      "step": 10965
    },
    {
      "epoch": 0.2436888888888889,
      "grad_norm": 1.687351107597351,
      "learning_rate": 0.0001512958435207824,
      "loss": 2.697,
      "step": 10966
    },
    {
      "epoch": 0.2437111111111111,
      "grad_norm": 1.4663435220718384,
      "learning_rate": 0.00015129139808846412,
      "loss": 2.2282,
      "step": 10967
    },
    {
      "epoch": 0.24373333333333333,
      "grad_norm": 1.2686890363693237,
      "learning_rate": 0.0001512869526561458,
      "loss": 1.7933,
      "step": 10968
    },
    {
      "epoch": 0.24375555555555556,
      "grad_norm": 1.7762184143066406,
      "learning_rate": 0.00015128250722382753,
      "loss": 2.1375,
      "step": 10969
    },
    {
      "epoch": 0.2437777777777778,
      "grad_norm": 1.6253403425216675,
      "learning_rate": 0.00015127806179150922,
      "loss": 1.9665,
      "step": 10970
    },
    {
      "epoch": 0.2438,
      "grad_norm": 1.5058320760726929,
      "learning_rate": 0.00015127361635919093,
      "loss": 2.1979,
      "step": 10971
    },
    {
      "epoch": 0.24382222222222222,
      "grad_norm": 0.9435481429100037,
      "learning_rate": 0.00015126917092687266,
      "loss": 0.6579,
      "step": 10972
    },
    {
      "epoch": 0.24384444444444445,
      "grad_norm": 1.5012480020523071,
      "learning_rate": 0.00015126472549455435,
      "loss": 1.8198,
      "step": 10973
    },
    {
      "epoch": 0.24386666666666668,
      "grad_norm": 1.226393699645996,
      "learning_rate": 0.00015126028006223608,
      "loss": 1.4176,
      "step": 10974
    },
    {
      "epoch": 0.24388888888888888,
      "grad_norm": 1.470523715019226,
      "learning_rate": 0.00015125583462991776,
      "loss": 1.6822,
      "step": 10975
    },
    {
      "epoch": 0.2439111111111111,
      "grad_norm": 1.4343284368515015,
      "learning_rate": 0.00015125138919759947,
      "loss": 1.6688,
      "step": 10976
    },
    {
      "epoch": 0.24393333333333334,
      "grad_norm": 1.3381413221359253,
      "learning_rate": 0.00015124694376528118,
      "loss": 1.861,
      "step": 10977
    },
    {
      "epoch": 0.24395555555555556,
      "grad_norm": 1.43180251121521,
      "learning_rate": 0.0001512424983329629,
      "loss": 1.7803,
      "step": 10978
    },
    {
      "epoch": 0.24397777777777777,
      "grad_norm": 1.3821874856948853,
      "learning_rate": 0.00015123805290064458,
      "loss": 1.6604,
      "step": 10979
    },
    {
      "epoch": 0.244,
      "grad_norm": 1.7290699481964111,
      "learning_rate": 0.0001512336074683263,
      "loss": 2.2366,
      "step": 10980
    },
    {
      "epoch": 0.24402222222222222,
      "grad_norm": 1.3767104148864746,
      "learning_rate": 0.00015122916203600802,
      "loss": 1.6789,
      "step": 10981
    },
    {
      "epoch": 0.24404444444444445,
      "grad_norm": 1.0421072244644165,
      "learning_rate": 0.0001512247166036897,
      "loss": 0.8684,
      "step": 10982
    },
    {
      "epoch": 0.24406666666666665,
      "grad_norm": 1.9933414459228516,
      "learning_rate": 0.00015122027117137144,
      "loss": 2.1287,
      "step": 10983
    },
    {
      "epoch": 0.24408888888888888,
      "grad_norm": 1.59585440158844,
      "learning_rate": 0.00015121582573905312,
      "loss": 2.1795,
      "step": 10984
    },
    {
      "epoch": 0.2441111111111111,
      "grad_norm": 1.566404104232788,
      "learning_rate": 0.00015121138030673483,
      "loss": 1.9995,
      "step": 10985
    },
    {
      "epoch": 0.24413333333333334,
      "grad_norm": 1.3376272916793823,
      "learning_rate": 0.00015120693487441654,
      "loss": 1.8967,
      "step": 10986
    },
    {
      "epoch": 0.24415555555555554,
      "grad_norm": 1.578729271888733,
      "learning_rate": 0.00015120248944209825,
      "loss": 1.9502,
      "step": 10987
    },
    {
      "epoch": 0.24417777777777777,
      "grad_norm": 1.6390953063964844,
      "learning_rate": 0.00015119804400977994,
      "loss": 2.0925,
      "step": 10988
    },
    {
      "epoch": 0.2442,
      "grad_norm": 1.2444005012512207,
      "learning_rate": 0.00015119359857746167,
      "loss": 1.5932,
      "step": 10989
    },
    {
      "epoch": 0.24422222222222223,
      "grad_norm": 2.0504939556121826,
      "learning_rate": 0.00015118915314514338,
      "loss": 2.1845,
      "step": 10990
    },
    {
      "epoch": 0.24424444444444443,
      "grad_norm": 1.977161169052124,
      "learning_rate": 0.00015118470771282506,
      "loss": 2.0325,
      "step": 10991
    },
    {
      "epoch": 0.24426666666666666,
      "grad_norm": 1.4085845947265625,
      "learning_rate": 0.0001511802622805068,
      "loss": 1.8723,
      "step": 10992
    },
    {
      "epoch": 0.2442888888888889,
      "grad_norm": 1.7921180725097656,
      "learning_rate": 0.00015117581684818848,
      "loss": 1.8284,
      "step": 10993
    },
    {
      "epoch": 0.24431111111111112,
      "grad_norm": 1.53887939453125,
      "learning_rate": 0.00015117137141587022,
      "loss": 1.6102,
      "step": 10994
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 2.156740427017212,
      "learning_rate": 0.0001511669259835519,
      "loss": 2.2557,
      "step": 10995
    },
    {
      "epoch": 0.24435555555555555,
      "grad_norm": 1.3365373611450195,
      "learning_rate": 0.0001511624805512336,
      "loss": 1.6077,
      "step": 10996
    },
    {
      "epoch": 0.24437777777777778,
      "grad_norm": 1.524370551109314,
      "learning_rate": 0.00015115803511891532,
      "loss": 1.8773,
      "step": 10997
    },
    {
      "epoch": 0.2444,
      "grad_norm": 1.4212642908096313,
      "learning_rate": 0.00015115358968659703,
      "loss": 1.8366,
      "step": 10998
    },
    {
      "epoch": 0.24442222222222224,
      "grad_norm": 1.7744609117507935,
      "learning_rate": 0.00015114914425427874,
      "loss": 2.0601,
      "step": 10999
    },
    {
      "epoch": 0.24444444444444444,
      "grad_norm": 1.7495402097702026,
      "learning_rate": 0.00015114469882196045,
      "loss": 1.8458,
      "step": 11000
    },
    {
      "epoch": 0.24446666666666667,
      "grad_norm": 1.3373651504516602,
      "learning_rate": 0.00015114025338964216,
      "loss": 2.6485,
      "step": 11001
    },
    {
      "epoch": 0.2444888888888889,
      "grad_norm": 1.4949220418930054,
      "learning_rate": 0.00015113580795732384,
      "loss": 2.8114,
      "step": 11002
    },
    {
      "epoch": 0.24451111111111112,
      "grad_norm": 1.2155901193618774,
      "learning_rate": 0.00015113136252500558,
      "loss": 2.0876,
      "step": 11003
    },
    {
      "epoch": 0.24453333333333332,
      "grad_norm": 1.4533464908599854,
      "learning_rate": 0.00015112691709268726,
      "loss": 2.5043,
      "step": 11004
    },
    {
      "epoch": 0.24455555555555555,
      "grad_norm": 1.3399808406829834,
      "learning_rate": 0.00015112247166036897,
      "loss": 2.2471,
      "step": 11005
    },
    {
      "epoch": 0.24457777777777778,
      "grad_norm": 1.38893723487854,
      "learning_rate": 0.00015111802622805068,
      "loss": 1.993,
      "step": 11006
    },
    {
      "epoch": 0.2446,
      "grad_norm": 1.3308881521224976,
      "learning_rate": 0.0001511135807957324,
      "loss": 1.5185,
      "step": 11007
    },
    {
      "epoch": 0.2446222222222222,
      "grad_norm": 1.3075178861618042,
      "learning_rate": 0.0001511091353634141,
      "loss": 1.9934,
      "step": 11008
    },
    {
      "epoch": 0.24464444444444444,
      "grad_norm": 1.5583951473236084,
      "learning_rate": 0.0001511046899310958,
      "loss": 2.443,
      "step": 11009
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 1.4490989446640015,
      "learning_rate": 0.00015110024449877752,
      "loss": 2.0134,
      "step": 11010
    },
    {
      "epoch": 0.2446888888888889,
      "grad_norm": 1.5795177221298218,
      "learning_rate": 0.0001510957990664592,
      "loss": 2.028,
      "step": 11011
    },
    {
      "epoch": 0.2447111111111111,
      "grad_norm": 1.4808101654052734,
      "learning_rate": 0.00015109135363414094,
      "loss": 2.428,
      "step": 11012
    },
    {
      "epoch": 0.24473333333333333,
      "grad_norm": 1.695704460144043,
      "learning_rate": 0.00015108690820182262,
      "loss": 1.6096,
      "step": 11013
    },
    {
      "epoch": 0.24475555555555556,
      "grad_norm": 1.4786162376403809,
      "learning_rate": 0.00015108246276950436,
      "loss": 2.0537,
      "step": 11014
    },
    {
      "epoch": 0.2447777777777778,
      "grad_norm": 1.5540413856506348,
      "learning_rate": 0.00015107801733718604,
      "loss": 2.1702,
      "step": 11015
    },
    {
      "epoch": 0.2448,
      "grad_norm": 1.3029123544692993,
      "learning_rate": 0.00015107357190486775,
      "loss": 2.272,
      "step": 11016
    },
    {
      "epoch": 0.24482222222222222,
      "grad_norm": 1.4755070209503174,
      "learning_rate": 0.00015106912647254946,
      "loss": 2.1933,
      "step": 11017
    },
    {
      "epoch": 0.24484444444444445,
      "grad_norm": 1.39848792552948,
      "learning_rate": 0.00015106468104023117,
      "loss": 2.0978,
      "step": 11018
    },
    {
      "epoch": 0.24486666666666668,
      "grad_norm": 1.2027175426483154,
      "learning_rate": 0.00015106023560791288,
      "loss": 1.9058,
      "step": 11019
    },
    {
      "epoch": 0.24488888888888888,
      "grad_norm": 1.26622474193573,
      "learning_rate": 0.0001510557901755946,
      "loss": 1.7148,
      "step": 11020
    },
    {
      "epoch": 0.2449111111111111,
      "grad_norm": 1.4257681369781494,
      "learning_rate": 0.0001510513447432763,
      "loss": 1.568,
      "step": 11021
    },
    {
      "epoch": 0.24493333333333334,
      "grad_norm": 1.4673351049423218,
      "learning_rate": 0.00015104689931095798,
      "loss": 1.9987,
      "step": 11022
    },
    {
      "epoch": 0.24495555555555557,
      "grad_norm": 1.6397684812545776,
      "learning_rate": 0.00015104245387863972,
      "loss": 1.914,
      "step": 11023
    },
    {
      "epoch": 0.24497777777777777,
      "grad_norm": 1.4503505229949951,
      "learning_rate": 0.0001510380084463214,
      "loss": 2.0642,
      "step": 11024
    },
    {
      "epoch": 0.245,
      "grad_norm": 1.2764991521835327,
      "learning_rate": 0.0001510335630140031,
      "loss": 1.7276,
      "step": 11025
    },
    {
      "epoch": 0.24502222222222222,
      "grad_norm": 2.0011210441589355,
      "learning_rate": 0.00015102911758168482,
      "loss": 2.2523,
      "step": 11026
    },
    {
      "epoch": 0.24504444444444445,
      "grad_norm": 1.0697413682937622,
      "learning_rate": 0.00015102467214936653,
      "loss": 1.0491,
      "step": 11027
    },
    {
      "epoch": 0.24506666666666665,
      "grad_norm": 1.4869391918182373,
      "learning_rate": 0.00015102022671704824,
      "loss": 2.0402,
      "step": 11028
    },
    {
      "epoch": 0.24508888888888888,
      "grad_norm": 1.3661954402923584,
      "learning_rate": 0.00015101578128472995,
      "loss": 1.5314,
      "step": 11029
    },
    {
      "epoch": 0.2451111111111111,
      "grad_norm": 1.4547981023788452,
      "learning_rate": 0.00015101133585241166,
      "loss": 2.0182,
      "step": 11030
    },
    {
      "epoch": 0.24513333333333334,
      "grad_norm": 1.4269708395004272,
      "learning_rate": 0.00015100689042009337,
      "loss": 2.1343,
      "step": 11031
    },
    {
      "epoch": 0.24515555555555554,
      "grad_norm": 1.6700875759124756,
      "learning_rate": 0.00015100244498777508,
      "loss": 1.9163,
      "step": 11032
    },
    {
      "epoch": 0.24517777777777777,
      "grad_norm": 1.4169871807098389,
      "learning_rate": 0.00015099799955545676,
      "loss": 1.7654,
      "step": 11033
    },
    {
      "epoch": 0.2452,
      "grad_norm": 1.8559027910232544,
      "learning_rate": 0.0001509935541231385,
      "loss": 1.8892,
      "step": 11034
    },
    {
      "epoch": 0.24522222222222223,
      "grad_norm": 1.377016544342041,
      "learning_rate": 0.00015098910869082018,
      "loss": 2.0759,
      "step": 11035
    },
    {
      "epoch": 0.24524444444444443,
      "grad_norm": 1.599646806716919,
      "learning_rate": 0.0001509846632585019,
      "loss": 1.5896,
      "step": 11036
    },
    {
      "epoch": 0.24526666666666666,
      "grad_norm": 2.467865467071533,
      "learning_rate": 0.0001509802178261836,
      "loss": 2.2141,
      "step": 11037
    },
    {
      "epoch": 0.2452888888888889,
      "grad_norm": 1.4548765420913696,
      "learning_rate": 0.0001509757723938653,
      "loss": 1.5646,
      "step": 11038
    },
    {
      "epoch": 0.24531111111111112,
      "grad_norm": 1.5276296138763428,
      "learning_rate": 0.00015097132696154702,
      "loss": 1.7144,
      "step": 11039
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 1.581071138381958,
      "learning_rate": 0.00015096688152922873,
      "loss": 2.0587,
      "step": 11040
    },
    {
      "epoch": 0.24535555555555555,
      "grad_norm": 1.5896787643432617,
      "learning_rate": 0.00015096243609691044,
      "loss": 1.7604,
      "step": 11041
    },
    {
      "epoch": 0.24537777777777778,
      "grad_norm": 1.9488931894302368,
      "learning_rate": 0.00015095799066459212,
      "loss": 2.5448,
      "step": 11042
    },
    {
      "epoch": 0.2454,
      "grad_norm": 1.5934289693832397,
      "learning_rate": 0.00015095354523227386,
      "loss": 1.5939,
      "step": 11043
    },
    {
      "epoch": 0.24542222222222224,
      "grad_norm": 1.908936619758606,
      "learning_rate": 0.00015094909979995554,
      "loss": 2.3307,
      "step": 11044
    },
    {
      "epoch": 0.24544444444444444,
      "grad_norm": 1.508907437324524,
      "learning_rate": 0.00015094465436763725,
      "loss": 1.8115,
      "step": 11045
    },
    {
      "epoch": 0.24546666666666667,
      "grad_norm": 1.6078836917877197,
      "learning_rate": 0.00015094020893531899,
      "loss": 1.7122,
      "step": 11046
    },
    {
      "epoch": 0.2454888888888889,
      "grad_norm": 2.001300811767578,
      "learning_rate": 0.00015093576350300067,
      "loss": 2.0168,
      "step": 11047
    },
    {
      "epoch": 0.24551111111111112,
      "grad_norm": 1.607171893119812,
      "learning_rate": 0.00015093131807068238,
      "loss": 1.8393,
      "step": 11048
    },
    {
      "epoch": 0.24553333333333333,
      "grad_norm": 1.718649983406067,
      "learning_rate": 0.0001509268726383641,
      "loss": 1.5439,
      "step": 11049
    },
    {
      "epoch": 0.24555555555555555,
      "grad_norm": 1.499682903289795,
      "learning_rate": 0.0001509224272060458,
      "loss": 0.961,
      "step": 11050
    },
    {
      "epoch": 0.24557777777777778,
      "grad_norm": 1.3120753765106201,
      "learning_rate": 0.0001509179817737275,
      "loss": 1.969,
      "step": 11051
    },
    {
      "epoch": 0.2456,
      "grad_norm": 1.5237246751785278,
      "learning_rate": 0.00015091353634140922,
      "loss": 2.1364,
      "step": 11052
    },
    {
      "epoch": 0.24562222222222221,
      "grad_norm": 1.3586416244506836,
      "learning_rate": 0.0001509090909090909,
      "loss": 2.5735,
      "step": 11053
    },
    {
      "epoch": 0.24564444444444444,
      "grad_norm": 1.3882513046264648,
      "learning_rate": 0.00015090464547677264,
      "loss": 2.2145,
      "step": 11054
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 1.5687097311019897,
      "learning_rate": 0.00015090020004445434,
      "loss": 2.2683,
      "step": 11055
    },
    {
      "epoch": 0.2456888888888889,
      "grad_norm": 1.3706233501434326,
      "learning_rate": 0.00015089575461213603,
      "loss": 2.3719,
      "step": 11056
    },
    {
      "epoch": 0.2457111111111111,
      "grad_norm": 0.9561513066291809,
      "learning_rate": 0.00015089130917981776,
      "loss": 1.1537,
      "step": 11057
    },
    {
      "epoch": 0.24573333333333333,
      "grad_norm": 1.3841533660888672,
      "learning_rate": 0.00015088686374749945,
      "loss": 1.6589,
      "step": 11058
    },
    {
      "epoch": 0.24575555555555556,
      "grad_norm": 1.6439560651779175,
      "learning_rate": 0.00015088241831518116,
      "loss": 1.9409,
      "step": 11059
    },
    {
      "epoch": 0.2457777777777778,
      "grad_norm": 1.2478693723678589,
      "learning_rate": 0.00015087797288286287,
      "loss": 2.0735,
      "step": 11060
    },
    {
      "epoch": 0.2458,
      "grad_norm": 1.3948676586151123,
      "learning_rate": 0.00015087352745054458,
      "loss": 2.0272,
      "step": 11061
    },
    {
      "epoch": 0.24582222222222222,
      "grad_norm": 1.4663785696029663,
      "learning_rate": 0.00015086908201822626,
      "loss": 2.2142,
      "step": 11062
    },
    {
      "epoch": 0.24584444444444445,
      "grad_norm": 1.3494081497192383,
      "learning_rate": 0.000150864636585908,
      "loss": 2.0282,
      "step": 11063
    },
    {
      "epoch": 0.24586666666666668,
      "grad_norm": 1.3504189252853394,
      "learning_rate": 0.0001508601911535897,
      "loss": 2.2759,
      "step": 11064
    },
    {
      "epoch": 0.24588888888888888,
      "grad_norm": 1.4622594118118286,
      "learning_rate": 0.0001508557457212714,
      "loss": 2.2583,
      "step": 11065
    },
    {
      "epoch": 0.2459111111111111,
      "grad_norm": 1.3754360675811768,
      "learning_rate": 0.00015085130028895312,
      "loss": 2.0708,
      "step": 11066
    },
    {
      "epoch": 0.24593333333333334,
      "grad_norm": 1.3132717609405518,
      "learning_rate": 0.0001508468548566348,
      "loss": 1.8303,
      "step": 11067
    },
    {
      "epoch": 0.24595555555555557,
      "grad_norm": 1.6672965288162231,
      "learning_rate": 0.00015084240942431654,
      "loss": 2.045,
      "step": 11068
    },
    {
      "epoch": 0.24597777777777777,
      "grad_norm": 1.6139030456542969,
      "learning_rate": 0.00015083796399199823,
      "loss": 2.0984,
      "step": 11069
    },
    {
      "epoch": 0.246,
      "grad_norm": 1.348853349685669,
      "learning_rate": 0.00015083351855967993,
      "loss": 1.9095,
      "step": 11070
    },
    {
      "epoch": 0.24602222222222223,
      "grad_norm": 1.6564762592315674,
      "learning_rate": 0.00015082907312736164,
      "loss": 2.6209,
      "step": 11071
    },
    {
      "epoch": 0.24604444444444445,
      "grad_norm": 1.523122787475586,
      "learning_rate": 0.00015082462769504335,
      "loss": 1.9886,
      "step": 11072
    },
    {
      "epoch": 0.24606666666666666,
      "grad_norm": 1.387168526649475,
      "learning_rate": 0.00015082018226272506,
      "loss": 1.8239,
      "step": 11073
    },
    {
      "epoch": 0.24608888888888888,
      "grad_norm": 1.5565303564071655,
      "learning_rate": 0.00015081573683040677,
      "loss": 2.0511,
      "step": 11074
    },
    {
      "epoch": 0.2461111111111111,
      "grad_norm": 1.519689679145813,
      "learning_rate": 0.00015081129139808848,
      "loss": 2.3193,
      "step": 11075
    },
    {
      "epoch": 0.24613333333333334,
      "grad_norm": 1.628919005393982,
      "learning_rate": 0.00015080684596577017,
      "loss": 2.0423,
      "step": 11076
    },
    {
      "epoch": 0.24615555555555554,
      "grad_norm": 1.4150184392929077,
      "learning_rate": 0.0001508024005334519,
      "loss": 1.6036,
      "step": 11077
    },
    {
      "epoch": 0.24617777777777777,
      "grad_norm": 1.4581350088119507,
      "learning_rate": 0.00015079795510113358,
      "loss": 1.9422,
      "step": 11078
    },
    {
      "epoch": 0.2462,
      "grad_norm": 1.4870374202728271,
      "learning_rate": 0.0001507935096688153,
      "loss": 1.9713,
      "step": 11079
    },
    {
      "epoch": 0.24622222222222223,
      "grad_norm": 1.5433424711227417,
      "learning_rate": 0.000150789064236497,
      "loss": 2.1408,
      "step": 11080
    },
    {
      "epoch": 0.24624444444444443,
      "grad_norm": 1.5933146476745605,
      "learning_rate": 0.0001507846188041787,
      "loss": 1.891,
      "step": 11081
    },
    {
      "epoch": 0.24626666666666666,
      "grad_norm": 1.6190497875213623,
      "learning_rate": 0.00015078017337186042,
      "loss": 1.9509,
      "step": 11082
    },
    {
      "epoch": 0.2462888888888889,
      "grad_norm": 1.5322871208190918,
      "learning_rate": 0.00015077572793954213,
      "loss": 1.9,
      "step": 11083
    },
    {
      "epoch": 0.24631111111111112,
      "grad_norm": 1.2389806509017944,
      "learning_rate": 0.00015077128250722384,
      "loss": 1.6355,
      "step": 11084
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 1.3282297849655151,
      "learning_rate": 0.00015076683707490552,
      "loss": 2.0003,
      "step": 11085
    },
    {
      "epoch": 0.24635555555555555,
      "grad_norm": 1.4130127429962158,
      "learning_rate": 0.00015076239164258726,
      "loss": 1.7076,
      "step": 11086
    },
    {
      "epoch": 0.24637777777777778,
      "grad_norm": 1.722779631614685,
      "learning_rate": 0.00015075794621026894,
      "loss": 1.9451,
      "step": 11087
    },
    {
      "epoch": 0.2464,
      "grad_norm": 1.4504928588867188,
      "learning_rate": 0.00015075350077795068,
      "loss": 2.1749,
      "step": 11088
    },
    {
      "epoch": 0.2464222222222222,
      "grad_norm": 1.4460127353668213,
      "learning_rate": 0.00015074905534563236,
      "loss": 2.0375,
      "step": 11089
    },
    {
      "epoch": 0.24644444444444444,
      "grad_norm": 1.4346520900726318,
      "learning_rate": 0.00015074460991331407,
      "loss": 0.862,
      "step": 11090
    },
    {
      "epoch": 0.24646666666666667,
      "grad_norm": 1.6607178449630737,
      "learning_rate": 0.00015074016448099578,
      "loss": 1.548,
      "step": 11091
    },
    {
      "epoch": 0.2464888888888889,
      "grad_norm": 1.6010024547576904,
      "learning_rate": 0.0001507357190486775,
      "loss": 2.2197,
      "step": 11092
    },
    {
      "epoch": 0.2465111111111111,
      "grad_norm": 1.715510606765747,
      "learning_rate": 0.0001507312736163592,
      "loss": 2.0105,
      "step": 11093
    },
    {
      "epoch": 0.24653333333333333,
      "grad_norm": 1.4917843341827393,
      "learning_rate": 0.0001507268281840409,
      "loss": 1.6858,
      "step": 11094
    },
    {
      "epoch": 0.24655555555555556,
      "grad_norm": 1.6312294006347656,
      "learning_rate": 0.00015072238275172262,
      "loss": 1.5344,
      "step": 11095
    },
    {
      "epoch": 0.24657777777777778,
      "grad_norm": 1.507344365119934,
      "learning_rate": 0.0001507179373194043,
      "loss": 1.6865,
      "step": 11096
    },
    {
      "epoch": 0.2466,
      "grad_norm": 1.6752257347106934,
      "learning_rate": 0.00015071349188708604,
      "loss": 1.8183,
      "step": 11097
    },
    {
      "epoch": 0.24662222222222221,
      "grad_norm": 1.6077321767807007,
      "learning_rate": 0.00015070904645476772,
      "loss": 1.4461,
      "step": 11098
    },
    {
      "epoch": 0.24664444444444444,
      "grad_norm": 1.8977819681167603,
      "learning_rate": 0.00015070460102244943,
      "loss": 1.6779,
      "step": 11099
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 1.4720829725265503,
      "learning_rate": 0.00015070015559013114,
      "loss": 1.3562,
      "step": 11100
    },
    {
      "epoch": 0.2466888888888889,
      "grad_norm": 1.2415820360183716,
      "learning_rate": 0.00015069571015781285,
      "loss": 2.5516,
      "step": 11101
    },
    {
      "epoch": 0.2467111111111111,
      "grad_norm": 0.9227303266525269,
      "learning_rate": 0.00015069126472549456,
      "loss": 1.1254,
      "step": 11102
    },
    {
      "epoch": 0.24673333333333333,
      "grad_norm": 1.2122280597686768,
      "learning_rate": 0.00015068681929317627,
      "loss": 1.3859,
      "step": 11103
    },
    {
      "epoch": 0.24675555555555556,
      "grad_norm": 1.5270723104476929,
      "learning_rate": 0.00015068237386085798,
      "loss": 2.161,
      "step": 11104
    },
    {
      "epoch": 0.2467777777777778,
      "grad_norm": 1.333832859992981,
      "learning_rate": 0.00015067792842853966,
      "loss": 2.1301,
      "step": 11105
    },
    {
      "epoch": 0.2468,
      "grad_norm": 1.540898084640503,
      "learning_rate": 0.0001506734829962214,
      "loss": 2.3411,
      "step": 11106
    },
    {
      "epoch": 0.24682222222222222,
      "grad_norm": 1.2080198526382446,
      "learning_rate": 0.00015066903756390308,
      "loss": 1.9238,
      "step": 11107
    },
    {
      "epoch": 0.24684444444444445,
      "grad_norm": 1.4155964851379395,
      "learning_rate": 0.00015066459213158482,
      "loss": 1.8375,
      "step": 11108
    },
    {
      "epoch": 0.24686666666666668,
      "grad_norm": 1.0995010137557983,
      "learning_rate": 0.0001506601466992665,
      "loss": 1.1259,
      "step": 11109
    },
    {
      "epoch": 0.24688888888888888,
      "grad_norm": 1.5088138580322266,
      "learning_rate": 0.0001506557012669482,
      "loss": 1.9802,
      "step": 11110
    },
    {
      "epoch": 0.2469111111111111,
      "grad_norm": 1.4486583471298218,
      "learning_rate": 0.00015065125583462992,
      "loss": 2.2177,
      "step": 11111
    },
    {
      "epoch": 0.24693333333333334,
      "grad_norm": 1.6112077236175537,
      "learning_rate": 0.00015064681040231163,
      "loss": 1.8531,
      "step": 11112
    },
    {
      "epoch": 0.24695555555555557,
      "grad_norm": 1.4416255950927734,
      "learning_rate": 0.00015064236496999334,
      "loss": 2.0685,
      "step": 11113
    },
    {
      "epoch": 0.24697777777777777,
      "grad_norm": 1.6930270195007324,
      "learning_rate": 0.00015063791953767505,
      "loss": 2.3434,
      "step": 11114
    },
    {
      "epoch": 0.247,
      "grad_norm": 1.3136341571807861,
      "learning_rate": 0.00015063347410535676,
      "loss": 1.848,
      "step": 11115
    },
    {
      "epoch": 0.24702222222222223,
      "grad_norm": 1.4410908222198486,
      "learning_rate": 0.00015062902867303844,
      "loss": 2.2243,
      "step": 11116
    },
    {
      "epoch": 0.24704444444444446,
      "grad_norm": 1.3976426124572754,
      "learning_rate": 0.00015062458324072018,
      "loss": 2.1211,
      "step": 11117
    },
    {
      "epoch": 0.24706666666666666,
      "grad_norm": 1.256162405014038,
      "learning_rate": 0.00015062013780840186,
      "loss": 1.6502,
      "step": 11118
    },
    {
      "epoch": 0.24708888888888889,
      "grad_norm": 1.8315026760101318,
      "learning_rate": 0.00015061569237608357,
      "loss": 1.9942,
      "step": 11119
    },
    {
      "epoch": 0.24711111111111111,
      "grad_norm": 1.617371678352356,
      "learning_rate": 0.0001506112469437653,
      "loss": 2.3585,
      "step": 11120
    },
    {
      "epoch": 0.24713333333333334,
      "grad_norm": 1.5588923692703247,
      "learning_rate": 0.000150606801511447,
      "loss": 2.3714,
      "step": 11121
    },
    {
      "epoch": 0.24715555555555555,
      "grad_norm": 1.719800591468811,
      "learning_rate": 0.0001506023560791287,
      "loss": 1.8403,
      "step": 11122
    },
    {
      "epoch": 0.24717777777777777,
      "grad_norm": 1.4100874662399292,
      "learning_rate": 0.0001505979106468104,
      "loss": 1.946,
      "step": 11123
    },
    {
      "epoch": 0.2472,
      "grad_norm": 1.2997157573699951,
      "learning_rate": 0.00015059346521449212,
      "loss": 1.6893,
      "step": 11124
    },
    {
      "epoch": 0.24722222222222223,
      "grad_norm": 1.5734719038009644,
      "learning_rate": 0.00015058901978217383,
      "loss": 1.9637,
      "step": 11125
    },
    {
      "epoch": 0.24724444444444443,
      "grad_norm": 1.5447499752044678,
      "learning_rate": 0.00015058457434985554,
      "loss": 2.2905,
      "step": 11126
    },
    {
      "epoch": 0.24726666666666666,
      "grad_norm": 1.453665852546692,
      "learning_rate": 0.00015058012891753722,
      "loss": 1.8278,
      "step": 11127
    },
    {
      "epoch": 0.2472888888888889,
      "grad_norm": 1.4135488271713257,
      "learning_rate": 0.00015057568348521896,
      "loss": 1.9177,
      "step": 11128
    },
    {
      "epoch": 0.24731111111111112,
      "grad_norm": 1.4297362565994263,
      "learning_rate": 0.00015057123805290067,
      "loss": 2.2685,
      "step": 11129
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 1.590453028678894,
      "learning_rate": 0.00015056679262058235,
      "loss": 2.2634,
      "step": 11130
    },
    {
      "epoch": 0.24735555555555555,
      "grad_norm": 1.547533392906189,
      "learning_rate": 0.00015056234718826409,
      "loss": 1.9898,
      "step": 11131
    },
    {
      "epoch": 0.24737777777777778,
      "grad_norm": 1.3350005149841309,
      "learning_rate": 0.00015055790175594577,
      "loss": 1.7952,
      "step": 11132
    },
    {
      "epoch": 0.2474,
      "grad_norm": 1.4850659370422363,
      "learning_rate": 0.00015055345632362748,
      "loss": 1.8234,
      "step": 11133
    },
    {
      "epoch": 0.2474222222222222,
      "grad_norm": 1.4457523822784424,
      "learning_rate": 0.0001505490108913092,
      "loss": 1.5788,
      "step": 11134
    },
    {
      "epoch": 0.24744444444444444,
      "grad_norm": 1.736652135848999,
      "learning_rate": 0.0001505445654589909,
      "loss": 2.2686,
      "step": 11135
    },
    {
      "epoch": 0.24746666666666667,
      "grad_norm": 1.5023030042648315,
      "learning_rate": 0.00015054012002667258,
      "loss": 1.7846,
      "step": 11136
    },
    {
      "epoch": 0.2474888888888889,
      "grad_norm": 1.7570607662200928,
      "learning_rate": 0.00015053567459435432,
      "loss": 1.5142,
      "step": 11137
    },
    {
      "epoch": 0.2475111111111111,
      "grad_norm": 1.5428709983825684,
      "learning_rate": 0.00015053122916203603,
      "loss": 1.5796,
      "step": 11138
    },
    {
      "epoch": 0.24753333333333333,
      "grad_norm": 1.8412070274353027,
      "learning_rate": 0.0001505267837297177,
      "loss": 2.7339,
      "step": 11139
    },
    {
      "epoch": 0.24755555555555556,
      "grad_norm": 1.4134913682937622,
      "learning_rate": 0.00015052233829739945,
      "loss": 1.7762,
      "step": 11140
    },
    {
      "epoch": 0.24757777777777779,
      "grad_norm": 1.6566213369369507,
      "learning_rate": 0.00015051789286508113,
      "loss": 1.7776,
      "step": 11141
    },
    {
      "epoch": 0.2476,
      "grad_norm": 1.2816869020462036,
      "learning_rate": 0.00015051344743276284,
      "loss": 1.2059,
      "step": 11142
    },
    {
      "epoch": 0.24762222222222222,
      "grad_norm": 1.4381111860275269,
      "learning_rate": 0.00015050900200044455,
      "loss": 1.8316,
      "step": 11143
    },
    {
      "epoch": 0.24764444444444444,
      "grad_norm": 2.3788697719573975,
      "learning_rate": 0.00015050455656812626,
      "loss": 1.9308,
      "step": 11144
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 1.7604297399520874,
      "learning_rate": 0.00015050011113580797,
      "loss": 2.2951,
      "step": 11145
    },
    {
      "epoch": 0.24768888888888888,
      "grad_norm": 1.4243899583816528,
      "learning_rate": 0.00015049566570348968,
      "loss": 1.5675,
      "step": 11146
    },
    {
      "epoch": 0.2477111111111111,
      "grad_norm": 1.8643182516098022,
      "learning_rate": 0.00015049122027117139,
      "loss": 2.1129,
      "step": 11147
    },
    {
      "epoch": 0.24773333333333333,
      "grad_norm": 1.3147454261779785,
      "learning_rate": 0.0001504867748388531,
      "loss": 1.3822,
      "step": 11148
    },
    {
      "epoch": 0.24775555555555556,
      "grad_norm": 1.5247879028320312,
      "learning_rate": 0.0001504823294065348,
      "loss": 1.8654,
      "step": 11149
    },
    {
      "epoch": 0.2477777777777778,
      "grad_norm": 1.4940659999847412,
      "learning_rate": 0.0001504778839742165,
      "loss": 1.8413,
      "step": 11150
    },
    {
      "epoch": 0.2478,
      "grad_norm": 1.6505886316299438,
      "learning_rate": 0.00015047343854189822,
      "loss": 2.4025,
      "step": 11151
    },
    {
      "epoch": 0.24782222222222222,
      "grad_norm": 1.2675963640213013,
      "learning_rate": 0.0001504689931095799,
      "loss": 2.4729,
      "step": 11152
    },
    {
      "epoch": 0.24784444444444445,
      "grad_norm": 1.4443418979644775,
      "learning_rate": 0.00015046454767726162,
      "loss": 2.6686,
      "step": 11153
    },
    {
      "epoch": 0.24786666666666668,
      "grad_norm": 1.3785432577133179,
      "learning_rate": 0.00015046010224494333,
      "loss": 2.3848,
      "step": 11154
    },
    {
      "epoch": 0.24788888888888888,
      "grad_norm": 1.4707319736480713,
      "learning_rate": 0.00015045565681262504,
      "loss": 2.3496,
      "step": 11155
    },
    {
      "epoch": 0.2479111111111111,
      "grad_norm": 1.2500232458114624,
      "learning_rate": 0.00015045121138030675,
      "loss": 2.3216,
      "step": 11156
    },
    {
      "epoch": 0.24793333333333334,
      "grad_norm": 1.328835368156433,
      "learning_rate": 0.00015044676594798845,
      "loss": 2.2743,
      "step": 11157
    },
    {
      "epoch": 0.24795555555555557,
      "grad_norm": 1.5154589414596558,
      "learning_rate": 0.00015044232051567016,
      "loss": 2.0851,
      "step": 11158
    },
    {
      "epoch": 0.24797777777777777,
      "grad_norm": 1.3976893424987793,
      "learning_rate": 0.00015043787508335185,
      "loss": 2.2624,
      "step": 11159
    },
    {
      "epoch": 0.248,
      "grad_norm": 1.4200884103775024,
      "learning_rate": 0.00015043342965103358,
      "loss": 1.981,
      "step": 11160
    },
    {
      "epoch": 0.24802222222222223,
      "grad_norm": 1.4499969482421875,
      "learning_rate": 0.00015042898421871527,
      "loss": 2.3446,
      "step": 11161
    },
    {
      "epoch": 0.24804444444444446,
      "grad_norm": 1.9000071287155151,
      "learning_rate": 0.00015042453878639698,
      "loss": 2.0855,
      "step": 11162
    },
    {
      "epoch": 0.24806666666666666,
      "grad_norm": 1.4257547855377197,
      "learning_rate": 0.00015042009335407869,
      "loss": 1.7631,
      "step": 11163
    },
    {
      "epoch": 0.2480888888888889,
      "grad_norm": 1.2915946245193481,
      "learning_rate": 0.0001504156479217604,
      "loss": 1.6047,
      "step": 11164
    },
    {
      "epoch": 0.24811111111111112,
      "grad_norm": 1.4911880493164062,
      "learning_rate": 0.0001504112024894421,
      "loss": 2.3201,
      "step": 11165
    },
    {
      "epoch": 0.24813333333333334,
      "grad_norm": 1.3782002925872803,
      "learning_rate": 0.00015040675705712381,
      "loss": 2.0871,
      "step": 11166
    },
    {
      "epoch": 0.24815555555555555,
      "grad_norm": 1.225071668624878,
      "learning_rate": 0.00015040231162480552,
      "loss": 1.8898,
      "step": 11167
    },
    {
      "epoch": 0.24817777777777777,
      "grad_norm": 1.4436695575714111,
      "learning_rate": 0.00015039786619248723,
      "loss": 2.2804,
      "step": 11168
    },
    {
      "epoch": 0.2482,
      "grad_norm": 1.4308459758758545,
      "learning_rate": 0.00015039342076016894,
      "loss": 2.1724,
      "step": 11169
    },
    {
      "epoch": 0.24822222222222223,
      "grad_norm": 1.4555127620697021,
      "learning_rate": 0.00015038897532785063,
      "loss": 2.0046,
      "step": 11170
    },
    {
      "epoch": 0.24824444444444443,
      "grad_norm": 0.9494130611419678,
      "learning_rate": 0.00015038452989553236,
      "loss": 0.8673,
      "step": 11171
    },
    {
      "epoch": 0.24826666666666666,
      "grad_norm": 1.3301286697387695,
      "learning_rate": 0.00015038008446321404,
      "loss": 2.1795,
      "step": 11172
    },
    {
      "epoch": 0.2482888888888889,
      "grad_norm": 1.3614915609359741,
      "learning_rate": 0.00015037563903089575,
      "loss": 1.8429,
      "step": 11173
    },
    {
      "epoch": 0.24831111111111112,
      "grad_norm": 1.5046828985214233,
      "learning_rate": 0.00015037119359857746,
      "loss": 2.1249,
      "step": 11174
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 1.4285194873809814,
      "learning_rate": 0.00015036674816625917,
      "loss": 2.3645,
      "step": 11175
    },
    {
      "epoch": 0.24835555555555555,
      "grad_norm": 1.3049739599227905,
      "learning_rate": 0.00015036230273394088,
      "loss": 1.658,
      "step": 11176
    },
    {
      "epoch": 0.24837777777777778,
      "grad_norm": 1.4610909223556519,
      "learning_rate": 0.0001503578573016226,
      "loss": 1.7469,
      "step": 11177
    },
    {
      "epoch": 0.2484,
      "grad_norm": 1.155422329902649,
      "learning_rate": 0.0001503534118693043,
      "loss": 1.5045,
      "step": 11178
    },
    {
      "epoch": 0.2484222222222222,
      "grad_norm": 1.5899122953414917,
      "learning_rate": 0.00015034896643698599,
      "loss": 2.0787,
      "step": 11179
    },
    {
      "epoch": 0.24844444444444444,
      "grad_norm": 1.4988244771957397,
      "learning_rate": 0.00015034452100466772,
      "loss": 1.8346,
      "step": 11180
    },
    {
      "epoch": 0.24846666666666667,
      "grad_norm": 1.4901360273361206,
      "learning_rate": 0.0001503400755723494,
      "loss": 1.9808,
      "step": 11181
    },
    {
      "epoch": 0.2484888888888889,
      "grad_norm": 1.4571967124938965,
      "learning_rate": 0.00015033563014003114,
      "loss": 0.883,
      "step": 11182
    },
    {
      "epoch": 0.2485111111111111,
      "grad_norm": 1.2971181869506836,
      "learning_rate": 0.00015033118470771282,
      "loss": 1.6532,
      "step": 11183
    },
    {
      "epoch": 0.24853333333333333,
      "grad_norm": 1.5785942077636719,
      "learning_rate": 0.00015032673927539453,
      "loss": 2.2092,
      "step": 11184
    },
    {
      "epoch": 0.24855555555555556,
      "grad_norm": 1.3707877397537231,
      "learning_rate": 0.00015032229384307624,
      "loss": 1.8182,
      "step": 11185
    },
    {
      "epoch": 0.2485777777777778,
      "grad_norm": 1.4342026710510254,
      "learning_rate": 0.00015031784841075795,
      "loss": 1.6097,
      "step": 11186
    },
    {
      "epoch": 0.2486,
      "grad_norm": 1.590357780456543,
      "learning_rate": 0.00015031340297843966,
      "loss": 1.8709,
      "step": 11187
    },
    {
      "epoch": 0.24862222222222222,
      "grad_norm": 1.3538126945495605,
      "learning_rate": 0.00015030895754612137,
      "loss": 1.8579,
      "step": 11188
    },
    {
      "epoch": 0.24864444444444445,
      "grad_norm": 1.8386650085449219,
      "learning_rate": 0.00015030451211380308,
      "loss": 1.6961,
      "step": 11189
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 2.0522494316101074,
      "learning_rate": 0.00015030006668148476,
      "loss": 1.7652,
      "step": 11190
    },
    {
      "epoch": 0.24868888888888888,
      "grad_norm": 1.6494404077529907,
      "learning_rate": 0.0001502956212491665,
      "loss": 1.5744,
      "step": 11191
    },
    {
      "epoch": 0.2487111111111111,
      "grad_norm": 1.6705894470214844,
      "learning_rate": 0.00015029117581684818,
      "loss": 0.786,
      "step": 11192
    },
    {
      "epoch": 0.24873333333333333,
      "grad_norm": 1.6990665197372437,
      "learning_rate": 0.0001502867303845299,
      "loss": 1.7797,
      "step": 11193
    },
    {
      "epoch": 0.24875555555555556,
      "grad_norm": 1.627588152885437,
      "learning_rate": 0.00015028228495221163,
      "loss": 1.3986,
      "step": 11194
    },
    {
      "epoch": 0.24877777777777776,
      "grad_norm": 1.858406901359558,
      "learning_rate": 0.0001502778395198933,
      "loss": 2.0222,
      "step": 11195
    },
    {
      "epoch": 0.2488,
      "grad_norm": 1.524297833442688,
      "learning_rate": 0.00015027339408757502,
      "loss": 2.0146,
      "step": 11196
    },
    {
      "epoch": 0.24882222222222222,
      "grad_norm": 2.215686798095703,
      "learning_rate": 0.00015026894865525673,
      "loss": 1.6985,
      "step": 11197
    },
    {
      "epoch": 0.24884444444444445,
      "grad_norm": 2.112786293029785,
      "learning_rate": 0.00015026450322293844,
      "loss": 1.6947,
      "step": 11198
    },
    {
      "epoch": 0.24886666666666668,
      "grad_norm": 1.9419176578521729,
      "learning_rate": 0.00015026005779062012,
      "loss": 1.3661,
      "step": 11199
    },
    {
      "epoch": 0.24888888888888888,
      "grad_norm": 1.4505716562271118,
      "learning_rate": 0.00015025561235830186,
      "loss": 1.4419,
      "step": 11200
    },
    {
      "epoch": 0.2489111111111111,
      "grad_norm": 1.1471593379974365,
      "learning_rate": 0.00015025116692598354,
      "loss": 2.3149,
      "step": 11201
    },
    {
      "epoch": 0.24893333333333334,
      "grad_norm": 1.4351779222488403,
      "learning_rate": 0.00015024672149366528,
      "loss": 2.6143,
      "step": 11202
    },
    {
      "epoch": 0.24895555555555557,
      "grad_norm": 1.9796233177185059,
      "learning_rate": 0.000150242276061347,
      "loss": 2.2117,
      "step": 11203
    },
    {
      "epoch": 0.24897777777777777,
      "grad_norm": 1.0613679885864258,
      "learning_rate": 0.00015023783062902867,
      "loss": 1.6217,
      "step": 11204
    },
    {
      "epoch": 0.249,
      "grad_norm": 1.2002692222595215,
      "learning_rate": 0.0001502333851967104,
      "loss": 1.8608,
      "step": 11205
    },
    {
      "epoch": 0.24902222222222223,
      "grad_norm": 1.2944697141647339,
      "learning_rate": 0.0001502289397643921,
      "loss": 1.9171,
      "step": 11206
    },
    {
      "epoch": 0.24904444444444446,
      "grad_norm": 1.4787110090255737,
      "learning_rate": 0.0001502244943320738,
      "loss": 2.083,
      "step": 11207
    },
    {
      "epoch": 0.24906666666666666,
      "grad_norm": 1.4376658201217651,
      "learning_rate": 0.0001502200488997555,
      "loss": 2.4058,
      "step": 11208
    },
    {
      "epoch": 0.2490888888888889,
      "grad_norm": 1.3412048816680908,
      "learning_rate": 0.00015021560346743722,
      "loss": 2.0449,
      "step": 11209
    },
    {
      "epoch": 0.24911111111111112,
      "grad_norm": 1.3581626415252686,
      "learning_rate": 0.0001502111580351189,
      "loss": 1.9566,
      "step": 11210
    },
    {
      "epoch": 0.24913333333333335,
      "grad_norm": 1.277306079864502,
      "learning_rate": 0.00015020671260280064,
      "loss": 1.8794,
      "step": 11211
    },
    {
      "epoch": 0.24915555555555555,
      "grad_norm": 1.3450899124145508,
      "learning_rate": 0.00015020226717048235,
      "loss": 2.0498,
      "step": 11212
    },
    {
      "epoch": 0.24917777777777778,
      "grad_norm": 1.2746144533157349,
      "learning_rate": 0.00015019782173816403,
      "loss": 1.8749,
      "step": 11213
    },
    {
      "epoch": 0.2492,
      "grad_norm": 1.4450726509094238,
      "learning_rate": 0.00015019337630584577,
      "loss": 2.0912,
      "step": 11214
    },
    {
      "epoch": 0.24922222222222223,
      "grad_norm": 0.934451699256897,
      "learning_rate": 0.00015018893087352745,
      "loss": 0.8914,
      "step": 11215
    },
    {
      "epoch": 0.24924444444444444,
      "grad_norm": 1.4609458446502686,
      "learning_rate": 0.00015018448544120916,
      "loss": 2.1629,
      "step": 11216
    },
    {
      "epoch": 0.24926666666666666,
      "grad_norm": 1.4426472187042236,
      "learning_rate": 0.00015018004000889087,
      "loss": 1.6701,
      "step": 11217
    },
    {
      "epoch": 0.2492888888888889,
      "grad_norm": 1.7562812566757202,
      "learning_rate": 0.00015017559457657258,
      "loss": 1.9297,
      "step": 11218
    },
    {
      "epoch": 0.24931111111111112,
      "grad_norm": 1.3354175090789795,
      "learning_rate": 0.0001501711491442543,
      "loss": 1.862,
      "step": 11219
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 1.3344842195510864,
      "learning_rate": 0.000150166703711936,
      "loss": 1.995,
      "step": 11220
    },
    {
      "epoch": 0.24935555555555555,
      "grad_norm": 1.6666826009750366,
      "learning_rate": 0.0001501622582796177,
      "loss": 2.016,
      "step": 11221
    },
    {
      "epoch": 0.24937777777777778,
      "grad_norm": 1.4184238910675049,
      "learning_rate": 0.00015015781284729942,
      "loss": 2.0054,
      "step": 11222
    },
    {
      "epoch": 0.2494,
      "grad_norm": 1.469557523727417,
      "learning_rate": 0.00015015336741498113,
      "loss": 2.1067,
      "step": 11223
    },
    {
      "epoch": 0.2494222222222222,
      "grad_norm": 1.4683527946472168,
      "learning_rate": 0.0001501489219826628,
      "loss": 2.0439,
      "step": 11224
    },
    {
      "epoch": 0.24944444444444444,
      "grad_norm": 1.588641881942749,
      "learning_rate": 0.00015014447655034455,
      "loss": 1.9193,
      "step": 11225
    },
    {
      "epoch": 0.24946666666666667,
      "grad_norm": 1.7105751037597656,
      "learning_rate": 0.00015014003111802623,
      "loss": 2.134,
      "step": 11226
    },
    {
      "epoch": 0.2494888888888889,
      "grad_norm": 1.5377029180526733,
      "learning_rate": 0.00015013558568570794,
      "loss": 1.9938,
      "step": 11227
    },
    {
      "epoch": 0.2495111111111111,
      "grad_norm": 1.4879333972930908,
      "learning_rate": 0.00015013114025338965,
      "loss": 1.8029,
      "step": 11228
    },
    {
      "epoch": 0.24953333333333333,
      "grad_norm": 1.4655816555023193,
      "learning_rate": 0.00015012669482107136,
      "loss": 1.8371,
      "step": 11229
    },
    {
      "epoch": 0.24955555555555556,
      "grad_norm": 1.6966121196746826,
      "learning_rate": 0.00015012224938875307,
      "loss": 2.0683,
      "step": 11230
    },
    {
      "epoch": 0.2495777777777778,
      "grad_norm": 1.4773354530334473,
      "learning_rate": 0.00015011780395643478,
      "loss": 2.2648,
      "step": 11231
    },
    {
      "epoch": 0.2496,
      "grad_norm": 1.6929349899291992,
      "learning_rate": 0.00015011335852411649,
      "loss": 1.5178,
      "step": 11232
    },
    {
      "epoch": 0.24962222222222222,
      "grad_norm": 1.5480111837387085,
      "learning_rate": 0.00015010891309179817,
      "loss": 1.6462,
      "step": 11233
    },
    {
      "epoch": 0.24964444444444445,
      "grad_norm": 1.4645586013793945,
      "learning_rate": 0.0001501044676594799,
      "loss": 1.3178,
      "step": 11234
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 1.8746720552444458,
      "learning_rate": 0.0001501000222271616,
      "loss": 2.3653,
      "step": 11235
    },
    {
      "epoch": 0.24968888888888888,
      "grad_norm": 1.3580834865570068,
      "learning_rate": 0.0001500955767948433,
      "loss": 1.4941,
      "step": 11236
    },
    {
      "epoch": 0.2497111111111111,
      "grad_norm": 1.5019677877426147,
      "learning_rate": 0.000150091131362525,
      "loss": 2.1203,
      "step": 11237
    },
    {
      "epoch": 0.24973333333333333,
      "grad_norm": 1.592490792274475,
      "learning_rate": 0.00015008668593020672,
      "loss": 2.0158,
      "step": 11238
    },
    {
      "epoch": 0.24975555555555556,
      "grad_norm": 1.614825963973999,
      "learning_rate": 0.00015008224049788843,
      "loss": 2.1015,
      "step": 11239
    },
    {
      "epoch": 0.24977777777777777,
      "grad_norm": 1.637771725654602,
      "learning_rate": 0.00015007779506557014,
      "loss": 1.9648,
      "step": 11240
    },
    {
      "epoch": 0.2498,
      "grad_norm": 1.5355838537216187,
      "learning_rate": 0.00015007334963325185,
      "loss": 1.7767,
      "step": 11241
    },
    {
      "epoch": 0.24982222222222222,
      "grad_norm": 1.4477280378341675,
      "learning_rate": 0.00015006890420093356,
      "loss": 1.6348,
      "step": 11242
    },
    {
      "epoch": 0.24984444444444445,
      "grad_norm": 1.6298596858978271,
      "learning_rate": 0.00015006445876861527,
      "loss": 1.5234,
      "step": 11243
    },
    {
      "epoch": 0.24986666666666665,
      "grad_norm": 1.5477824211120605,
      "learning_rate": 0.00015006001333629695,
      "loss": 1.8363,
      "step": 11244
    },
    {
      "epoch": 0.24988888888888888,
      "grad_norm": 1.4979947805404663,
      "learning_rate": 0.00015005556790397868,
      "loss": 1.7962,
      "step": 11245
    },
    {
      "epoch": 0.2499111111111111,
      "grad_norm": 1.6806954145431519,
      "learning_rate": 0.00015005112247166037,
      "loss": 1.9474,
      "step": 11246
    },
    {
      "epoch": 0.24993333333333334,
      "grad_norm": 1.6821964979171753,
      "learning_rate": 0.00015004667703934208,
      "loss": 1.6896,
      "step": 11247
    },
    {
      "epoch": 0.24995555555555554,
      "grad_norm": 1.2527648210525513,
      "learning_rate": 0.00015004223160702379,
      "loss": 1.3627,
      "step": 11248
    },
    {
      "epoch": 0.24997777777777777,
      "grad_norm": 1.708588719367981,
      "learning_rate": 0.0001500377861747055,
      "loss": 2.101,
      "step": 11249
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.8107513189315796,
      "learning_rate": 0.0001500333407423872,
      "loss": 1.5727,
      "step": 11250
    },
    {
      "epoch": 0.2500222222222222,
      "grad_norm": 1.128570795059204,
      "learning_rate": 0.00015002889531006891,
      "loss": 2.0775,
      "step": 11251
    },
    {
      "epoch": 0.25004444444444446,
      "grad_norm": 1.2197197675704956,
      "learning_rate": 0.00015002444987775062,
      "loss": 2.2721,
      "step": 11252
    },
    {
      "epoch": 0.25006666666666666,
      "grad_norm": 1.4709455966949463,
      "learning_rate": 0.0001500200044454323,
      "loss": 2.5478,
      "step": 11253
    },
    {
      "epoch": 0.2500888888888889,
      "grad_norm": 1.2651115655899048,
      "learning_rate": 0.00015001555901311404,
      "loss": 1.0417,
      "step": 11254
    },
    {
      "epoch": 0.2501111111111111,
      "grad_norm": 2.914459705352783,
      "learning_rate": 0.00015001111358079573,
      "loss": 1.3733,
      "step": 11255
    },
    {
      "epoch": 0.2501333333333333,
      "grad_norm": 1.4209115505218506,
      "learning_rate": 0.00015000666814847744,
      "loss": 2.7083,
      "step": 11256
    },
    {
      "epoch": 0.2501555555555556,
      "grad_norm": 1.3621258735656738,
      "learning_rate": 0.00015000222271615915,
      "loss": 2.2833,
      "step": 11257
    },
    {
      "epoch": 0.2501777777777778,
      "grad_norm": 1.262384295463562,
      "learning_rate": 0.00014999777728384086,
      "loss": 1.5594,
      "step": 11258
    },
    {
      "epoch": 0.2502,
      "grad_norm": 1.288056492805481,
      "learning_rate": 0.00014999333185152256,
      "loss": 1.6542,
      "step": 11259
    },
    {
      "epoch": 0.25022222222222223,
      "grad_norm": 1.2400962114334106,
      "learning_rate": 0.00014998888641920427,
      "loss": 1.6797,
      "step": 11260
    },
    {
      "epoch": 0.25024444444444444,
      "grad_norm": 1.2880749702453613,
      "learning_rate": 0.00014998444098688598,
      "loss": 1.9278,
      "step": 11261
    },
    {
      "epoch": 0.2502666666666667,
      "grad_norm": 1.5568618774414062,
      "learning_rate": 0.0001499799955545677,
      "loss": 2.1599,
      "step": 11262
    },
    {
      "epoch": 0.2502888888888889,
      "grad_norm": 1.3154630661010742,
      "learning_rate": 0.0001499755501222494,
      "loss": 2.5084,
      "step": 11263
    },
    {
      "epoch": 0.2503111111111111,
      "grad_norm": 1.490829348564148,
      "learning_rate": 0.00014997110468993109,
      "loss": 1.8455,
      "step": 11264
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 1.669426441192627,
      "learning_rate": 0.00014996665925761282,
      "loss": 2.1262,
      "step": 11265
    },
    {
      "epoch": 0.25035555555555555,
      "grad_norm": 1.93491530418396,
      "learning_rate": 0.0001499622138252945,
      "loss": 2.5458,
      "step": 11266
    },
    {
      "epoch": 0.25037777777777775,
      "grad_norm": 1.5638666152954102,
      "learning_rate": 0.00014995776839297621,
      "loss": 1.7246,
      "step": 11267
    },
    {
      "epoch": 0.2504,
      "grad_norm": 1.3364384174346924,
      "learning_rate": 0.00014995332296065795,
      "loss": 1.7201,
      "step": 11268
    },
    {
      "epoch": 0.2504222222222222,
      "grad_norm": 1.2847424745559692,
      "learning_rate": 0.00014994887752833963,
      "loss": 1.8299,
      "step": 11269
    },
    {
      "epoch": 0.25044444444444447,
      "grad_norm": 1.6389248371124268,
      "learning_rate": 0.00014994443209602134,
      "loss": 2.0393,
      "step": 11270
    },
    {
      "epoch": 0.25046666666666667,
      "grad_norm": 1.2410221099853516,
      "learning_rate": 0.00014993998666370305,
      "loss": 1.815,
      "step": 11271
    },
    {
      "epoch": 0.25048888888888887,
      "grad_norm": 1.2889735698699951,
      "learning_rate": 0.00014993554123138476,
      "loss": 1.935,
      "step": 11272
    },
    {
      "epoch": 0.25051111111111113,
      "grad_norm": 1.7836071252822876,
      "learning_rate": 0.00014993109579906645,
      "loss": 2.1079,
      "step": 11273
    },
    {
      "epoch": 0.25053333333333333,
      "grad_norm": 1.651153326034546,
      "learning_rate": 0.00014992665036674818,
      "loss": 2.3791,
      "step": 11274
    },
    {
      "epoch": 0.25055555555555553,
      "grad_norm": 1.8920904397964478,
      "learning_rate": 0.00014992220493442986,
      "loss": 2.0852,
      "step": 11275
    },
    {
      "epoch": 0.2505777777777778,
      "grad_norm": 1.4137953519821167,
      "learning_rate": 0.00014991775950211157,
      "loss": 2.044,
      "step": 11276
    },
    {
      "epoch": 0.2506,
      "grad_norm": 1.7091113328933716,
      "learning_rate": 0.0001499133140697933,
      "loss": 2.3065,
      "step": 11277
    },
    {
      "epoch": 0.25062222222222225,
      "grad_norm": 1.3882582187652588,
      "learning_rate": 0.000149908868637475,
      "loss": 1.9897,
      "step": 11278
    },
    {
      "epoch": 0.25064444444444445,
      "grad_norm": 1.3705744743347168,
      "learning_rate": 0.00014990442320515673,
      "loss": 1.7103,
      "step": 11279
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 1.356197476387024,
      "learning_rate": 0.0001498999777728384,
      "loss": 1.6354,
      "step": 11280
    },
    {
      "epoch": 0.2506888888888889,
      "grad_norm": 1.633266568183899,
      "learning_rate": 0.00014989553234052012,
      "loss": 1.9598,
      "step": 11281
    },
    {
      "epoch": 0.2507111111111111,
      "grad_norm": 1.5780593156814575,
      "learning_rate": 0.00014989108690820183,
      "loss": 1.7286,
      "step": 11282
    },
    {
      "epoch": 0.2507333333333333,
      "grad_norm": 1.6402108669281006,
      "learning_rate": 0.00014988664147588354,
      "loss": 1.8411,
      "step": 11283
    },
    {
      "epoch": 0.25075555555555556,
      "grad_norm": 1.3400039672851562,
      "learning_rate": 0.00014988219604356522,
      "loss": 1.581,
      "step": 11284
    },
    {
      "epoch": 0.25077777777777777,
      "grad_norm": 2.467639923095703,
      "learning_rate": 0.00014987775061124696,
      "loss": 2.331,
      "step": 11285
    },
    {
      "epoch": 0.2508,
      "grad_norm": 1.572024941444397,
      "learning_rate": 0.00014987330517892867,
      "loss": 2.189,
      "step": 11286
    },
    {
      "epoch": 0.2508222222222222,
      "grad_norm": 1.6278990507125854,
      "learning_rate": 0.00014986885974661035,
      "loss": 2.0188,
      "step": 11287
    },
    {
      "epoch": 0.2508444444444444,
      "grad_norm": 1.7428832054138184,
      "learning_rate": 0.0001498644143142921,
      "loss": 2.0493,
      "step": 11288
    },
    {
      "epoch": 0.2508666666666667,
      "grad_norm": 2.014279365539551,
      "learning_rate": 0.00014985996888197377,
      "loss": 2.1562,
      "step": 11289
    },
    {
      "epoch": 0.2508888888888889,
      "grad_norm": 1.3874179124832153,
      "learning_rate": 0.00014985552344965548,
      "loss": 1.9704,
      "step": 11290
    },
    {
      "epoch": 0.2509111111111111,
      "grad_norm": 1.8635246753692627,
      "learning_rate": 0.0001498510780173372,
      "loss": 2.0261,
      "step": 11291
    },
    {
      "epoch": 0.25093333333333334,
      "grad_norm": 1.9092779159545898,
      "learning_rate": 0.0001498466325850189,
      "loss": 1.5553,
      "step": 11292
    },
    {
      "epoch": 0.25095555555555554,
      "grad_norm": 1.6396528482437134,
      "learning_rate": 0.0001498421871527006,
      "loss": 1.7607,
      "step": 11293
    },
    {
      "epoch": 0.2509777777777778,
      "grad_norm": 1.560831069946289,
      "learning_rate": 0.00014983774172038232,
      "loss": 1.6727,
      "step": 11294
    },
    {
      "epoch": 0.251,
      "grad_norm": 1.7282397747039795,
      "learning_rate": 0.00014983329628806403,
      "loss": 1.8911,
      "step": 11295
    },
    {
      "epoch": 0.2510222222222222,
      "grad_norm": 1.6196118593215942,
      "learning_rate": 0.00014982885085574574,
      "loss": 1.625,
      "step": 11296
    },
    {
      "epoch": 0.25104444444444446,
      "grad_norm": 1.4556277990341187,
      "learning_rate": 0.00014982440542342745,
      "loss": 1.834,
      "step": 11297
    },
    {
      "epoch": 0.25106666666666666,
      "grad_norm": 1.4555790424346924,
      "learning_rate": 0.00014981995999110913,
      "loss": 1.6192,
      "step": 11298
    },
    {
      "epoch": 0.25108888888888886,
      "grad_norm": 1.9172805547714233,
      "learning_rate": 0.00014981551455879087,
      "loss": 1.9921,
      "step": 11299
    },
    {
      "epoch": 0.2511111111111111,
      "grad_norm": 4.178926944732666,
      "learning_rate": 0.00014981106912647255,
      "loss": 0.5724,
      "step": 11300
    },
    {
      "epoch": 0.2511333333333333,
      "grad_norm": 1.254555583000183,
      "learning_rate": 0.00014980662369415426,
      "loss": 2.1522,
      "step": 11301
    },
    {
      "epoch": 0.2511555555555556,
      "grad_norm": 1.2447541952133179,
      "learning_rate": 0.00014980217826183597,
      "loss": 2.4709,
      "step": 11302
    },
    {
      "epoch": 0.2511777777777778,
      "grad_norm": 1.3420478105545044,
      "learning_rate": 0.00014979773282951768,
      "loss": 2.228,
      "step": 11303
    },
    {
      "epoch": 0.2512,
      "grad_norm": 1.2108087539672852,
      "learning_rate": 0.0001497932873971994,
      "loss": 2.1215,
      "step": 11304
    },
    {
      "epoch": 0.25122222222222224,
      "grad_norm": 1.513685703277588,
      "learning_rate": 0.0001497888419648811,
      "loss": 2.4104,
      "step": 11305
    },
    {
      "epoch": 0.25124444444444444,
      "grad_norm": 1.5024863481521606,
      "learning_rate": 0.0001497843965325628,
      "loss": 2.0386,
      "step": 11306
    },
    {
      "epoch": 0.2512666666666667,
      "grad_norm": 1.4608659744262695,
      "learning_rate": 0.0001497799511002445,
      "loss": 1.9811,
      "step": 11307
    },
    {
      "epoch": 0.2512888888888889,
      "grad_norm": 1.2786612510681152,
      "learning_rate": 0.00014977550566792623,
      "loss": 1.8885,
      "step": 11308
    },
    {
      "epoch": 0.2513111111111111,
      "grad_norm": 1.4718713760375977,
      "learning_rate": 0.0001497710602356079,
      "loss": 1.5832,
      "step": 11309
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 1.8353203535079956,
      "learning_rate": 0.00014976661480328962,
      "loss": 2.5666,
      "step": 11310
    },
    {
      "epoch": 0.25135555555555555,
      "grad_norm": 1.4237384796142578,
      "learning_rate": 0.00014976216937097133,
      "loss": 2.3506,
      "step": 11311
    },
    {
      "epoch": 0.25137777777777776,
      "grad_norm": 2.284450054168701,
      "learning_rate": 0.00014975772393865304,
      "loss": 1.9167,
      "step": 11312
    },
    {
      "epoch": 0.2514,
      "grad_norm": 1.5273951292037964,
      "learning_rate": 0.00014975327850633475,
      "loss": 1.9228,
      "step": 11313
    },
    {
      "epoch": 0.2514222222222222,
      "grad_norm": 1.418713092803955,
      "learning_rate": 0.00014974883307401646,
      "loss": 2.1417,
      "step": 11314
    },
    {
      "epoch": 0.25144444444444447,
      "grad_norm": 1.2559683322906494,
      "learning_rate": 0.00014974438764169817,
      "loss": 1.1275,
      "step": 11315
    },
    {
      "epoch": 0.25146666666666667,
      "grad_norm": 0.7147486805915833,
      "learning_rate": 0.00014973994220937988,
      "loss": 0.458,
      "step": 11316
    },
    {
      "epoch": 0.2514888888888889,
      "grad_norm": 1.4752718210220337,
      "learning_rate": 0.0001497354967770616,
      "loss": 2.012,
      "step": 11317
    },
    {
      "epoch": 0.25151111111111113,
      "grad_norm": 1.545782446861267,
      "learning_rate": 0.00014973105134474327,
      "loss": 2.1764,
      "step": 11318
    },
    {
      "epoch": 0.25153333333333333,
      "grad_norm": 1.5646744966506958,
      "learning_rate": 0.000149726605912425,
      "loss": 2.3176,
      "step": 11319
    },
    {
      "epoch": 0.25155555555555553,
      "grad_norm": 1.4693868160247803,
      "learning_rate": 0.0001497221604801067,
      "loss": 1.6739,
      "step": 11320
    },
    {
      "epoch": 0.2515777777777778,
      "grad_norm": 1.5084234476089478,
      "learning_rate": 0.0001497177150477884,
      "loss": 2.0985,
      "step": 11321
    },
    {
      "epoch": 0.2516,
      "grad_norm": 1.5256482362747192,
      "learning_rate": 0.0001497132696154701,
      "loss": 1.7339,
      "step": 11322
    },
    {
      "epoch": 0.25162222222222225,
      "grad_norm": 1.7110061645507812,
      "learning_rate": 0.00014970882418315182,
      "loss": 1.9193,
      "step": 11323
    },
    {
      "epoch": 0.25164444444444445,
      "grad_norm": 1.5231670141220093,
      "learning_rate": 0.00014970437875083353,
      "loss": 2.1805,
      "step": 11324
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 1.4533735513687134,
      "learning_rate": 0.00014969993331851524,
      "loss": 1.7575,
      "step": 11325
    },
    {
      "epoch": 0.2516888888888889,
      "grad_norm": 1.488604187965393,
      "learning_rate": 0.00014969548788619695,
      "loss": 2.1172,
      "step": 11326
    },
    {
      "epoch": 0.2517111111111111,
      "grad_norm": 1.53843355178833,
      "learning_rate": 0.00014969104245387863,
      "loss": 2.1002,
      "step": 11327
    },
    {
      "epoch": 0.2517333333333333,
      "grad_norm": 1.5311814546585083,
      "learning_rate": 0.00014968659702156037,
      "loss": 2.0001,
      "step": 11328
    },
    {
      "epoch": 0.25175555555555557,
      "grad_norm": 1.5380064249038696,
      "learning_rate": 0.00014968215158924205,
      "loss": 1.9781,
      "step": 11329
    },
    {
      "epoch": 0.25177777777777777,
      "grad_norm": 1.4821141958236694,
      "learning_rate": 0.00014967770615692376,
      "loss": 2.2325,
      "step": 11330
    },
    {
      "epoch": 0.2518,
      "grad_norm": 2.032766819000244,
      "learning_rate": 0.00014967326072460547,
      "loss": 2.0206,
      "step": 11331
    },
    {
      "epoch": 0.2518222222222222,
      "grad_norm": 1.4120991230010986,
      "learning_rate": 0.00014966881529228718,
      "loss": 1.889,
      "step": 11332
    },
    {
      "epoch": 0.2518444444444444,
      "grad_norm": 1.6240029335021973,
      "learning_rate": 0.0001496643698599689,
      "loss": 2.1932,
      "step": 11333
    },
    {
      "epoch": 0.2518666666666667,
      "grad_norm": 1.4239825010299683,
      "learning_rate": 0.0001496599244276506,
      "loss": 1.9812,
      "step": 11334
    },
    {
      "epoch": 0.2518888888888889,
      "grad_norm": 1.5950242280960083,
      "learning_rate": 0.0001496554789953323,
      "loss": 1.9453,
      "step": 11335
    },
    {
      "epoch": 0.2519111111111111,
      "grad_norm": 1.8132679462432861,
      "learning_rate": 0.00014965103356301402,
      "loss": 2.0488,
      "step": 11336
    },
    {
      "epoch": 0.25193333333333334,
      "grad_norm": 1.4515013694763184,
      "learning_rate": 0.00014964658813069573,
      "loss": 1.9538,
      "step": 11337
    },
    {
      "epoch": 0.25195555555555554,
      "grad_norm": 1.51705801486969,
      "learning_rate": 0.0001496421426983774,
      "loss": 1.4505,
      "step": 11338
    },
    {
      "epoch": 0.2519777777777778,
      "grad_norm": 3.015176773071289,
      "learning_rate": 0.00014963769726605914,
      "loss": 2.1569,
      "step": 11339
    },
    {
      "epoch": 0.252,
      "grad_norm": 1.5172070264816284,
      "learning_rate": 0.00014963325183374083,
      "loss": 1.9346,
      "step": 11340
    },
    {
      "epoch": 0.2520222222222222,
      "grad_norm": 1.2973434925079346,
      "learning_rate": 0.00014962880640142254,
      "loss": 1.3244,
      "step": 11341
    },
    {
      "epoch": 0.25204444444444446,
      "grad_norm": 1.9269201755523682,
      "learning_rate": 0.00014962436096910427,
      "loss": 2.3937,
      "step": 11342
    },
    {
      "epoch": 0.25206666666666666,
      "grad_norm": 1.868991494178772,
      "learning_rate": 0.00014961991553678596,
      "loss": 1.698,
      "step": 11343
    },
    {
      "epoch": 0.25208888888888886,
      "grad_norm": 1.47684645652771,
      "learning_rate": 0.00014961547010446767,
      "loss": 1.4919,
      "step": 11344
    },
    {
      "epoch": 0.2521111111111111,
      "grad_norm": 1.7497305870056152,
      "learning_rate": 0.00014961102467214938,
      "loss": 1.7718,
      "step": 11345
    },
    {
      "epoch": 0.2521333333333333,
      "grad_norm": 1.7066336870193481,
      "learning_rate": 0.00014960657923983108,
      "loss": 2.0454,
      "step": 11346
    },
    {
      "epoch": 0.2521555555555556,
      "grad_norm": 1.7639001607894897,
      "learning_rate": 0.00014960213380751277,
      "loss": 1.9002,
      "step": 11347
    },
    {
      "epoch": 0.2521777777777778,
      "grad_norm": 1.0166655778884888,
      "learning_rate": 0.0001495976883751945,
      "loss": 0.7044,
      "step": 11348
    },
    {
      "epoch": 0.2522,
      "grad_norm": 1.6925930976867676,
      "learning_rate": 0.0001495932429428762,
      "loss": 1.6163,
      "step": 11349
    },
    {
      "epoch": 0.25222222222222224,
      "grad_norm": 1.0373218059539795,
      "learning_rate": 0.0001495887975105579,
      "loss": 0.7652,
      "step": 11350
    },
    {
      "epoch": 0.25224444444444444,
      "grad_norm": 1.2372534275054932,
      "learning_rate": 0.00014958435207823963,
      "loss": 2.2869,
      "step": 11351
    },
    {
      "epoch": 0.25226666666666664,
      "grad_norm": 1.1901886463165283,
      "learning_rate": 0.00014957990664592132,
      "loss": 2.154,
      "step": 11352
    },
    {
      "epoch": 0.2522888888888889,
      "grad_norm": 1.2238248586654663,
      "learning_rate": 0.00014957546121360305,
      "loss": 2.1219,
      "step": 11353
    },
    {
      "epoch": 0.2523111111111111,
      "grad_norm": 1.5003024339675903,
      "learning_rate": 0.00014957101578128473,
      "loss": 1.9663,
      "step": 11354
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 1.471772313117981,
      "learning_rate": 0.00014956657034896644,
      "loss": 1.9578,
      "step": 11355
    },
    {
      "epoch": 0.25235555555555556,
      "grad_norm": 1.6526840925216675,
      "learning_rate": 0.00014956212491664815,
      "loss": 1.6491,
      "step": 11356
    },
    {
      "epoch": 0.25237777777777776,
      "grad_norm": 1.3923778533935547,
      "learning_rate": 0.00014955767948432986,
      "loss": 2.3507,
      "step": 11357
    },
    {
      "epoch": 0.2524,
      "grad_norm": 1.3140150308609009,
      "learning_rate": 0.00014955323405201155,
      "loss": 1.2329,
      "step": 11358
    },
    {
      "epoch": 0.2524222222222222,
      "grad_norm": 1.4671194553375244,
      "learning_rate": 0.00014954878861969328,
      "loss": 1.9698,
      "step": 11359
    },
    {
      "epoch": 0.25244444444444447,
      "grad_norm": 1.417542815208435,
      "learning_rate": 0.000149544343187375,
      "loss": 2.167,
      "step": 11360
    },
    {
      "epoch": 0.2524666666666667,
      "grad_norm": 1.3088345527648926,
      "learning_rate": 0.00014953989775505667,
      "loss": 2.2981,
      "step": 11361
    },
    {
      "epoch": 0.2524888888888889,
      "grad_norm": 1.5329651832580566,
      "learning_rate": 0.0001495354523227384,
      "loss": 2.3135,
      "step": 11362
    },
    {
      "epoch": 0.25251111111111113,
      "grad_norm": 1.17863130569458,
      "learning_rate": 0.0001495310068904201,
      "loss": 2.1319,
      "step": 11363
    },
    {
      "epoch": 0.25253333333333333,
      "grad_norm": 1.4408005475997925,
      "learning_rate": 0.0001495265614581018,
      "loss": 2.0781,
      "step": 11364
    },
    {
      "epoch": 0.25255555555555553,
      "grad_norm": 1.4913321733474731,
      "learning_rate": 0.0001495221160257835,
      "loss": 2.2576,
      "step": 11365
    },
    {
      "epoch": 0.2525777777777778,
      "grad_norm": 0.9024866819381714,
      "learning_rate": 0.00014951767059346522,
      "loss": 0.9439,
      "step": 11366
    },
    {
      "epoch": 0.2526,
      "grad_norm": 1.5436878204345703,
      "learning_rate": 0.00014951322516114693,
      "loss": 2.2441,
      "step": 11367
    },
    {
      "epoch": 0.25262222222222225,
      "grad_norm": 1.5268502235412598,
      "learning_rate": 0.00014950877972882864,
      "loss": 2.1923,
      "step": 11368
    },
    {
      "epoch": 0.25264444444444445,
      "grad_norm": 1.54153573513031,
      "learning_rate": 0.00014950433429651035,
      "loss": 1.8299,
      "step": 11369
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 1.3776921033859253,
      "learning_rate": 0.00014949988886419203,
      "loss": 1.9229,
      "step": 11370
    },
    {
      "epoch": 0.2526888888888889,
      "grad_norm": 1.319989562034607,
      "learning_rate": 0.00014949544343187377,
      "loss": 1.7964,
      "step": 11371
    },
    {
      "epoch": 0.2527111111111111,
      "grad_norm": 1.4895224571228027,
      "learning_rate": 0.00014949099799955545,
      "loss": 1.9034,
      "step": 11372
    },
    {
      "epoch": 0.2527333333333333,
      "grad_norm": 1.5913101434707642,
      "learning_rate": 0.0001494865525672372,
      "loss": 1.9058,
      "step": 11373
    },
    {
      "epoch": 0.25275555555555557,
      "grad_norm": 1.444901704788208,
      "learning_rate": 0.00014948210713491887,
      "loss": 1.9175,
      "step": 11374
    },
    {
      "epoch": 0.25277777777777777,
      "grad_norm": 1.821069598197937,
      "learning_rate": 0.00014947766170260058,
      "loss": 2.1963,
      "step": 11375
    },
    {
      "epoch": 0.2528,
      "grad_norm": 1.488198161125183,
      "learning_rate": 0.0001494732162702823,
      "loss": 2.0115,
      "step": 11376
    },
    {
      "epoch": 0.2528222222222222,
      "grad_norm": 1.6169919967651367,
      "learning_rate": 0.000149468770837964,
      "loss": 1.9414,
      "step": 11377
    },
    {
      "epoch": 0.2528444444444444,
      "grad_norm": 1.2605912685394287,
      "learning_rate": 0.0001494643254056457,
      "loss": 1.1543,
      "step": 11378
    },
    {
      "epoch": 0.2528666666666667,
      "grad_norm": 1.5890777111053467,
      "learning_rate": 0.00014945987997332742,
      "loss": 2.2499,
      "step": 11379
    },
    {
      "epoch": 0.2528888888888889,
      "grad_norm": 1.8172714710235596,
      "learning_rate": 0.00014945543454100913,
      "loss": 2.1761,
      "step": 11380
    },
    {
      "epoch": 0.2529111111111111,
      "grad_norm": 2.2250046730041504,
      "learning_rate": 0.0001494509891086908,
      "loss": 2.3426,
      "step": 11381
    },
    {
      "epoch": 0.25293333333333334,
      "grad_norm": 1.29951810836792,
      "learning_rate": 0.00014944654367637255,
      "loss": 1.7894,
      "step": 11382
    },
    {
      "epoch": 0.25295555555555554,
      "grad_norm": 1.5482921600341797,
      "learning_rate": 0.00014944209824405423,
      "loss": 1.7298,
      "step": 11383
    },
    {
      "epoch": 0.2529777777777778,
      "grad_norm": 1.5142196416854858,
      "learning_rate": 0.00014943765281173594,
      "loss": 1.867,
      "step": 11384
    },
    {
      "epoch": 0.253,
      "grad_norm": 1.5032137632369995,
      "learning_rate": 0.00014943320737941765,
      "loss": 2.1819,
      "step": 11385
    },
    {
      "epoch": 0.2530222222222222,
      "grad_norm": 1.493173599243164,
      "learning_rate": 0.00014942876194709936,
      "loss": 1.6763,
      "step": 11386
    },
    {
      "epoch": 0.25304444444444446,
      "grad_norm": 1.4822840690612793,
      "learning_rate": 0.00014942431651478107,
      "loss": 1.8471,
      "step": 11387
    },
    {
      "epoch": 0.25306666666666666,
      "grad_norm": 1.4733874797821045,
      "learning_rate": 0.00014941987108246278,
      "loss": 1.6618,
      "step": 11388
    },
    {
      "epoch": 0.25308888888888886,
      "grad_norm": 1.5841110944747925,
      "learning_rate": 0.0001494154256501445,
      "loss": 2.0503,
      "step": 11389
    },
    {
      "epoch": 0.2531111111111111,
      "grad_norm": 1.9973244667053223,
      "learning_rate": 0.00014941098021782617,
      "loss": 2.0862,
      "step": 11390
    },
    {
      "epoch": 0.2531333333333333,
      "grad_norm": 1.7018630504608154,
      "learning_rate": 0.0001494065347855079,
      "loss": 1.863,
      "step": 11391
    },
    {
      "epoch": 0.2531555555555556,
      "grad_norm": 1.5687010288238525,
      "learning_rate": 0.0001494020893531896,
      "loss": 1.8495,
      "step": 11392
    },
    {
      "epoch": 0.2531777777777778,
      "grad_norm": 1.6995700597763062,
      "learning_rate": 0.00014939764392087133,
      "loss": 1.8308,
      "step": 11393
    },
    {
      "epoch": 0.2532,
      "grad_norm": 1.9624849557876587,
      "learning_rate": 0.000149393198488553,
      "loss": 1.9326,
      "step": 11394
    },
    {
      "epoch": 0.25322222222222224,
      "grad_norm": 1.3582175970077515,
      "learning_rate": 0.00014938875305623472,
      "loss": 1.5161,
      "step": 11395
    },
    {
      "epoch": 0.25324444444444444,
      "grad_norm": 1.6171016693115234,
      "learning_rate": 0.00014938430762391643,
      "loss": 1.8968,
      "step": 11396
    },
    {
      "epoch": 0.25326666666666664,
      "grad_norm": 1.8221625089645386,
      "learning_rate": 0.00014937986219159814,
      "loss": 1.8875,
      "step": 11397
    },
    {
      "epoch": 0.2532888888888889,
      "grad_norm": 1.3468225002288818,
      "learning_rate": 0.00014937541675927985,
      "loss": 1.0722,
      "step": 11398
    },
    {
      "epoch": 0.2533111111111111,
      "grad_norm": 1.764015793800354,
      "learning_rate": 0.00014937097132696156,
      "loss": 1.7473,
      "step": 11399
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 1.6170347929000854,
      "learning_rate": 0.00014936652589464327,
      "loss": 1.6305,
      "step": 11400
    },
    {
      "epoch": 0.25335555555555556,
      "grad_norm": 1.3795115947723389,
      "learning_rate": 0.00014936208046232495,
      "loss": 2.8893,
      "step": 11401
    },
    {
      "epoch": 0.25337777777777776,
      "grad_norm": 1.3511483669281006,
      "learning_rate": 0.0001493576350300067,
      "loss": 1.0996,
      "step": 11402
    },
    {
      "epoch": 0.2534,
      "grad_norm": 1.434199571609497,
      "learning_rate": 0.00014935318959768837,
      "loss": 2.2732,
      "step": 11403
    },
    {
      "epoch": 0.2534222222222222,
      "grad_norm": 1.3610821962356567,
      "learning_rate": 0.00014934874416537008,
      "loss": 2.4443,
      "step": 11404
    },
    {
      "epoch": 0.25344444444444447,
      "grad_norm": 1.4661990404129028,
      "learning_rate": 0.0001493442987330518,
      "loss": 2.1314,
      "step": 11405
    },
    {
      "epoch": 0.2534666666666667,
      "grad_norm": 1.4073543548583984,
      "learning_rate": 0.0001493398533007335,
      "loss": 2.4859,
      "step": 11406
    },
    {
      "epoch": 0.2534888888888889,
      "grad_norm": 1.2998096942901611,
      "learning_rate": 0.0001493354078684152,
      "loss": 2.04,
      "step": 11407
    },
    {
      "epoch": 0.25351111111111113,
      "grad_norm": 1.3693227767944336,
      "learning_rate": 0.00014933096243609692,
      "loss": 2.2794,
      "step": 11408
    },
    {
      "epoch": 0.25353333333333333,
      "grad_norm": 1.3081680536270142,
      "learning_rate": 0.00014932651700377863,
      "loss": 1.9777,
      "step": 11409
    },
    {
      "epoch": 0.25355555555555553,
      "grad_norm": 1.3627461194992065,
      "learning_rate": 0.00014932207157146034,
      "loss": 2.2045,
      "step": 11410
    },
    {
      "epoch": 0.2535777777777778,
      "grad_norm": 1.2977560758590698,
      "learning_rate": 0.00014931762613914205,
      "loss": 1.7533,
      "step": 11411
    },
    {
      "epoch": 0.2536,
      "grad_norm": 1.3860456943511963,
      "learning_rate": 0.00014931318070682373,
      "loss": 2.2091,
      "step": 11412
    },
    {
      "epoch": 0.25362222222222225,
      "grad_norm": 1.2637015581130981,
      "learning_rate": 0.00014930873527450547,
      "loss": 1.5848,
      "step": 11413
    },
    {
      "epoch": 0.25364444444444445,
      "grad_norm": 1.4314932823181152,
      "learning_rate": 0.00014930428984218715,
      "loss": 1.9441,
      "step": 11414
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 0.1452968716621399,
      "learning_rate": 0.00014929984440986886,
      "loss": 0.0227,
      "step": 11415
    },
    {
      "epoch": 0.2536888888888889,
      "grad_norm": 1.7399238348007202,
      "learning_rate": 0.0001492953989775506,
      "loss": 2.3565,
      "step": 11416
    },
    {
      "epoch": 0.2537111111111111,
      "grad_norm": 1.4379643201828003,
      "learning_rate": 0.00014929095354523228,
      "loss": 1.2539,
      "step": 11417
    },
    {
      "epoch": 0.2537333333333333,
      "grad_norm": 1.642943024635315,
      "learning_rate": 0.000149286508112914,
      "loss": 2.3731,
      "step": 11418
    },
    {
      "epoch": 0.25375555555555557,
      "grad_norm": 1.6141831874847412,
      "learning_rate": 0.0001492820626805957,
      "loss": 2.1514,
      "step": 11419
    },
    {
      "epoch": 0.25377777777777777,
      "grad_norm": 1.5296767950057983,
      "learning_rate": 0.0001492776172482774,
      "loss": 2.211,
      "step": 11420
    },
    {
      "epoch": 0.2538,
      "grad_norm": 1.4397499561309814,
      "learning_rate": 0.0001492731718159591,
      "loss": 1.8694,
      "step": 11421
    },
    {
      "epoch": 0.2538222222222222,
      "grad_norm": 1.5536152124404907,
      "learning_rate": 0.00014926872638364083,
      "loss": 2.1268,
      "step": 11422
    },
    {
      "epoch": 0.25384444444444443,
      "grad_norm": 1.5338377952575684,
      "learning_rate": 0.0001492642809513225,
      "loss": 1.5283,
      "step": 11423
    },
    {
      "epoch": 0.2538666666666667,
      "grad_norm": 1.4258460998535156,
      "learning_rate": 0.00014925983551900422,
      "loss": 1.8317,
      "step": 11424
    },
    {
      "epoch": 0.2538888888888889,
      "grad_norm": 1.604683756828308,
      "learning_rate": 0.00014925539008668596,
      "loss": 1.2882,
      "step": 11425
    },
    {
      "epoch": 0.2539111111111111,
      "grad_norm": 1.7525794506072998,
      "learning_rate": 0.00014925094465436764,
      "loss": 1.9128,
      "step": 11426
    },
    {
      "epoch": 0.25393333333333334,
      "grad_norm": 1.5912939310073853,
      "learning_rate": 0.00014924649922204935,
      "loss": 1.6027,
      "step": 11427
    },
    {
      "epoch": 0.25395555555555555,
      "grad_norm": 1.8676546812057495,
      "learning_rate": 0.00014924205378973106,
      "loss": 2.2788,
      "step": 11428
    },
    {
      "epoch": 0.2539777777777778,
      "grad_norm": 1.7982115745544434,
      "learning_rate": 0.00014923760835741277,
      "loss": 2.2144,
      "step": 11429
    },
    {
      "epoch": 0.254,
      "grad_norm": 1.380064845085144,
      "learning_rate": 0.00014923316292509448,
      "loss": 1.721,
      "step": 11430
    },
    {
      "epoch": 0.2540222222222222,
      "grad_norm": 1.5124839544296265,
      "learning_rate": 0.00014922871749277619,
      "loss": 1.8113,
      "step": 11431
    },
    {
      "epoch": 0.25404444444444446,
      "grad_norm": 1.3103904724121094,
      "learning_rate": 0.00014922427206045787,
      "loss": 1.5862,
      "step": 11432
    },
    {
      "epoch": 0.25406666666666666,
      "grad_norm": 1.6794387102127075,
      "learning_rate": 0.0001492198266281396,
      "loss": 1.9829,
      "step": 11433
    },
    {
      "epoch": 0.25408888888888886,
      "grad_norm": 1.6706117391586304,
      "learning_rate": 0.00014921538119582131,
      "loss": 2.5916,
      "step": 11434
    },
    {
      "epoch": 0.2541111111111111,
      "grad_norm": 1.3991179466247559,
      "learning_rate": 0.000149210935763503,
      "loss": 1.7354,
      "step": 11435
    },
    {
      "epoch": 0.2541333333333333,
      "grad_norm": 1.808555245399475,
      "learning_rate": 0.00014920649033118473,
      "loss": 1.6649,
      "step": 11436
    },
    {
      "epoch": 0.2541555555555556,
      "grad_norm": 1.8517950773239136,
      "learning_rate": 0.00014920204489886642,
      "loss": 2.216,
      "step": 11437
    },
    {
      "epoch": 0.2541777777777778,
      "grad_norm": 1.2714322805404663,
      "learning_rate": 0.00014919759946654813,
      "loss": 1.6299,
      "step": 11438
    },
    {
      "epoch": 0.2542,
      "grad_norm": 1.3745123147964478,
      "learning_rate": 0.00014919315403422984,
      "loss": 2.0051,
      "step": 11439
    },
    {
      "epoch": 0.25422222222222224,
      "grad_norm": 1.5994741916656494,
      "learning_rate": 0.00014918870860191155,
      "loss": 1.8853,
      "step": 11440
    },
    {
      "epoch": 0.25424444444444444,
      "grad_norm": 1.6033128499984741,
      "learning_rate": 0.00014918426316959325,
      "loss": 1.4797,
      "step": 11441
    },
    {
      "epoch": 0.25426666666666664,
      "grad_norm": 1.908710241317749,
      "learning_rate": 0.00014917981773727496,
      "loss": 1.8739,
      "step": 11442
    },
    {
      "epoch": 0.2542888888888889,
      "grad_norm": 2.1151390075683594,
      "learning_rate": 0.00014917537230495667,
      "loss": 2.0463,
      "step": 11443
    },
    {
      "epoch": 0.2543111111111111,
      "grad_norm": 1.8073114156723022,
      "learning_rate": 0.00014917092687263836,
      "loss": 2.1698,
      "step": 11444
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 1.4921053647994995,
      "learning_rate": 0.0001491664814403201,
      "loss": 1.7172,
      "step": 11445
    },
    {
      "epoch": 0.25435555555555556,
      "grad_norm": 1.801943063735962,
      "learning_rate": 0.00014916203600800178,
      "loss": 2.3388,
      "step": 11446
    },
    {
      "epoch": 0.25437777777777776,
      "grad_norm": 2.0264222621917725,
      "learning_rate": 0.00014915759057568349,
      "loss": 1.8178,
      "step": 11447
    },
    {
      "epoch": 0.2544,
      "grad_norm": 1.4938631057739258,
      "learning_rate": 0.0001491531451433652,
      "loss": 1.5566,
      "step": 11448
    },
    {
      "epoch": 0.2544222222222222,
      "grad_norm": 1.70744788646698,
      "learning_rate": 0.0001491486997110469,
      "loss": 1.4689,
      "step": 11449
    },
    {
      "epoch": 0.2544444444444444,
      "grad_norm": 1.2463257312774658,
      "learning_rate": 0.00014914425427872861,
      "loss": 0.9177,
      "step": 11450
    },
    {
      "epoch": 0.2544666666666667,
      "grad_norm": 1.668372631072998,
      "learning_rate": 0.00014913980884641032,
      "loss": 2.654,
      "step": 11451
    },
    {
      "epoch": 0.2544888888888889,
      "grad_norm": 1.348562479019165,
      "learning_rate": 0.00014913536341409203,
      "loss": 2.3774,
      "step": 11452
    },
    {
      "epoch": 0.25451111111111113,
      "grad_norm": 1.2080776691436768,
      "learning_rate": 0.00014913091798177374,
      "loss": 2.2931,
      "step": 11453
    },
    {
      "epoch": 0.25453333333333333,
      "grad_norm": 1.400963306427002,
      "learning_rate": 0.00014912647254945545,
      "loss": 2.5512,
      "step": 11454
    },
    {
      "epoch": 0.25455555555555553,
      "grad_norm": 1.3123884201049805,
      "learning_rate": 0.00014912202711713714,
      "loss": 1.6481,
      "step": 11455
    },
    {
      "epoch": 0.2545777777777778,
      "grad_norm": 1.319648027420044,
      "learning_rate": 0.00014911758168481887,
      "loss": 2.1731,
      "step": 11456
    },
    {
      "epoch": 0.2546,
      "grad_norm": 1.36874258518219,
      "learning_rate": 0.00014911313625250055,
      "loss": 2.149,
      "step": 11457
    },
    {
      "epoch": 0.25462222222222225,
      "grad_norm": 1.5354605913162231,
      "learning_rate": 0.00014910869082018226,
      "loss": 2.2919,
      "step": 11458
    },
    {
      "epoch": 0.25464444444444445,
      "grad_norm": 1.300186276435852,
      "learning_rate": 0.00014910424538786397,
      "loss": 2.0931,
      "step": 11459
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 1.3959325551986694,
      "learning_rate": 0.00014909979995554568,
      "loss": 2.2848,
      "step": 11460
    },
    {
      "epoch": 0.2546888888888889,
      "grad_norm": 0.8356866240501404,
      "learning_rate": 0.0001490953545232274,
      "loss": 0.0313,
      "step": 11461
    },
    {
      "epoch": 0.2547111111111111,
      "grad_norm": 1.561579942703247,
      "learning_rate": 0.0001490909090909091,
      "loss": 1.7861,
      "step": 11462
    },
    {
      "epoch": 0.2547333333333333,
      "grad_norm": 1.4541940689086914,
      "learning_rate": 0.0001490864636585908,
      "loss": 2.0532,
      "step": 11463
    },
    {
      "epoch": 0.25475555555555557,
      "grad_norm": 1.554729700088501,
      "learning_rate": 0.0001490820182262725,
      "loss": 2.1834,
      "step": 11464
    },
    {
      "epoch": 0.25477777777777777,
      "grad_norm": 1.4589109420776367,
      "learning_rate": 0.00014907757279395423,
      "loss": 1.9625,
      "step": 11465
    },
    {
      "epoch": 0.2548,
      "grad_norm": 1.5155597925186157,
      "learning_rate": 0.00014907312736163591,
      "loss": 2.1841,
      "step": 11466
    },
    {
      "epoch": 0.2548222222222222,
      "grad_norm": 1.5341423749923706,
      "learning_rate": 0.00014906868192931765,
      "loss": 1.945,
      "step": 11467
    },
    {
      "epoch": 0.25484444444444443,
      "grad_norm": 1.38799250125885,
      "learning_rate": 0.00014906423649699933,
      "loss": 2.1406,
      "step": 11468
    },
    {
      "epoch": 0.2548666666666667,
      "grad_norm": 1.4259291887283325,
      "learning_rate": 0.00014905979106468104,
      "loss": 2.0649,
      "step": 11469
    },
    {
      "epoch": 0.2548888888888889,
      "grad_norm": 1.4570748805999756,
      "learning_rate": 0.00014905534563236275,
      "loss": 2.2897,
      "step": 11470
    },
    {
      "epoch": 0.2549111111111111,
      "grad_norm": 1.4311504364013672,
      "learning_rate": 0.00014905090020004446,
      "loss": 2.0975,
      "step": 11471
    },
    {
      "epoch": 0.25493333333333335,
      "grad_norm": 1.352913737297058,
      "learning_rate": 0.00014904645476772617,
      "loss": 2.0113,
      "step": 11472
    },
    {
      "epoch": 0.25495555555555555,
      "grad_norm": 1.4704591035842896,
      "learning_rate": 0.00014904200933540788,
      "loss": 1.9358,
      "step": 11473
    },
    {
      "epoch": 0.2549777777777778,
      "grad_norm": 1.2436681985855103,
      "learning_rate": 0.0001490375639030896,
      "loss": 1.9519,
      "step": 11474
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.44140625,
      "learning_rate": 0.00014903311847077127,
      "loss": 1.951,
      "step": 11475
    },
    {
      "epoch": 0.2550222222222222,
      "grad_norm": 1.4596705436706543,
      "learning_rate": 0.000149028673038453,
      "loss": 1.9116,
      "step": 11476
    },
    {
      "epoch": 0.25504444444444446,
      "grad_norm": 2.1964526176452637,
      "learning_rate": 0.0001490242276061347,
      "loss": 1.7092,
      "step": 11477
    },
    {
      "epoch": 0.25506666666666666,
      "grad_norm": 1.6315548419952393,
      "learning_rate": 0.0001490197821738164,
      "loss": 2.1668,
      "step": 11478
    },
    {
      "epoch": 0.25508888888888887,
      "grad_norm": 1.638580560684204,
      "learning_rate": 0.0001490153367414981,
      "loss": 1.6173,
      "step": 11479
    },
    {
      "epoch": 0.2551111111111111,
      "grad_norm": 1.372983694076538,
      "learning_rate": 0.00014901089130917982,
      "loss": 1.5814,
      "step": 11480
    },
    {
      "epoch": 0.2551333333333333,
      "grad_norm": 1.3756673336029053,
      "learning_rate": 0.00014900644587686153,
      "loss": 1.6755,
      "step": 11481
    },
    {
      "epoch": 0.2551555555555556,
      "grad_norm": 1.5348831415176392,
      "learning_rate": 0.00014900200044454324,
      "loss": 1.6015,
      "step": 11482
    },
    {
      "epoch": 0.2551777777777778,
      "grad_norm": 1.4219584465026855,
      "learning_rate": 0.00014899755501222495,
      "loss": 1.9291,
      "step": 11483
    },
    {
      "epoch": 0.2552,
      "grad_norm": 1.7937395572662354,
      "learning_rate": 0.00014899310957990663,
      "loss": 2.1277,
      "step": 11484
    },
    {
      "epoch": 0.25522222222222224,
      "grad_norm": 1.3227051496505737,
      "learning_rate": 0.00014898866414758837,
      "loss": 0.8339,
      "step": 11485
    },
    {
      "epoch": 0.25524444444444444,
      "grad_norm": 1.4944645166397095,
      "learning_rate": 0.00014898421871527005,
      "loss": 1.9707,
      "step": 11486
    },
    {
      "epoch": 0.25526666666666664,
      "grad_norm": 1.3352582454681396,
      "learning_rate": 0.0001489797732829518,
      "loss": 1.6339,
      "step": 11487
    },
    {
      "epoch": 0.2552888888888889,
      "grad_norm": 1.1890246868133545,
      "learning_rate": 0.00014897532785063347,
      "loss": 0.5597,
      "step": 11488
    },
    {
      "epoch": 0.2553111111111111,
      "grad_norm": 1.5292015075683594,
      "learning_rate": 0.00014897088241831518,
      "loss": 1.753,
      "step": 11489
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 1.4102126359939575,
      "learning_rate": 0.00014896643698599692,
      "loss": 1.6928,
      "step": 11490
    },
    {
      "epoch": 0.25535555555555556,
      "grad_norm": 1.8206944465637207,
      "learning_rate": 0.0001489619915536786,
      "loss": 1.8643,
      "step": 11491
    },
    {
      "epoch": 0.25537777777777776,
      "grad_norm": 1.6897934675216675,
      "learning_rate": 0.0001489575461213603,
      "loss": 1.6272,
      "step": 11492
    },
    {
      "epoch": 0.2554,
      "grad_norm": 1.4611338376998901,
      "learning_rate": 0.00014895310068904202,
      "loss": 1.5111,
      "step": 11493
    },
    {
      "epoch": 0.2554222222222222,
      "grad_norm": 1.3598276376724243,
      "learning_rate": 0.00014894865525672373,
      "loss": 1.3251,
      "step": 11494
    },
    {
      "epoch": 0.2554444444444444,
      "grad_norm": 1.4212344884872437,
      "learning_rate": 0.0001489442098244054,
      "loss": 1.6251,
      "step": 11495
    },
    {
      "epoch": 0.2554666666666667,
      "grad_norm": 1.8218547105789185,
      "learning_rate": 0.00014893976439208715,
      "loss": 1.8971,
      "step": 11496
    },
    {
      "epoch": 0.2554888888888889,
      "grad_norm": 1.2922669649124146,
      "learning_rate": 0.00014893531895976883,
      "loss": 1.0596,
      "step": 11497
    },
    {
      "epoch": 0.25551111111111113,
      "grad_norm": 1.5462517738342285,
      "learning_rate": 0.00014893087352745054,
      "loss": 1.491,
      "step": 11498
    },
    {
      "epoch": 0.25553333333333333,
      "grad_norm": 1.4884271621704102,
      "learning_rate": 0.00014892642809513228,
      "loss": 1.0454,
      "step": 11499
    },
    {
      "epoch": 0.25555555555555554,
      "grad_norm": 1.5403201580047607,
      "learning_rate": 0.00014892198266281396,
      "loss": 1.5963,
      "step": 11500
    },
    {
      "epoch": 0.2555777777777778,
      "grad_norm": 1.4064401388168335,
      "learning_rate": 0.00014891753723049567,
      "loss": 1.8323,
      "step": 11501
    },
    {
      "epoch": 0.2556,
      "grad_norm": 1.2903845310211182,
      "learning_rate": 0.00014891309179817738,
      "loss": 2.3847,
      "step": 11502
    },
    {
      "epoch": 0.2556222222222222,
      "grad_norm": 1.3043155670166016,
      "learning_rate": 0.0001489086463658591,
      "loss": 2.1855,
      "step": 11503
    },
    {
      "epoch": 0.25564444444444445,
      "grad_norm": 1.2634129524230957,
      "learning_rate": 0.0001489042009335408,
      "loss": 2.1392,
      "step": 11504
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 1.2044354677200317,
      "learning_rate": 0.0001488997555012225,
      "loss": 1.3166,
      "step": 11505
    },
    {
      "epoch": 0.2556888888888889,
      "grad_norm": 1.5226467847824097,
      "learning_rate": 0.0001488953100689042,
      "loss": 2.4253,
      "step": 11506
    },
    {
      "epoch": 0.2557111111111111,
      "grad_norm": 1.5679339170455933,
      "learning_rate": 0.00014889086463658593,
      "loss": 2.3843,
      "step": 11507
    },
    {
      "epoch": 0.2557333333333333,
      "grad_norm": 1.1759727001190186,
      "learning_rate": 0.00014888641920426764,
      "loss": 2.1178,
      "step": 11508
    },
    {
      "epoch": 0.25575555555555557,
      "grad_norm": 1.4110006093978882,
      "learning_rate": 0.00014888197377194932,
      "loss": 2.255,
      "step": 11509
    },
    {
      "epoch": 0.25577777777777777,
      "grad_norm": 2.006427526473999,
      "learning_rate": 0.00014887752833963106,
      "loss": 2.3534,
      "step": 11510
    },
    {
      "epoch": 0.2558,
      "grad_norm": 1.4783294200897217,
      "learning_rate": 0.00014887308290731274,
      "loss": 2.3822,
      "step": 11511
    },
    {
      "epoch": 0.25582222222222223,
      "grad_norm": 1.256821870803833,
      "learning_rate": 0.00014886863747499445,
      "loss": 1.6308,
      "step": 11512
    },
    {
      "epoch": 0.25584444444444443,
      "grad_norm": 1.7524046897888184,
      "learning_rate": 0.00014886419204267616,
      "loss": 1.7862,
      "step": 11513
    },
    {
      "epoch": 0.2558666666666667,
      "grad_norm": 1.3927685022354126,
      "learning_rate": 0.00014885974661035787,
      "loss": 1.9963,
      "step": 11514
    },
    {
      "epoch": 0.2558888888888889,
      "grad_norm": 1.3717623949050903,
      "learning_rate": 0.00014885530117803958,
      "loss": 2.2345,
      "step": 11515
    },
    {
      "epoch": 0.2559111111111111,
      "grad_norm": 1.293935775756836,
      "learning_rate": 0.00014885085574572129,
      "loss": 2.1255,
      "step": 11516
    },
    {
      "epoch": 0.25593333333333335,
      "grad_norm": 1.2819443941116333,
      "learning_rate": 0.000148846410313403,
      "loss": 1.8804,
      "step": 11517
    },
    {
      "epoch": 0.25595555555555555,
      "grad_norm": 1.4728307723999023,
      "learning_rate": 0.00014884196488108468,
      "loss": 1.8796,
      "step": 11518
    },
    {
      "epoch": 0.2559777777777778,
      "grad_norm": 1.3851832151412964,
      "learning_rate": 0.00014883751944876642,
      "loss": 1.4478,
      "step": 11519
    },
    {
      "epoch": 0.256,
      "grad_norm": 1.4409151077270508,
      "learning_rate": 0.0001488330740164481,
      "loss": 1.557,
      "step": 11520
    },
    {
      "epoch": 0.2560222222222222,
      "grad_norm": 0.3874708116054535,
      "learning_rate": 0.0001488286285841298,
      "loss": 0.0328,
      "step": 11521
    },
    {
      "epoch": 0.25604444444444446,
      "grad_norm": 1.758113980293274,
      "learning_rate": 0.00014882418315181152,
      "loss": 2.1261,
      "step": 11522
    },
    {
      "epoch": 0.25606666666666666,
      "grad_norm": 1.8475497961044312,
      "learning_rate": 0.00014881973771949323,
      "loss": 2.3849,
      "step": 11523
    },
    {
      "epoch": 0.25608888888888887,
      "grad_norm": 1.3968268632888794,
      "learning_rate": 0.00014881529228717494,
      "loss": 2.1725,
      "step": 11524
    },
    {
      "epoch": 0.2561111111111111,
      "grad_norm": 1.333545207977295,
      "learning_rate": 0.00014881084685485665,
      "loss": 2.1404,
      "step": 11525
    },
    {
      "epoch": 0.2561333333333333,
      "grad_norm": 1.56576669216156,
      "learning_rate": 0.00014880640142253836,
      "loss": 2.356,
      "step": 11526
    },
    {
      "epoch": 0.2561555555555556,
      "grad_norm": 1.671467900276184,
      "learning_rate": 0.00014880195599022007,
      "loss": 2.4106,
      "step": 11527
    },
    {
      "epoch": 0.2561777777777778,
      "grad_norm": 1.6555367708206177,
      "learning_rate": 0.00014879751055790177,
      "loss": 2.4892,
      "step": 11528
    },
    {
      "epoch": 0.2562,
      "grad_norm": 1.3825541734695435,
      "learning_rate": 0.00014879306512558346,
      "loss": 1.6786,
      "step": 11529
    },
    {
      "epoch": 0.25622222222222224,
      "grad_norm": 1.6268709897994995,
      "learning_rate": 0.0001487886196932652,
      "loss": 1.6115,
      "step": 11530
    },
    {
      "epoch": 0.25624444444444444,
      "grad_norm": 1.48151695728302,
      "learning_rate": 0.00014878417426094688,
      "loss": 2.0363,
      "step": 11531
    },
    {
      "epoch": 0.25626666666666664,
      "grad_norm": 1.4750957489013672,
      "learning_rate": 0.00014877972882862859,
      "loss": 1.7705,
      "step": 11532
    },
    {
      "epoch": 0.2562888888888889,
      "grad_norm": 1.4221465587615967,
      "learning_rate": 0.0001487752833963103,
      "loss": 2.1478,
      "step": 11533
    },
    {
      "epoch": 0.2563111111111111,
      "grad_norm": 1.411115050315857,
      "learning_rate": 0.000148770837963992,
      "loss": 1.9421,
      "step": 11534
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 1.4929453134536743,
      "learning_rate": 0.00014876639253167371,
      "loss": 1.8798,
      "step": 11535
    },
    {
      "epoch": 0.25635555555555556,
      "grad_norm": 1.3867665529251099,
      "learning_rate": 0.00014876194709935542,
      "loss": 1.0776,
      "step": 11536
    },
    {
      "epoch": 0.25637777777777776,
      "grad_norm": 1.3656973838806152,
      "learning_rate": 0.00014875750166703713,
      "loss": 1.7698,
      "step": 11537
    },
    {
      "epoch": 0.2564,
      "grad_norm": 1.6894067525863647,
      "learning_rate": 0.00014875305623471882,
      "loss": 1.9439,
      "step": 11538
    },
    {
      "epoch": 0.2564222222222222,
      "grad_norm": 0.977576494216919,
      "learning_rate": 0.00014874861080240055,
      "loss": 0.8087,
      "step": 11539
    },
    {
      "epoch": 0.2564444444444444,
      "grad_norm": 1.3306161165237427,
      "learning_rate": 0.00014874416537008224,
      "loss": 1.5841,
      "step": 11540
    },
    {
      "epoch": 0.2564666666666667,
      "grad_norm": 1.7255315780639648,
      "learning_rate": 0.00014873971993776395,
      "loss": 1.9882,
      "step": 11541
    },
    {
      "epoch": 0.2564888888888889,
      "grad_norm": 1.338553547859192,
      "learning_rate": 0.00014873527450544566,
      "loss": 1.4725,
      "step": 11542
    },
    {
      "epoch": 0.25651111111111113,
      "grad_norm": 1.8928982019424438,
      "learning_rate": 0.00014873082907312736,
      "loss": 1.9315,
      "step": 11543
    },
    {
      "epoch": 0.25653333333333334,
      "grad_norm": 1.7438571453094482,
      "learning_rate": 0.00014872638364080907,
      "loss": 2.3274,
      "step": 11544
    },
    {
      "epoch": 0.25655555555555554,
      "grad_norm": 1.8669120073318481,
      "learning_rate": 0.00014872193820849078,
      "loss": 2.0724,
      "step": 11545
    },
    {
      "epoch": 0.2565777777777778,
      "grad_norm": 1.9396905899047852,
      "learning_rate": 0.0001487174927761725,
      "loss": 2.1831,
      "step": 11546
    },
    {
      "epoch": 0.2566,
      "grad_norm": 1.705703854560852,
      "learning_rate": 0.0001487130473438542,
      "loss": 1.9956,
      "step": 11547
    },
    {
      "epoch": 0.2566222222222222,
      "grad_norm": 2.4904210567474365,
      "learning_rate": 0.0001487086019115359,
      "loss": 2.1128,
      "step": 11548
    },
    {
      "epoch": 0.25664444444444445,
      "grad_norm": 1.6364518404006958,
      "learning_rate": 0.0001487041564792176,
      "loss": 1.6523,
      "step": 11549
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 1.287388801574707,
      "learning_rate": 0.00014869971104689933,
      "loss": 0.9932,
      "step": 11550
    },
    {
      "epoch": 0.2566888888888889,
      "grad_norm": 1.2551144361495972,
      "learning_rate": 0.00014869526561458101,
      "loss": 2.1165,
      "step": 11551
    },
    {
      "epoch": 0.2567111111111111,
      "grad_norm": 1.4019361734390259,
      "learning_rate": 0.00014869082018226272,
      "loss": 2.7912,
      "step": 11552
    },
    {
      "epoch": 0.2567333333333333,
      "grad_norm": 1.406466007232666,
      "learning_rate": 0.00014868637474994443,
      "loss": 2.0087,
      "step": 11553
    },
    {
      "epoch": 0.25675555555555557,
      "grad_norm": 1.480244517326355,
      "learning_rate": 0.00014868192931762614,
      "loss": 2.3458,
      "step": 11554
    },
    {
      "epoch": 0.25677777777777777,
      "grad_norm": 1.4850866794586182,
      "learning_rate": 0.00014867748388530785,
      "loss": 2.0352,
      "step": 11555
    },
    {
      "epoch": 0.2568,
      "grad_norm": 1.7050061225891113,
      "learning_rate": 0.00014867303845298956,
      "loss": 2.786,
      "step": 11556
    },
    {
      "epoch": 0.25682222222222223,
      "grad_norm": 1.3018122911453247,
      "learning_rate": 0.00014866859302067127,
      "loss": 1.5182,
      "step": 11557
    },
    {
      "epoch": 0.25684444444444443,
      "grad_norm": 1.5245975255966187,
      "learning_rate": 0.00014866414758835295,
      "loss": 2.2704,
      "step": 11558
    },
    {
      "epoch": 0.2568666666666667,
      "grad_norm": 1.3924542665481567,
      "learning_rate": 0.0001486597021560347,
      "loss": 2.1453,
      "step": 11559
    },
    {
      "epoch": 0.2568888888888889,
      "grad_norm": 1.674627423286438,
      "learning_rate": 0.00014865525672371637,
      "loss": 2.0663,
      "step": 11560
    },
    {
      "epoch": 0.2569111111111111,
      "grad_norm": 1.382149577140808,
      "learning_rate": 0.0001486508112913981,
      "loss": 2.1717,
      "step": 11561
    },
    {
      "epoch": 0.25693333333333335,
      "grad_norm": 1.186317801475525,
      "learning_rate": 0.0001486463658590798,
      "loss": 1.7627,
      "step": 11562
    },
    {
      "epoch": 0.25695555555555555,
      "grad_norm": 1.5710928440093994,
      "learning_rate": 0.0001486419204267615,
      "loss": 2.5614,
      "step": 11563
    },
    {
      "epoch": 0.2569777777777778,
      "grad_norm": 1.3561732769012451,
      "learning_rate": 0.00014863747499444324,
      "loss": 1.9775,
      "step": 11564
    },
    {
      "epoch": 0.257,
      "grad_norm": 1.8466845750808716,
      "learning_rate": 0.00014863302956212492,
      "loss": 1.7387,
      "step": 11565
    },
    {
      "epoch": 0.2570222222222222,
      "grad_norm": 2.056706428527832,
      "learning_rate": 0.00014862858412980663,
      "loss": 1.7513,
      "step": 11566
    },
    {
      "epoch": 0.25704444444444446,
      "grad_norm": 1.6136456727981567,
      "learning_rate": 0.00014862413869748834,
      "loss": 2.2982,
      "step": 11567
    },
    {
      "epoch": 0.25706666666666667,
      "grad_norm": 1.7276074886322021,
      "learning_rate": 0.00014861969326517005,
      "loss": 1.7312,
      "step": 11568
    },
    {
      "epoch": 0.25708888888888887,
      "grad_norm": 1.440683364868164,
      "learning_rate": 0.00014861524783285173,
      "loss": 1.994,
      "step": 11569
    },
    {
      "epoch": 0.2571111111111111,
      "grad_norm": 1.2710939645767212,
      "learning_rate": 0.00014861080240053347,
      "loss": 1.9302,
      "step": 11570
    },
    {
      "epoch": 0.2571333333333333,
      "grad_norm": 1.5366404056549072,
      "learning_rate": 0.00014860635696821515,
      "loss": 2.0497,
      "step": 11571
    },
    {
      "epoch": 0.2571555555555556,
      "grad_norm": 1.4786256551742554,
      "learning_rate": 0.00014860191153589686,
      "loss": 1.7714,
      "step": 11572
    },
    {
      "epoch": 0.2571777777777778,
      "grad_norm": 1.3906402587890625,
      "learning_rate": 0.0001485974661035786,
      "loss": 2.0287,
      "step": 11573
    },
    {
      "epoch": 0.2572,
      "grad_norm": 1.3237487077713013,
      "learning_rate": 0.00014859302067126028,
      "loss": 2.0248,
      "step": 11574
    },
    {
      "epoch": 0.25722222222222224,
      "grad_norm": 1.5392897129058838,
      "learning_rate": 0.000148588575238942,
      "loss": 2.0071,
      "step": 11575
    },
    {
      "epoch": 0.25724444444444444,
      "grad_norm": 1.4871394634246826,
      "learning_rate": 0.0001485841298066237,
      "loss": 1.9561,
      "step": 11576
    },
    {
      "epoch": 0.25726666666666664,
      "grad_norm": 1.221522331237793,
      "learning_rate": 0.0001485796843743054,
      "loss": 1.6515,
      "step": 11577
    },
    {
      "epoch": 0.2572888888888889,
      "grad_norm": 1.6967968940734863,
      "learning_rate": 0.0001485752389419871,
      "loss": 1.9919,
      "step": 11578
    },
    {
      "epoch": 0.2573111111111111,
      "grad_norm": 1.5957117080688477,
      "learning_rate": 0.00014857079350966883,
      "loss": 1.9198,
      "step": 11579
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 1.5092427730560303,
      "learning_rate": 0.0001485663480773505,
      "loss": 1.5577,
      "step": 11580
    },
    {
      "epoch": 0.25735555555555556,
      "grad_norm": 1.66835618019104,
      "learning_rate": 0.00014856190264503225,
      "loss": 2.0672,
      "step": 11581
    },
    {
      "epoch": 0.25737777777777776,
      "grad_norm": 1.261151909828186,
      "learning_rate": 0.00014855745721271396,
      "loss": 1.4385,
      "step": 11582
    },
    {
      "epoch": 0.2574,
      "grad_norm": 1.5892236232757568,
      "learning_rate": 0.00014855301178039564,
      "loss": 1.8748,
      "step": 11583
    },
    {
      "epoch": 0.2574222222222222,
      "grad_norm": 1.3436542749404907,
      "learning_rate": 0.00014854856634807738,
      "loss": 1.5173,
      "step": 11584
    },
    {
      "epoch": 0.2574444444444444,
      "grad_norm": 1.647047758102417,
      "learning_rate": 0.00014854412091575906,
      "loss": 1.9026,
      "step": 11585
    },
    {
      "epoch": 0.2574666666666667,
      "grad_norm": 1.6867389678955078,
      "learning_rate": 0.00014853967548344077,
      "loss": 1.9186,
      "step": 11586
    },
    {
      "epoch": 0.2574888888888889,
      "grad_norm": 1.511328935623169,
      "learning_rate": 0.00014853523005112248,
      "loss": 1.922,
      "step": 11587
    },
    {
      "epoch": 0.25751111111111114,
      "grad_norm": 1.1124211549758911,
      "learning_rate": 0.0001485307846188042,
      "loss": 0.6621,
      "step": 11588
    },
    {
      "epoch": 0.25753333333333334,
      "grad_norm": 1.7619150876998901,
      "learning_rate": 0.0001485263391864859,
      "loss": 2.1473,
      "step": 11589
    },
    {
      "epoch": 0.25755555555555554,
      "grad_norm": 1.3638570308685303,
      "learning_rate": 0.0001485218937541676,
      "loss": 1.567,
      "step": 11590
    },
    {
      "epoch": 0.2575777777777778,
      "grad_norm": 1.5194247961044312,
      "learning_rate": 0.00014851744832184932,
      "loss": 1.4123,
      "step": 11591
    },
    {
      "epoch": 0.2576,
      "grad_norm": 1.668318510055542,
      "learning_rate": 0.000148513002889531,
      "loss": 1.9627,
      "step": 11592
    },
    {
      "epoch": 0.2576222222222222,
      "grad_norm": 1.998646855354309,
      "learning_rate": 0.00014850855745721274,
      "loss": 2.2242,
      "step": 11593
    },
    {
      "epoch": 0.25764444444444445,
      "grad_norm": 1.831828236579895,
      "learning_rate": 0.00014850411202489442,
      "loss": 2.1689,
      "step": 11594
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 1.6961029767990112,
      "learning_rate": 0.00014849966659257613,
      "loss": 1.6647,
      "step": 11595
    },
    {
      "epoch": 0.2576888888888889,
      "grad_norm": 1.720653772354126,
      "learning_rate": 0.00014849522116025784,
      "loss": 1.8135,
      "step": 11596
    },
    {
      "epoch": 0.2577111111111111,
      "grad_norm": 1.7125492095947266,
      "learning_rate": 0.00014849077572793955,
      "loss": 1.9533,
      "step": 11597
    },
    {
      "epoch": 0.2577333333333333,
      "grad_norm": 1.1126307249069214,
      "learning_rate": 0.00014848633029562126,
      "loss": 1.0105,
      "step": 11598
    },
    {
      "epoch": 0.25775555555555557,
      "grad_norm": 1.6150728464126587,
      "learning_rate": 0.00014848188486330297,
      "loss": 1.7158,
      "step": 11599
    },
    {
      "epoch": 0.2577777777777778,
      "grad_norm": 1.3652265071868896,
      "learning_rate": 0.00014847743943098468,
      "loss": 1.005,
      "step": 11600
    },
    {
      "epoch": 0.2578,
      "grad_norm": 1.552646517753601,
      "learning_rate": 0.0001484729939986664,
      "loss": 2.5568,
      "step": 11601
    },
    {
      "epoch": 0.25782222222222223,
      "grad_norm": 1.2692041397094727,
      "learning_rate": 0.0001484685485663481,
      "loss": 2.1966,
      "step": 11602
    },
    {
      "epoch": 0.25784444444444443,
      "grad_norm": 1.1972095966339111,
      "learning_rate": 0.00014846410313402978,
      "loss": 1.8684,
      "step": 11603
    },
    {
      "epoch": 0.2578666666666667,
      "grad_norm": 3.649423122406006,
      "learning_rate": 0.00014845965770171152,
      "loss": 1.4071,
      "step": 11604
    },
    {
      "epoch": 0.2578888888888889,
      "grad_norm": 1.522159457206726,
      "learning_rate": 0.0001484552122693932,
      "loss": 2.7105,
      "step": 11605
    },
    {
      "epoch": 0.2579111111111111,
      "grad_norm": 1.2489317655563354,
      "learning_rate": 0.0001484507668370749,
      "loss": 2.0526,
      "step": 11606
    },
    {
      "epoch": 0.25793333333333335,
      "grad_norm": 1.1491774320602417,
      "learning_rate": 0.00014844632140475662,
      "loss": 1.8799,
      "step": 11607
    },
    {
      "epoch": 0.25795555555555555,
      "grad_norm": 1.5034239292144775,
      "learning_rate": 0.00014844187597243833,
      "loss": 2.3754,
      "step": 11608
    },
    {
      "epoch": 0.25797777777777775,
      "grad_norm": 1.3947125673294067,
      "learning_rate": 0.00014843743054012004,
      "loss": 1.9724,
      "step": 11609
    },
    {
      "epoch": 0.258,
      "grad_norm": 1.9667413234710693,
      "learning_rate": 0.00014843298510780175,
      "loss": 2.7965,
      "step": 11610
    },
    {
      "epoch": 0.2580222222222222,
      "grad_norm": 2.7682809829711914,
      "learning_rate": 0.00014842853967548346,
      "loss": 2.6299,
      "step": 11611
    },
    {
      "epoch": 0.25804444444444447,
      "grad_norm": 1.6693639755249023,
      "learning_rate": 0.00014842409424316514,
      "loss": 2.5368,
      "step": 11612
    },
    {
      "epoch": 0.25806666666666667,
      "grad_norm": 1.6416070461273193,
      "learning_rate": 0.00014841964881084688,
      "loss": 2.1778,
      "step": 11613
    },
    {
      "epoch": 0.25808888888888887,
      "grad_norm": 1.3421906232833862,
      "learning_rate": 0.00014841520337852856,
      "loss": 2.2479,
      "step": 11614
    },
    {
      "epoch": 0.2581111111111111,
      "grad_norm": 1.4894143342971802,
      "learning_rate": 0.00014841075794621027,
      "loss": 2.0657,
      "step": 11615
    },
    {
      "epoch": 0.2581333333333333,
      "grad_norm": 1.2558419704437256,
      "learning_rate": 0.00014840631251389198,
      "loss": 1.8568,
      "step": 11616
    },
    {
      "epoch": 0.2581555555555556,
      "grad_norm": 1.3968274593353271,
      "learning_rate": 0.0001484018670815737,
      "loss": 2.1982,
      "step": 11617
    },
    {
      "epoch": 0.2581777777777778,
      "grad_norm": 1.3883131742477417,
      "learning_rate": 0.0001483974216492554,
      "loss": 2.2197,
      "step": 11618
    },
    {
      "epoch": 0.2582,
      "grad_norm": 1.445236086845398,
      "learning_rate": 0.0001483929762169371,
      "loss": 1.557,
      "step": 11619
    },
    {
      "epoch": 0.25822222222222224,
      "grad_norm": 1.5969499349594116,
      "learning_rate": 0.00014838853078461882,
      "loss": 2.1499,
      "step": 11620
    },
    {
      "epoch": 0.25824444444444444,
      "grad_norm": 1.6800862550735474,
      "learning_rate": 0.00014838408535230053,
      "loss": 2.4425,
      "step": 11621
    },
    {
      "epoch": 0.25826666666666664,
      "grad_norm": 1.293238639831543,
      "learning_rate": 0.00014837963991998223,
      "loss": 1.8098,
      "step": 11622
    },
    {
      "epoch": 0.2582888888888889,
      "grad_norm": 1.6600936651229858,
      "learning_rate": 0.00014837519448766392,
      "loss": 2.473,
      "step": 11623
    },
    {
      "epoch": 0.2583111111111111,
      "grad_norm": 1.8086119890213013,
      "learning_rate": 0.00014837074905534565,
      "loss": 1.8168,
      "step": 11624
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 1.3861937522888184,
      "learning_rate": 0.00014836630362302734,
      "loss": 2.5161,
      "step": 11625
    },
    {
      "epoch": 0.25835555555555556,
      "grad_norm": 1.6173540353775024,
      "learning_rate": 0.00014836185819070905,
      "loss": 2.7044,
      "step": 11626
    },
    {
      "epoch": 0.25837777777777776,
      "grad_norm": 1.316686987876892,
      "learning_rate": 0.00014835741275839076,
      "loss": 1.7826,
      "step": 11627
    },
    {
      "epoch": 0.2584,
      "grad_norm": 1.7624245882034302,
      "learning_rate": 0.00014835296732607247,
      "loss": 2.3775,
      "step": 11628
    },
    {
      "epoch": 0.2584222222222222,
      "grad_norm": 1.390233039855957,
      "learning_rate": 0.00014834852189375418,
      "loss": 1.8062,
      "step": 11629
    },
    {
      "epoch": 0.2584444444444444,
      "grad_norm": 1.4886618852615356,
      "learning_rate": 0.00014834407646143588,
      "loss": 2.2465,
      "step": 11630
    },
    {
      "epoch": 0.2584666666666667,
      "grad_norm": 1.0563056468963623,
      "learning_rate": 0.0001483396310291176,
      "loss": 1.0975,
      "step": 11631
    },
    {
      "epoch": 0.2584888888888889,
      "grad_norm": 1.6911407709121704,
      "learning_rate": 0.00014833518559679928,
      "loss": 1.8463,
      "step": 11632
    },
    {
      "epoch": 0.25851111111111114,
      "grad_norm": 1.466752290725708,
      "learning_rate": 0.00014833074016448101,
      "loss": 1.8535,
      "step": 11633
    },
    {
      "epoch": 0.25853333333333334,
      "grad_norm": 1.608717918395996,
      "learning_rate": 0.0001483262947321627,
      "loss": 1.7781,
      "step": 11634
    },
    {
      "epoch": 0.25855555555555554,
      "grad_norm": 1.5924474000930786,
      "learning_rate": 0.0001483218492998444,
      "loss": 2.0458,
      "step": 11635
    },
    {
      "epoch": 0.2585777777777778,
      "grad_norm": 1.2950506210327148,
      "learning_rate": 0.00014831740386752612,
      "loss": 1.8266,
      "step": 11636
    },
    {
      "epoch": 0.2586,
      "grad_norm": 1.4342154264450073,
      "learning_rate": 0.00014831295843520783,
      "loss": 1.8471,
      "step": 11637
    },
    {
      "epoch": 0.2586222222222222,
      "grad_norm": 1.4326891899108887,
      "learning_rate": 0.00014830851300288956,
      "loss": 1.6471,
      "step": 11638
    },
    {
      "epoch": 0.25864444444444445,
      "grad_norm": 1.6327663660049438,
      "learning_rate": 0.00014830406757057124,
      "loss": 2.1191,
      "step": 11639
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 1.3440428972244263,
      "learning_rate": 0.00014829962213825295,
      "loss": 1.5384,
      "step": 11640
    },
    {
      "epoch": 0.2586888888888889,
      "grad_norm": 1.7130976915359497,
      "learning_rate": 0.00014829517670593466,
      "loss": 1.9817,
      "step": 11641
    },
    {
      "epoch": 0.2587111111111111,
      "grad_norm": 1.7190704345703125,
      "learning_rate": 0.00014829073127361637,
      "loss": 2.1457,
      "step": 11642
    },
    {
      "epoch": 0.2587333333333333,
      "grad_norm": 1.6629369258880615,
      "learning_rate": 0.00014828628584129806,
      "loss": 2.153,
      "step": 11643
    },
    {
      "epoch": 0.25875555555555557,
      "grad_norm": 1.8210272789001465,
      "learning_rate": 0.0001482818404089798,
      "loss": 2.179,
      "step": 11644
    },
    {
      "epoch": 0.2587777777777778,
      "grad_norm": 1.605859398841858,
      "learning_rate": 0.00014827739497666147,
      "loss": 1.9591,
      "step": 11645
    },
    {
      "epoch": 0.2588,
      "grad_norm": 1.6204545497894287,
      "learning_rate": 0.00014827294954434318,
      "loss": 1.9613,
      "step": 11646
    },
    {
      "epoch": 0.25882222222222223,
      "grad_norm": 1.6311891078948975,
      "learning_rate": 0.00014826850411202492,
      "loss": 1.7159,
      "step": 11647
    },
    {
      "epoch": 0.25884444444444443,
      "grad_norm": 1.7895104885101318,
      "learning_rate": 0.0001482640586797066,
      "loss": 1.8478,
      "step": 11648
    },
    {
      "epoch": 0.2588666666666667,
      "grad_norm": 1.9526287317276,
      "learning_rate": 0.0001482596132473883,
      "loss": 2.2341,
      "step": 11649
    },
    {
      "epoch": 0.2588888888888889,
      "grad_norm": 1.174470067024231,
      "learning_rate": 0.00014825516781507002,
      "loss": 0.5225,
      "step": 11650
    },
    {
      "epoch": 0.2589111111111111,
      "grad_norm": 1.1819456815719604,
      "learning_rate": 0.00014825072238275173,
      "loss": 2.8211,
      "step": 11651
    },
    {
      "epoch": 0.25893333333333335,
      "grad_norm": 1.4607733488082886,
      "learning_rate": 0.00014824627695043342,
      "loss": 2.3802,
      "step": 11652
    },
    {
      "epoch": 0.25895555555555555,
      "grad_norm": 0.8637169599533081,
      "learning_rate": 0.00014824183151811515,
      "loss": 1.0659,
      "step": 11653
    },
    {
      "epoch": 0.25897777777777775,
      "grad_norm": 1.395449161529541,
      "learning_rate": 0.00014823738608579683,
      "loss": 2.3907,
      "step": 11654
    },
    {
      "epoch": 0.259,
      "grad_norm": 1.3605821132659912,
      "learning_rate": 0.00014823294065347854,
      "loss": 1.9538,
      "step": 11655
    },
    {
      "epoch": 0.2590222222222222,
      "grad_norm": 1.670589804649353,
      "learning_rate": 0.00014822849522116028,
      "loss": 2.5741,
      "step": 11656
    },
    {
      "epoch": 0.25904444444444447,
      "grad_norm": 1.2899746894836426,
      "learning_rate": 0.00014822404978884196,
      "loss": 2.153,
      "step": 11657
    },
    {
      "epoch": 0.25906666666666667,
      "grad_norm": 1.316550850868225,
      "learning_rate": 0.0001482196043565237,
      "loss": 1.9401,
      "step": 11658
    },
    {
      "epoch": 0.25908888888888887,
      "grad_norm": 1.477339506149292,
      "learning_rate": 0.00014821515892420538,
      "loss": 2.1202,
      "step": 11659
    },
    {
      "epoch": 0.2591111111111111,
      "grad_norm": 1.3875906467437744,
      "learning_rate": 0.0001482107134918871,
      "loss": 2.5169,
      "step": 11660
    },
    {
      "epoch": 0.2591333333333333,
      "grad_norm": 1.1399272680282593,
      "learning_rate": 0.0001482062680595688,
      "loss": 1.4975,
      "step": 11661
    },
    {
      "epoch": 0.25915555555555553,
      "grad_norm": 1.545772910118103,
      "learning_rate": 0.0001482018226272505,
      "loss": 2.1504,
      "step": 11662
    },
    {
      "epoch": 0.2591777777777778,
      "grad_norm": 1.2079821825027466,
      "learning_rate": 0.00014819737719493222,
      "loss": 1.8241,
      "step": 11663
    },
    {
      "epoch": 0.2592,
      "grad_norm": 1.2798384428024292,
      "learning_rate": 0.00014819293176261393,
      "loss": 2.3109,
      "step": 11664
    },
    {
      "epoch": 0.25922222222222224,
      "grad_norm": 1.4982305765151978,
      "learning_rate": 0.00014818848633029564,
      "loss": 2.2649,
      "step": 11665
    },
    {
      "epoch": 0.25924444444444444,
      "grad_norm": 1.5440703630447388,
      "learning_rate": 0.00014818404089797732,
      "loss": 2.4378,
      "step": 11666
    },
    {
      "epoch": 0.25926666666666665,
      "grad_norm": 1.5768378973007202,
      "learning_rate": 0.00014817959546565906,
      "loss": 2.1111,
      "step": 11667
    },
    {
      "epoch": 0.2592888888888889,
      "grad_norm": 1.831823706626892,
      "learning_rate": 0.00014817515003334074,
      "loss": 2.2769,
      "step": 11668
    },
    {
      "epoch": 0.2593111111111111,
      "grad_norm": 1.4211225509643555,
      "learning_rate": 0.00014817070460102245,
      "loss": 1.7909,
      "step": 11669
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 1.2739112377166748,
      "learning_rate": 0.00014816625916870416,
      "loss": 1.7356,
      "step": 11670
    },
    {
      "epoch": 0.25935555555555556,
      "grad_norm": 1.430518627166748,
      "learning_rate": 0.00014816181373638587,
      "loss": 2.1514,
      "step": 11671
    },
    {
      "epoch": 0.25937777777777776,
      "grad_norm": 1.6747872829437256,
      "learning_rate": 0.00014815736830406758,
      "loss": 2.1263,
      "step": 11672
    },
    {
      "epoch": 0.2594,
      "grad_norm": 1.3923234939575195,
      "learning_rate": 0.0001481529228717493,
      "loss": 1.9731,
      "step": 11673
    },
    {
      "epoch": 0.2594222222222222,
      "grad_norm": 1.5542287826538086,
      "learning_rate": 0.000148148477439431,
      "loss": 2.1687,
      "step": 11674
    },
    {
      "epoch": 0.2594444444444444,
      "grad_norm": 1.558925986289978,
      "learning_rate": 0.0001481440320071127,
      "loss": 1.7592,
      "step": 11675
    },
    {
      "epoch": 0.2594666666666667,
      "grad_norm": 1.6371155977249146,
      "learning_rate": 0.00014813958657479442,
      "loss": 2.274,
      "step": 11676
    },
    {
      "epoch": 0.2594888888888889,
      "grad_norm": 1.720375895500183,
      "learning_rate": 0.0001481351411424761,
      "loss": 2.2116,
      "step": 11677
    },
    {
      "epoch": 0.25951111111111114,
      "grad_norm": 1.7005499601364136,
      "learning_rate": 0.00014813069571015784,
      "loss": 1.967,
      "step": 11678
    },
    {
      "epoch": 0.25953333333333334,
      "grad_norm": 1.930315375328064,
      "learning_rate": 0.00014812625027783952,
      "loss": 2.2754,
      "step": 11679
    },
    {
      "epoch": 0.25955555555555554,
      "grad_norm": 1.3547279834747314,
      "learning_rate": 0.00014812180484552123,
      "loss": 1.9566,
      "step": 11680
    },
    {
      "epoch": 0.2595777777777778,
      "grad_norm": 1.5107035636901855,
      "learning_rate": 0.00014811735941320294,
      "loss": 1.4394,
      "step": 11681
    },
    {
      "epoch": 0.2596,
      "grad_norm": 1.3049840927124023,
      "learning_rate": 0.00014811291398088465,
      "loss": 2.0137,
      "step": 11682
    },
    {
      "epoch": 0.2596222222222222,
      "grad_norm": 1.2481902837753296,
      "learning_rate": 0.00014810846854856636,
      "loss": 1.8312,
      "step": 11683
    },
    {
      "epoch": 0.25964444444444446,
      "grad_norm": 1.4833041429519653,
      "learning_rate": 0.00014810402311624807,
      "loss": 1.9796,
      "step": 11684
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 1.684562087059021,
      "learning_rate": 0.00014809957768392978,
      "loss": 2.6829,
      "step": 11685
    },
    {
      "epoch": 0.2596888888888889,
      "grad_norm": 1.670853614807129,
      "learning_rate": 0.00014809513225161146,
      "loss": 2.2369,
      "step": 11686
    },
    {
      "epoch": 0.2597111111111111,
      "grad_norm": 1.9205145835876465,
      "learning_rate": 0.0001480906868192932,
      "loss": 2.407,
      "step": 11687
    },
    {
      "epoch": 0.2597333333333333,
      "grad_norm": 1.391032338142395,
      "learning_rate": 0.00014808624138697488,
      "loss": 1.8084,
      "step": 11688
    },
    {
      "epoch": 0.2597555555555556,
      "grad_norm": 1.7134064435958862,
      "learning_rate": 0.0001480817959546566,
      "loss": 2.0548,
      "step": 11689
    },
    {
      "epoch": 0.2597777777777778,
      "grad_norm": 1.473469614982605,
      "learning_rate": 0.0001480773505223383,
      "loss": 1.8858,
      "step": 11690
    },
    {
      "epoch": 0.2598,
      "grad_norm": 0.17999055981636047,
      "learning_rate": 0.00014807290509002,
      "loss": 0.0352,
      "step": 11691
    },
    {
      "epoch": 0.25982222222222223,
      "grad_norm": 1.8348819017410278,
      "learning_rate": 0.00014806845965770172,
      "loss": 2.47,
      "step": 11692
    },
    {
      "epoch": 0.25984444444444443,
      "grad_norm": 2.0372660160064697,
      "learning_rate": 0.00014806401422538343,
      "loss": 2.0473,
      "step": 11693
    },
    {
      "epoch": 0.2598666666666667,
      "grad_norm": 1.5666197538375854,
      "learning_rate": 0.00014805956879306514,
      "loss": 2.1008,
      "step": 11694
    },
    {
      "epoch": 0.2598888888888889,
      "grad_norm": 1.8346620798110962,
      "learning_rate": 0.00014805512336074685,
      "loss": 2.0578,
      "step": 11695
    },
    {
      "epoch": 0.2599111111111111,
      "grad_norm": 1.5303682088851929,
      "learning_rate": 0.00014805067792842856,
      "loss": 1.9922,
      "step": 11696
    },
    {
      "epoch": 0.25993333333333335,
      "grad_norm": 1.7839140892028809,
      "learning_rate": 0.00014804623249611024,
      "loss": 2.3196,
      "step": 11697
    },
    {
      "epoch": 0.25995555555555555,
      "grad_norm": 1.0782500505447388,
      "learning_rate": 0.00014804178706379198,
      "loss": 1.0373,
      "step": 11698
    },
    {
      "epoch": 0.25997777777777775,
      "grad_norm": 1.2809247970581055,
      "learning_rate": 0.00014803734163147366,
      "loss": 0.9523,
      "step": 11699
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3299092054367065,
      "learning_rate": 0.00014803289619915537,
      "loss": 1.1971,
      "step": 11700
    },
    {
      "epoch": 0.2600222222222222,
      "grad_norm": 1.4468994140625,
      "learning_rate": 0.00014802845076683708,
      "loss": 2.5512,
      "step": 11701
    },
    {
      "epoch": 0.26004444444444447,
      "grad_norm": 1.523645281791687,
      "learning_rate": 0.0001480240053345188,
      "loss": 2.1663,
      "step": 11702
    },
    {
      "epoch": 0.26006666666666667,
      "grad_norm": 1.298218846321106,
      "learning_rate": 0.0001480195599022005,
      "loss": 1.8252,
      "step": 11703
    },
    {
      "epoch": 0.26008888888888887,
      "grad_norm": 1.3727411031723022,
      "learning_rate": 0.0001480151144698822,
      "loss": 1.9757,
      "step": 11704
    },
    {
      "epoch": 0.2601111111111111,
      "grad_norm": 1.3056610822677612,
      "learning_rate": 0.00014801066903756392,
      "loss": 1.9609,
      "step": 11705
    },
    {
      "epoch": 0.2601333333333333,
      "grad_norm": 1.5879263877868652,
      "learning_rate": 0.0001480062236052456,
      "loss": 2.3262,
      "step": 11706
    },
    {
      "epoch": 0.26015555555555553,
      "grad_norm": 1.5752136707305908,
      "learning_rate": 0.00014800177817292734,
      "loss": 1.2757,
      "step": 11707
    },
    {
      "epoch": 0.2601777777777778,
      "grad_norm": 1.1108453273773193,
      "learning_rate": 0.00014799733274060902,
      "loss": 1.6655,
      "step": 11708
    },
    {
      "epoch": 0.2602,
      "grad_norm": 1.8984920978546143,
      "learning_rate": 0.00014799288730829073,
      "loss": 1.9566,
      "step": 11709
    },
    {
      "epoch": 0.26022222222222224,
      "grad_norm": 1.3121026754379272,
      "learning_rate": 0.00014798844187597244,
      "loss": 1.9064,
      "step": 11710
    },
    {
      "epoch": 0.26024444444444444,
      "grad_norm": 1.236280918121338,
      "learning_rate": 0.00014798399644365415,
      "loss": 1.7958,
      "step": 11711
    },
    {
      "epoch": 0.26026666666666665,
      "grad_norm": 1.4290310144424438,
      "learning_rate": 0.00014797955101133586,
      "loss": 2.1603,
      "step": 11712
    },
    {
      "epoch": 0.2602888888888889,
      "grad_norm": 1.7421575784683228,
      "learning_rate": 0.00014797510557901757,
      "loss": 2.3558,
      "step": 11713
    },
    {
      "epoch": 0.2603111111111111,
      "grad_norm": 1.4564985036849976,
      "learning_rate": 0.00014797066014669928,
      "loss": 2.1014,
      "step": 11714
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 1.5105531215667725,
      "learning_rate": 0.00014796621471438099,
      "loss": 2.2342,
      "step": 11715
    },
    {
      "epoch": 0.26035555555555556,
      "grad_norm": 1.3277274370193481,
      "learning_rate": 0.0001479617692820627,
      "loss": 1.6664,
      "step": 11716
    },
    {
      "epoch": 0.26037777777777776,
      "grad_norm": 1.2563467025756836,
      "learning_rate": 0.00014795732384974438,
      "loss": 1.5705,
      "step": 11717
    },
    {
      "epoch": 0.2604,
      "grad_norm": 1.4189420938491821,
      "learning_rate": 0.00014795287841742611,
      "loss": 2.3033,
      "step": 11718
    },
    {
      "epoch": 0.2604222222222222,
      "grad_norm": 1.5787217617034912,
      "learning_rate": 0.0001479484329851078,
      "loss": 2.1615,
      "step": 11719
    },
    {
      "epoch": 0.2604444444444444,
      "grad_norm": 1.6474086046218872,
      "learning_rate": 0.0001479439875527895,
      "loss": 1.9546,
      "step": 11720
    },
    {
      "epoch": 0.2604666666666667,
      "grad_norm": 1.3785682916641235,
      "learning_rate": 0.00014793954212047124,
      "loss": 1.719,
      "step": 11721
    },
    {
      "epoch": 0.2604888888888889,
      "grad_norm": 1.4545369148254395,
      "learning_rate": 0.00014793509668815293,
      "loss": 2.1524,
      "step": 11722
    },
    {
      "epoch": 0.26051111111111114,
      "grad_norm": 1.4619139432907104,
      "learning_rate": 0.00014793065125583464,
      "loss": 2.2518,
      "step": 11723
    },
    {
      "epoch": 0.26053333333333334,
      "grad_norm": 1.644361138343811,
      "learning_rate": 0.00014792620582351635,
      "loss": 1.992,
      "step": 11724
    },
    {
      "epoch": 0.26055555555555554,
      "grad_norm": 1.4215871095657349,
      "learning_rate": 0.00014792176039119805,
      "loss": 1.9701,
      "step": 11725
    },
    {
      "epoch": 0.2605777777777778,
      "grad_norm": 1.5354937314987183,
      "learning_rate": 0.00014791731495887974,
      "loss": 2.092,
      "step": 11726
    },
    {
      "epoch": 0.2606,
      "grad_norm": 1.3617948293685913,
      "learning_rate": 0.00014791286952656147,
      "loss": 1.7787,
      "step": 11727
    },
    {
      "epoch": 0.2606222222222222,
      "grad_norm": 1.532339334487915,
      "learning_rate": 0.00014790842409424316,
      "loss": 1.4588,
      "step": 11728
    },
    {
      "epoch": 0.26064444444444446,
      "grad_norm": 1.4626293182373047,
      "learning_rate": 0.00014790397866192487,
      "loss": 1.6595,
      "step": 11729
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 1.9386276006698608,
      "learning_rate": 0.0001478995332296066,
      "loss": 1.9811,
      "step": 11730
    },
    {
      "epoch": 0.2606888888888889,
      "grad_norm": 1.5541002750396729,
      "learning_rate": 0.00014789508779728829,
      "loss": 1.9112,
      "step": 11731
    },
    {
      "epoch": 0.2607111111111111,
      "grad_norm": 1.4539815187454224,
      "learning_rate": 0.00014789064236497002,
      "loss": 1.8022,
      "step": 11732
    },
    {
      "epoch": 0.2607333333333333,
      "grad_norm": 1.2799899578094482,
      "learning_rate": 0.0001478861969326517,
      "loss": 1.1553,
      "step": 11733
    },
    {
      "epoch": 0.2607555555555556,
      "grad_norm": 1.7546354532241821,
      "learning_rate": 0.00014788175150033341,
      "loss": 1.9232,
      "step": 11734
    },
    {
      "epoch": 0.2607777777777778,
      "grad_norm": 1.625473141670227,
      "learning_rate": 0.00014787730606801512,
      "loss": 1.7491,
      "step": 11735
    },
    {
      "epoch": 0.2608,
      "grad_norm": 1.6931072473526,
      "learning_rate": 0.00014787286063569683,
      "loss": 2.238,
      "step": 11736
    },
    {
      "epoch": 0.26082222222222223,
      "grad_norm": 1.4999333620071411,
      "learning_rate": 0.00014786841520337854,
      "loss": 1.8469,
      "step": 11737
    },
    {
      "epoch": 0.26084444444444443,
      "grad_norm": 1.5657957792282104,
      "learning_rate": 0.00014786396977106025,
      "loss": 2.0265,
      "step": 11738
    },
    {
      "epoch": 0.2608666666666667,
      "grad_norm": 1.7666183710098267,
      "learning_rate": 0.00014785952433874196,
      "loss": 2.0521,
      "step": 11739
    },
    {
      "epoch": 0.2608888888888889,
      "grad_norm": 1.4413589239120483,
      "learning_rate": 0.00014785507890642364,
      "loss": 1.2925,
      "step": 11740
    },
    {
      "epoch": 0.2609111111111111,
      "grad_norm": 1.5131367444992065,
      "learning_rate": 0.00014785063347410538,
      "loss": 1.8507,
      "step": 11741
    },
    {
      "epoch": 0.26093333333333335,
      "grad_norm": 1.358744740486145,
      "learning_rate": 0.00014784618804178706,
      "loss": 1.6722,
      "step": 11742
    },
    {
      "epoch": 0.26095555555555555,
      "grad_norm": 1.410732626914978,
      "learning_rate": 0.00014784174260946877,
      "loss": 1.9385,
      "step": 11743
    },
    {
      "epoch": 0.26097777777777775,
      "grad_norm": 2.03715443611145,
      "learning_rate": 0.00014783729717715048,
      "loss": 2.0487,
      "step": 11744
    },
    {
      "epoch": 0.261,
      "grad_norm": 1.9595754146575928,
      "learning_rate": 0.0001478328517448322,
      "loss": 2.3233,
      "step": 11745
    },
    {
      "epoch": 0.2610222222222222,
      "grad_norm": 1.6836906671524048,
      "learning_rate": 0.0001478284063125139,
      "loss": 2.095,
      "step": 11746
    },
    {
      "epoch": 0.26104444444444447,
      "grad_norm": 1.626689076423645,
      "learning_rate": 0.0001478239608801956,
      "loss": 1.7859,
      "step": 11747
    },
    {
      "epoch": 0.26106666666666667,
      "grad_norm": 2.2178969383239746,
      "learning_rate": 0.00014781951544787732,
      "loss": 2.0353,
      "step": 11748
    },
    {
      "epoch": 0.26108888888888887,
      "grad_norm": 1.749598741531372,
      "learning_rate": 0.000147815070015559,
      "loss": 2.1039,
      "step": 11749
    },
    {
      "epoch": 0.2611111111111111,
      "grad_norm": 1.292297601699829,
      "learning_rate": 0.00014781062458324074,
      "loss": 0.9711,
      "step": 11750
    },
    {
      "epoch": 0.26113333333333333,
      "grad_norm": 1.408324956893921,
      "learning_rate": 0.00014780617915092242,
      "loss": 2.5203,
      "step": 11751
    },
    {
      "epoch": 0.26115555555555553,
      "grad_norm": 1.6716537475585938,
      "learning_rate": 0.00014780173371860416,
      "loss": 2.6628,
      "step": 11752
    },
    {
      "epoch": 0.2611777777777778,
      "grad_norm": 1.6145435571670532,
      "learning_rate": 0.00014779728828628584,
      "loss": 2.5205,
      "step": 11753
    },
    {
      "epoch": 0.2612,
      "grad_norm": 1.423805594444275,
      "learning_rate": 0.00014779284285396755,
      "loss": 2.3552,
      "step": 11754
    },
    {
      "epoch": 0.26122222222222224,
      "grad_norm": 1.3937652111053467,
      "learning_rate": 0.00014778839742164926,
      "loss": 2.5224,
      "step": 11755
    },
    {
      "epoch": 0.26124444444444445,
      "grad_norm": 1.3878107070922852,
      "learning_rate": 0.00014778395198933097,
      "loss": 2.5701,
      "step": 11756
    },
    {
      "epoch": 0.26126666666666665,
      "grad_norm": 1.4644170999526978,
      "learning_rate": 0.00014777950655701268,
      "loss": 2.2283,
      "step": 11757
    },
    {
      "epoch": 0.2612888888888889,
      "grad_norm": 1.2236993312835693,
      "learning_rate": 0.0001477750611246944,
      "loss": 2.0426,
      "step": 11758
    },
    {
      "epoch": 0.2613111111111111,
      "grad_norm": 1.3281646966934204,
      "learning_rate": 0.0001477706156923761,
      "loss": 1.753,
      "step": 11759
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 1.6040034294128418,
      "learning_rate": 0.00014776617026005778,
      "loss": 2.0561,
      "step": 11760
    },
    {
      "epoch": 0.26135555555555556,
      "grad_norm": 1.6748238801956177,
      "learning_rate": 0.00014776172482773952,
      "loss": 1.961,
      "step": 11761
    },
    {
      "epoch": 0.26137777777777776,
      "grad_norm": 1.391964316368103,
      "learning_rate": 0.0001477572793954212,
      "loss": 1.9382,
      "step": 11762
    },
    {
      "epoch": 0.2614,
      "grad_norm": 1.7742382287979126,
      "learning_rate": 0.0001477528339631029,
      "loss": 2.9533,
      "step": 11763
    },
    {
      "epoch": 0.2614222222222222,
      "grad_norm": 1.4943127632141113,
      "learning_rate": 0.00014774838853078462,
      "loss": 1.7329,
      "step": 11764
    },
    {
      "epoch": 0.2614444444444444,
      "grad_norm": 1.4082342386245728,
      "learning_rate": 0.00014774394309846633,
      "loss": 1.6115,
      "step": 11765
    },
    {
      "epoch": 0.2614666666666667,
      "grad_norm": 1.3917642831802368,
      "learning_rate": 0.00014773949766614804,
      "loss": 2.2162,
      "step": 11766
    },
    {
      "epoch": 0.2614888888888889,
      "grad_norm": 1.6996328830718994,
      "learning_rate": 0.00014773505223382975,
      "loss": 2.376,
      "step": 11767
    },
    {
      "epoch": 0.26151111111111114,
      "grad_norm": 0.9835783243179321,
      "learning_rate": 0.00014773060680151146,
      "loss": 1.1198,
      "step": 11768
    },
    {
      "epoch": 0.26153333333333334,
      "grad_norm": 1.045244812965393,
      "learning_rate": 0.00014772616136919314,
      "loss": 1.1736,
      "step": 11769
    },
    {
      "epoch": 0.26155555555555554,
      "grad_norm": 1.5648400783538818,
      "learning_rate": 0.00014772171593687488,
      "loss": 1.7704,
      "step": 11770
    },
    {
      "epoch": 0.2615777777777778,
      "grad_norm": 1.4015506505966187,
      "learning_rate": 0.00014771727050455656,
      "loss": 2.1426,
      "step": 11771
    },
    {
      "epoch": 0.2616,
      "grad_norm": 1.578757405281067,
      "learning_rate": 0.0001477128250722383,
      "loss": 2.1307,
      "step": 11772
    },
    {
      "epoch": 0.2616222222222222,
      "grad_norm": 1.9441924095153809,
      "learning_rate": 0.00014770837963991998,
      "loss": 1.9786,
      "step": 11773
    },
    {
      "epoch": 0.26164444444444446,
      "grad_norm": 1.577047348022461,
      "learning_rate": 0.0001477039342076017,
      "loss": 1.9274,
      "step": 11774
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 1.3441351652145386,
      "learning_rate": 0.0001476994887752834,
      "loss": 1.8853,
      "step": 11775
    },
    {
      "epoch": 0.2616888888888889,
      "grad_norm": 1.798728108406067,
      "learning_rate": 0.0001476950433429651,
      "loss": 2.2644,
      "step": 11776
    },
    {
      "epoch": 0.2617111111111111,
      "grad_norm": 1.4557331800460815,
      "learning_rate": 0.00014769059791064682,
      "loss": 2.1102,
      "step": 11777
    },
    {
      "epoch": 0.2617333333333333,
      "grad_norm": 1.4945333003997803,
      "learning_rate": 0.00014768615247832853,
      "loss": 1.7388,
      "step": 11778
    },
    {
      "epoch": 0.2617555555555556,
      "grad_norm": 1.4779568910598755,
      "learning_rate": 0.00014768170704601024,
      "loss": 2.1757,
      "step": 11779
    },
    {
      "epoch": 0.2617777777777778,
      "grad_norm": 1.5747207403182983,
      "learning_rate": 0.00014767726161369192,
      "loss": 2.2483,
      "step": 11780
    },
    {
      "epoch": 0.2618,
      "grad_norm": 1.6627781391143799,
      "learning_rate": 0.00014767281618137366,
      "loss": 2.1736,
      "step": 11781
    },
    {
      "epoch": 0.26182222222222223,
      "grad_norm": 1.4185776710510254,
      "learning_rate": 0.00014766837074905534,
      "loss": 0.9312,
      "step": 11782
    },
    {
      "epoch": 0.26184444444444444,
      "grad_norm": 1.6594334840774536,
      "learning_rate": 0.00014766392531673705,
      "loss": 2.083,
      "step": 11783
    },
    {
      "epoch": 0.2618666666666667,
      "grad_norm": 1.5432723760604858,
      "learning_rate": 0.00014765947988441876,
      "loss": 1.9573,
      "step": 11784
    },
    {
      "epoch": 0.2618888888888889,
      "grad_norm": 1.2486809492111206,
      "learning_rate": 0.00014765503445210047,
      "loss": 0.9906,
      "step": 11785
    },
    {
      "epoch": 0.2619111111111111,
      "grad_norm": 1.0557693243026733,
      "learning_rate": 0.00014765058901978218,
      "loss": 1.1255,
      "step": 11786
    },
    {
      "epoch": 0.26193333333333335,
      "grad_norm": 1.6859647035598755,
      "learning_rate": 0.0001476461435874639,
      "loss": 1.6754,
      "step": 11787
    },
    {
      "epoch": 0.26195555555555555,
      "grad_norm": 1.6401597261428833,
      "learning_rate": 0.0001476416981551456,
      "loss": 1.7095,
      "step": 11788
    },
    {
      "epoch": 0.26197777777777775,
      "grad_norm": 1.5574276447296143,
      "learning_rate": 0.0001476372527228273,
      "loss": 1.5908,
      "step": 11789
    },
    {
      "epoch": 0.262,
      "grad_norm": 1.6240146160125732,
      "learning_rate": 0.00014763280729050902,
      "loss": 1.605,
      "step": 11790
    },
    {
      "epoch": 0.2620222222222222,
      "grad_norm": 1.446986436843872,
      "learning_rate": 0.0001476283618581907,
      "loss": 1.4394,
      "step": 11791
    },
    {
      "epoch": 0.26204444444444447,
      "grad_norm": 1.7608956098556519,
      "learning_rate": 0.00014762391642587244,
      "loss": 2.1924,
      "step": 11792
    },
    {
      "epoch": 0.26206666666666667,
      "grad_norm": 1.3935271501541138,
      "learning_rate": 0.00014761947099355412,
      "loss": 1.8641,
      "step": 11793
    },
    {
      "epoch": 0.26208888888888887,
      "grad_norm": 1.534647822380066,
      "learning_rate": 0.00014761502556123583,
      "loss": 1.7705,
      "step": 11794
    },
    {
      "epoch": 0.26211111111111113,
      "grad_norm": 1.4978526830673218,
      "learning_rate": 0.00014761058012891757,
      "loss": 1.8299,
      "step": 11795
    },
    {
      "epoch": 0.26213333333333333,
      "grad_norm": 1.5385777950286865,
      "learning_rate": 0.00014760613469659925,
      "loss": 1.7947,
      "step": 11796
    },
    {
      "epoch": 0.26215555555555553,
      "grad_norm": 1.4645249843597412,
      "learning_rate": 0.00014760168926428096,
      "loss": 1.7121,
      "step": 11797
    },
    {
      "epoch": 0.2621777777777778,
      "grad_norm": 2.0965259075164795,
      "learning_rate": 0.00014759724383196267,
      "loss": 2.6594,
      "step": 11798
    },
    {
      "epoch": 0.2622,
      "grad_norm": 1.2157626152038574,
      "learning_rate": 0.00014759279839964438,
      "loss": 1.0494,
      "step": 11799
    },
    {
      "epoch": 0.26222222222222225,
      "grad_norm": 1.8744709491729736,
      "learning_rate": 0.00014758835296732606,
      "loss": 1.8358,
      "step": 11800
    },
    {
      "epoch": 0.26224444444444445,
      "grad_norm": 1.815386176109314,
      "learning_rate": 0.0001475839075350078,
      "loss": 2.9466,
      "step": 11801
    },
    {
      "epoch": 0.26226666666666665,
      "grad_norm": 1.0248665809631348,
      "learning_rate": 0.00014757946210268948,
      "loss": 1.2572,
      "step": 11802
    },
    {
      "epoch": 0.2622888888888889,
      "grad_norm": 1.2885026931762695,
      "learning_rate": 0.0001475750166703712,
      "loss": 2.3345,
      "step": 11803
    },
    {
      "epoch": 0.2623111111111111,
      "grad_norm": 1.3137736320495605,
      "learning_rate": 0.00014757057123805292,
      "loss": 2.5173,
      "step": 11804
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 1.4414161443710327,
      "learning_rate": 0.0001475661258057346,
      "loss": 2.6841,
      "step": 11805
    },
    {
      "epoch": 0.26235555555555556,
      "grad_norm": 1.3823357820510864,
      "learning_rate": 0.00014756168037341632,
      "loss": 2.331,
      "step": 11806
    },
    {
      "epoch": 0.26237777777777777,
      "grad_norm": 1.3424240350723267,
      "learning_rate": 0.00014755723494109803,
      "loss": 1.7753,
      "step": 11807
    },
    {
      "epoch": 0.2624,
      "grad_norm": 1.7954058647155762,
      "learning_rate": 0.00014755278950877974,
      "loss": 2.2786,
      "step": 11808
    },
    {
      "epoch": 0.2624222222222222,
      "grad_norm": 1.4185763597488403,
      "learning_rate": 0.00014754834407646145,
      "loss": 1.9557,
      "step": 11809
    },
    {
      "epoch": 0.2624444444444444,
      "grad_norm": 1.384068250656128,
      "learning_rate": 0.00014754389864414316,
      "loss": 2.2106,
      "step": 11810
    },
    {
      "epoch": 0.2624666666666667,
      "grad_norm": 1.7005863189697266,
      "learning_rate": 0.00014753945321182487,
      "loss": 2.4853,
      "step": 11811
    },
    {
      "epoch": 0.2624888888888889,
      "grad_norm": 1.7339093685150146,
      "learning_rate": 0.00014753500777950657,
      "loss": 2.6792,
      "step": 11812
    },
    {
      "epoch": 0.2625111111111111,
      "grad_norm": 1.3999252319335938,
      "learning_rate": 0.00014753056234718828,
      "loss": 1.9144,
      "step": 11813
    },
    {
      "epoch": 0.26253333333333334,
      "grad_norm": 1.4430644512176514,
      "learning_rate": 0.00014752611691486997,
      "loss": 2.4978,
      "step": 11814
    },
    {
      "epoch": 0.26255555555555554,
      "grad_norm": 1.378069281578064,
      "learning_rate": 0.0001475216714825517,
      "loss": 1.7695,
      "step": 11815
    },
    {
      "epoch": 0.2625777777777778,
      "grad_norm": 1.2682334184646606,
      "learning_rate": 0.00014751722605023339,
      "loss": 1.9242,
      "step": 11816
    },
    {
      "epoch": 0.2626,
      "grad_norm": 1.417384147644043,
      "learning_rate": 0.0001475127806179151,
      "loss": 1.8556,
      "step": 11817
    },
    {
      "epoch": 0.2626222222222222,
      "grad_norm": 1.2740215063095093,
      "learning_rate": 0.0001475083351855968,
      "loss": 1.9976,
      "step": 11818
    },
    {
      "epoch": 0.26264444444444446,
      "grad_norm": 1.6039875745773315,
      "learning_rate": 0.00014750388975327851,
      "loss": 2.1686,
      "step": 11819
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 1.4622681140899658,
      "learning_rate": 0.00014749944432096022,
      "loss": 2.1377,
      "step": 11820
    },
    {
      "epoch": 0.2626888888888889,
      "grad_norm": 1.373996376991272,
      "learning_rate": 0.00014749499888864193,
      "loss": 2.3102,
      "step": 11821
    },
    {
      "epoch": 0.2627111111111111,
      "grad_norm": 1.4899539947509766,
      "learning_rate": 0.00014749055345632364,
      "loss": 2.2352,
      "step": 11822
    },
    {
      "epoch": 0.2627333333333333,
      "grad_norm": 1.720927119255066,
      "learning_rate": 0.00014748610802400533,
      "loss": 2.0303,
      "step": 11823
    },
    {
      "epoch": 0.2627555555555556,
      "grad_norm": 1.3652573823928833,
      "learning_rate": 0.00014748166259168706,
      "loss": 1.5559,
      "step": 11824
    },
    {
      "epoch": 0.2627777777777778,
      "grad_norm": 1.3317465782165527,
      "learning_rate": 0.00014747721715936875,
      "loss": 1.6459,
      "step": 11825
    },
    {
      "epoch": 0.2628,
      "grad_norm": 1.5474143028259277,
      "learning_rate": 0.00014747277172705046,
      "loss": 1.9622,
      "step": 11826
    },
    {
      "epoch": 0.26282222222222223,
      "grad_norm": 1.7659149169921875,
      "learning_rate": 0.00014746832629473216,
      "loss": 1.3861,
      "step": 11827
    },
    {
      "epoch": 0.26284444444444444,
      "grad_norm": 1.4861308336257935,
      "learning_rate": 0.00014746388086241387,
      "loss": 1.9917,
      "step": 11828
    },
    {
      "epoch": 0.2628666666666667,
      "grad_norm": 1.500399112701416,
      "learning_rate": 0.00014745943543009558,
      "loss": 2.1079,
      "step": 11829
    },
    {
      "epoch": 0.2628888888888889,
      "grad_norm": 1.2728251218795776,
      "learning_rate": 0.0001474549899977773,
      "loss": 1.3798,
      "step": 11830
    },
    {
      "epoch": 0.2629111111111111,
      "grad_norm": 1.6384382247924805,
      "learning_rate": 0.000147450544565459,
      "loss": 2.2084,
      "step": 11831
    },
    {
      "epoch": 0.26293333333333335,
      "grad_norm": 1.496903896331787,
      "learning_rate": 0.0001474460991331407,
      "loss": 1.786,
      "step": 11832
    },
    {
      "epoch": 0.26295555555555555,
      "grad_norm": 1.4828275442123413,
      "learning_rate": 0.00014744165370082242,
      "loss": 2.158,
      "step": 11833
    },
    {
      "epoch": 0.26297777777777775,
      "grad_norm": 1.5327427387237549,
      "learning_rate": 0.0001474372082685041,
      "loss": 1.6626,
      "step": 11834
    },
    {
      "epoch": 0.263,
      "grad_norm": 2.674037456512451,
      "learning_rate": 0.00014743276283618584,
      "loss": 1.8188,
      "step": 11835
    },
    {
      "epoch": 0.2630222222222222,
      "grad_norm": 1.4130418300628662,
      "learning_rate": 0.00014742831740386752,
      "loss": 1.788,
      "step": 11836
    },
    {
      "epoch": 0.26304444444444447,
      "grad_norm": 1.5126936435699463,
      "learning_rate": 0.00014742387197154923,
      "loss": 1.9282,
      "step": 11837
    },
    {
      "epoch": 0.26306666666666667,
      "grad_norm": 1.6078763008117676,
      "learning_rate": 0.00014741942653923094,
      "loss": 1.9695,
      "step": 11838
    },
    {
      "epoch": 0.26308888888888887,
      "grad_norm": 1.6744402647018433,
      "learning_rate": 0.00014741498110691265,
      "loss": 1.7279,
      "step": 11839
    },
    {
      "epoch": 0.26311111111111113,
      "grad_norm": 1.6473004817962646,
      "learning_rate": 0.00014741053567459436,
      "loss": 2.0509,
      "step": 11840
    },
    {
      "epoch": 0.26313333333333333,
      "grad_norm": 1.5483148097991943,
      "learning_rate": 0.00014740609024227607,
      "loss": 1.8537,
      "step": 11841
    },
    {
      "epoch": 0.26315555555555553,
      "grad_norm": 1.5422334671020508,
      "learning_rate": 0.00014740164480995778,
      "loss": 1.7296,
      "step": 11842
    },
    {
      "epoch": 0.2631777777777778,
      "grad_norm": 1.7811214923858643,
      "learning_rate": 0.00014739719937763946,
      "loss": 2.1015,
      "step": 11843
    },
    {
      "epoch": 0.2632,
      "grad_norm": 1.7881009578704834,
      "learning_rate": 0.0001473927539453212,
      "loss": 1.7977,
      "step": 11844
    },
    {
      "epoch": 0.26322222222222225,
      "grad_norm": 1.5633896589279175,
      "learning_rate": 0.00014738830851300288,
      "loss": 1.7757,
      "step": 11845
    },
    {
      "epoch": 0.26324444444444445,
      "grad_norm": 1.399192452430725,
      "learning_rate": 0.00014738386308068462,
      "loss": 1.4038,
      "step": 11846
    },
    {
      "epoch": 0.26326666666666665,
      "grad_norm": 2.1256206035614014,
      "learning_rate": 0.0001473794176483663,
      "loss": 2.0908,
      "step": 11847
    },
    {
      "epoch": 0.2632888888888889,
      "grad_norm": 1.4942973852157593,
      "learning_rate": 0.000147374972216048,
      "loss": 1.8242,
      "step": 11848
    },
    {
      "epoch": 0.2633111111111111,
      "grad_norm": 1.256909966468811,
      "learning_rate": 0.00014737052678372972,
      "loss": 1.2115,
      "step": 11849
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 1.914898157119751,
      "learning_rate": 0.00014736608135141143,
      "loss": 1.4237,
      "step": 11850
    },
    {
      "epoch": 0.26335555555555556,
      "grad_norm": 1.0926438570022583,
      "learning_rate": 0.00014736163591909314,
      "loss": 2.0645,
      "step": 11851
    },
    {
      "epoch": 0.26337777777777777,
      "grad_norm": 1.5812757015228271,
      "learning_rate": 0.00014735719048677485,
      "loss": 2.8474,
      "step": 11852
    },
    {
      "epoch": 0.2634,
      "grad_norm": 1.4008806943893433,
      "learning_rate": 0.00014735274505445656,
      "loss": 1.2462,
      "step": 11853
    },
    {
      "epoch": 0.2634222222222222,
      "grad_norm": 1.7235499620437622,
      "learning_rate": 0.00014734829962213824,
      "loss": 2.0471,
      "step": 11854
    },
    {
      "epoch": 0.2634444444444444,
      "grad_norm": 1.3101274967193604,
      "learning_rate": 0.00014734385418981998,
      "loss": 2.4131,
      "step": 11855
    },
    {
      "epoch": 0.2634666666666667,
      "grad_norm": 1.3277485370635986,
      "learning_rate": 0.00014733940875750166,
      "loss": 2.6733,
      "step": 11856
    },
    {
      "epoch": 0.2634888888888889,
      "grad_norm": 1.2525583505630493,
      "learning_rate": 0.00014733496332518337,
      "loss": 2.2006,
      "step": 11857
    },
    {
      "epoch": 0.2635111111111111,
      "grad_norm": 1.3251806497573853,
      "learning_rate": 0.00014733051789286508,
      "loss": 2.1189,
      "step": 11858
    },
    {
      "epoch": 0.26353333333333334,
      "grad_norm": 1.3140153884887695,
      "learning_rate": 0.0001473260724605468,
      "loss": 2.0289,
      "step": 11859
    },
    {
      "epoch": 0.26355555555555554,
      "grad_norm": 1.35794997215271,
      "learning_rate": 0.0001473216270282285,
      "loss": 2.3492,
      "step": 11860
    },
    {
      "epoch": 0.2635777777777778,
      "grad_norm": 1.4137356281280518,
      "learning_rate": 0.0001473171815959102,
      "loss": 1.9884,
      "step": 11861
    },
    {
      "epoch": 0.2636,
      "grad_norm": 1.3503565788269043,
      "learning_rate": 0.00014731273616359192,
      "loss": 1.4052,
      "step": 11862
    },
    {
      "epoch": 0.2636222222222222,
      "grad_norm": 1.418907642364502,
      "learning_rate": 0.0001473082907312736,
      "loss": 2.0501,
      "step": 11863
    },
    {
      "epoch": 0.26364444444444446,
      "grad_norm": 1.4293979406356812,
      "learning_rate": 0.00014730384529895534,
      "loss": 2.2318,
      "step": 11864
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 1.279914140701294,
      "learning_rate": 0.00014729939986663702,
      "loss": 2.0554,
      "step": 11865
    },
    {
      "epoch": 0.26368888888888886,
      "grad_norm": 1.485070824623108,
      "learning_rate": 0.00014729495443431876,
      "loss": 2.1752,
      "step": 11866
    },
    {
      "epoch": 0.2637111111111111,
      "grad_norm": 0.9168014526367188,
      "learning_rate": 0.00014729050900200044,
      "loss": 0.9093,
      "step": 11867
    },
    {
      "epoch": 0.2637333333333333,
      "grad_norm": 1.7903882265090942,
      "learning_rate": 0.00014728606356968215,
      "loss": 2.3933,
      "step": 11868
    },
    {
      "epoch": 0.2637555555555556,
      "grad_norm": 1.4799667596817017,
      "learning_rate": 0.0001472816181373639,
      "loss": 2.38,
      "step": 11869
    },
    {
      "epoch": 0.2637777777777778,
      "grad_norm": 1.6120349168777466,
      "learning_rate": 0.00014727717270504557,
      "loss": 1.9405,
      "step": 11870
    },
    {
      "epoch": 0.2638,
      "grad_norm": 1.7184664011001587,
      "learning_rate": 0.00014727272727272728,
      "loss": 2.3295,
      "step": 11871
    },
    {
      "epoch": 0.26382222222222224,
      "grad_norm": 1.0776631832122803,
      "learning_rate": 0.000147268281840409,
      "loss": 1.2,
      "step": 11872
    },
    {
      "epoch": 0.26384444444444444,
      "grad_norm": 1.6444000005722046,
      "learning_rate": 0.0001472638364080907,
      "loss": 2.2663,
      "step": 11873
    },
    {
      "epoch": 0.2638666666666667,
      "grad_norm": 1.8782315254211426,
      "learning_rate": 0.00014725939097577238,
      "loss": 2.1795,
      "step": 11874
    },
    {
      "epoch": 0.2638888888888889,
      "grad_norm": 1.6606948375701904,
      "learning_rate": 0.00014725494554345412,
      "loss": 2.1914,
      "step": 11875
    },
    {
      "epoch": 0.2639111111111111,
      "grad_norm": 1.5987446308135986,
      "learning_rate": 0.0001472505001111358,
      "loss": 1.8582,
      "step": 11876
    },
    {
      "epoch": 0.26393333333333335,
      "grad_norm": 1.3875216245651245,
      "learning_rate": 0.0001472460546788175,
      "loss": 2.1055,
      "step": 11877
    },
    {
      "epoch": 0.26395555555555555,
      "grad_norm": 1.7493009567260742,
      "learning_rate": 0.00014724160924649925,
      "loss": 2.2758,
      "step": 11878
    },
    {
      "epoch": 0.26397777777777776,
      "grad_norm": 1.4216243028640747,
      "learning_rate": 0.00014723716381418093,
      "loss": 1.5219,
      "step": 11879
    },
    {
      "epoch": 0.264,
      "grad_norm": 1.6629998683929443,
      "learning_rate": 0.00014723271838186264,
      "loss": 2.4194,
      "step": 11880
    },
    {
      "epoch": 0.2640222222222222,
      "grad_norm": 1.3519734144210815,
      "learning_rate": 0.00014722827294954435,
      "loss": 1.8186,
      "step": 11881
    },
    {
      "epoch": 0.26404444444444447,
      "grad_norm": 1.2351617813110352,
      "learning_rate": 0.00014722382751722606,
      "loss": 1.635,
      "step": 11882
    },
    {
      "epoch": 0.26406666666666667,
      "grad_norm": 1.4577726125717163,
      "learning_rate": 0.00014721938208490777,
      "loss": 1.7316,
      "step": 11883
    },
    {
      "epoch": 0.2640888888888889,
      "grad_norm": 1.5510177612304688,
      "learning_rate": 0.00014721493665258948,
      "loss": 2.024,
      "step": 11884
    },
    {
      "epoch": 0.26411111111111113,
      "grad_norm": 1.542271614074707,
      "learning_rate": 0.0001472104912202712,
      "loss": 2.1622,
      "step": 11885
    },
    {
      "epoch": 0.26413333333333333,
      "grad_norm": 1.888105869293213,
      "learning_rate": 0.0001472060457879529,
      "loss": 2.0989,
      "step": 11886
    },
    {
      "epoch": 0.26415555555555553,
      "grad_norm": 1.6228997707366943,
      "learning_rate": 0.0001472016003556346,
      "loss": 2.0369,
      "step": 11887
    },
    {
      "epoch": 0.2641777777777778,
      "grad_norm": 1.5138300657272339,
      "learning_rate": 0.0001471971549233163,
      "loss": 1.3733,
      "step": 11888
    },
    {
      "epoch": 0.2642,
      "grad_norm": 1.7611756324768066,
      "learning_rate": 0.00014719270949099803,
      "loss": 1.8158,
      "step": 11889
    },
    {
      "epoch": 0.26422222222222225,
      "grad_norm": 1.9650713205337524,
      "learning_rate": 0.0001471882640586797,
      "loss": 2.0826,
      "step": 11890
    },
    {
      "epoch": 0.26424444444444445,
      "grad_norm": 1.3644047975540161,
      "learning_rate": 0.00014718381862636142,
      "loss": 1.5592,
      "step": 11891
    },
    {
      "epoch": 0.26426666666666665,
      "grad_norm": 1.7646701335906982,
      "learning_rate": 0.00014717937319404313,
      "loss": 1.8476,
      "step": 11892
    },
    {
      "epoch": 0.2642888888888889,
      "grad_norm": 1.4769060611724854,
      "learning_rate": 0.00014717492776172484,
      "loss": 1.6745,
      "step": 11893
    },
    {
      "epoch": 0.2643111111111111,
      "grad_norm": 1.6196730136871338,
      "learning_rate": 0.00014717048232940655,
      "loss": 1.8742,
      "step": 11894
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 1.642986536026001,
      "learning_rate": 0.00014716603689708826,
      "loss": 2.0652,
      "step": 11895
    },
    {
      "epoch": 0.26435555555555557,
      "grad_norm": 1.374021291732788,
      "learning_rate": 0.00014716159146476997,
      "loss": 1.7638,
      "step": 11896
    },
    {
      "epoch": 0.26437777777777777,
      "grad_norm": 1.9100518226623535,
      "learning_rate": 0.00014715714603245165,
      "loss": 1.9345,
      "step": 11897
    },
    {
      "epoch": 0.2644,
      "grad_norm": 1.5152745246887207,
      "learning_rate": 0.00014715270060013339,
      "loss": 1.8617,
      "step": 11898
    },
    {
      "epoch": 0.2644222222222222,
      "grad_norm": 2.2063376903533936,
      "learning_rate": 0.00014714825516781507,
      "loss": 1.8318,
      "step": 11899
    },
    {
      "epoch": 0.2644444444444444,
      "grad_norm": 1.5062094926834106,
      "learning_rate": 0.00014714380973549678,
      "loss": 1.307,
      "step": 11900
    },
    {
      "epoch": 0.2644666666666667,
      "grad_norm": 1.3006625175476074,
      "learning_rate": 0.0001471393643031785,
      "loss": 2.3366,
      "step": 11901
    },
    {
      "epoch": 0.2644888888888889,
      "grad_norm": 1.3061929941177368,
      "learning_rate": 0.0001471349188708602,
      "loss": 2.3899,
      "step": 11902
    },
    {
      "epoch": 0.2645111111111111,
      "grad_norm": 1.52286958694458,
      "learning_rate": 0.0001471304734385419,
      "loss": 2.5451,
      "step": 11903
    },
    {
      "epoch": 0.26453333333333334,
      "grad_norm": 1.4636884927749634,
      "learning_rate": 0.00014712602800622362,
      "loss": 2.0638,
      "step": 11904
    },
    {
      "epoch": 0.26455555555555554,
      "grad_norm": 1.3704479932785034,
      "learning_rate": 0.00014712158257390533,
      "loss": 1.9366,
      "step": 11905
    },
    {
      "epoch": 0.2645777777777778,
      "grad_norm": 1.4883384704589844,
      "learning_rate": 0.00014711713714158703,
      "loss": 2.0537,
      "step": 11906
    },
    {
      "epoch": 0.2646,
      "grad_norm": 1.4012058973312378,
      "learning_rate": 0.00014711269170926874,
      "loss": 1.7968,
      "step": 11907
    },
    {
      "epoch": 0.2646222222222222,
      "grad_norm": 1.3408026695251465,
      "learning_rate": 0.00014710824627695043,
      "loss": 2.2883,
      "step": 11908
    },
    {
      "epoch": 0.26464444444444446,
      "grad_norm": 1.200587272644043,
      "learning_rate": 0.00014710380084463216,
      "loss": 1.7897,
      "step": 11909
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 1.590535283088684,
      "learning_rate": 0.00014709935541231385,
      "loss": 2.44,
      "step": 11910
    },
    {
      "epoch": 0.26468888888888886,
      "grad_norm": 1.2200666666030884,
      "learning_rate": 0.00014709490997999556,
      "loss": 0.8053,
      "step": 11911
    },
    {
      "epoch": 0.2647111111111111,
      "grad_norm": 1.1078271865844727,
      "learning_rate": 0.00014709046454767727,
      "loss": 1.4028,
      "step": 11912
    },
    {
      "epoch": 0.2647333333333333,
      "grad_norm": 1.4527915716171265,
      "learning_rate": 0.00014708601911535898,
      "loss": 1.9241,
      "step": 11913
    },
    {
      "epoch": 0.2647555555555556,
      "grad_norm": 1.28900945186615,
      "learning_rate": 0.00014708157368304068,
      "loss": 1.7801,
      "step": 11914
    },
    {
      "epoch": 0.2647777777777778,
      "grad_norm": 1.5046577453613281,
      "learning_rate": 0.0001470771282507224,
      "loss": 2.503,
      "step": 11915
    },
    {
      "epoch": 0.2648,
      "grad_norm": 1.486729621887207,
      "learning_rate": 0.0001470726828184041,
      "loss": 2.22,
      "step": 11916
    },
    {
      "epoch": 0.26482222222222224,
      "grad_norm": 1.3560049533843994,
      "learning_rate": 0.0001470682373860858,
      "loss": 1.6715,
      "step": 11917
    },
    {
      "epoch": 0.26484444444444444,
      "grad_norm": 0.22197146713733673,
      "learning_rate": 0.00014706379195376752,
      "loss": 0.0253,
      "step": 11918
    },
    {
      "epoch": 0.26486666666666664,
      "grad_norm": 1.8055577278137207,
      "learning_rate": 0.0001470593465214492,
      "loss": 2.5536,
      "step": 11919
    },
    {
      "epoch": 0.2648888888888889,
      "grad_norm": 1.6075732707977295,
      "learning_rate": 0.00014705490108913092,
      "loss": 2.3352,
      "step": 11920
    },
    {
      "epoch": 0.2649111111111111,
      "grad_norm": 1.0260353088378906,
      "learning_rate": 0.00014705045565681262,
      "loss": 1.0307,
      "step": 11921
    },
    {
      "epoch": 0.26493333333333335,
      "grad_norm": 1.4414223432540894,
      "learning_rate": 0.00014704601022449433,
      "loss": 1.5059,
      "step": 11922
    },
    {
      "epoch": 0.26495555555555556,
      "grad_norm": 1.2887145280838013,
      "learning_rate": 0.00014704156479217604,
      "loss": 1.9202,
      "step": 11923
    },
    {
      "epoch": 0.26497777777777776,
      "grad_norm": 1.4932328462600708,
      "learning_rate": 0.00014703711935985775,
      "loss": 2.2834,
      "step": 11924
    },
    {
      "epoch": 0.265,
      "grad_norm": 1.5400840044021606,
      "learning_rate": 0.00014703267392753946,
      "loss": 2.0632,
      "step": 11925
    },
    {
      "epoch": 0.2650222222222222,
      "grad_norm": 1.4991551637649536,
      "learning_rate": 0.00014702822849522117,
      "loss": 1.9679,
      "step": 11926
    },
    {
      "epoch": 0.26504444444444447,
      "grad_norm": 1.6650047302246094,
      "learning_rate": 0.00014702378306290288,
      "loss": 1.8878,
      "step": 11927
    },
    {
      "epoch": 0.2650666666666667,
      "grad_norm": 1.3407297134399414,
      "learning_rate": 0.00014701933763058457,
      "loss": 1.6623,
      "step": 11928
    },
    {
      "epoch": 0.2650888888888889,
      "grad_norm": 1.6988743543624878,
      "learning_rate": 0.0001470148921982663,
      "loss": 1.7592,
      "step": 11929
    },
    {
      "epoch": 0.26511111111111113,
      "grad_norm": 1.3980563879013062,
      "learning_rate": 0.00014701044676594798,
      "loss": 1.986,
      "step": 11930
    },
    {
      "epoch": 0.26513333333333333,
      "grad_norm": 1.788438320159912,
      "learning_rate": 0.0001470060013336297,
      "loss": 2.0292,
      "step": 11931
    },
    {
      "epoch": 0.26515555555555553,
      "grad_norm": 1.43760085105896,
      "learning_rate": 0.0001470015559013114,
      "loss": 1.8185,
      "step": 11932
    },
    {
      "epoch": 0.2651777777777778,
      "grad_norm": 1.6529282331466675,
      "learning_rate": 0.0001469971104689931,
      "loss": 2.0703,
      "step": 11933
    },
    {
      "epoch": 0.2652,
      "grad_norm": 1.682510495185852,
      "learning_rate": 0.00014699266503667482,
      "loss": 1.9598,
      "step": 11934
    },
    {
      "epoch": 0.26522222222222225,
      "grad_norm": 1.2725317478179932,
      "learning_rate": 0.00014698821960435653,
      "loss": 1.5756,
      "step": 11935
    },
    {
      "epoch": 0.26524444444444445,
      "grad_norm": 1.9723050594329834,
      "learning_rate": 0.00014698377417203824,
      "loss": 2.4888,
      "step": 11936
    },
    {
      "epoch": 0.26526666666666665,
      "grad_norm": 1.6124428510665894,
      "learning_rate": 0.00014697932873971992,
      "loss": 1.7196,
      "step": 11937
    },
    {
      "epoch": 0.2652888888888889,
      "grad_norm": 1.8173352479934692,
      "learning_rate": 0.00014697488330740166,
      "loss": 2.1491,
      "step": 11938
    },
    {
      "epoch": 0.2653111111111111,
      "grad_norm": 1.6232999563217163,
      "learning_rate": 0.00014697043787508334,
      "loss": 1.6724,
      "step": 11939
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 1.710603952407837,
      "learning_rate": 0.00014696599244276508,
      "loss": 2.2729,
      "step": 11940
    },
    {
      "epoch": 0.26535555555555557,
      "grad_norm": 2.0101399421691895,
      "learning_rate": 0.00014696154701044676,
      "loss": 2.0046,
      "step": 11941
    },
    {
      "epoch": 0.26537777777777777,
      "grad_norm": 1.7967077493667603,
      "learning_rate": 0.00014695710157812847,
      "loss": 1.7631,
      "step": 11942
    },
    {
      "epoch": 0.2654,
      "grad_norm": 1.5950373411178589,
      "learning_rate": 0.0001469526561458102,
      "loss": 1.8047,
      "step": 11943
    },
    {
      "epoch": 0.2654222222222222,
      "grad_norm": 1.2714698314666748,
      "learning_rate": 0.0001469482107134919,
      "loss": 1.4263,
      "step": 11944
    },
    {
      "epoch": 0.2654444444444444,
      "grad_norm": 1.7672085762023926,
      "learning_rate": 0.0001469437652811736,
      "loss": 2.3161,
      "step": 11945
    },
    {
      "epoch": 0.2654666666666667,
      "grad_norm": 1.690887212753296,
      "learning_rate": 0.0001469393198488553,
      "loss": 2.1125,
      "step": 11946
    },
    {
      "epoch": 0.2654888888888889,
      "grad_norm": 1.3992067575454712,
      "learning_rate": 0.00014693487441653702,
      "loss": 1.6814,
      "step": 11947
    },
    {
      "epoch": 0.2655111111111111,
      "grad_norm": 1.3395984172821045,
      "learning_rate": 0.0001469304289842187,
      "loss": 1.3927,
      "step": 11948
    },
    {
      "epoch": 0.26553333333333334,
      "grad_norm": 1.3759821653366089,
      "learning_rate": 0.00014692598355190044,
      "loss": 1.2334,
      "step": 11949
    },
    {
      "epoch": 0.26555555555555554,
      "grad_norm": 1.561960220336914,
      "learning_rate": 0.00014692153811958212,
      "loss": 1.7933,
      "step": 11950
    },
    {
      "epoch": 0.2655777777777778,
      "grad_norm": 1.081554651260376,
      "learning_rate": 0.00014691709268726383,
      "loss": 1.3371,
      "step": 11951
    },
    {
      "epoch": 0.2656,
      "grad_norm": 1.159508466720581,
      "learning_rate": 0.00014691264725494557,
      "loss": 2.6445,
      "step": 11952
    },
    {
      "epoch": 0.2656222222222222,
      "grad_norm": 1.5885578393936157,
      "learning_rate": 0.00014690820182262725,
      "loss": 2.026,
      "step": 11953
    },
    {
      "epoch": 0.26564444444444446,
      "grad_norm": 1.5022404193878174,
      "learning_rate": 0.00014690375639030896,
      "loss": 2.6367,
      "step": 11954
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 1.3823201656341553,
      "learning_rate": 0.00014689931095799067,
      "loss": 2.2904,
      "step": 11955
    },
    {
      "epoch": 0.26568888888888886,
      "grad_norm": 1.316520094871521,
      "learning_rate": 0.00014689486552567238,
      "loss": 2.4215,
      "step": 11956
    },
    {
      "epoch": 0.2657111111111111,
      "grad_norm": 1.4282695055007935,
      "learning_rate": 0.00014689042009335406,
      "loss": 1.9514,
      "step": 11957
    },
    {
      "epoch": 0.2657333333333333,
      "grad_norm": 1.210922360420227,
      "learning_rate": 0.0001468859746610358,
      "loss": 1.7324,
      "step": 11958
    },
    {
      "epoch": 0.2657555555555556,
      "grad_norm": 1.4438477754592896,
      "learning_rate": 0.0001468815292287175,
      "loss": 2.7823,
      "step": 11959
    },
    {
      "epoch": 0.2657777777777778,
      "grad_norm": 1.331178069114685,
      "learning_rate": 0.00014687708379639922,
      "loss": 1.8579,
      "step": 11960
    },
    {
      "epoch": 0.2658,
      "grad_norm": 1.3285739421844482,
      "learning_rate": 0.00014687263836408093,
      "loss": 2.1598,
      "step": 11961
    },
    {
      "epoch": 0.26582222222222224,
      "grad_norm": 1.4287347793579102,
      "learning_rate": 0.0001468681929317626,
      "loss": 1.632,
      "step": 11962
    },
    {
      "epoch": 0.26584444444444444,
      "grad_norm": 1.2689592838287354,
      "learning_rate": 0.00014686374749944435,
      "loss": 2.1629,
      "step": 11963
    },
    {
      "epoch": 0.26586666666666664,
      "grad_norm": 1.59181809425354,
      "learning_rate": 0.00014685930206712603,
      "loss": 2.7187,
      "step": 11964
    },
    {
      "epoch": 0.2658888888888889,
      "grad_norm": 1.1099501848220825,
      "learning_rate": 0.00014685485663480774,
      "loss": 1.5395,
      "step": 11965
    },
    {
      "epoch": 0.2659111111111111,
      "grad_norm": 1.6555888652801514,
      "learning_rate": 0.00014685041120248945,
      "loss": 1.9359,
      "step": 11966
    },
    {
      "epoch": 0.26593333333333335,
      "grad_norm": 1.4371614456176758,
      "learning_rate": 0.00014684596577017116,
      "loss": 2.3915,
      "step": 11967
    },
    {
      "epoch": 0.26595555555555556,
      "grad_norm": 1.2202452421188354,
      "learning_rate": 0.00014684152033785287,
      "loss": 1.9322,
      "step": 11968
    },
    {
      "epoch": 0.26597777777777776,
      "grad_norm": 1.4922659397125244,
      "learning_rate": 0.00014683707490553458,
      "loss": 1.9898,
      "step": 11969
    },
    {
      "epoch": 0.266,
      "grad_norm": 1.7429996728897095,
      "learning_rate": 0.0001468326294732163,
      "loss": 2.1876,
      "step": 11970
    },
    {
      "epoch": 0.2660222222222222,
      "grad_norm": 1.4226884841918945,
      "learning_rate": 0.00014682818404089797,
      "loss": 1.8661,
      "step": 11971
    },
    {
      "epoch": 0.2660444444444444,
      "grad_norm": 1.6411877870559692,
      "learning_rate": 0.0001468237386085797,
      "loss": 1.8237,
      "step": 11972
    },
    {
      "epoch": 0.2660666666666667,
      "grad_norm": 1.3708914518356323,
      "learning_rate": 0.0001468192931762614,
      "loss": 2.1154,
      "step": 11973
    },
    {
      "epoch": 0.2660888888888889,
      "grad_norm": 1.3893938064575195,
      "learning_rate": 0.0001468148477439431,
      "loss": 2.2389,
      "step": 11974
    },
    {
      "epoch": 0.26611111111111113,
      "grad_norm": 1.9147943258285522,
      "learning_rate": 0.0001468104023116248,
      "loss": 2.0341,
      "step": 11975
    },
    {
      "epoch": 0.26613333333333333,
      "grad_norm": 1.6362082958221436,
      "learning_rate": 0.00014680595687930652,
      "loss": 2.2298,
      "step": 11976
    },
    {
      "epoch": 0.26615555555555553,
      "grad_norm": 1.6471214294433594,
      "learning_rate": 0.00014680151144698823,
      "loss": 2.2409,
      "step": 11977
    },
    {
      "epoch": 0.2661777777777778,
      "grad_norm": 1.683870553970337,
      "learning_rate": 0.00014679706601466994,
      "loss": 1.9728,
      "step": 11978
    },
    {
      "epoch": 0.2662,
      "grad_norm": 1.3651458024978638,
      "learning_rate": 0.00014679262058235165,
      "loss": 2.2047,
      "step": 11979
    },
    {
      "epoch": 0.26622222222222225,
      "grad_norm": 1.6900603771209717,
      "learning_rate": 0.00014678817515003336,
      "loss": 2.4179,
      "step": 11980
    },
    {
      "epoch": 0.26624444444444445,
      "grad_norm": 2.0198686122894287,
      "learning_rate": 0.00014678372971771507,
      "loss": 1.697,
      "step": 11981
    },
    {
      "epoch": 0.26626666666666665,
      "grad_norm": 1.3824892044067383,
      "learning_rate": 0.00014677928428539675,
      "loss": 1.5741,
      "step": 11982
    },
    {
      "epoch": 0.2662888888888889,
      "grad_norm": 1.773924469947815,
      "learning_rate": 0.00014677483885307849,
      "loss": 2.0342,
      "step": 11983
    },
    {
      "epoch": 0.2663111111111111,
      "grad_norm": 1.5185444355010986,
      "learning_rate": 0.00014677039342076017,
      "loss": 1.8505,
      "step": 11984
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 1.6352490186691284,
      "learning_rate": 0.00014676594798844188,
      "loss": 2.3176,
      "step": 11985
    },
    {
      "epoch": 0.26635555555555557,
      "grad_norm": 1.6388609409332275,
      "learning_rate": 0.0001467615025561236,
      "loss": 2.2788,
      "step": 11986
    },
    {
      "epoch": 0.26637777777777777,
      "grad_norm": 1.5452141761779785,
      "learning_rate": 0.0001467570571238053,
      "loss": 1.9867,
      "step": 11987
    },
    {
      "epoch": 0.2664,
      "grad_norm": 1.713138461112976,
      "learning_rate": 0.000146752611691487,
      "loss": 1.8554,
      "step": 11988
    },
    {
      "epoch": 0.2664222222222222,
      "grad_norm": 1.7891852855682373,
      "learning_rate": 0.00014674816625916872,
      "loss": 2.1419,
      "step": 11989
    },
    {
      "epoch": 0.26644444444444443,
      "grad_norm": 1.3112746477127075,
      "learning_rate": 0.00014674372082685043,
      "loss": 1.4603,
      "step": 11990
    },
    {
      "epoch": 0.2664666666666667,
      "grad_norm": 1.4979729652404785,
      "learning_rate": 0.0001467392753945321,
      "loss": 1.6158,
      "step": 11991
    },
    {
      "epoch": 0.2664888888888889,
      "grad_norm": 1.6674753427505493,
      "learning_rate": 0.00014673482996221385,
      "loss": 2.2419,
      "step": 11992
    },
    {
      "epoch": 0.2665111111111111,
      "grad_norm": 1.59917414188385,
      "learning_rate": 0.00014673038452989553,
      "loss": 2.0978,
      "step": 11993
    },
    {
      "epoch": 0.26653333333333334,
      "grad_norm": 1.5828447341918945,
      "learning_rate": 0.00014672593909757724,
      "loss": 1.7598,
      "step": 11994
    },
    {
      "epoch": 0.26655555555555555,
      "grad_norm": 1.6065685749053955,
      "learning_rate": 0.00014672149366525895,
      "loss": 2.1355,
      "step": 11995
    },
    {
      "epoch": 0.2665777777777778,
      "grad_norm": 1.7858607769012451,
      "learning_rate": 0.00014671704823294066,
      "loss": 1.8059,
      "step": 11996
    },
    {
      "epoch": 0.2666,
      "grad_norm": 1.636139988899231,
      "learning_rate": 0.00014671260280062237,
      "loss": 1.588,
      "step": 11997
    },
    {
      "epoch": 0.2666222222222222,
      "grad_norm": 1.8959379196166992,
      "learning_rate": 0.00014670815736830408,
      "loss": 2.1646,
      "step": 11998
    },
    {
      "epoch": 0.26664444444444446,
      "grad_norm": 2.0258629322052,
      "learning_rate": 0.00014670371193598579,
      "loss": 2.0087,
      "step": 11999
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 2.32940936088562,
      "learning_rate": 0.0001466992665036675,
      "loss": 1.8293,
      "step": 12000
    },
    {
      "epoch": 0.26668888888888886,
      "grad_norm": 1.1385390758514404,
      "learning_rate": 0.0001466948210713492,
      "loss": 2.3097,
      "step": 12001
    },
    {
      "epoch": 0.2667111111111111,
      "grad_norm": 1.4348914623260498,
      "learning_rate": 0.0001466903756390309,
      "loss": 2.6831,
      "step": 12002
    },
    {
      "epoch": 0.2667333333333333,
      "grad_norm": 1.4214880466461182,
      "learning_rate": 0.00014668593020671262,
      "loss": 2.9608,
      "step": 12003
    },
    {
      "epoch": 0.2667555555555556,
      "grad_norm": 1.1174678802490234,
      "learning_rate": 0.0001466814847743943,
      "loss": 1.5935,
      "step": 12004
    },
    {
      "epoch": 0.2667777777777778,
      "grad_norm": 1.2319860458374023,
      "learning_rate": 0.00014667703934207602,
      "loss": 1.9665,
      "step": 12005
    },
    {
      "epoch": 0.2668,
      "grad_norm": 1.2910288572311401,
      "learning_rate": 0.00014667259390975773,
      "loss": 2.4324,
      "step": 12006
    },
    {
      "epoch": 0.26682222222222224,
      "grad_norm": 1.4654394388198853,
      "learning_rate": 0.00014666814847743944,
      "loss": 2.4797,
      "step": 12007
    },
    {
      "epoch": 0.26684444444444444,
      "grad_norm": 1.5287529230117798,
      "learning_rate": 0.00014666370304512114,
      "loss": 2.242,
      "step": 12008
    },
    {
      "epoch": 0.26686666666666664,
      "grad_norm": 1.3926401138305664,
      "learning_rate": 0.00014665925761280285,
      "loss": 1.1899,
      "step": 12009
    },
    {
      "epoch": 0.2668888888888889,
      "grad_norm": 1.5454157590866089,
      "learning_rate": 0.00014665481218048456,
      "loss": 1.9678,
      "step": 12010
    },
    {
      "epoch": 0.2669111111111111,
      "grad_norm": 1.517439842224121,
      "learning_rate": 0.00014665036674816625,
      "loss": 1.8787,
      "step": 12011
    },
    {
      "epoch": 0.26693333333333336,
      "grad_norm": 1.3463808298110962,
      "learning_rate": 0.00014664592131584798,
      "loss": 1.9691,
      "step": 12012
    },
    {
      "epoch": 0.26695555555555556,
      "grad_norm": 1.0412100553512573,
      "learning_rate": 0.00014664147588352967,
      "loss": 1.1158,
      "step": 12013
    },
    {
      "epoch": 0.26697777777777776,
      "grad_norm": 0.9642741680145264,
      "learning_rate": 0.00014663703045121138,
      "loss": 1.0433,
      "step": 12014
    },
    {
      "epoch": 0.267,
      "grad_norm": 1.9066472053527832,
      "learning_rate": 0.00014663258501889309,
      "loss": 2.5106,
      "step": 12015
    },
    {
      "epoch": 0.2670222222222222,
      "grad_norm": 0.9513834118843079,
      "learning_rate": 0.0001466281395865748,
      "loss": 0.7211,
      "step": 12016
    },
    {
      "epoch": 0.2670444444444444,
      "grad_norm": 1.552901268005371,
      "learning_rate": 0.00014662369415425653,
      "loss": 2.328,
      "step": 12017
    },
    {
      "epoch": 0.2670666666666667,
      "grad_norm": 1.5275671482086182,
      "learning_rate": 0.00014661924872193821,
      "loss": 1.9294,
      "step": 12018
    },
    {
      "epoch": 0.2670888888888889,
      "grad_norm": 1.6272995471954346,
      "learning_rate": 0.00014661480328961992,
      "loss": 2.1677,
      "step": 12019
    },
    {
      "epoch": 0.26711111111111113,
      "grad_norm": 1.3902349472045898,
      "learning_rate": 0.00014661035785730163,
      "loss": 2.1683,
      "step": 12020
    },
    {
      "epoch": 0.26713333333333333,
      "grad_norm": 1.3970977067947388,
      "learning_rate": 0.00014660591242498334,
      "loss": 1.7789,
      "step": 12021
    },
    {
      "epoch": 0.26715555555555554,
      "grad_norm": 1.6710957288742065,
      "learning_rate": 0.00014660146699266503,
      "loss": 2.3608,
      "step": 12022
    },
    {
      "epoch": 0.2671777777777778,
      "grad_norm": 1.4810799360275269,
      "learning_rate": 0.00014659702156034676,
      "loss": 1.7594,
      "step": 12023
    },
    {
      "epoch": 0.2672,
      "grad_norm": 1.5698115825653076,
      "learning_rate": 0.00014659257612802844,
      "loss": 1.8011,
      "step": 12024
    },
    {
      "epoch": 0.26722222222222225,
      "grad_norm": 1.1077051162719727,
      "learning_rate": 0.00014658813069571015,
      "loss": 0.8051,
      "step": 12025
    },
    {
      "epoch": 0.26724444444444445,
      "grad_norm": 1.5233367681503296,
      "learning_rate": 0.0001465836852633919,
      "loss": 2.0398,
      "step": 12026
    },
    {
      "epoch": 0.26726666666666665,
      "grad_norm": 1.6200984716415405,
      "learning_rate": 0.00014657923983107357,
      "loss": 1.7403,
      "step": 12027
    },
    {
      "epoch": 0.2672888888888889,
      "grad_norm": 1.583584189414978,
      "learning_rate": 0.00014657479439875528,
      "loss": 1.8034,
      "step": 12028
    },
    {
      "epoch": 0.2673111111111111,
      "grad_norm": 1.2447353601455688,
      "learning_rate": 0.000146570348966437,
      "loss": 1.6249,
      "step": 12029
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 1.7276191711425781,
      "learning_rate": 0.0001465659035341187,
      "loss": 2.0591,
      "step": 12030
    },
    {
      "epoch": 0.26735555555555557,
      "grad_norm": 1.1284295320510864,
      "learning_rate": 0.00014656145810180038,
      "loss": 1.0617,
      "step": 12031
    },
    {
      "epoch": 0.26737777777777777,
      "grad_norm": 0.1699981987476349,
      "learning_rate": 0.00014655701266948212,
      "loss": 0.0278,
      "step": 12032
    },
    {
      "epoch": 0.2674,
      "grad_norm": 1.5832993984222412,
      "learning_rate": 0.00014655256723716383,
      "loss": 1.8135,
      "step": 12033
    },
    {
      "epoch": 0.26742222222222223,
      "grad_norm": 1.4720474481582642,
      "learning_rate": 0.00014654812180484551,
      "loss": 1.7792,
      "step": 12034
    },
    {
      "epoch": 0.26744444444444443,
      "grad_norm": 1.6416476964950562,
      "learning_rate": 0.00014654367637252725,
      "loss": 1.9384,
      "step": 12035
    },
    {
      "epoch": 0.2674666666666667,
      "grad_norm": 1.447957992553711,
      "learning_rate": 0.00014653923094020893,
      "loss": 1.3595,
      "step": 12036
    },
    {
      "epoch": 0.2674888888888889,
      "grad_norm": 1.5834770202636719,
      "learning_rate": 0.00014653478550789067,
      "loss": 1.5426,
      "step": 12037
    },
    {
      "epoch": 0.2675111111111111,
      "grad_norm": 1.3011990785598755,
      "learning_rate": 0.00014653034007557235,
      "loss": 1.86,
      "step": 12038
    },
    {
      "epoch": 0.26753333333333335,
      "grad_norm": 1.549513816833496,
      "learning_rate": 0.00014652589464325406,
      "loss": 2.0827,
      "step": 12039
    },
    {
      "epoch": 0.26755555555555555,
      "grad_norm": 2.0841879844665527,
      "learning_rate": 0.00014652144921093577,
      "loss": 1.744,
      "step": 12040
    },
    {
      "epoch": 0.2675777777777778,
      "grad_norm": 1.6322981119155884,
      "learning_rate": 0.00014651700377861748,
      "loss": 2.0331,
      "step": 12041
    },
    {
      "epoch": 0.2676,
      "grad_norm": 1.447360873222351,
      "learning_rate": 0.0001465125583462992,
      "loss": 1.9391,
      "step": 12042
    },
    {
      "epoch": 0.2676222222222222,
      "grad_norm": 1.5897326469421387,
      "learning_rate": 0.0001465081129139809,
      "loss": 1.7701,
      "step": 12043
    },
    {
      "epoch": 0.26764444444444446,
      "grad_norm": 1.2888453006744385,
      "learning_rate": 0.0001465036674816626,
      "loss": 1.3247,
      "step": 12044
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 1.9683195352554321,
      "learning_rate": 0.0001464992220493443,
      "loss": 2.3084,
      "step": 12045
    },
    {
      "epoch": 0.26768888888888887,
      "grad_norm": 1.5213987827301025,
      "learning_rate": 0.00014649477661702603,
      "loss": 1.7744,
      "step": 12046
    },
    {
      "epoch": 0.2677111111111111,
      "grad_norm": 1.7192648649215698,
      "learning_rate": 0.0001464903311847077,
      "loss": 1.8318,
      "step": 12047
    },
    {
      "epoch": 0.2677333333333333,
      "grad_norm": 2.125037670135498,
      "learning_rate": 0.00014648588575238942,
      "loss": 2.658,
      "step": 12048
    },
    {
      "epoch": 0.2677555555555556,
      "grad_norm": 1.3967537879943848,
      "learning_rate": 0.00014648144032007113,
      "loss": 1.2769,
      "step": 12049
    },
    {
      "epoch": 0.2677777777777778,
      "grad_norm": 1.7123627662658691,
      "learning_rate": 0.00014647699488775284,
      "loss": 1.1645,
      "step": 12050
    },
    {
      "epoch": 0.2678,
      "grad_norm": 1.5844829082489014,
      "learning_rate": 0.00014647254945543455,
      "loss": 2.1516,
      "step": 12051
    },
    {
      "epoch": 0.26782222222222224,
      "grad_norm": 1.249840497970581,
      "learning_rate": 0.00014646810402311626,
      "loss": 2.3554,
      "step": 12052
    },
    {
      "epoch": 0.26784444444444444,
      "grad_norm": 1.2569537162780762,
      "learning_rate": 0.00014646365859079797,
      "loss": 1.1039,
      "step": 12053
    },
    {
      "epoch": 0.26786666666666664,
      "grad_norm": 0.9515690207481384,
      "learning_rate": 0.00014645921315847968,
      "loss": 1.2308,
      "step": 12054
    },
    {
      "epoch": 0.2678888888888889,
      "grad_norm": 1.643054723739624,
      "learning_rate": 0.0001464547677261614,
      "loss": 2.5539,
      "step": 12055
    },
    {
      "epoch": 0.2679111111111111,
      "grad_norm": 1.5029962062835693,
      "learning_rate": 0.00014645032229384307,
      "loss": 2.7247,
      "step": 12056
    },
    {
      "epoch": 0.26793333333333336,
      "grad_norm": 1.3676793575286865,
      "learning_rate": 0.0001464458768615248,
      "loss": 2.2923,
      "step": 12057
    },
    {
      "epoch": 0.26795555555555556,
      "grad_norm": 1.5589277744293213,
      "learning_rate": 0.0001464414314292065,
      "loss": 2.4406,
      "step": 12058
    },
    {
      "epoch": 0.26797777777777776,
      "grad_norm": 1.5941706895828247,
      "learning_rate": 0.0001464369859968882,
      "loss": 2.4124,
      "step": 12059
    },
    {
      "epoch": 0.268,
      "grad_norm": 1.3853694200515747,
      "learning_rate": 0.0001464325405645699,
      "loss": 2.708,
      "step": 12060
    },
    {
      "epoch": 0.2680222222222222,
      "grad_norm": 1.6049360036849976,
      "learning_rate": 0.00014642809513225162,
      "loss": 2.2243,
      "step": 12061
    },
    {
      "epoch": 0.2680444444444444,
      "grad_norm": 1.4185035228729248,
      "learning_rate": 0.00014642364969993333,
      "loss": 2.1525,
      "step": 12062
    },
    {
      "epoch": 0.2680666666666667,
      "grad_norm": 1.4534456729888916,
      "learning_rate": 0.00014641920426761504,
      "loss": 2.2328,
      "step": 12063
    },
    {
      "epoch": 0.2680888888888889,
      "grad_norm": 1.3749152421951294,
      "learning_rate": 0.00014641475883529675,
      "loss": 2.1106,
      "step": 12064
    },
    {
      "epoch": 0.26811111111111113,
      "grad_norm": 1.8178116083145142,
      "learning_rate": 0.00014641031340297843,
      "loss": 2.0002,
      "step": 12065
    },
    {
      "epoch": 0.26813333333333333,
      "grad_norm": 1.4546335935592651,
      "learning_rate": 0.00014640586797066017,
      "loss": 2.3603,
      "step": 12066
    },
    {
      "epoch": 0.26815555555555554,
      "grad_norm": 1.337439775466919,
      "learning_rate": 0.00014640142253834185,
      "loss": 1.882,
      "step": 12067
    },
    {
      "epoch": 0.2681777777777778,
      "grad_norm": 1.5175907611846924,
      "learning_rate": 0.00014639697710602356,
      "loss": 2.2239,
      "step": 12068
    },
    {
      "epoch": 0.2682,
      "grad_norm": 1.365768551826477,
      "learning_rate": 0.00014639253167370527,
      "loss": 1.1482,
      "step": 12069
    },
    {
      "epoch": 0.2682222222222222,
      "grad_norm": 1.004449725151062,
      "learning_rate": 0.00014638808624138698,
      "loss": 1.1563,
      "step": 12070
    },
    {
      "epoch": 0.26824444444444445,
      "grad_norm": 1.2312345504760742,
      "learning_rate": 0.0001463836408090687,
      "loss": 1.578,
      "step": 12071
    },
    {
      "epoch": 0.26826666666666665,
      "grad_norm": 1.5703586339950562,
      "learning_rate": 0.0001463791953767504,
      "loss": 2.1875,
      "step": 12072
    },
    {
      "epoch": 0.2682888888888889,
      "grad_norm": 1.4061660766601562,
      "learning_rate": 0.0001463747499444321,
      "loss": 1.749,
      "step": 12073
    },
    {
      "epoch": 0.2683111111111111,
      "grad_norm": 1.5396391153335571,
      "learning_rate": 0.00014637030451211382,
      "loss": 2.1131,
      "step": 12074
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 1.880718469619751,
      "learning_rate": 0.00014636585907979553,
      "loss": 2.187,
      "step": 12075
    },
    {
      "epoch": 0.26835555555555557,
      "grad_norm": 2.3487322330474854,
      "learning_rate": 0.0001463614136474772,
      "loss": 1.6794,
      "step": 12076
    },
    {
      "epoch": 0.26837777777777777,
      "grad_norm": 1.773584246635437,
      "learning_rate": 0.00014635696821515895,
      "loss": 2.1212,
      "step": 12077
    },
    {
      "epoch": 0.2684,
      "grad_norm": 1.4856033325195312,
      "learning_rate": 0.00014635252278284063,
      "loss": 2.2158,
      "step": 12078
    },
    {
      "epoch": 0.26842222222222223,
      "grad_norm": 1.5155816078186035,
      "learning_rate": 0.00014634807735052234,
      "loss": 1.7534,
      "step": 12079
    },
    {
      "epoch": 0.26844444444444443,
      "grad_norm": 1.5218011140823364,
      "learning_rate": 0.00014634363191820405,
      "loss": 1.9339,
      "step": 12080
    },
    {
      "epoch": 0.2684666666666667,
      "grad_norm": 1.393628478050232,
      "learning_rate": 0.00014633918648588576,
      "loss": 1.4127,
      "step": 12081
    },
    {
      "epoch": 0.2684888888888889,
      "grad_norm": 1.6396242380142212,
      "learning_rate": 0.00014633474105356747,
      "loss": 2.0916,
      "step": 12082
    },
    {
      "epoch": 0.2685111111111111,
      "grad_norm": 1.839269757270813,
      "learning_rate": 0.00014633029562124918,
      "loss": 2.0583,
      "step": 12083
    },
    {
      "epoch": 0.26853333333333335,
      "grad_norm": 1.7429049015045166,
      "learning_rate": 0.00014632585018893089,
      "loss": 1.9788,
      "step": 12084
    },
    {
      "epoch": 0.26855555555555555,
      "grad_norm": 1.4923019409179688,
      "learning_rate": 0.00014632140475661257,
      "loss": 1.9285,
      "step": 12085
    },
    {
      "epoch": 0.2685777777777778,
      "grad_norm": 1.6943708658218384,
      "learning_rate": 0.0001463169593242943,
      "loss": 2.2476,
      "step": 12086
    },
    {
      "epoch": 0.2686,
      "grad_norm": 1.8029547929763794,
      "learning_rate": 0.000146312513891976,
      "loss": 2.222,
      "step": 12087
    },
    {
      "epoch": 0.2686222222222222,
      "grad_norm": 1.5860902070999146,
      "learning_rate": 0.0001463080684596577,
      "loss": 1.7444,
      "step": 12088
    },
    {
      "epoch": 0.26864444444444446,
      "grad_norm": 1.939393401145935,
      "learning_rate": 0.0001463036230273394,
      "loss": 1.8978,
      "step": 12089
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 1.6769332885742188,
      "learning_rate": 0.00014629917759502112,
      "loss": 2.2443,
      "step": 12090
    },
    {
      "epoch": 0.26868888888888887,
      "grad_norm": 1.8385684490203857,
      "learning_rate": 0.00014629473216270283,
      "loss": 2.1713,
      "step": 12091
    },
    {
      "epoch": 0.2687111111111111,
      "grad_norm": 1.467034935951233,
      "learning_rate": 0.00014629028673038454,
      "loss": 1.7777,
      "step": 12092
    },
    {
      "epoch": 0.2687333333333333,
      "grad_norm": 1.739420771598816,
      "learning_rate": 0.00014628584129806625,
      "loss": 1.767,
      "step": 12093
    },
    {
      "epoch": 0.2687555555555556,
      "grad_norm": 1.7845944166183472,
      "learning_rate": 0.00014628139586574796,
      "loss": 1.5903,
      "step": 12094
    },
    {
      "epoch": 0.2687777777777778,
      "grad_norm": 1.611717700958252,
      "learning_rate": 0.00014627695043342966,
      "loss": 2.2614,
      "step": 12095
    },
    {
      "epoch": 0.2688,
      "grad_norm": 1.8850288391113281,
      "learning_rate": 0.00014627250500111135,
      "loss": 1.5684,
      "step": 12096
    },
    {
      "epoch": 0.26882222222222224,
      "grad_norm": 1.968153476715088,
      "learning_rate": 0.00014626805956879308,
      "loss": 2.0654,
      "step": 12097
    },
    {
      "epoch": 0.26884444444444444,
      "grad_norm": 1.5714002847671509,
      "learning_rate": 0.0001462636141364748,
      "loss": 1.7767,
      "step": 12098
    },
    {
      "epoch": 0.26886666666666664,
      "grad_norm": 1.4799424409866333,
      "learning_rate": 0.00014625916870415648,
      "loss": 1.8496,
      "step": 12099
    },
    {
      "epoch": 0.2688888888888889,
      "grad_norm": 1.5860284566879272,
      "learning_rate": 0.0001462547232718382,
      "loss": 1.5322,
      "step": 12100
    },
    {
      "epoch": 0.2689111111111111,
      "grad_norm": 1.243659496307373,
      "learning_rate": 0.0001462502778395199,
      "loss": 2.3597,
      "step": 12101
    },
    {
      "epoch": 0.26893333333333336,
      "grad_norm": 1.188488245010376,
      "learning_rate": 0.0001462458324072016,
      "loss": 2.2805,
      "step": 12102
    },
    {
      "epoch": 0.26895555555555556,
      "grad_norm": 1.3705048561096191,
      "learning_rate": 0.00014624138697488331,
      "loss": 2.555,
      "step": 12103
    },
    {
      "epoch": 0.26897777777777776,
      "grad_norm": 2.4570553302764893,
      "learning_rate": 0.00014623694154256502,
      "loss": 1.7069,
      "step": 12104
    },
    {
      "epoch": 0.269,
      "grad_norm": 1.6131190061569214,
      "learning_rate": 0.0001462324961102467,
      "loss": 2.2733,
      "step": 12105
    },
    {
      "epoch": 0.2690222222222222,
      "grad_norm": 1.3356549739837646,
      "learning_rate": 0.00014622805067792844,
      "loss": 2.0313,
      "step": 12106
    },
    {
      "epoch": 0.2690444444444444,
      "grad_norm": 1.3205969333648682,
      "learning_rate": 0.00014622360524561015,
      "loss": 2.579,
      "step": 12107
    },
    {
      "epoch": 0.2690666666666667,
      "grad_norm": 2.0011603832244873,
      "learning_rate": 0.00014621915981329184,
      "loss": 2.3452,
      "step": 12108
    },
    {
      "epoch": 0.2690888888888889,
      "grad_norm": 1.4623279571533203,
      "learning_rate": 0.00014621471438097357,
      "loss": 1.7767,
      "step": 12109
    },
    {
      "epoch": 0.26911111111111113,
      "grad_norm": 0.8182178735733032,
      "learning_rate": 0.00014621026894865526,
      "loss": 0.8388,
      "step": 12110
    },
    {
      "epoch": 0.26913333333333334,
      "grad_norm": 1.4610399007797241,
      "learning_rate": 0.000146205823516337,
      "loss": 2.235,
      "step": 12111
    },
    {
      "epoch": 0.26915555555555554,
      "grad_norm": 1.4932384490966797,
      "learning_rate": 0.00014620137808401867,
      "loss": 1.8958,
      "step": 12112
    },
    {
      "epoch": 0.2691777777777778,
      "grad_norm": 1.378027319908142,
      "learning_rate": 0.00014619693265170038,
      "loss": 2.1285,
      "step": 12113
    },
    {
      "epoch": 0.2692,
      "grad_norm": 1.4100667238235474,
      "learning_rate": 0.0001461924872193821,
      "loss": 2.1036,
      "step": 12114
    },
    {
      "epoch": 0.2692222222222222,
      "grad_norm": 1.3959627151489258,
      "learning_rate": 0.0001461880417870638,
      "loss": 1.7027,
      "step": 12115
    },
    {
      "epoch": 0.26924444444444445,
      "grad_norm": 1.5976256132125854,
      "learning_rate": 0.0001461835963547455,
      "loss": 2.1845,
      "step": 12116
    },
    {
      "epoch": 0.26926666666666665,
      "grad_norm": 1.5828430652618408,
      "learning_rate": 0.00014617915092242722,
      "loss": 1.3845,
      "step": 12117
    },
    {
      "epoch": 0.2692888888888889,
      "grad_norm": 1.3954716920852661,
      "learning_rate": 0.00014617470549010893,
      "loss": 1.0731,
      "step": 12118
    },
    {
      "epoch": 0.2693111111111111,
      "grad_norm": 1.2970348596572876,
      "learning_rate": 0.00014617026005779061,
      "loss": 1.4715,
      "step": 12119
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 1.4476072788238525,
      "learning_rate": 0.00014616581462547235,
      "loss": 2.0569,
      "step": 12120
    },
    {
      "epoch": 0.26935555555555557,
      "grad_norm": 1.3057795763015747,
      "learning_rate": 0.00014616136919315403,
      "loss": 1.7015,
      "step": 12121
    },
    {
      "epoch": 0.26937777777777777,
      "grad_norm": 1.3153645992279053,
      "learning_rate": 0.00014615692376083574,
      "loss": 2.0778,
      "step": 12122
    },
    {
      "epoch": 0.2694,
      "grad_norm": 1.3166395425796509,
      "learning_rate": 0.00014615247832851745,
      "loss": 1.9334,
      "step": 12123
    },
    {
      "epoch": 0.26942222222222223,
      "grad_norm": 1.369673252105713,
      "learning_rate": 0.00014614803289619916,
      "loss": 1.8263,
      "step": 12124
    },
    {
      "epoch": 0.26944444444444443,
      "grad_norm": 1.580583930015564,
      "learning_rate": 0.00014614358746388087,
      "loss": 1.9091,
      "step": 12125
    },
    {
      "epoch": 0.2694666666666667,
      "grad_norm": 1.6150754690170288,
      "learning_rate": 0.00014613914203156258,
      "loss": 1.9358,
      "step": 12126
    },
    {
      "epoch": 0.2694888888888889,
      "grad_norm": 0.880454421043396,
      "learning_rate": 0.0001461346965992443,
      "loss": 0.7895,
      "step": 12127
    },
    {
      "epoch": 0.2695111111111111,
      "grad_norm": 1.4637006521224976,
      "learning_rate": 0.00014613025116692597,
      "loss": 1.9929,
      "step": 12128
    },
    {
      "epoch": 0.26953333333333335,
      "grad_norm": 1.8056480884552002,
      "learning_rate": 0.0001461258057346077,
      "loss": 2.0462,
      "step": 12129
    },
    {
      "epoch": 0.26955555555555555,
      "grad_norm": 1.6467715501785278,
      "learning_rate": 0.0001461213603022894,
      "loss": 2.003,
      "step": 12130
    },
    {
      "epoch": 0.2695777777777778,
      "grad_norm": 1.7638938426971436,
      "learning_rate": 0.00014611691486997113,
      "loss": 1.8185,
      "step": 12131
    },
    {
      "epoch": 0.2696,
      "grad_norm": 1.5689834356307983,
      "learning_rate": 0.0001461124694376528,
      "loss": 1.6587,
      "step": 12132
    },
    {
      "epoch": 0.2696222222222222,
      "grad_norm": 1.522009253501892,
      "learning_rate": 0.00014610802400533452,
      "loss": 1.5375,
      "step": 12133
    },
    {
      "epoch": 0.26964444444444446,
      "grad_norm": 1.4653146266937256,
      "learning_rate": 0.00014610357857301623,
      "loss": 2.1079,
      "step": 12134
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 1.5624231100082397,
      "learning_rate": 0.00014609913314069794,
      "loss": 1.7744,
      "step": 12135
    },
    {
      "epoch": 0.26968888888888887,
      "grad_norm": 1.3461377620697021,
      "learning_rate": 0.00014609468770837965,
      "loss": 1.5327,
      "step": 12136
    },
    {
      "epoch": 0.2697111111111111,
      "grad_norm": 1.4436393976211548,
      "learning_rate": 0.00014609024227606136,
      "loss": 1.4233,
      "step": 12137
    },
    {
      "epoch": 0.2697333333333333,
      "grad_norm": 1.4548859596252441,
      "learning_rate": 0.00014608579684374307,
      "loss": 1.7607,
      "step": 12138
    },
    {
      "epoch": 0.2697555555555556,
      "grad_norm": 1.185908555984497,
      "learning_rate": 0.00014608135141142475,
      "loss": 0.8858,
      "step": 12139
    },
    {
      "epoch": 0.2697777777777778,
      "grad_norm": 1.6907976865768433,
      "learning_rate": 0.0001460769059791065,
      "loss": 1.8306,
      "step": 12140
    },
    {
      "epoch": 0.2698,
      "grad_norm": 1.5699598789215088,
      "learning_rate": 0.00014607246054678817,
      "loss": 1.81,
      "step": 12141
    },
    {
      "epoch": 0.26982222222222224,
      "grad_norm": 1.7432233095169067,
      "learning_rate": 0.00014606801511446988,
      "loss": 1.8325,
      "step": 12142
    },
    {
      "epoch": 0.26984444444444444,
      "grad_norm": 1.5921497344970703,
      "learning_rate": 0.0001460635696821516,
      "loss": 2.2264,
      "step": 12143
    },
    {
      "epoch": 0.26986666666666664,
      "grad_norm": 1.6378304958343506,
      "learning_rate": 0.0001460591242498333,
      "loss": 1.5821,
      "step": 12144
    },
    {
      "epoch": 0.2698888888888889,
      "grad_norm": 1.6371997594833374,
      "learning_rate": 0.000146054678817515,
      "loss": 2.2291,
      "step": 12145
    },
    {
      "epoch": 0.2699111111111111,
      "grad_norm": 1.6952481269836426,
      "learning_rate": 0.00014605023338519672,
      "loss": 1.6606,
      "step": 12146
    },
    {
      "epoch": 0.26993333333333336,
      "grad_norm": 1.5301216840744019,
      "learning_rate": 0.00014604578795287843,
      "loss": 1.426,
      "step": 12147
    },
    {
      "epoch": 0.26995555555555556,
      "grad_norm": 1.5745892524719238,
      "learning_rate": 0.0001460413425205601,
      "loss": 1.4761,
      "step": 12148
    },
    {
      "epoch": 0.26997777777777776,
      "grad_norm": 1.8779178857803345,
      "learning_rate": 0.00014603689708824185,
      "loss": 1.6408,
      "step": 12149
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.562892198562622,
      "learning_rate": 0.00014603245165592353,
      "loss": 1.0182,
      "step": 12150
    },
    {
      "epoch": 0.2700222222222222,
      "grad_norm": 1.2844858169555664,
      "learning_rate": 0.00014602800622360527,
      "loss": 2.2573,
      "step": 12151
    },
    {
      "epoch": 0.2700444444444444,
      "grad_norm": 1.2754676342010498,
      "learning_rate": 0.00014602356079128695,
      "loss": 2.3922,
      "step": 12152
    },
    {
      "epoch": 0.2700666666666667,
      "grad_norm": 1.4834805727005005,
      "learning_rate": 0.00014601911535896866,
      "loss": 2.13,
      "step": 12153
    },
    {
      "epoch": 0.2700888888888889,
      "grad_norm": 1.5301101207733154,
      "learning_rate": 0.00014601466992665037,
      "loss": 2.4213,
      "step": 12154
    },
    {
      "epoch": 0.27011111111111114,
      "grad_norm": 1.5364245176315308,
      "learning_rate": 0.00014601022449433208,
      "loss": 2.5127,
      "step": 12155
    },
    {
      "epoch": 0.27013333333333334,
      "grad_norm": 1.3940997123718262,
      "learning_rate": 0.0001460057790620138,
      "loss": 2.2511,
      "step": 12156
    },
    {
      "epoch": 0.27015555555555554,
      "grad_norm": 1.2768033742904663,
      "learning_rate": 0.0001460013336296955,
      "loss": 2.2787,
      "step": 12157
    },
    {
      "epoch": 0.2701777777777778,
      "grad_norm": 1.5001864433288574,
      "learning_rate": 0.0001459968881973772,
      "loss": 1.7606,
      "step": 12158
    },
    {
      "epoch": 0.2702,
      "grad_norm": 1.4937382936477661,
      "learning_rate": 0.0001459924427650589,
      "loss": 2.1942,
      "step": 12159
    },
    {
      "epoch": 0.2702222222222222,
      "grad_norm": 1.4399712085723877,
      "learning_rate": 0.00014598799733274063,
      "loss": 2.4594,
      "step": 12160
    },
    {
      "epoch": 0.27024444444444445,
      "grad_norm": 1.543004035949707,
      "learning_rate": 0.0001459835519004223,
      "loss": 1.8285,
      "step": 12161
    },
    {
      "epoch": 0.27026666666666666,
      "grad_norm": 1.3961448669433594,
      "learning_rate": 0.00014597910646810402,
      "loss": 2.4205,
      "step": 12162
    },
    {
      "epoch": 0.2702888888888889,
      "grad_norm": 1.5875012874603271,
      "learning_rate": 0.00014597466103578573,
      "loss": 1.9801,
      "step": 12163
    },
    {
      "epoch": 0.2703111111111111,
      "grad_norm": 1.4100483655929565,
      "learning_rate": 0.00014597021560346744,
      "loss": 2.091,
      "step": 12164
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 1.6876689195632935,
      "learning_rate": 0.00014596577017114915,
      "loss": 2.6404,
      "step": 12165
    },
    {
      "epoch": 0.27035555555555557,
      "grad_norm": 1.58310866355896,
      "learning_rate": 0.00014596132473883086,
      "loss": 2.283,
      "step": 12166
    },
    {
      "epoch": 0.2703777777777778,
      "grad_norm": 1.5620791912078857,
      "learning_rate": 0.00014595687930651257,
      "loss": 1.1431,
      "step": 12167
    },
    {
      "epoch": 0.2704,
      "grad_norm": 1.6869415044784546,
      "learning_rate": 0.00014595243387419428,
      "loss": 2.1068,
      "step": 12168
    },
    {
      "epoch": 0.27042222222222223,
      "grad_norm": 1.7181020975112915,
      "learning_rate": 0.000145947988441876,
      "loss": 2.1537,
      "step": 12169
    },
    {
      "epoch": 0.27044444444444443,
      "grad_norm": 1.4842861890792847,
      "learning_rate": 0.00014594354300955767,
      "loss": 2.1972,
      "step": 12170
    },
    {
      "epoch": 0.2704666666666667,
      "grad_norm": 1.8548978567123413,
      "learning_rate": 0.0001459390975772394,
      "loss": 2.095,
      "step": 12171
    },
    {
      "epoch": 0.2704888888888889,
      "grad_norm": 1.3128222227096558,
      "learning_rate": 0.00014593465214492112,
      "loss": 2.0007,
      "step": 12172
    },
    {
      "epoch": 0.2705111111111111,
      "grad_norm": 1.5456383228302002,
      "learning_rate": 0.0001459302067126028,
      "loss": 2.1758,
      "step": 12173
    },
    {
      "epoch": 0.27053333333333335,
      "grad_norm": 1.4529547691345215,
      "learning_rate": 0.00014592576128028454,
      "loss": 2.0473,
      "step": 12174
    },
    {
      "epoch": 0.27055555555555555,
      "grad_norm": 1.4941325187683105,
      "learning_rate": 0.00014592131584796622,
      "loss": 2.1912,
      "step": 12175
    },
    {
      "epoch": 0.27057777777777775,
      "grad_norm": 1.3990790843963623,
      "learning_rate": 0.00014591687041564793,
      "loss": 1.7676,
      "step": 12176
    },
    {
      "epoch": 0.2706,
      "grad_norm": 1.5457340478897095,
      "learning_rate": 0.00014591242498332964,
      "loss": 2.1723,
      "step": 12177
    },
    {
      "epoch": 0.2706222222222222,
      "grad_norm": 1.7628216743469238,
      "learning_rate": 0.00014590797955101135,
      "loss": 2.0692,
      "step": 12178
    },
    {
      "epoch": 0.27064444444444447,
      "grad_norm": 1.8134373426437378,
      "learning_rate": 0.00014590353411869303,
      "loss": 2.2566,
      "step": 12179
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 1.6962997913360596,
      "learning_rate": 0.00014589908868637477,
      "loss": 2.2447,
      "step": 12180
    },
    {
      "epoch": 0.27068888888888887,
      "grad_norm": 1.6409519910812378,
      "learning_rate": 0.00014589464325405648,
      "loss": 2.0996,
      "step": 12181
    },
    {
      "epoch": 0.2707111111111111,
      "grad_norm": 1.5862927436828613,
      "learning_rate": 0.00014589019782173816,
      "loss": 1.1667,
      "step": 12182
    },
    {
      "epoch": 0.2707333333333333,
      "grad_norm": 1.0096851587295532,
      "learning_rate": 0.0001458857523894199,
      "loss": 1.0467,
      "step": 12183
    },
    {
      "epoch": 0.2707555555555556,
      "grad_norm": 1.823647379875183,
      "learning_rate": 0.00014588130695710158,
      "loss": 1.7494,
      "step": 12184
    },
    {
      "epoch": 0.2707777777777778,
      "grad_norm": 1.666398286819458,
      "learning_rate": 0.0001458768615247833,
      "loss": 2.2336,
      "step": 12185
    },
    {
      "epoch": 0.2708,
      "grad_norm": 1.7338953018188477,
      "learning_rate": 0.000145872416092465,
      "loss": 2.3094,
      "step": 12186
    },
    {
      "epoch": 0.27082222222222224,
      "grad_norm": 1.4426630735397339,
      "learning_rate": 0.0001458679706601467,
      "loss": 1.2833,
      "step": 12187
    },
    {
      "epoch": 0.27084444444444444,
      "grad_norm": 1.3639861345291138,
      "learning_rate": 0.00014586352522782842,
      "loss": 1.5919,
      "step": 12188
    },
    {
      "epoch": 0.27086666666666664,
      "grad_norm": 1.524198055267334,
      "learning_rate": 0.00014585907979551013,
      "loss": 1.5979,
      "step": 12189
    },
    {
      "epoch": 0.2708888888888889,
      "grad_norm": 1.476453185081482,
      "learning_rate": 0.00014585463436319183,
      "loss": 1.7179,
      "step": 12190
    },
    {
      "epoch": 0.2709111111111111,
      "grad_norm": 1.4829187393188477,
      "learning_rate": 0.00014585018893087354,
      "loss": 1.7394,
      "step": 12191
    },
    {
      "epoch": 0.27093333333333336,
      "grad_norm": 1.9846323728561401,
      "learning_rate": 0.00014584574349855525,
      "loss": 1.7889,
      "step": 12192
    },
    {
      "epoch": 0.27095555555555556,
      "grad_norm": 1.9324007034301758,
      "learning_rate": 0.00014584129806623694,
      "loss": 1.9378,
      "step": 12193
    },
    {
      "epoch": 0.27097777777777776,
      "grad_norm": 1.6377813816070557,
      "learning_rate": 0.00014583685263391867,
      "loss": 2.0169,
      "step": 12194
    },
    {
      "epoch": 0.271,
      "grad_norm": 1.8438644409179688,
      "learning_rate": 0.00014583240720160036,
      "loss": 2.1495,
      "step": 12195
    },
    {
      "epoch": 0.2710222222222222,
      "grad_norm": 1.5956363677978516,
      "learning_rate": 0.00014582796176928207,
      "loss": 1.72,
      "step": 12196
    },
    {
      "epoch": 0.2710444444444444,
      "grad_norm": 1.6849887371063232,
      "learning_rate": 0.00014582351633696378,
      "loss": 1.9435,
      "step": 12197
    },
    {
      "epoch": 0.2710666666666667,
      "grad_norm": 1.7187196016311646,
      "learning_rate": 0.00014581907090464548,
      "loss": 2.2911,
      "step": 12198
    },
    {
      "epoch": 0.2710888888888889,
      "grad_norm": 1.4816306829452515,
      "learning_rate": 0.0001458146254723272,
      "loss": 1.6916,
      "step": 12199
    },
    {
      "epoch": 0.27111111111111114,
      "grad_norm": 0.9734587073326111,
      "learning_rate": 0.0001458101800400089,
      "loss": 0.6429,
      "step": 12200
    },
    {
      "epoch": 0.27113333333333334,
      "grad_norm": 1.4964596033096313,
      "learning_rate": 0.0001458057346076906,
      "loss": 2.7255,
      "step": 12201
    },
    {
      "epoch": 0.27115555555555554,
      "grad_norm": 1.4430725574493408,
      "learning_rate": 0.0001458012891753723,
      "loss": 2.2901,
      "step": 12202
    },
    {
      "epoch": 0.2711777777777778,
      "grad_norm": 1.230141043663025,
      "learning_rate": 0.00014579684374305403,
      "loss": 1.6709,
      "step": 12203
    },
    {
      "epoch": 0.2712,
      "grad_norm": 1.3185036182403564,
      "learning_rate": 0.00014579239831073572,
      "loss": 2.366,
      "step": 12204
    },
    {
      "epoch": 0.2712222222222222,
      "grad_norm": 1.4753940105438232,
      "learning_rate": 0.00014578795287841742,
      "loss": 2.277,
      "step": 12205
    },
    {
      "epoch": 0.27124444444444445,
      "grad_norm": 1.508515477180481,
      "learning_rate": 0.00014578350744609913,
      "loss": 2.5702,
      "step": 12206
    },
    {
      "epoch": 0.27126666666666666,
      "grad_norm": 1.2441285848617554,
      "learning_rate": 0.00014577906201378084,
      "loss": 2.0639,
      "step": 12207
    },
    {
      "epoch": 0.2712888888888889,
      "grad_norm": 1.3047393560409546,
      "learning_rate": 0.00014577461658146255,
      "loss": 2.2656,
      "step": 12208
    },
    {
      "epoch": 0.2713111111111111,
      "grad_norm": 2.1116831302642822,
      "learning_rate": 0.00014577017114914426,
      "loss": 1.8611,
      "step": 12209
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 1.4624053239822388,
      "learning_rate": 0.00014576572571682597,
      "loss": 2.5822,
      "step": 12210
    },
    {
      "epoch": 0.27135555555555557,
      "grad_norm": 1.481266736984253,
      "learning_rate": 0.00014576128028450768,
      "loss": 2.1421,
      "step": 12211
    },
    {
      "epoch": 0.2713777777777778,
      "grad_norm": 1.416905403137207,
      "learning_rate": 0.0001457568348521894,
      "loss": 1.8602,
      "step": 12212
    },
    {
      "epoch": 0.2714,
      "grad_norm": 1.544903039932251,
      "learning_rate": 0.00014575238941987107,
      "loss": 2.4208,
      "step": 12213
    },
    {
      "epoch": 0.27142222222222223,
      "grad_norm": 1.5180485248565674,
      "learning_rate": 0.0001457479439875528,
      "loss": 2.5038,
      "step": 12214
    },
    {
      "epoch": 0.27144444444444443,
      "grad_norm": 1.5846461057662964,
      "learning_rate": 0.0001457434985552345,
      "loss": 2.1011,
      "step": 12215
    },
    {
      "epoch": 0.2714666666666667,
      "grad_norm": 1.3833539485931396,
      "learning_rate": 0.0001457390531229162,
      "loss": 2.1887,
      "step": 12216
    },
    {
      "epoch": 0.2714888888888889,
      "grad_norm": 1.47223961353302,
      "learning_rate": 0.0001457346076905979,
      "loss": 2.2226,
      "step": 12217
    },
    {
      "epoch": 0.2715111111111111,
      "grad_norm": 1.4010422229766846,
      "learning_rate": 0.00014573016225827962,
      "loss": 1.5235,
      "step": 12218
    },
    {
      "epoch": 0.27153333333333335,
      "grad_norm": 1.3217675685882568,
      "learning_rate": 0.00014572571682596133,
      "loss": 2.0093,
      "step": 12219
    },
    {
      "epoch": 0.27155555555555555,
      "grad_norm": 1.2134124040603638,
      "learning_rate": 0.00014572127139364304,
      "loss": 1.8108,
      "step": 12220
    },
    {
      "epoch": 0.27157777777777775,
      "grad_norm": 1.5227066278457642,
      "learning_rate": 0.00014571682596132475,
      "loss": 1.9004,
      "step": 12221
    },
    {
      "epoch": 0.2716,
      "grad_norm": 1.3409315347671509,
      "learning_rate": 0.00014571238052900643,
      "loss": 2.3041,
      "step": 12222
    },
    {
      "epoch": 0.2716222222222222,
      "grad_norm": 1.6202024221420288,
      "learning_rate": 0.00014570793509668817,
      "loss": 2.016,
      "step": 12223
    },
    {
      "epoch": 0.27164444444444447,
      "grad_norm": 1.4062200784683228,
      "learning_rate": 0.00014570348966436985,
      "loss": 1.9648,
      "step": 12224
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 1.2333678007125854,
      "learning_rate": 0.0001456990442320516,
      "loss": 1.5144,
      "step": 12225
    },
    {
      "epoch": 0.27168888888888887,
      "grad_norm": 1.5482383966445923,
      "learning_rate": 0.00014569459879973327,
      "loss": 2.1434,
      "step": 12226
    },
    {
      "epoch": 0.2717111111111111,
      "grad_norm": 1.6601778268814087,
      "learning_rate": 0.00014569015336741498,
      "loss": 2.2865,
      "step": 12227
    },
    {
      "epoch": 0.2717333333333333,
      "grad_norm": 1.131798505783081,
      "learning_rate": 0.0001456857079350967,
      "loss": 1.1541,
      "step": 12228
    },
    {
      "epoch": 0.27175555555555553,
      "grad_norm": 0.8124337792396545,
      "learning_rate": 0.0001456812625027784,
      "loss": 0.8744,
      "step": 12229
    },
    {
      "epoch": 0.2717777777777778,
      "grad_norm": 1.6806787252426147,
      "learning_rate": 0.0001456768170704601,
      "loss": 1.9531,
      "step": 12230
    },
    {
      "epoch": 0.2718,
      "grad_norm": 1.8861016035079956,
      "learning_rate": 0.00014567237163814182,
      "loss": 1.6885,
      "step": 12231
    },
    {
      "epoch": 0.27182222222222224,
      "grad_norm": 1.7583988904953003,
      "learning_rate": 0.00014566792620582353,
      "loss": 2.1628,
      "step": 12232
    },
    {
      "epoch": 0.27184444444444444,
      "grad_norm": 1.7835593223571777,
      "learning_rate": 0.0001456634807735052,
      "loss": 2.2389,
      "step": 12233
    },
    {
      "epoch": 0.27186666666666665,
      "grad_norm": 1.6388111114501953,
      "learning_rate": 0.00014565903534118695,
      "loss": 2.005,
      "step": 12234
    },
    {
      "epoch": 0.2718888888888889,
      "grad_norm": 1.7140241861343384,
      "learning_rate": 0.00014565458990886863,
      "loss": 2.1578,
      "step": 12235
    },
    {
      "epoch": 0.2719111111111111,
      "grad_norm": 1.5069681406021118,
      "learning_rate": 0.00014565014447655034,
      "loss": 1.3126,
      "step": 12236
    },
    {
      "epoch": 0.27193333333333336,
      "grad_norm": 1.4601095914840698,
      "learning_rate": 0.00014564569904423205,
      "loss": 1.9678,
      "step": 12237
    },
    {
      "epoch": 0.27195555555555556,
      "grad_norm": 1.6794861555099487,
      "learning_rate": 0.00014564125361191376,
      "loss": 1.995,
      "step": 12238
    },
    {
      "epoch": 0.27197777777777776,
      "grad_norm": 1.7700395584106445,
      "learning_rate": 0.00014563680817959547,
      "loss": 2.0396,
      "step": 12239
    },
    {
      "epoch": 0.272,
      "grad_norm": 1.382836103439331,
      "learning_rate": 0.00014563236274727718,
      "loss": 1.858,
      "step": 12240
    },
    {
      "epoch": 0.2720222222222222,
      "grad_norm": 2.068230390548706,
      "learning_rate": 0.0001456279173149589,
      "loss": 2.1541,
      "step": 12241
    },
    {
      "epoch": 0.2720444444444444,
      "grad_norm": 1.4871360063552856,
      "learning_rate": 0.00014562347188264057,
      "loss": 1.6936,
      "step": 12242
    },
    {
      "epoch": 0.2720666666666667,
      "grad_norm": 1.791242003440857,
      "learning_rate": 0.0001456190264503223,
      "loss": 2.439,
      "step": 12243
    },
    {
      "epoch": 0.2720888888888889,
      "grad_norm": 1.4772576093673706,
      "learning_rate": 0.000145614581018004,
      "loss": 1.3692,
      "step": 12244
    },
    {
      "epoch": 0.27211111111111114,
      "grad_norm": 1.6386795043945312,
      "learning_rate": 0.00014561013558568573,
      "loss": 1.8133,
      "step": 12245
    },
    {
      "epoch": 0.27213333333333334,
      "grad_norm": 1.6508797407150269,
      "learning_rate": 0.00014560569015336744,
      "loss": 2.0055,
      "step": 12246
    },
    {
      "epoch": 0.27215555555555554,
      "grad_norm": 2.006749391555786,
      "learning_rate": 0.00014560124472104912,
      "loss": 2.3172,
      "step": 12247
    },
    {
      "epoch": 0.2721777777777778,
      "grad_norm": 1.3167970180511475,
      "learning_rate": 0.00014559679928873086,
      "loss": 0.9213,
      "step": 12248
    },
    {
      "epoch": 0.2722,
      "grad_norm": 1.4593340158462524,
      "learning_rate": 0.00014559235385641254,
      "loss": 1.7509,
      "step": 12249
    },
    {
      "epoch": 0.2722222222222222,
      "grad_norm": 1.2290525436401367,
      "learning_rate": 0.00014558790842409425,
      "loss": 0.9444,
      "step": 12250
    },
    {
      "epoch": 0.27224444444444446,
      "grad_norm": 1.258076548576355,
      "learning_rate": 0.00014558346299177596,
      "loss": 2.2583,
      "step": 12251
    },
    {
      "epoch": 0.27226666666666666,
      "grad_norm": 1.2106996774673462,
      "learning_rate": 0.00014557901755945767,
      "loss": 2.2318,
      "step": 12252
    },
    {
      "epoch": 0.2722888888888889,
      "grad_norm": 1.764931321144104,
      "learning_rate": 0.00014557457212713935,
      "loss": 2.5222,
      "step": 12253
    },
    {
      "epoch": 0.2723111111111111,
      "grad_norm": 1.4014050960540771,
      "learning_rate": 0.0001455701266948211,
      "loss": 2.6075,
      "step": 12254
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 1.34175443649292,
      "learning_rate": 0.0001455656812625028,
      "loss": 2.2354,
      "step": 12255
    },
    {
      "epoch": 0.2723555555555556,
      "grad_norm": 1.48856520652771,
      "learning_rate": 0.00014556123583018448,
      "loss": 2.8175,
      "step": 12256
    },
    {
      "epoch": 0.2723777777777778,
      "grad_norm": 1.4375649690628052,
      "learning_rate": 0.00014555679039786622,
      "loss": 2.6721,
      "step": 12257
    },
    {
      "epoch": 0.2724,
      "grad_norm": 1.5445449352264404,
      "learning_rate": 0.0001455523449655479,
      "loss": 1.8954,
      "step": 12258
    },
    {
      "epoch": 0.27242222222222223,
      "grad_norm": 1.487499475479126,
      "learning_rate": 0.0001455478995332296,
      "loss": 2.2599,
      "step": 12259
    },
    {
      "epoch": 0.27244444444444443,
      "grad_norm": 1.3797154426574707,
      "learning_rate": 0.00014554345410091132,
      "loss": 2.3595,
      "step": 12260
    },
    {
      "epoch": 0.2724666666666667,
      "grad_norm": 1.5330119132995605,
      "learning_rate": 0.00014553900866859303,
      "loss": 1.7467,
      "step": 12261
    },
    {
      "epoch": 0.2724888888888889,
      "grad_norm": 1.3357741832733154,
      "learning_rate": 0.00014553456323627474,
      "loss": 2.106,
      "step": 12262
    },
    {
      "epoch": 0.2725111111111111,
      "grad_norm": 1.5235559940338135,
      "learning_rate": 0.00014553011780395645,
      "loss": 1.8951,
      "step": 12263
    },
    {
      "epoch": 0.27253333333333335,
      "grad_norm": 1.3719664812088013,
      "learning_rate": 0.00014552567237163816,
      "loss": 1.9764,
      "step": 12264
    },
    {
      "epoch": 0.27255555555555555,
      "grad_norm": 1.5267759561538696,
      "learning_rate": 0.00014552122693931987,
      "loss": 2.2631,
      "step": 12265
    },
    {
      "epoch": 0.27257777777777775,
      "grad_norm": 1.3161946535110474,
      "learning_rate": 0.00014551678150700158,
      "loss": 1.848,
      "step": 12266
    },
    {
      "epoch": 0.2726,
      "grad_norm": 1.5495396852493286,
      "learning_rate": 0.00014551233607468326,
      "loss": 2.1025,
      "step": 12267
    },
    {
      "epoch": 0.2726222222222222,
      "grad_norm": 1.3484565019607544,
      "learning_rate": 0.000145507890642365,
      "loss": 1.7885,
      "step": 12268
    },
    {
      "epoch": 0.27264444444444447,
      "grad_norm": 1.5313273668289185,
      "learning_rate": 0.00014550344521004668,
      "loss": 1.9417,
      "step": 12269
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 1.4819415807724,
      "learning_rate": 0.0001454989997777284,
      "loss": 1.7946,
      "step": 12270
    },
    {
      "epoch": 0.27268888888888887,
      "grad_norm": 1.6970537900924683,
      "learning_rate": 0.0001454945543454101,
      "loss": 1.8939,
      "step": 12271
    },
    {
      "epoch": 0.2727111111111111,
      "grad_norm": 1.4418667554855347,
      "learning_rate": 0.0001454901089130918,
      "loss": 1.8402,
      "step": 12272
    },
    {
      "epoch": 0.2727333333333333,
      "grad_norm": 1.4730808734893799,
      "learning_rate": 0.00014548566348077352,
      "loss": 2.025,
      "step": 12273
    },
    {
      "epoch": 0.27275555555555553,
      "grad_norm": 1.4247851371765137,
      "learning_rate": 0.00014548121804845523,
      "loss": 2.162,
      "step": 12274
    },
    {
      "epoch": 0.2727777777777778,
      "grad_norm": 1.3402378559112549,
      "learning_rate": 0.00014547677261613694,
      "loss": 2.1938,
      "step": 12275
    },
    {
      "epoch": 0.2728,
      "grad_norm": 1.3557982444763184,
      "learning_rate": 0.00014547232718381862,
      "loss": 1.5756,
      "step": 12276
    },
    {
      "epoch": 0.27282222222222224,
      "grad_norm": 1.3688498735427856,
      "learning_rate": 0.00014546788175150035,
      "loss": 1.3594,
      "step": 12277
    },
    {
      "epoch": 0.27284444444444444,
      "grad_norm": 1.6884799003601074,
      "learning_rate": 0.00014546343631918204,
      "loss": 2.161,
      "step": 12278
    },
    {
      "epoch": 0.27286666666666665,
      "grad_norm": 1.5757761001586914,
      "learning_rate": 0.00014545899088686375,
      "loss": 1.9742,
      "step": 12279
    },
    {
      "epoch": 0.2728888888888889,
      "grad_norm": 1.7001278400421143,
      "learning_rate": 0.00014545454545454546,
      "loss": 2.0664,
      "step": 12280
    },
    {
      "epoch": 0.2729111111111111,
      "grad_norm": 1.850885033607483,
      "learning_rate": 0.00014545010002222717,
      "loss": 2.2777,
      "step": 12281
    },
    {
      "epoch": 0.2729333333333333,
      "grad_norm": 1.490291714668274,
      "learning_rate": 0.00014544565458990888,
      "loss": 1.8876,
      "step": 12282
    },
    {
      "epoch": 0.27295555555555556,
      "grad_norm": 1.9187848567962646,
      "learning_rate": 0.00014544120915759059,
      "loss": 2.0195,
      "step": 12283
    },
    {
      "epoch": 0.27297777777777776,
      "grad_norm": 1.641126275062561,
      "learning_rate": 0.0001454367637252723,
      "loss": 2.2297,
      "step": 12284
    },
    {
      "epoch": 0.273,
      "grad_norm": 1.3927642107009888,
      "learning_rate": 0.000145432318292954,
      "loss": 1.7649,
      "step": 12285
    },
    {
      "epoch": 0.2730222222222222,
      "grad_norm": 1.6534355878829956,
      "learning_rate": 0.00014542787286063571,
      "loss": 1.6345,
      "step": 12286
    },
    {
      "epoch": 0.2730444444444444,
      "grad_norm": 1.5605210065841675,
      "learning_rate": 0.0001454234274283174,
      "loss": 2.0051,
      "step": 12287
    },
    {
      "epoch": 0.2730666666666667,
      "grad_norm": 1.6098393201828003,
      "learning_rate": 0.00014541898199599913,
      "loss": 1.8983,
      "step": 12288
    },
    {
      "epoch": 0.2730888888888889,
      "grad_norm": 1.8475922346115112,
      "learning_rate": 0.00014541453656368082,
      "loss": 2.3108,
      "step": 12289
    },
    {
      "epoch": 0.27311111111111114,
      "grad_norm": 1.9062432050704956,
      "learning_rate": 0.00014541009113136253,
      "loss": 1.9974,
      "step": 12290
    },
    {
      "epoch": 0.27313333333333334,
      "grad_norm": 1.77604079246521,
      "learning_rate": 0.00014540564569904424,
      "loss": 2.209,
      "step": 12291
    },
    {
      "epoch": 0.27315555555555554,
      "grad_norm": 1.6390522718429565,
      "learning_rate": 0.00014540120026672594,
      "loss": 1.965,
      "step": 12292
    },
    {
      "epoch": 0.2731777777777778,
      "grad_norm": 1.5256462097167969,
      "learning_rate": 0.00014539675483440765,
      "loss": 1.8343,
      "step": 12293
    },
    {
      "epoch": 0.2732,
      "grad_norm": 1.651705265045166,
      "learning_rate": 0.00014539230940208936,
      "loss": 1.8741,
      "step": 12294
    },
    {
      "epoch": 0.2732222222222222,
      "grad_norm": 1.6129153966903687,
      "learning_rate": 0.00014538786396977107,
      "loss": 1.6748,
      "step": 12295
    },
    {
      "epoch": 0.27324444444444446,
      "grad_norm": 1.6586440801620483,
      "learning_rate": 0.00014538341853745276,
      "loss": 1.5646,
      "step": 12296
    },
    {
      "epoch": 0.27326666666666666,
      "grad_norm": 1.6495290994644165,
      "learning_rate": 0.0001453789731051345,
      "loss": 2.0952,
      "step": 12297
    },
    {
      "epoch": 0.2732888888888889,
      "grad_norm": 1.4308429956436157,
      "learning_rate": 0.00014537452767281618,
      "loss": 1.7499,
      "step": 12298
    },
    {
      "epoch": 0.2733111111111111,
      "grad_norm": 1.377487063407898,
      "learning_rate": 0.00014537008224049789,
      "loss": 1.374,
      "step": 12299
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 1.3019384145736694,
      "learning_rate": 0.0001453656368081796,
      "loss": 0.9064,
      "step": 12300
    },
    {
      "epoch": 0.2733555555555556,
      "grad_norm": 1.1830016374588013,
      "learning_rate": 0.0001453611913758613,
      "loss": 2.457,
      "step": 12301
    },
    {
      "epoch": 0.2733777777777778,
      "grad_norm": 1.4515217542648315,
      "learning_rate": 0.00014535674594354301,
      "loss": 3.0025,
      "step": 12302
    },
    {
      "epoch": 0.2734,
      "grad_norm": 1.0112532377243042,
      "learning_rate": 0.00014535230051122472,
      "loss": 1.2867,
      "step": 12303
    },
    {
      "epoch": 0.27342222222222223,
      "grad_norm": 1.2567652463912964,
      "learning_rate": 0.00014534785507890643,
      "loss": 2.5202,
      "step": 12304
    },
    {
      "epoch": 0.27344444444444443,
      "grad_norm": 1.3989146947860718,
      "learning_rate": 0.00014534340964658814,
      "loss": 2.517,
      "step": 12305
    },
    {
      "epoch": 0.2734666666666667,
      "grad_norm": 1.4267841577529907,
      "learning_rate": 0.00014533896421426985,
      "loss": 2.8652,
      "step": 12306
    },
    {
      "epoch": 0.2734888888888889,
      "grad_norm": 1.3139564990997314,
      "learning_rate": 0.00014533451878195153,
      "loss": 2.2787,
      "step": 12307
    },
    {
      "epoch": 0.2735111111111111,
      "grad_norm": 1.4212185144424438,
      "learning_rate": 0.00014533007334963327,
      "loss": 2.4748,
      "step": 12308
    },
    {
      "epoch": 0.27353333333333335,
      "grad_norm": 1.4913698434829712,
      "learning_rate": 0.00014532562791731495,
      "loss": 2.1097,
      "step": 12309
    },
    {
      "epoch": 0.27355555555555555,
      "grad_norm": 1.1970356702804565,
      "learning_rate": 0.00014532118248499666,
      "loss": 2.1946,
      "step": 12310
    },
    {
      "epoch": 0.27357777777777775,
      "grad_norm": 1.666465163230896,
      "learning_rate": 0.00014531673705267837,
      "loss": 2.5703,
      "step": 12311
    },
    {
      "epoch": 0.2736,
      "grad_norm": 1.4930975437164307,
      "learning_rate": 0.00014531229162036008,
      "loss": 1.9752,
      "step": 12312
    },
    {
      "epoch": 0.2736222222222222,
      "grad_norm": 1.4571213722229004,
      "learning_rate": 0.0001453078461880418,
      "loss": 2.3334,
      "step": 12313
    },
    {
      "epoch": 0.27364444444444447,
      "grad_norm": 1.398491621017456,
      "learning_rate": 0.0001453034007557235,
      "loss": 2.0089,
      "step": 12314
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 1.3941489458084106,
      "learning_rate": 0.0001452989553234052,
      "loss": 2.1217,
      "step": 12315
    },
    {
      "epoch": 0.27368888888888887,
      "grad_norm": 1.6006946563720703,
      "learning_rate": 0.0001452945098910869,
      "loss": 2.0592,
      "step": 12316
    },
    {
      "epoch": 0.2737111111111111,
      "grad_norm": 1.3716694116592407,
      "learning_rate": 0.00014529006445876863,
      "loss": 2.0924,
      "step": 12317
    },
    {
      "epoch": 0.27373333333333333,
      "grad_norm": 1.6161781549453735,
      "learning_rate": 0.00014528561902645031,
      "loss": 2.2725,
      "step": 12318
    },
    {
      "epoch": 0.27375555555555553,
      "grad_norm": 1.495457649230957,
      "learning_rate": 0.00014528117359413205,
      "loss": 1.9504,
      "step": 12319
    },
    {
      "epoch": 0.2737777777777778,
      "grad_norm": 1.2259365320205688,
      "learning_rate": 0.00014527672816181376,
      "loss": 1.7901,
      "step": 12320
    },
    {
      "epoch": 0.2738,
      "grad_norm": 1.711892008781433,
      "learning_rate": 0.00014527228272949544,
      "loss": 2.2616,
      "step": 12321
    },
    {
      "epoch": 0.27382222222222224,
      "grad_norm": 1.3372029066085815,
      "learning_rate": 0.00014526783729717718,
      "loss": 1.32,
      "step": 12322
    },
    {
      "epoch": 0.27384444444444445,
      "grad_norm": 1.4288809299468994,
      "learning_rate": 0.00014526339186485886,
      "loss": 1.9459,
      "step": 12323
    },
    {
      "epoch": 0.27386666666666665,
      "grad_norm": 1.5148640871047974,
      "learning_rate": 0.00014525894643254057,
      "loss": 1.841,
      "step": 12324
    },
    {
      "epoch": 0.2738888888888889,
      "grad_norm": 1.7521518468856812,
      "learning_rate": 0.00014525450100022228,
      "loss": 2.1731,
      "step": 12325
    },
    {
      "epoch": 0.2739111111111111,
      "grad_norm": 1.5069999694824219,
      "learning_rate": 0.000145250055567904,
      "loss": 2.5852,
      "step": 12326
    },
    {
      "epoch": 0.2739333333333333,
      "grad_norm": 1.6742092370986938,
      "learning_rate": 0.00014524561013558567,
      "loss": 1.9711,
      "step": 12327
    },
    {
      "epoch": 0.27395555555555556,
      "grad_norm": 1.695674180984497,
      "learning_rate": 0.0001452411647032674,
      "loss": 2.4884,
      "step": 12328
    },
    {
      "epoch": 0.27397777777777776,
      "grad_norm": 1.6990289688110352,
      "learning_rate": 0.00014523671927094912,
      "loss": 1.7804,
      "step": 12329
    },
    {
      "epoch": 0.274,
      "grad_norm": 1.5989835262298584,
      "learning_rate": 0.0001452322738386308,
      "loss": 2.1507,
      "step": 12330
    },
    {
      "epoch": 0.2740222222222222,
      "grad_norm": 1.5717741250991821,
      "learning_rate": 0.00014522782840631254,
      "loss": 2.025,
      "step": 12331
    },
    {
      "epoch": 0.2740444444444444,
      "grad_norm": 1.1703401803970337,
      "learning_rate": 0.00014522338297399422,
      "loss": 0.9987,
      "step": 12332
    },
    {
      "epoch": 0.2740666666666667,
      "grad_norm": 1.3376970291137695,
      "learning_rate": 0.00014521893754167593,
      "loss": 1.6139,
      "step": 12333
    },
    {
      "epoch": 0.2740888888888889,
      "grad_norm": 1.547911286354065,
      "learning_rate": 0.00014521449210935764,
      "loss": 1.8124,
      "step": 12334
    },
    {
      "epoch": 0.27411111111111114,
      "grad_norm": 1.7167127132415771,
      "learning_rate": 0.00014521004667703935,
      "loss": 1.8953,
      "step": 12335
    },
    {
      "epoch": 0.27413333333333334,
      "grad_norm": 1.512711763381958,
      "learning_rate": 0.00014520560124472103,
      "loss": 1.7966,
      "step": 12336
    },
    {
      "epoch": 0.27415555555555554,
      "grad_norm": 1.6218466758728027,
      "learning_rate": 0.00014520115581240277,
      "loss": 1.7336,
      "step": 12337
    },
    {
      "epoch": 0.2741777777777778,
      "grad_norm": 1.6800118684768677,
      "learning_rate": 0.00014519671038008448,
      "loss": 2.0347,
      "step": 12338
    },
    {
      "epoch": 0.2742,
      "grad_norm": 1.6641095876693726,
      "learning_rate": 0.0001451922649477662,
      "loss": 2.0923,
      "step": 12339
    },
    {
      "epoch": 0.2742222222222222,
      "grad_norm": 1.6065462827682495,
      "learning_rate": 0.0001451878195154479,
      "loss": 1.9845,
      "step": 12340
    },
    {
      "epoch": 0.27424444444444446,
      "grad_norm": 1.8440604209899902,
      "learning_rate": 0.00014518337408312958,
      "loss": 1.8261,
      "step": 12341
    },
    {
      "epoch": 0.27426666666666666,
      "grad_norm": 1.6562288999557495,
      "learning_rate": 0.00014517892865081132,
      "loss": 1.9517,
      "step": 12342
    },
    {
      "epoch": 0.2742888888888889,
      "grad_norm": 1.99715256690979,
      "learning_rate": 0.000145174483218493,
      "loss": 2.6516,
      "step": 12343
    },
    {
      "epoch": 0.2743111111111111,
      "grad_norm": 1.5615991353988647,
      "learning_rate": 0.0001451700377861747,
      "loss": 1.869,
      "step": 12344
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 1.6228350400924683,
      "learning_rate": 0.00014516559235385642,
      "loss": 1.7978,
      "step": 12345
    },
    {
      "epoch": 0.2743555555555556,
      "grad_norm": 1.7599987983703613,
      "learning_rate": 0.00014516114692153813,
      "loss": 1.6092,
      "step": 12346
    },
    {
      "epoch": 0.2743777777777778,
      "grad_norm": 2.0758867263793945,
      "learning_rate": 0.00014515670148921984,
      "loss": 2.1802,
      "step": 12347
    },
    {
      "epoch": 0.2744,
      "grad_norm": 1.5611791610717773,
      "learning_rate": 0.00014515225605690155,
      "loss": 1.8307,
      "step": 12348
    },
    {
      "epoch": 0.27442222222222223,
      "grad_norm": 1.745692491531372,
      "learning_rate": 0.00014514781062458326,
      "loss": 1.8259,
      "step": 12349
    },
    {
      "epoch": 0.27444444444444444,
      "grad_norm": 1.7334247827529907,
      "learning_rate": 0.00014514336519226494,
      "loss": 2.0174,
      "step": 12350
    },
    {
      "epoch": 0.2744666666666667,
      "grad_norm": 1.5312169790267944,
      "learning_rate": 0.00014513891975994668,
      "loss": 2.0211,
      "step": 12351
    },
    {
      "epoch": 0.2744888888888889,
      "grad_norm": 1.273527979850769,
      "learning_rate": 0.00014513447432762836,
      "loss": 2.3227,
      "step": 12352
    },
    {
      "epoch": 0.2745111111111111,
      "grad_norm": 1.3518439531326294,
      "learning_rate": 0.00014513002889531007,
      "loss": 2.2737,
      "step": 12353
    },
    {
      "epoch": 0.27453333333333335,
      "grad_norm": 1.432212233543396,
      "learning_rate": 0.00014512558346299178,
      "loss": 2.4016,
      "step": 12354
    },
    {
      "epoch": 0.27455555555555555,
      "grad_norm": 1.396612524986267,
      "learning_rate": 0.0001451211380306735,
      "loss": 1.8914,
      "step": 12355
    },
    {
      "epoch": 0.27457777777777775,
      "grad_norm": 1.1685335636138916,
      "learning_rate": 0.0001451166925983552,
      "loss": 1.9004,
      "step": 12356
    },
    {
      "epoch": 0.2746,
      "grad_norm": 1.4362444877624512,
      "learning_rate": 0.0001451122471660369,
      "loss": 1.8755,
      "step": 12357
    },
    {
      "epoch": 0.2746222222222222,
      "grad_norm": 1.4538826942443848,
      "learning_rate": 0.00014510780173371862,
      "loss": 2.2364,
      "step": 12358
    },
    {
      "epoch": 0.27464444444444447,
      "grad_norm": 1.30380380153656,
      "learning_rate": 0.00014510335630140033,
      "loss": 2.1312,
      "step": 12359
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 1.3235222101211548,
      "learning_rate": 0.00014509891086908204,
      "loss": 2.0815,
      "step": 12360
    },
    {
      "epoch": 0.27468888888888887,
      "grad_norm": 1.57697331905365,
      "learning_rate": 0.00014509446543676372,
      "loss": 2.3258,
      "step": 12361
    },
    {
      "epoch": 0.27471111111111113,
      "grad_norm": 1.3959687948226929,
      "learning_rate": 0.00014509002000444546,
      "loss": 1.9082,
      "step": 12362
    },
    {
      "epoch": 0.27473333333333333,
      "grad_norm": 1.717413306236267,
      "learning_rate": 0.00014508557457212714,
      "loss": 2.6064,
      "step": 12363
    },
    {
      "epoch": 0.27475555555555553,
      "grad_norm": 1.5822571516036987,
      "learning_rate": 0.00014508112913980885,
      "loss": 2.1712,
      "step": 12364
    },
    {
      "epoch": 0.2747777777777778,
      "grad_norm": 1.3084602355957031,
      "learning_rate": 0.00014507668370749056,
      "loss": 1.9667,
      "step": 12365
    },
    {
      "epoch": 0.2748,
      "grad_norm": 1.4087481498718262,
      "learning_rate": 0.00014507223827517227,
      "loss": 2.0291,
      "step": 12366
    },
    {
      "epoch": 0.27482222222222225,
      "grad_norm": 1.4584004878997803,
      "learning_rate": 0.00014506779284285398,
      "loss": 2.2267,
      "step": 12367
    },
    {
      "epoch": 0.27484444444444445,
      "grad_norm": 1.2141014337539673,
      "learning_rate": 0.00014506334741053569,
      "loss": 1.5301,
      "step": 12368
    },
    {
      "epoch": 0.27486666666666665,
      "grad_norm": 1.1512662172317505,
      "learning_rate": 0.0001450589019782174,
      "loss": 0.9283,
      "step": 12369
    },
    {
      "epoch": 0.2748888888888889,
      "grad_norm": 1.2534284591674805,
      "learning_rate": 0.00014505445654589908,
      "loss": 1.1986,
      "step": 12370
    },
    {
      "epoch": 0.2749111111111111,
      "grad_norm": 1.5643664598464966,
      "learning_rate": 0.00014505001111358082,
      "loss": 2.1603,
      "step": 12371
    },
    {
      "epoch": 0.2749333333333333,
      "grad_norm": 1.3589999675750732,
      "learning_rate": 0.0001450455656812625,
      "loss": 1.6181,
      "step": 12372
    },
    {
      "epoch": 0.27495555555555556,
      "grad_norm": 1.5486505031585693,
      "learning_rate": 0.0001450411202489442,
      "loss": 1.645,
      "step": 12373
    },
    {
      "epoch": 0.27497777777777777,
      "grad_norm": 1.5017443895339966,
      "learning_rate": 0.00014503667481662592,
      "loss": 2.0457,
      "step": 12374
    },
    {
      "epoch": 0.275,
      "grad_norm": 1.3754745721817017,
      "learning_rate": 0.00014503222938430763,
      "loss": 1.59,
      "step": 12375
    },
    {
      "epoch": 0.2750222222222222,
      "grad_norm": 1.5786293745040894,
      "learning_rate": 0.00014502778395198934,
      "loss": 2.1709,
      "step": 12376
    },
    {
      "epoch": 0.2750444444444444,
      "grad_norm": 1.5024406909942627,
      "learning_rate": 0.00014502333851967105,
      "loss": 1.7937,
      "step": 12377
    },
    {
      "epoch": 0.2750666666666667,
      "grad_norm": 1.5964994430541992,
      "learning_rate": 0.00014501889308735276,
      "loss": 1.9874,
      "step": 12378
    },
    {
      "epoch": 0.2750888888888889,
      "grad_norm": 1.9338295459747314,
      "learning_rate": 0.00014501444765503446,
      "loss": 2.0433,
      "step": 12379
    },
    {
      "epoch": 0.2751111111111111,
      "grad_norm": 1.4323982000350952,
      "learning_rate": 0.00014501000222271617,
      "loss": 1.8481,
      "step": 12380
    },
    {
      "epoch": 0.27513333333333334,
      "grad_norm": 1.1035689115524292,
      "learning_rate": 0.00014500555679039786,
      "loss": 1.2647,
      "step": 12381
    },
    {
      "epoch": 0.27515555555555554,
      "grad_norm": 1.190068244934082,
      "learning_rate": 0.0001450011113580796,
      "loss": 1.2054,
      "step": 12382
    },
    {
      "epoch": 0.2751777777777778,
      "grad_norm": 1.411381483078003,
      "learning_rate": 0.00014499666592576128,
      "loss": 1.9341,
      "step": 12383
    },
    {
      "epoch": 0.2752,
      "grad_norm": 1.077221393585205,
      "learning_rate": 0.00014499222049344299,
      "loss": 1.1433,
      "step": 12384
    },
    {
      "epoch": 0.2752222222222222,
      "grad_norm": 1.4711474180221558,
      "learning_rate": 0.0001449877750611247,
      "loss": 1.8677,
      "step": 12385
    },
    {
      "epoch": 0.27524444444444446,
      "grad_norm": 1.5723297595977783,
      "learning_rate": 0.0001449833296288064,
      "loss": 2.134,
      "step": 12386
    },
    {
      "epoch": 0.27526666666666666,
      "grad_norm": 1.7336710691452026,
      "learning_rate": 0.00014497888419648811,
      "loss": 1.8602,
      "step": 12387
    },
    {
      "epoch": 0.2752888888888889,
      "grad_norm": 1.4924912452697754,
      "learning_rate": 0.00014497443876416982,
      "loss": 1.387,
      "step": 12388
    },
    {
      "epoch": 0.2753111111111111,
      "grad_norm": 1.4540443420410156,
      "learning_rate": 0.00014496999333185153,
      "loss": 1.9582,
      "step": 12389
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 1.4428130388259888,
      "learning_rate": 0.00014496554789953322,
      "loss": 1.5411,
      "step": 12390
    },
    {
      "epoch": 0.2753555555555556,
      "grad_norm": 1.4007675647735596,
      "learning_rate": 0.00014496110246721495,
      "loss": 1.6729,
      "step": 12391
    },
    {
      "epoch": 0.2753777777777778,
      "grad_norm": 1.4609498977661133,
      "learning_rate": 0.00014495665703489664,
      "loss": 1.7343,
      "step": 12392
    },
    {
      "epoch": 0.2754,
      "grad_norm": 2.4057023525238037,
      "learning_rate": 0.00014495221160257835,
      "loss": 2.0868,
      "step": 12393
    },
    {
      "epoch": 0.27542222222222223,
      "grad_norm": 1.6647067070007324,
      "learning_rate": 0.00014494776617026008,
      "loss": 1.7153,
      "step": 12394
    },
    {
      "epoch": 0.27544444444444444,
      "grad_norm": 1.5795520544052124,
      "learning_rate": 0.00014494332073794176,
      "loss": 1.909,
      "step": 12395
    },
    {
      "epoch": 0.2754666666666667,
      "grad_norm": 1.9083935022354126,
      "learning_rate": 0.0001449388753056235,
      "loss": 1.8305,
      "step": 12396
    },
    {
      "epoch": 0.2754888888888889,
      "grad_norm": 1.5945937633514404,
      "learning_rate": 0.00014493442987330518,
      "loss": 2.1242,
      "step": 12397
    },
    {
      "epoch": 0.2755111111111111,
      "grad_norm": 1.5867387056350708,
      "learning_rate": 0.0001449299844409869,
      "loss": 1.6008,
      "step": 12398
    },
    {
      "epoch": 0.27553333333333335,
      "grad_norm": 1.5834851264953613,
      "learning_rate": 0.0001449255390086686,
      "loss": 1.6708,
      "step": 12399
    },
    {
      "epoch": 0.27555555555555555,
      "grad_norm": 1.031535029411316,
      "learning_rate": 0.0001449210935763503,
      "loss": 0.7015,
      "step": 12400
    },
    {
      "epoch": 0.27557777777777775,
      "grad_norm": 1.5969570875167847,
      "learning_rate": 0.000144916648144032,
      "loss": 2.5626,
      "step": 12401
    },
    {
      "epoch": 0.2756,
      "grad_norm": 1.2490804195404053,
      "learning_rate": 0.00014491220271171373,
      "loss": 2.424,
      "step": 12402
    },
    {
      "epoch": 0.2756222222222222,
      "grad_norm": 1.1342262029647827,
      "learning_rate": 0.00014490775727939544,
      "loss": 1.363,
      "step": 12403
    },
    {
      "epoch": 0.27564444444444447,
      "grad_norm": 1.336710810661316,
      "learning_rate": 0.00014490331184707712,
      "loss": 1.8335,
      "step": 12404
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 1.2486329078674316,
      "learning_rate": 0.00014489886641475886,
      "loss": 2.0107,
      "step": 12405
    },
    {
      "epoch": 0.27568888888888887,
      "grad_norm": 1.4711148738861084,
      "learning_rate": 0.00014489442098244054,
      "loss": 2.6095,
      "step": 12406
    },
    {
      "epoch": 0.27571111111111113,
      "grad_norm": 1.5883028507232666,
      "learning_rate": 0.00014488997555012225,
      "loss": 2.5454,
      "step": 12407
    },
    {
      "epoch": 0.27573333333333333,
      "grad_norm": 1.6931653022766113,
      "learning_rate": 0.00014488553011780396,
      "loss": 2.3449,
      "step": 12408
    },
    {
      "epoch": 0.27575555555555553,
      "grad_norm": 0.9764017462730408,
      "learning_rate": 0.00014488108468548567,
      "loss": 1.1278,
      "step": 12409
    },
    {
      "epoch": 0.2757777777777778,
      "grad_norm": 1.4449796676635742,
      "learning_rate": 0.00014487663925316735,
      "loss": 1.8363,
      "step": 12410
    },
    {
      "epoch": 0.2758,
      "grad_norm": 1.5063484907150269,
      "learning_rate": 0.0001448721938208491,
      "loss": 2.4976,
      "step": 12411
    },
    {
      "epoch": 0.27582222222222225,
      "grad_norm": 1.32911217212677,
      "learning_rate": 0.0001448677483885308,
      "loss": 2.1332,
      "step": 12412
    },
    {
      "epoch": 0.27584444444444445,
      "grad_norm": 1.342885136604309,
      "learning_rate": 0.00014486330295621248,
      "loss": 1.6041,
      "step": 12413
    },
    {
      "epoch": 0.27586666666666665,
      "grad_norm": 1.6088881492614746,
      "learning_rate": 0.00014485885752389422,
      "loss": 1.6229,
      "step": 12414
    },
    {
      "epoch": 0.2758888888888889,
      "grad_norm": 1.3086588382720947,
      "learning_rate": 0.0001448544120915759,
      "loss": 1.9057,
      "step": 12415
    },
    {
      "epoch": 0.2759111111111111,
      "grad_norm": 1.4455442428588867,
      "learning_rate": 0.00014484996665925764,
      "loss": 1.8471,
      "step": 12416
    },
    {
      "epoch": 0.2759333333333333,
      "grad_norm": 1.2152239084243774,
      "learning_rate": 0.00014484552122693932,
      "loss": 1.5786,
      "step": 12417
    },
    {
      "epoch": 0.27595555555555557,
      "grad_norm": 1.02814519405365,
      "learning_rate": 0.00014484107579462103,
      "loss": 1.125,
      "step": 12418
    },
    {
      "epoch": 0.27597777777777777,
      "grad_norm": 1.6775591373443604,
      "learning_rate": 0.00014483663036230274,
      "loss": 2.2045,
      "step": 12419
    },
    {
      "epoch": 0.276,
      "grad_norm": 1.178063154220581,
      "learning_rate": 0.00014483218492998445,
      "loss": 1.4191,
      "step": 12420
    },
    {
      "epoch": 0.2760222222222222,
      "grad_norm": 1.5204341411590576,
      "learning_rate": 0.00014482773949766616,
      "loss": 2.2156,
      "step": 12421
    },
    {
      "epoch": 0.2760444444444444,
      "grad_norm": 1.4238684177398682,
      "learning_rate": 0.00014482329406534787,
      "loss": 2.0717,
      "step": 12422
    },
    {
      "epoch": 0.2760666666666667,
      "grad_norm": 1.9141892194747925,
      "learning_rate": 0.00014481884863302958,
      "loss": 2.139,
      "step": 12423
    },
    {
      "epoch": 0.2760888888888889,
      "grad_norm": 1.4852770566940308,
      "learning_rate": 0.00014481440320071126,
      "loss": 1.7432,
      "step": 12424
    },
    {
      "epoch": 0.2761111111111111,
      "grad_norm": 1.978280782699585,
      "learning_rate": 0.000144809957768393,
      "loss": 2.0133,
      "step": 12425
    },
    {
      "epoch": 0.27613333333333334,
      "grad_norm": 1.7195926904678345,
      "learning_rate": 0.00014480551233607468,
      "loss": 1.9684,
      "step": 12426
    },
    {
      "epoch": 0.27615555555555554,
      "grad_norm": 2.286059856414795,
      "learning_rate": 0.0001448010669037564,
      "loss": 2.178,
      "step": 12427
    },
    {
      "epoch": 0.2761777777777778,
      "grad_norm": 1.6887987852096558,
      "learning_rate": 0.0001447966214714381,
      "loss": 2.4753,
      "step": 12428
    },
    {
      "epoch": 0.2762,
      "grad_norm": 1.8517507314682007,
      "learning_rate": 0.0001447921760391198,
      "loss": 2.1346,
      "step": 12429
    },
    {
      "epoch": 0.2762222222222222,
      "grad_norm": 1.3820527791976929,
      "learning_rate": 0.00014478773060680152,
      "loss": 1.8964,
      "step": 12430
    },
    {
      "epoch": 0.27624444444444446,
      "grad_norm": 0.39266303181648254,
      "learning_rate": 0.00014478328517448323,
      "loss": 0.0305,
      "step": 12431
    },
    {
      "epoch": 0.27626666666666666,
      "grad_norm": 1.6696144342422485,
      "learning_rate": 0.00014477883974216494,
      "loss": 1.0164,
      "step": 12432
    },
    {
      "epoch": 0.27628888888888886,
      "grad_norm": 1.445396900177002,
      "learning_rate": 0.00014477439430984665,
      "loss": 2.0011,
      "step": 12433
    },
    {
      "epoch": 0.2763111111111111,
      "grad_norm": 1.673309087753296,
      "learning_rate": 0.00014476994887752836,
      "loss": 2.19,
      "step": 12434
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 1.6796079874038696,
      "learning_rate": 0.00014476550344521004,
      "loss": 1.8334,
      "step": 12435
    },
    {
      "epoch": 0.2763555555555556,
      "grad_norm": 1.50881826877594,
      "learning_rate": 0.00014476105801289178,
      "loss": 1.5401,
      "step": 12436
    },
    {
      "epoch": 0.2763777777777778,
      "grad_norm": 1.5343008041381836,
      "learning_rate": 0.00014475661258057346,
      "loss": 1.8277,
      "step": 12437
    },
    {
      "epoch": 0.2764,
      "grad_norm": 1.4582778215408325,
      "learning_rate": 0.00014475216714825517,
      "loss": 2.1669,
      "step": 12438
    },
    {
      "epoch": 0.27642222222222224,
      "grad_norm": 1.697646975517273,
      "learning_rate": 0.00014474772171593688,
      "loss": 2.1854,
      "step": 12439
    },
    {
      "epoch": 0.27644444444444444,
      "grad_norm": 1.426364541053772,
      "learning_rate": 0.0001447432762836186,
      "loss": 1.7167,
      "step": 12440
    },
    {
      "epoch": 0.2764666666666667,
      "grad_norm": 1.6813759803771973,
      "learning_rate": 0.0001447388308513003,
      "loss": 2.0745,
      "step": 12441
    },
    {
      "epoch": 0.2764888888888889,
      "grad_norm": 1.584760308265686,
      "learning_rate": 0.000144734385418982,
      "loss": 1.7984,
      "step": 12442
    },
    {
      "epoch": 0.2765111111111111,
      "grad_norm": 1.3944544792175293,
      "learning_rate": 0.00014472993998666372,
      "loss": 1.6793,
      "step": 12443
    },
    {
      "epoch": 0.27653333333333335,
      "grad_norm": 1.50407075881958,
      "learning_rate": 0.0001447254945543454,
      "loss": 2.0327,
      "step": 12444
    },
    {
      "epoch": 0.27655555555555555,
      "grad_norm": 1.4652968645095825,
      "learning_rate": 0.00014472104912202714,
      "loss": 1.6606,
      "step": 12445
    },
    {
      "epoch": 0.27657777777777776,
      "grad_norm": 1.6502516269683838,
      "learning_rate": 0.00014471660368970882,
      "loss": 1.9764,
      "step": 12446
    },
    {
      "epoch": 0.2766,
      "grad_norm": 1.2076140642166138,
      "learning_rate": 0.00014471215825739053,
      "loss": 1.4032,
      "step": 12447
    },
    {
      "epoch": 0.2766222222222222,
      "grad_norm": 2.071063280105591,
      "learning_rate": 0.00014470771282507224,
      "loss": 2.1717,
      "step": 12448
    },
    {
      "epoch": 0.27664444444444447,
      "grad_norm": 1.5726968050003052,
      "learning_rate": 0.00014470326739275395,
      "loss": 1.8572,
      "step": 12449
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 1.0831451416015625,
      "learning_rate": 0.00014469882196043566,
      "loss": 0.8257,
      "step": 12450
    },
    {
      "epoch": 0.2766888888888889,
      "grad_norm": 1.1149715185165405,
      "learning_rate": 0.00014469437652811737,
      "loss": 2.1137,
      "step": 12451
    },
    {
      "epoch": 0.27671111111111113,
      "grad_norm": 1.2294176816940308,
      "learning_rate": 0.00014468993109579908,
      "loss": 2.183,
      "step": 12452
    },
    {
      "epoch": 0.27673333333333333,
      "grad_norm": 1.1841812133789062,
      "learning_rate": 0.0001446854856634808,
      "loss": 2.3778,
      "step": 12453
    },
    {
      "epoch": 0.27675555555555553,
      "grad_norm": 1.184063196182251,
      "learning_rate": 0.0001446810402311625,
      "loss": 1.8681,
      "step": 12454
    },
    {
      "epoch": 0.2767777777777778,
      "grad_norm": 1.5606919527053833,
      "learning_rate": 0.00014467659479884418,
      "loss": 2.6135,
      "step": 12455
    },
    {
      "epoch": 0.2768,
      "grad_norm": 1.3903166055679321,
      "learning_rate": 0.00014467214936652592,
      "loss": 1.4017,
      "step": 12456
    },
    {
      "epoch": 0.27682222222222225,
      "grad_norm": 1.4394103288650513,
      "learning_rate": 0.0001446677039342076,
      "loss": 2.456,
      "step": 12457
    },
    {
      "epoch": 0.27684444444444445,
      "grad_norm": 1.2759915590286255,
      "learning_rate": 0.0001446632585018893,
      "loss": 2.4361,
      "step": 12458
    },
    {
      "epoch": 0.27686666666666665,
      "grad_norm": 1.557875394821167,
      "learning_rate": 0.00014465881306957102,
      "loss": 2.3697,
      "step": 12459
    },
    {
      "epoch": 0.2768888888888889,
      "grad_norm": 1.2134888172149658,
      "learning_rate": 0.00014465436763725273,
      "loss": 1.1978,
      "step": 12460
    },
    {
      "epoch": 0.2769111111111111,
      "grad_norm": 1.4832404851913452,
      "learning_rate": 0.00014464992220493444,
      "loss": 2.3036,
      "step": 12461
    },
    {
      "epoch": 0.2769333333333333,
      "grad_norm": 2.2596540451049805,
      "learning_rate": 0.00014464547677261615,
      "loss": 2.4829,
      "step": 12462
    },
    {
      "epoch": 0.27695555555555557,
      "grad_norm": 1.3570866584777832,
      "learning_rate": 0.00014464103134029786,
      "loss": 2.2209,
      "step": 12463
    },
    {
      "epoch": 0.27697777777777777,
      "grad_norm": 1.3466644287109375,
      "learning_rate": 0.00014463658590797954,
      "loss": 2.0071,
      "step": 12464
    },
    {
      "epoch": 0.277,
      "grad_norm": 1.5505661964416504,
      "learning_rate": 0.00014463214047566128,
      "loss": 2.0945,
      "step": 12465
    },
    {
      "epoch": 0.2770222222222222,
      "grad_norm": 1.6669496297836304,
      "learning_rate": 0.00014462769504334296,
      "loss": 1.756,
      "step": 12466
    },
    {
      "epoch": 0.2770444444444444,
      "grad_norm": 1.3252562284469604,
      "learning_rate": 0.00014462324961102467,
      "loss": 1.8723,
      "step": 12467
    },
    {
      "epoch": 0.2770666666666667,
      "grad_norm": 1.5813716650009155,
      "learning_rate": 0.0001446188041787064,
      "loss": 2.4775,
      "step": 12468
    },
    {
      "epoch": 0.2770888888888889,
      "grad_norm": 1.6557546854019165,
      "learning_rate": 0.0001446143587463881,
      "loss": 1.9733,
      "step": 12469
    },
    {
      "epoch": 0.2771111111111111,
      "grad_norm": 1.5566191673278809,
      "learning_rate": 0.0001446099133140698,
      "loss": 2.2206,
      "step": 12470
    },
    {
      "epoch": 0.27713333333333334,
      "grad_norm": 1.4873764514923096,
      "learning_rate": 0.0001446054678817515,
      "loss": 1.9277,
      "step": 12471
    },
    {
      "epoch": 0.27715555555555554,
      "grad_norm": 1.7574379444122314,
      "learning_rate": 0.00014460102244943322,
      "loss": 2.083,
      "step": 12472
    },
    {
      "epoch": 0.2771777777777778,
      "grad_norm": 1.6122320890426636,
      "learning_rate": 0.00014459657701711493,
      "loss": 1.7888,
      "step": 12473
    },
    {
      "epoch": 0.2772,
      "grad_norm": 2.4658641815185547,
      "learning_rate": 0.00014459213158479663,
      "loss": 2.2677,
      "step": 12474
    },
    {
      "epoch": 0.2772222222222222,
      "grad_norm": 1.9164084196090698,
      "learning_rate": 0.00014458768615247832,
      "loss": 2.1229,
      "step": 12475
    },
    {
      "epoch": 0.27724444444444446,
      "grad_norm": 1.4811204671859741,
      "learning_rate": 0.00014458324072016005,
      "loss": 1.8374,
      "step": 12476
    },
    {
      "epoch": 0.27726666666666666,
      "grad_norm": 1.84189772605896,
      "learning_rate": 0.00014457879528784176,
      "loss": 1.9888,
      "step": 12477
    },
    {
      "epoch": 0.27728888888888886,
      "grad_norm": 1.761940360069275,
      "learning_rate": 0.00014457434985552345,
      "loss": 2.5778,
      "step": 12478
    },
    {
      "epoch": 0.2773111111111111,
      "grad_norm": 1.4227144718170166,
      "learning_rate": 0.00014456990442320518,
      "loss": 1.7958,
      "step": 12479
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 1.8139066696166992,
      "learning_rate": 0.00014456545899088687,
      "loss": 1.209,
      "step": 12480
    },
    {
      "epoch": 0.2773555555555556,
      "grad_norm": 1.5047218799591064,
      "learning_rate": 0.00014456101355856857,
      "loss": 2.1255,
      "step": 12481
    },
    {
      "epoch": 0.2773777777777778,
      "grad_norm": 1.506748080253601,
      "learning_rate": 0.00014455656812625028,
      "loss": 1.5899,
      "step": 12482
    },
    {
      "epoch": 0.2774,
      "grad_norm": 1.6266084909439087,
      "learning_rate": 0.000144552122693932,
      "loss": 1.9167,
      "step": 12483
    },
    {
      "epoch": 0.27742222222222224,
      "grad_norm": 1.4163309335708618,
      "learning_rate": 0.00014454767726161368,
      "loss": 1.8663,
      "step": 12484
    },
    {
      "epoch": 0.27744444444444444,
      "grad_norm": 1.7646098136901855,
      "learning_rate": 0.0001445432318292954,
      "loss": 2.2304,
      "step": 12485
    },
    {
      "epoch": 0.27746666666666664,
      "grad_norm": 1.4125456809997559,
      "learning_rate": 0.00014453878639697712,
      "loss": 1.5687,
      "step": 12486
    },
    {
      "epoch": 0.2774888888888889,
      "grad_norm": 1.4041858911514282,
      "learning_rate": 0.0001445343409646588,
      "loss": 1.9509,
      "step": 12487
    },
    {
      "epoch": 0.2775111111111111,
      "grad_norm": 1.5382962226867676,
      "learning_rate": 0.00014452989553234054,
      "loss": 1.8808,
      "step": 12488
    },
    {
      "epoch": 0.27753333333333335,
      "grad_norm": 1.6514707803726196,
      "learning_rate": 0.00014452545010002222,
      "loss": 2.0255,
      "step": 12489
    },
    {
      "epoch": 0.27755555555555556,
      "grad_norm": 1.3899192810058594,
      "learning_rate": 0.00014452100466770396,
      "loss": 1.7687,
      "step": 12490
    },
    {
      "epoch": 0.27757777777777776,
      "grad_norm": 1.3557761907577515,
      "learning_rate": 0.00014451655923538564,
      "loss": 1.4369,
      "step": 12491
    },
    {
      "epoch": 0.2776,
      "grad_norm": 1.778185248374939,
      "learning_rate": 0.00014451211380306735,
      "loss": 1.8583,
      "step": 12492
    },
    {
      "epoch": 0.2776222222222222,
      "grad_norm": 1.4785010814666748,
      "learning_rate": 0.00014450766837074906,
      "loss": 1.7672,
      "step": 12493
    },
    {
      "epoch": 0.27764444444444447,
      "grad_norm": 1.5778999328613281,
      "learning_rate": 0.00014450322293843077,
      "loss": 2.0012,
      "step": 12494
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 1.3880099058151245,
      "learning_rate": 0.00014449877750611248,
      "loss": 1.8258,
      "step": 12495
    },
    {
      "epoch": 0.2776888888888889,
      "grad_norm": 1.3567265272140503,
      "learning_rate": 0.0001444943320737942,
      "loss": 1.4185,
      "step": 12496
    },
    {
      "epoch": 0.27771111111111113,
      "grad_norm": 1.4948420524597168,
      "learning_rate": 0.0001444898866414759,
      "loss": 1.4569,
      "step": 12497
    },
    {
      "epoch": 0.27773333333333333,
      "grad_norm": 1.7856565713882446,
      "learning_rate": 0.00014448544120915758,
      "loss": 2.1769,
      "step": 12498
    },
    {
      "epoch": 0.27775555555555553,
      "grad_norm": 1.6271648406982422,
      "learning_rate": 0.00014448099577683932,
      "loss": 1.9059,
      "step": 12499
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 2.2749969959259033,
      "learning_rate": 0.000144476550344521,
      "loss": 2.1694,
      "step": 12500
    },
    {
      "epoch": 0.2778,
      "grad_norm": 1.0971587896347046,
      "learning_rate": 0.0001444721049122027,
      "loss": 2.1231,
      "step": 12501
    },
    {
      "epoch": 0.27782222222222225,
      "grad_norm": 1.3036936521530151,
      "learning_rate": 0.00014446765947988442,
      "loss": 2.2059,
      "step": 12502
    },
    {
      "epoch": 0.27784444444444445,
      "grad_norm": 1.3735944032669067,
      "learning_rate": 0.00014446321404756613,
      "loss": 1.9606,
      "step": 12503
    },
    {
      "epoch": 0.27786666666666665,
      "grad_norm": 1.3141541481018066,
      "learning_rate": 0.00014445876861524784,
      "loss": 2.3463,
      "step": 12504
    },
    {
      "epoch": 0.2778888888888889,
      "grad_norm": 1.2508652210235596,
      "learning_rate": 0.00014445432318292955,
      "loss": 2.2794,
      "step": 12505
    },
    {
      "epoch": 0.2779111111111111,
      "grad_norm": 1.4365288019180298,
      "learning_rate": 0.00014444987775061126,
      "loss": 2.1631,
      "step": 12506
    },
    {
      "epoch": 0.2779333333333333,
      "grad_norm": 1.417516827583313,
      "learning_rate": 0.00014444543231829294,
      "loss": 1.7997,
      "step": 12507
    },
    {
      "epoch": 0.27795555555555557,
      "grad_norm": 1.6703100204467773,
      "learning_rate": 0.00014444098688597468,
      "loss": 2.2728,
      "step": 12508
    },
    {
      "epoch": 0.27797777777777777,
      "grad_norm": 1.7863595485687256,
      "learning_rate": 0.00014443654145365636,
      "loss": 2.2959,
      "step": 12509
    },
    {
      "epoch": 0.278,
      "grad_norm": 1.2343116998672485,
      "learning_rate": 0.0001444320960213381,
      "loss": 0.9595,
      "step": 12510
    },
    {
      "epoch": 0.2780222222222222,
      "grad_norm": 1.491771936416626,
      "learning_rate": 0.00014442765058901978,
      "loss": 1.8233,
      "step": 12511
    },
    {
      "epoch": 0.2780444444444444,
      "grad_norm": 1.728674292564392,
      "learning_rate": 0.0001444232051567015,
      "loss": 1.9193,
      "step": 12512
    },
    {
      "epoch": 0.2780666666666667,
      "grad_norm": 1.4134708642959595,
      "learning_rate": 0.0001444187597243832,
      "loss": 1.9376,
      "step": 12513
    },
    {
      "epoch": 0.2780888888888889,
      "grad_norm": 1.5805342197418213,
      "learning_rate": 0.0001444143142920649,
      "loss": 1.961,
      "step": 12514
    },
    {
      "epoch": 0.2781111111111111,
      "grad_norm": 1.4040290117263794,
      "learning_rate": 0.00014440986885974662,
      "loss": 2.0614,
      "step": 12515
    },
    {
      "epoch": 0.27813333333333334,
      "grad_norm": 1.6385427713394165,
      "learning_rate": 0.00014440542342742833,
      "loss": 2.4516,
      "step": 12516
    },
    {
      "epoch": 0.27815555555555554,
      "grad_norm": 1.4998164176940918,
      "learning_rate": 0.00014440097799511004,
      "loss": 2.4128,
      "step": 12517
    },
    {
      "epoch": 0.2781777777777778,
      "grad_norm": 1.3818717002868652,
      "learning_rate": 0.00014439653256279172,
      "loss": 2.3296,
      "step": 12518
    },
    {
      "epoch": 0.2782,
      "grad_norm": 1.4377349615097046,
      "learning_rate": 0.00014439208713047346,
      "loss": 2.2033,
      "step": 12519
    },
    {
      "epoch": 0.2782222222222222,
      "grad_norm": 1.2665371894836426,
      "learning_rate": 0.00014438764169815514,
      "loss": 1.9299,
      "step": 12520
    },
    {
      "epoch": 0.27824444444444446,
      "grad_norm": 1.3704074621200562,
      "learning_rate": 0.00014438319626583685,
      "loss": 1.2454,
      "step": 12521
    },
    {
      "epoch": 0.27826666666666666,
      "grad_norm": 1.4022772312164307,
      "learning_rate": 0.00014437875083351856,
      "loss": 2.0315,
      "step": 12522
    },
    {
      "epoch": 0.27828888888888886,
      "grad_norm": 1.400505542755127,
      "learning_rate": 0.00014437430540120027,
      "loss": 1.8486,
      "step": 12523
    },
    {
      "epoch": 0.2783111111111111,
      "grad_norm": 1.3829877376556396,
      "learning_rate": 0.00014436985996888198,
      "loss": 2.1775,
      "step": 12524
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 1.4218416213989258,
      "learning_rate": 0.0001443654145365637,
      "loss": 1.609,
      "step": 12525
    },
    {
      "epoch": 0.2783555555555556,
      "grad_norm": 1.5676491260528564,
      "learning_rate": 0.0001443609691042454,
      "loss": 1.8354,
      "step": 12526
    },
    {
      "epoch": 0.2783777777777778,
      "grad_norm": 1.5694849491119385,
      "learning_rate": 0.00014435652367192708,
      "loss": 1.9766,
      "step": 12527
    },
    {
      "epoch": 0.2784,
      "grad_norm": 0.9321321249008179,
      "learning_rate": 0.00014435207823960882,
      "loss": 0.6178,
      "step": 12528
    },
    {
      "epoch": 0.27842222222222224,
      "grad_norm": 1.5799490213394165,
      "learning_rate": 0.0001443476328072905,
      "loss": 1.8263,
      "step": 12529
    },
    {
      "epoch": 0.27844444444444444,
      "grad_norm": 1.377072811126709,
      "learning_rate": 0.00014434318737497224,
      "loss": 1.7714,
      "step": 12530
    },
    {
      "epoch": 0.27846666666666664,
      "grad_norm": 1.5222712755203247,
      "learning_rate": 0.00014433874194265392,
      "loss": 1.8286,
      "step": 12531
    },
    {
      "epoch": 0.2784888888888889,
      "grad_norm": 1.5142501592636108,
      "learning_rate": 0.00014433429651033563,
      "loss": 1.3955,
      "step": 12532
    },
    {
      "epoch": 0.2785111111111111,
      "grad_norm": 1.455923080444336,
      "learning_rate": 0.00014432985107801734,
      "loss": 2.0297,
      "step": 12533
    },
    {
      "epoch": 0.27853333333333335,
      "grad_norm": 1.985024333000183,
      "learning_rate": 0.00014432540564569905,
      "loss": 1.8679,
      "step": 12534
    },
    {
      "epoch": 0.27855555555555556,
      "grad_norm": 1.7411797046661377,
      "learning_rate": 0.00014432096021338076,
      "loss": 1.711,
      "step": 12535
    },
    {
      "epoch": 0.27857777777777776,
      "grad_norm": 1.8070483207702637,
      "learning_rate": 0.00014431651478106247,
      "loss": 1.9401,
      "step": 12536
    },
    {
      "epoch": 0.2786,
      "grad_norm": 1.6949915885925293,
      "learning_rate": 0.00014431206934874418,
      "loss": 1.9291,
      "step": 12537
    },
    {
      "epoch": 0.2786222222222222,
      "grad_norm": 1.6373169422149658,
      "learning_rate": 0.00014430762391642586,
      "loss": 2.0797,
      "step": 12538
    },
    {
      "epoch": 0.2786444444444444,
      "grad_norm": 1.4245353937149048,
      "learning_rate": 0.0001443031784841076,
      "loss": 1.4956,
      "step": 12539
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 1.4870855808258057,
      "learning_rate": 0.00014429873305178928,
      "loss": 1.9849,
      "step": 12540
    },
    {
      "epoch": 0.2786888888888889,
      "grad_norm": 1.907278060913086,
      "learning_rate": 0.000144294287619471,
      "loss": 1.9285,
      "step": 12541
    },
    {
      "epoch": 0.27871111111111113,
      "grad_norm": 1.5924886465072632,
      "learning_rate": 0.00014428984218715273,
      "loss": 2.0925,
      "step": 12542
    },
    {
      "epoch": 0.27873333333333333,
      "grad_norm": 1.8241103887557983,
      "learning_rate": 0.0001442853967548344,
      "loss": 1.8445,
      "step": 12543
    },
    {
      "epoch": 0.27875555555555553,
      "grad_norm": 1.445054292678833,
      "learning_rate": 0.00014428095132251612,
      "loss": 1.7385,
      "step": 12544
    },
    {
      "epoch": 0.2787777777777778,
      "grad_norm": 2.0608720779418945,
      "learning_rate": 0.00014427650589019783,
      "loss": 1.9286,
      "step": 12545
    },
    {
      "epoch": 0.2788,
      "grad_norm": 1.8882008790969849,
      "learning_rate": 0.00014427206045787954,
      "loss": 2.0188,
      "step": 12546
    },
    {
      "epoch": 0.27882222222222225,
      "grad_norm": 1.8771511316299438,
      "learning_rate": 0.00014426761502556125,
      "loss": 1.9457,
      "step": 12547
    },
    {
      "epoch": 0.27884444444444445,
      "grad_norm": 1.3865715265274048,
      "learning_rate": 0.00014426316959324296,
      "loss": 1.2368,
      "step": 12548
    },
    {
      "epoch": 0.27886666666666665,
      "grad_norm": 1.43182373046875,
      "learning_rate": 0.00014425872416092464,
      "loss": 1.6045,
      "step": 12549
    },
    {
      "epoch": 0.2788888888888889,
      "grad_norm": 1.6774224042892456,
      "learning_rate": 0.00014425427872860638,
      "loss": 1.4759,
      "step": 12550
    },
    {
      "epoch": 0.2789111111111111,
      "grad_norm": 2.3023171424865723,
      "learning_rate": 0.00014424983329628809,
      "loss": 1.0661,
      "step": 12551
    },
    {
      "epoch": 0.2789333333333333,
      "grad_norm": 1.3393951654434204,
      "learning_rate": 0.00014424538786396977,
      "loss": 2.0674,
      "step": 12552
    },
    {
      "epoch": 0.27895555555555557,
      "grad_norm": 1.4193694591522217,
      "learning_rate": 0.0001442409424316515,
      "loss": 2.3466,
      "step": 12553
    },
    {
      "epoch": 0.27897777777777777,
      "grad_norm": 1.2565953731536865,
      "learning_rate": 0.0001442364969993332,
      "loss": 2.0427,
      "step": 12554
    },
    {
      "epoch": 0.279,
      "grad_norm": 1.3499550819396973,
      "learning_rate": 0.0001442320515670149,
      "loss": 2.1211,
      "step": 12555
    },
    {
      "epoch": 0.2790222222222222,
      "grad_norm": 1.3172365427017212,
      "learning_rate": 0.0001442276061346966,
      "loss": 2.3302,
      "step": 12556
    },
    {
      "epoch": 0.27904444444444443,
      "grad_norm": 1.5590910911560059,
      "learning_rate": 0.00014422316070237832,
      "loss": 1.9682,
      "step": 12557
    },
    {
      "epoch": 0.2790666666666667,
      "grad_norm": 1.2516947984695435,
      "learning_rate": 0.00014421871527006,
      "loss": 1.7598,
      "step": 12558
    },
    {
      "epoch": 0.2790888888888889,
      "grad_norm": 1.4852961301803589,
      "learning_rate": 0.00014421426983774174,
      "loss": 1.6033,
      "step": 12559
    },
    {
      "epoch": 0.2791111111111111,
      "grad_norm": 1.484203815460205,
      "learning_rate": 0.00014420982440542345,
      "loss": 2.2869,
      "step": 12560
    },
    {
      "epoch": 0.27913333333333334,
      "grad_norm": 1.4956848621368408,
      "learning_rate": 0.00014420537897310513,
      "loss": 2.403,
      "step": 12561
    },
    {
      "epoch": 0.27915555555555555,
      "grad_norm": 1.3640258312225342,
      "learning_rate": 0.00014420093354078686,
      "loss": 1.9289,
      "step": 12562
    },
    {
      "epoch": 0.2791777777777778,
      "grad_norm": 1.4917106628417969,
      "learning_rate": 0.00014419648810846855,
      "loss": 2.1003,
      "step": 12563
    },
    {
      "epoch": 0.2792,
      "grad_norm": 1.3058370351791382,
      "learning_rate": 0.00014419204267615026,
      "loss": 1.8036,
      "step": 12564
    },
    {
      "epoch": 0.2792222222222222,
      "grad_norm": 1.6139112710952759,
      "learning_rate": 0.00014418759724383197,
      "loss": 2.0231,
      "step": 12565
    },
    {
      "epoch": 0.27924444444444446,
      "grad_norm": 1.6628845930099487,
      "learning_rate": 0.00014418315181151368,
      "loss": 1.7322,
      "step": 12566
    },
    {
      "epoch": 0.27926666666666666,
      "grad_norm": 1.536828875541687,
      "learning_rate": 0.00014417870637919539,
      "loss": 1.962,
      "step": 12567
    },
    {
      "epoch": 0.27928888888888886,
      "grad_norm": 1.6715567111968994,
      "learning_rate": 0.0001441742609468771,
      "loss": 2.2689,
      "step": 12568
    },
    {
      "epoch": 0.2793111111111111,
      "grad_norm": 1.474703311920166,
      "learning_rate": 0.0001441698155145588,
      "loss": 2.0152,
      "step": 12569
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 1.4634819030761719,
      "learning_rate": 0.00014416537008224051,
      "loss": 1.9398,
      "step": 12570
    },
    {
      "epoch": 0.2793555555555556,
      "grad_norm": 1.576050043106079,
      "learning_rate": 0.00014416092464992222,
      "loss": 1.9969,
      "step": 12571
    },
    {
      "epoch": 0.2793777777777778,
      "grad_norm": 1.8014894723892212,
      "learning_rate": 0.0001441564792176039,
      "loss": 2.1693,
      "step": 12572
    },
    {
      "epoch": 0.2794,
      "grad_norm": 1.8995802402496338,
      "learning_rate": 0.00014415203378528564,
      "loss": 2.3331,
      "step": 12573
    },
    {
      "epoch": 0.27942222222222224,
      "grad_norm": 1.3671973943710327,
      "learning_rate": 0.00014414758835296733,
      "loss": 1.2475,
      "step": 12574
    },
    {
      "epoch": 0.27944444444444444,
      "grad_norm": 1.4793634414672852,
      "learning_rate": 0.00014414314292064904,
      "loss": 1.7222,
      "step": 12575
    },
    {
      "epoch": 0.27946666666666664,
      "grad_norm": 1.4762316942214966,
      "learning_rate": 0.00014413869748833074,
      "loss": 1.3787,
      "step": 12576
    },
    {
      "epoch": 0.2794888888888889,
      "grad_norm": 0.961659848690033,
      "learning_rate": 0.00014413425205601245,
      "loss": 0.8034,
      "step": 12577
    },
    {
      "epoch": 0.2795111111111111,
      "grad_norm": 1.09530770778656,
      "learning_rate": 0.00014412980662369416,
      "loss": 1.0479,
      "step": 12578
    },
    {
      "epoch": 0.27953333333333336,
      "grad_norm": 1.708666205406189,
      "learning_rate": 0.00014412536119137587,
      "loss": 1.927,
      "step": 12579
    },
    {
      "epoch": 0.27955555555555556,
      "grad_norm": 1.6196331977844238,
      "learning_rate": 0.00014412091575905758,
      "loss": 1.7033,
      "step": 12580
    },
    {
      "epoch": 0.27957777777777776,
      "grad_norm": 1.4766958951950073,
      "learning_rate": 0.00014411647032673927,
      "loss": 1.0092,
      "step": 12581
    },
    {
      "epoch": 0.2796,
      "grad_norm": 1.4833645820617676,
      "learning_rate": 0.000144112024894421,
      "loss": 1.6392,
      "step": 12582
    },
    {
      "epoch": 0.2796222222222222,
      "grad_norm": 1.7106736898422241,
      "learning_rate": 0.00014410757946210269,
      "loss": 1.6333,
      "step": 12583
    },
    {
      "epoch": 0.2796444444444444,
      "grad_norm": 1.7953139543533325,
      "learning_rate": 0.0001441031340297844,
      "loss": 2.2216,
      "step": 12584
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 1.8758840560913086,
      "learning_rate": 0.0001440986885974661,
      "loss": 2.6378,
      "step": 12585
    },
    {
      "epoch": 0.2796888888888889,
      "grad_norm": 1.8033047914505005,
      "learning_rate": 0.00014409424316514781,
      "loss": 1.8672,
      "step": 12586
    },
    {
      "epoch": 0.27971111111111113,
      "grad_norm": 1.5753756761550903,
      "learning_rate": 0.00014408979773282952,
      "loss": 1.751,
      "step": 12587
    },
    {
      "epoch": 0.27973333333333333,
      "grad_norm": 1.5149747133255005,
      "learning_rate": 0.00014408535230051123,
      "loss": 1.5667,
      "step": 12588
    },
    {
      "epoch": 0.27975555555555554,
      "grad_norm": 1.4964388608932495,
      "learning_rate": 0.00014408090686819294,
      "loss": 1.7577,
      "step": 12589
    },
    {
      "epoch": 0.2797777777777778,
      "grad_norm": 1.44835364818573,
      "learning_rate": 0.00014407646143587465,
      "loss": 1.5521,
      "step": 12590
    },
    {
      "epoch": 0.2798,
      "grad_norm": 1.6932510137557983,
      "learning_rate": 0.00014407201600355636,
      "loss": 2.1559,
      "step": 12591
    },
    {
      "epoch": 0.27982222222222225,
      "grad_norm": 1.5147968530654907,
      "learning_rate": 0.00014406757057123804,
      "loss": 1.9029,
      "step": 12592
    },
    {
      "epoch": 0.27984444444444445,
      "grad_norm": 1.6737937927246094,
      "learning_rate": 0.00014406312513891978,
      "loss": 2.2501,
      "step": 12593
    },
    {
      "epoch": 0.27986666666666665,
      "grad_norm": 1.587095856666565,
      "learning_rate": 0.00014405867970660146,
      "loss": 1.8338,
      "step": 12594
    },
    {
      "epoch": 0.2798888888888889,
      "grad_norm": 1.9564145803451538,
      "learning_rate": 0.00014405423427428317,
      "loss": 2.1623,
      "step": 12595
    },
    {
      "epoch": 0.2799111111111111,
      "grad_norm": 1.5564336776733398,
      "learning_rate": 0.00014404978884196488,
      "loss": 1.6898,
      "step": 12596
    },
    {
      "epoch": 0.2799333333333333,
      "grad_norm": 1.6718565225601196,
      "learning_rate": 0.0001440453434096466,
      "loss": 1.9438,
      "step": 12597
    },
    {
      "epoch": 0.27995555555555557,
      "grad_norm": 1.4682646989822388,
      "learning_rate": 0.0001440408979773283,
      "loss": 1.6206,
      "step": 12598
    },
    {
      "epoch": 0.27997777777777777,
      "grad_norm": 1.6280442476272583,
      "learning_rate": 0.00014403645254501,
      "loss": 1.5875,
      "step": 12599
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1317325830459595,
      "learning_rate": 0.00014403200711269172,
      "loss": 0.6067,
      "step": 12600
    },
    {
      "epoch": 0.28002222222222223,
      "grad_norm": 1.4466042518615723,
      "learning_rate": 0.0001440275616803734,
      "loss": 2.9919,
      "step": 12601
    },
    {
      "epoch": 0.28004444444444443,
      "grad_norm": 1.3817585706710815,
      "learning_rate": 0.00014402311624805514,
      "loss": 2.1958,
      "step": 12602
    },
    {
      "epoch": 0.2800666666666667,
      "grad_norm": 1.4130804538726807,
      "learning_rate": 0.00014401867081573682,
      "loss": 3.0602,
      "step": 12603
    },
    {
      "epoch": 0.2800888888888889,
      "grad_norm": 1.6084342002868652,
      "learning_rate": 0.00014401422538341856,
      "loss": 2.6385,
      "step": 12604
    },
    {
      "epoch": 0.2801111111111111,
      "grad_norm": 1.2505625486373901,
      "learning_rate": 0.00014400977995110024,
      "loss": 2.2202,
      "step": 12605
    },
    {
      "epoch": 0.28013333333333335,
      "grad_norm": 1.435387134552002,
      "learning_rate": 0.00014400533451878195,
      "loss": 2.2285,
      "step": 12606
    },
    {
      "epoch": 0.28015555555555555,
      "grad_norm": 1.1324654817581177,
      "learning_rate": 0.00014400088908646366,
      "loss": 2.142,
      "step": 12607
    },
    {
      "epoch": 0.2801777777777778,
      "grad_norm": 1.3871347904205322,
      "learning_rate": 0.00014399644365414537,
      "loss": 2.1328,
      "step": 12608
    },
    {
      "epoch": 0.2802,
      "grad_norm": 1.4252301454544067,
      "learning_rate": 0.00014399199822182708,
      "loss": 2.138,
      "step": 12609
    },
    {
      "epoch": 0.2802222222222222,
      "grad_norm": 1.4181772470474243,
      "learning_rate": 0.0001439875527895088,
      "loss": 2.2847,
      "step": 12610
    },
    {
      "epoch": 0.28024444444444446,
      "grad_norm": 1.3493704795837402,
      "learning_rate": 0.0001439831073571905,
      "loss": 1.8404,
      "step": 12611
    },
    {
      "epoch": 0.28026666666666666,
      "grad_norm": 1.5383049249649048,
      "learning_rate": 0.00014397866192487218,
      "loss": 2.6348,
      "step": 12612
    },
    {
      "epoch": 0.28028888888888887,
      "grad_norm": 1.2584642171859741,
      "learning_rate": 0.00014397421649255392,
      "loss": 1.7924,
      "step": 12613
    },
    {
      "epoch": 0.2803111111111111,
      "grad_norm": 1.5796422958374023,
      "learning_rate": 0.0001439697710602356,
      "loss": 1.8853,
      "step": 12614
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 1.4302780628204346,
      "learning_rate": 0.0001439653256279173,
      "loss": 2.1659,
      "step": 12615
    },
    {
      "epoch": 0.2803555555555556,
      "grad_norm": 1.4029954671859741,
      "learning_rate": 0.00014396088019559905,
      "loss": 2.0194,
      "step": 12616
    },
    {
      "epoch": 0.2803777777777778,
      "grad_norm": 1.5840986967086792,
      "learning_rate": 0.00014395643476328073,
      "loss": 2.1705,
      "step": 12617
    },
    {
      "epoch": 0.2804,
      "grad_norm": 1.485268235206604,
      "learning_rate": 0.00014395198933096244,
      "loss": 1.6612,
      "step": 12618
    },
    {
      "epoch": 0.28042222222222224,
      "grad_norm": 1.2462408542633057,
      "learning_rate": 0.00014394754389864415,
      "loss": 1.0464,
      "step": 12619
    },
    {
      "epoch": 0.28044444444444444,
      "grad_norm": 1.190774917602539,
      "learning_rate": 0.00014394309846632586,
      "loss": 1.9694,
      "step": 12620
    },
    {
      "epoch": 0.28046666666666664,
      "grad_norm": 1.407049298286438,
      "learning_rate": 0.00014393865303400754,
      "loss": 2.2003,
      "step": 12621
    },
    {
      "epoch": 0.2804888888888889,
      "grad_norm": 1.6633027791976929,
      "learning_rate": 0.00014393420760168928,
      "loss": 1.8623,
      "step": 12622
    },
    {
      "epoch": 0.2805111111111111,
      "grad_norm": 1.7477641105651855,
      "learning_rate": 0.00014392976216937096,
      "loss": 2.1462,
      "step": 12623
    },
    {
      "epoch": 0.28053333333333336,
      "grad_norm": 1.4041211605072021,
      "learning_rate": 0.0001439253167370527,
      "loss": 1.9639,
      "step": 12624
    },
    {
      "epoch": 0.28055555555555556,
      "grad_norm": 1.492639183998108,
      "learning_rate": 0.0001439208713047344,
      "loss": 1.7666,
      "step": 12625
    },
    {
      "epoch": 0.28057777777777776,
      "grad_norm": 1.5403743982315063,
      "learning_rate": 0.0001439164258724161,
      "loss": 2.1141,
      "step": 12626
    },
    {
      "epoch": 0.2806,
      "grad_norm": 1.4946367740631104,
      "learning_rate": 0.00014391198044009783,
      "loss": 1.673,
      "step": 12627
    },
    {
      "epoch": 0.2806222222222222,
      "grad_norm": 1.5698156356811523,
      "learning_rate": 0.0001439075350077795,
      "loss": 1.9157,
      "step": 12628
    },
    {
      "epoch": 0.2806444444444444,
      "grad_norm": 1.0416642427444458,
      "learning_rate": 0.00014390308957546122,
      "loss": 1.0244,
      "step": 12629
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 1.8278729915618896,
      "learning_rate": 0.00014389864414314293,
      "loss": 2.0871,
      "step": 12630
    },
    {
      "epoch": 0.2806888888888889,
      "grad_norm": 1.5102555751800537,
      "learning_rate": 0.00014389419871082464,
      "loss": 1.881,
      "step": 12631
    },
    {
      "epoch": 0.28071111111111113,
      "grad_norm": 1.8425400257110596,
      "learning_rate": 0.00014388975327850632,
      "loss": 2.2454,
      "step": 12632
    },
    {
      "epoch": 0.28073333333333333,
      "grad_norm": 1.3980423212051392,
      "learning_rate": 0.00014388530784618806,
      "loss": 1.5106,
      "step": 12633
    },
    {
      "epoch": 0.28075555555555554,
      "grad_norm": 1.6907826662063599,
      "learning_rate": 0.00014388086241386977,
      "loss": 1.7076,
      "step": 12634
    },
    {
      "epoch": 0.2807777777777778,
      "grad_norm": 1.7365843057632446,
      "learning_rate": 0.00014387641698155145,
      "loss": 2.1665,
      "step": 12635
    },
    {
      "epoch": 0.2808,
      "grad_norm": 1.6260098218917847,
      "learning_rate": 0.0001438719715492332,
      "loss": 1.8487,
      "step": 12636
    },
    {
      "epoch": 0.2808222222222222,
      "grad_norm": 1.5338469743728638,
      "learning_rate": 0.00014386752611691487,
      "loss": 1.973,
      "step": 12637
    },
    {
      "epoch": 0.28084444444444445,
      "grad_norm": 1.8270461559295654,
      "learning_rate": 0.00014386308068459658,
      "loss": 2.5755,
      "step": 12638
    },
    {
      "epoch": 0.28086666666666665,
      "grad_norm": 1.5647989511489868,
      "learning_rate": 0.0001438586352522783,
      "loss": 1.435,
      "step": 12639
    },
    {
      "epoch": 0.2808888888888889,
      "grad_norm": 1.3216185569763184,
      "learning_rate": 0.00014385418981996,
      "loss": 1.0222,
      "step": 12640
    },
    {
      "epoch": 0.2809111111111111,
      "grad_norm": 1.7668840885162354,
      "learning_rate": 0.0001438497443876417,
      "loss": 2.102,
      "step": 12641
    },
    {
      "epoch": 0.2809333333333333,
      "grad_norm": 0.8516966104507446,
      "learning_rate": 0.00014384529895532342,
      "loss": 0.7629,
      "step": 12642
    },
    {
      "epoch": 0.28095555555555557,
      "grad_norm": 2.020087480545044,
      "learning_rate": 0.00014384085352300513,
      "loss": 1.8434,
      "step": 12643
    },
    {
      "epoch": 0.28097777777777777,
      "grad_norm": 1.5919840335845947,
      "learning_rate": 0.00014383640809068684,
      "loss": 1.6177,
      "step": 12644
    },
    {
      "epoch": 0.281,
      "grad_norm": 1.6489778757095337,
      "learning_rate": 0.00014383196265836855,
      "loss": 2.3842,
      "step": 12645
    },
    {
      "epoch": 0.28102222222222223,
      "grad_norm": 2.2315263748168945,
      "learning_rate": 0.00014382751722605023,
      "loss": 1.8692,
      "step": 12646
    },
    {
      "epoch": 0.28104444444444443,
      "grad_norm": 1.5182639360427856,
      "learning_rate": 0.00014382307179373197,
      "loss": 1.6579,
      "step": 12647
    },
    {
      "epoch": 0.2810666666666667,
      "grad_norm": 1.5538139343261719,
      "learning_rate": 0.00014381862636141365,
      "loss": 1.7564,
      "step": 12648
    },
    {
      "epoch": 0.2810888888888889,
      "grad_norm": 1.1439908742904663,
      "learning_rate": 0.00014381418092909536,
      "loss": 1.0892,
      "step": 12649
    },
    {
      "epoch": 0.2811111111111111,
      "grad_norm": 1.5558125972747803,
      "learning_rate": 0.00014380973549677707,
      "loss": 2.004,
      "step": 12650
    },
    {
      "epoch": 0.28113333333333335,
      "grad_norm": 1.377256155014038,
      "learning_rate": 0.00014380529006445878,
      "loss": 2.3161,
      "step": 12651
    },
    {
      "epoch": 0.28115555555555555,
      "grad_norm": 1.2834696769714355,
      "learning_rate": 0.00014380084463214049,
      "loss": 2.36,
      "step": 12652
    },
    {
      "epoch": 0.2811777777777778,
      "grad_norm": 1.055737018585205,
      "learning_rate": 0.0001437963991998222,
      "loss": 1.2543,
      "step": 12653
    },
    {
      "epoch": 0.2812,
      "grad_norm": 1.5307624340057373,
      "learning_rate": 0.0001437919537675039,
      "loss": 2.6349,
      "step": 12654
    },
    {
      "epoch": 0.2812222222222222,
      "grad_norm": 1.4412038326263428,
      "learning_rate": 0.0001437875083351856,
      "loss": 2.3758,
      "step": 12655
    },
    {
      "epoch": 0.28124444444444446,
      "grad_norm": 1.6462228298187256,
      "learning_rate": 0.00014378306290286732,
      "loss": 2.5539,
      "step": 12656
    },
    {
      "epoch": 0.28126666666666666,
      "grad_norm": 0.9121030569076538,
      "learning_rate": 0.000143778617470549,
      "loss": 1.0685,
      "step": 12657
    },
    {
      "epoch": 0.28128888888888887,
      "grad_norm": 1.3814575672149658,
      "learning_rate": 0.00014377417203823072,
      "loss": 1.9924,
      "step": 12658
    },
    {
      "epoch": 0.2813111111111111,
      "grad_norm": 1.2710529565811157,
      "learning_rate": 0.00014376972660591243,
      "loss": 1.7776,
      "step": 12659
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 1.439327597618103,
      "learning_rate": 0.00014376528117359414,
      "loss": 2.245,
      "step": 12660
    },
    {
      "epoch": 0.2813555555555556,
      "grad_norm": 1.5317676067352295,
      "learning_rate": 0.00014376083574127585,
      "loss": 2.5926,
      "step": 12661
    },
    {
      "epoch": 0.2813777777777778,
      "grad_norm": 1.6882981061935425,
      "learning_rate": 0.00014375639030895756,
      "loss": 2.0812,
      "step": 12662
    },
    {
      "epoch": 0.2814,
      "grad_norm": 1.5386533737182617,
      "learning_rate": 0.00014375194487663926,
      "loss": 2.1052,
      "step": 12663
    },
    {
      "epoch": 0.28142222222222224,
      "grad_norm": 1.4350976943969727,
      "learning_rate": 0.00014374749944432097,
      "loss": 2.1659,
      "step": 12664
    },
    {
      "epoch": 0.28144444444444444,
      "grad_norm": 1.615654706954956,
      "learning_rate": 0.00014374305401200268,
      "loss": 1.9058,
      "step": 12665
    },
    {
      "epoch": 0.28146666666666664,
      "grad_norm": 1.6147483587265015,
      "learning_rate": 0.00014373860857968437,
      "loss": 2.3549,
      "step": 12666
    },
    {
      "epoch": 0.2814888888888889,
      "grad_norm": 1.4927351474761963,
      "learning_rate": 0.0001437341631473661,
      "loss": 2.4133,
      "step": 12667
    },
    {
      "epoch": 0.2815111111111111,
      "grad_norm": 1.3131979703903198,
      "learning_rate": 0.00014372971771504779,
      "loss": 2.0643,
      "step": 12668
    },
    {
      "epoch": 0.28153333333333336,
      "grad_norm": 1.3388104438781738,
      "learning_rate": 0.0001437252722827295,
      "loss": 2.172,
      "step": 12669
    },
    {
      "epoch": 0.28155555555555556,
      "grad_norm": 1.5429915189743042,
      "learning_rate": 0.0001437208268504112,
      "loss": 2.3623,
      "step": 12670
    },
    {
      "epoch": 0.28157777777777776,
      "grad_norm": 1.539352297782898,
      "learning_rate": 0.00014371638141809291,
      "loss": 1.9692,
      "step": 12671
    },
    {
      "epoch": 0.2816,
      "grad_norm": 1.4781948328018188,
      "learning_rate": 0.00014371193598577462,
      "loss": 1.7268,
      "step": 12672
    },
    {
      "epoch": 0.2816222222222222,
      "grad_norm": 1.3315962553024292,
      "learning_rate": 0.00014370749055345633,
      "loss": 1.7952,
      "step": 12673
    },
    {
      "epoch": 0.2816444444444444,
      "grad_norm": 1.5717284679412842,
      "learning_rate": 0.00014370304512113804,
      "loss": 1.8468,
      "step": 12674
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 1.5585061311721802,
      "learning_rate": 0.00014369859968881973,
      "loss": 2.3245,
      "step": 12675
    },
    {
      "epoch": 0.2816888888888889,
      "grad_norm": 1.246308445930481,
      "learning_rate": 0.00014369415425650146,
      "loss": 1.2533,
      "step": 12676
    },
    {
      "epoch": 0.28171111111111113,
      "grad_norm": 0.16089817881584167,
      "learning_rate": 0.00014368970882418315,
      "loss": 0.0261,
      "step": 12677
    },
    {
      "epoch": 0.28173333333333334,
      "grad_norm": 1.7076553106307983,
      "learning_rate": 0.00014368526339186485,
      "loss": 1.981,
      "step": 12678
    },
    {
      "epoch": 0.28175555555555554,
      "grad_norm": 1.3888072967529297,
      "learning_rate": 0.00014368081795954656,
      "loss": 1.8409,
      "step": 12679
    },
    {
      "epoch": 0.2817777777777778,
      "grad_norm": 1.4871338605880737,
      "learning_rate": 0.00014367637252722827,
      "loss": 1.8673,
      "step": 12680
    },
    {
      "epoch": 0.2818,
      "grad_norm": 1.4370826482772827,
      "learning_rate": 0.00014367192709490998,
      "loss": 1.9039,
      "step": 12681
    },
    {
      "epoch": 0.2818222222222222,
      "grad_norm": 1.491744041442871,
      "learning_rate": 0.0001436674816625917,
      "loss": 2.1014,
      "step": 12682
    },
    {
      "epoch": 0.28184444444444445,
      "grad_norm": 1.2257554531097412,
      "learning_rate": 0.0001436630362302734,
      "loss": 1.026,
      "step": 12683
    },
    {
      "epoch": 0.28186666666666665,
      "grad_norm": 1.4709010124206543,
      "learning_rate": 0.0001436585907979551,
      "loss": 1.8679,
      "step": 12684
    },
    {
      "epoch": 0.2818888888888889,
      "grad_norm": 1.693338394165039,
      "learning_rate": 0.00014365414536563682,
      "loss": 1.9676,
      "step": 12685
    },
    {
      "epoch": 0.2819111111111111,
      "grad_norm": 1.4789057970046997,
      "learning_rate": 0.0001436496999333185,
      "loss": 1.7853,
      "step": 12686
    },
    {
      "epoch": 0.2819333333333333,
      "grad_norm": 1.8691099882125854,
      "learning_rate": 0.00014364525450100024,
      "loss": 2.2112,
      "step": 12687
    },
    {
      "epoch": 0.28195555555555557,
      "grad_norm": 1.417478084564209,
      "learning_rate": 0.00014364080906868192,
      "loss": 1.8052,
      "step": 12688
    },
    {
      "epoch": 0.28197777777777777,
      "grad_norm": 1.8417624235153198,
      "learning_rate": 0.00014363636363636363,
      "loss": 1.8335,
      "step": 12689
    },
    {
      "epoch": 0.282,
      "grad_norm": 1.499398946762085,
      "learning_rate": 0.00014363191820404537,
      "loss": 1.9905,
      "step": 12690
    },
    {
      "epoch": 0.28202222222222223,
      "grad_norm": 1.877598524093628,
      "learning_rate": 0.00014362747277172705,
      "loss": 1.8734,
      "step": 12691
    },
    {
      "epoch": 0.28204444444444443,
      "grad_norm": 1.3306763172149658,
      "learning_rate": 0.00014362302733940876,
      "loss": 1.6783,
      "step": 12692
    },
    {
      "epoch": 0.2820666666666667,
      "grad_norm": 1.5140070915222168,
      "learning_rate": 0.00014361858190709047,
      "loss": 1.6353,
      "step": 12693
    },
    {
      "epoch": 0.2820888888888889,
      "grad_norm": 1.0880792140960693,
      "learning_rate": 0.00014361413647477218,
      "loss": 0.7811,
      "step": 12694
    },
    {
      "epoch": 0.2821111111111111,
      "grad_norm": 0.1720992624759674,
      "learning_rate": 0.00014360969104245386,
      "loss": 0.0353,
      "step": 12695
    },
    {
      "epoch": 0.28213333333333335,
      "grad_norm": 1.4370756149291992,
      "learning_rate": 0.0001436052456101356,
      "loss": 1.8078,
      "step": 12696
    },
    {
      "epoch": 0.28215555555555555,
      "grad_norm": 1.4835351705551147,
      "learning_rate": 0.00014360080017781728,
      "loss": 1.3427,
      "step": 12697
    },
    {
      "epoch": 0.2821777777777778,
      "grad_norm": 1.8690919876098633,
      "learning_rate": 0.00014359635474549902,
      "loss": 1.7191,
      "step": 12698
    },
    {
      "epoch": 0.2822,
      "grad_norm": 1.1399579048156738,
      "learning_rate": 0.00014359190931318073,
      "loss": 0.0476,
      "step": 12699
    },
    {
      "epoch": 0.2822222222222222,
      "grad_norm": 1.5577893257141113,
      "learning_rate": 0.0001435874638808624,
      "loss": 1.0074,
      "step": 12700
    },
    {
      "epoch": 0.28224444444444446,
      "grad_norm": 1.3644425868988037,
      "learning_rate": 0.00014358301844854415,
      "loss": 2.4014,
      "step": 12701
    },
    {
      "epoch": 0.28226666666666667,
      "grad_norm": 1.1619802713394165,
      "learning_rate": 0.00014357857301622583,
      "loss": 2.2003,
      "step": 12702
    },
    {
      "epoch": 0.28228888888888887,
      "grad_norm": 1.128646731376648,
      "learning_rate": 0.00014357412758390754,
      "loss": 2.1977,
      "step": 12703
    },
    {
      "epoch": 0.2823111111111111,
      "grad_norm": 1.216858148574829,
      "learning_rate": 0.00014356968215158925,
      "loss": 2.0712,
      "step": 12704
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 1.3327133655548096,
      "learning_rate": 0.00014356523671927096,
      "loss": 2.4262,
      "step": 12705
    },
    {
      "epoch": 0.2823555555555556,
      "grad_norm": 1.310916543006897,
      "learning_rate": 0.00014356079128695264,
      "loss": 1.8039,
      "step": 12706
    },
    {
      "epoch": 0.2823777777777778,
      "grad_norm": 3.2827792167663574,
      "learning_rate": 0.00014355634585463438,
      "loss": 1.0365,
      "step": 12707
    },
    {
      "epoch": 0.2824,
      "grad_norm": 1.2547036409378052,
      "learning_rate": 0.0001435519004223161,
      "loss": 2.1484,
      "step": 12708
    },
    {
      "epoch": 0.28242222222222224,
      "grad_norm": 1.5886785984039307,
      "learning_rate": 0.00014354745498999777,
      "loss": 2.5595,
      "step": 12709
    },
    {
      "epoch": 0.28244444444444444,
      "grad_norm": 1.306855320930481,
      "learning_rate": 0.0001435430095576795,
      "loss": 1.9309,
      "step": 12710
    },
    {
      "epoch": 0.28246666666666664,
      "grad_norm": 1.180389642715454,
      "learning_rate": 0.0001435385641253612,
      "loss": 1.3922,
      "step": 12711
    },
    {
      "epoch": 0.2824888888888889,
      "grad_norm": 1.4918982982635498,
      "learning_rate": 0.0001435341186930429,
      "loss": 1.5968,
      "step": 12712
    },
    {
      "epoch": 0.2825111111111111,
      "grad_norm": 1.5855401754379272,
      "learning_rate": 0.0001435296732607246,
      "loss": 2.1129,
      "step": 12713
    },
    {
      "epoch": 0.28253333333333336,
      "grad_norm": 2.422916889190674,
      "learning_rate": 0.00014352522782840632,
      "loss": 1.6262,
      "step": 12714
    },
    {
      "epoch": 0.28255555555555556,
      "grad_norm": 1.7712475061416626,
      "learning_rate": 0.00014352078239608803,
      "loss": 1.3595,
      "step": 12715
    },
    {
      "epoch": 0.28257777777777776,
      "grad_norm": 1.5135164260864258,
      "learning_rate": 0.00014351633696376974,
      "loss": 2.0493,
      "step": 12716
    },
    {
      "epoch": 0.2826,
      "grad_norm": 1.3319727182388306,
      "learning_rate": 0.00014351189153145145,
      "loss": 1.6106,
      "step": 12717
    },
    {
      "epoch": 0.2826222222222222,
      "grad_norm": 1.5205093622207642,
      "learning_rate": 0.00014350744609913316,
      "loss": 1.8531,
      "step": 12718
    },
    {
      "epoch": 0.2826444444444444,
      "grad_norm": 1.9652985334396362,
      "learning_rate": 0.00014350300066681487,
      "loss": 2.6594,
      "step": 12719
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 1.7477649450302124,
      "learning_rate": 0.00014349855523449655,
      "loss": 2.0028,
      "step": 12720
    },
    {
      "epoch": 0.2826888888888889,
      "grad_norm": 1.4781837463378906,
      "learning_rate": 0.0001434941098021783,
      "loss": 1.8702,
      "step": 12721
    },
    {
      "epoch": 0.28271111111111114,
      "grad_norm": 1.3584977388381958,
      "learning_rate": 0.00014348966436985997,
      "loss": 1.6862,
      "step": 12722
    },
    {
      "epoch": 0.28273333333333334,
      "grad_norm": 1.581592321395874,
      "learning_rate": 0.00014348521893754168,
      "loss": 2.1398,
      "step": 12723
    },
    {
      "epoch": 0.28275555555555554,
      "grad_norm": 2.2349069118499756,
      "learning_rate": 0.0001434807735052234,
      "loss": 2.2803,
      "step": 12724
    },
    {
      "epoch": 0.2827777777777778,
      "grad_norm": 1.4825825691223145,
      "learning_rate": 0.0001434763280729051,
      "loss": 1.9242,
      "step": 12725
    },
    {
      "epoch": 0.2828,
      "grad_norm": 1.0336079597473145,
      "learning_rate": 0.0001434718826405868,
      "loss": 0.8698,
      "step": 12726
    },
    {
      "epoch": 0.2828222222222222,
      "grad_norm": 1.3047561645507812,
      "learning_rate": 0.00014346743720826852,
      "loss": 1.519,
      "step": 12727
    },
    {
      "epoch": 0.28284444444444445,
      "grad_norm": 1.6759716272354126,
      "learning_rate": 0.00014346299177595023,
      "loss": 1.8016,
      "step": 12728
    },
    {
      "epoch": 0.28286666666666666,
      "grad_norm": 1.7802350521087646,
      "learning_rate": 0.0001434585463436319,
      "loss": 2.2679,
      "step": 12729
    },
    {
      "epoch": 0.2828888888888889,
      "grad_norm": 1.602763056755066,
      "learning_rate": 0.00014345410091131365,
      "loss": 2.0279,
      "step": 12730
    },
    {
      "epoch": 0.2829111111111111,
      "grad_norm": 0.15847010910511017,
      "learning_rate": 0.00014344965547899533,
      "loss": 0.0256,
      "step": 12731
    },
    {
      "epoch": 0.2829333333333333,
      "grad_norm": 1.1357672214508057,
      "learning_rate": 0.00014344521004667704,
      "loss": 0.7701,
      "step": 12732
    },
    {
      "epoch": 0.28295555555555557,
      "grad_norm": 1.5523942708969116,
      "learning_rate": 0.00014344076461435875,
      "loss": 2.355,
      "step": 12733
    },
    {
      "epoch": 0.2829777777777778,
      "grad_norm": 1.588443636894226,
      "learning_rate": 0.00014343631918204046,
      "loss": 1.912,
      "step": 12734
    },
    {
      "epoch": 0.283,
      "grad_norm": 1.7944514751434326,
      "learning_rate": 0.00014343187374972217,
      "loss": 2.1033,
      "step": 12735
    },
    {
      "epoch": 0.28302222222222223,
      "grad_norm": 1.6846672296524048,
      "learning_rate": 0.00014342742831740388,
      "loss": 0.6778,
      "step": 12736
    },
    {
      "epoch": 0.28304444444444443,
      "grad_norm": 1.6543630361557007,
      "learning_rate": 0.0001434229828850856,
      "loss": 1.7128,
      "step": 12737
    },
    {
      "epoch": 0.2830666666666667,
      "grad_norm": 1.7687029838562012,
      "learning_rate": 0.0001434185374527673,
      "loss": 2.4382,
      "step": 12738
    },
    {
      "epoch": 0.2830888888888889,
      "grad_norm": 1.5361199378967285,
      "learning_rate": 0.000143414092020449,
      "loss": 2.0153,
      "step": 12739
    },
    {
      "epoch": 0.2831111111111111,
      "grad_norm": 2.326479434967041,
      "learning_rate": 0.0001434096465881307,
      "loss": 2.0344,
      "step": 12740
    },
    {
      "epoch": 0.28313333333333335,
      "grad_norm": 1.8081597089767456,
      "learning_rate": 0.00014340520115581243,
      "loss": 2.0765,
      "step": 12741
    },
    {
      "epoch": 0.28315555555555555,
      "grad_norm": 1.5709937810897827,
      "learning_rate": 0.0001434007557234941,
      "loss": 1.4787,
      "step": 12742
    },
    {
      "epoch": 0.28317777777777775,
      "grad_norm": 1.5263530015945435,
      "learning_rate": 0.00014339631029117582,
      "loss": 1.9087,
      "step": 12743
    },
    {
      "epoch": 0.2832,
      "grad_norm": 1.6895595788955688,
      "learning_rate": 0.00014339186485885753,
      "loss": 1.9501,
      "step": 12744
    },
    {
      "epoch": 0.2832222222222222,
      "grad_norm": 1.5275812149047852,
      "learning_rate": 0.00014338741942653924,
      "loss": 1.7157,
      "step": 12745
    },
    {
      "epoch": 0.28324444444444447,
      "grad_norm": 1.8303345441818237,
      "learning_rate": 0.00014338297399422095,
      "loss": 1.8326,
      "step": 12746
    },
    {
      "epoch": 0.28326666666666667,
      "grad_norm": 1.1255519390106201,
      "learning_rate": 0.00014337852856190266,
      "loss": 0.9307,
      "step": 12747
    },
    {
      "epoch": 0.28328888888888887,
      "grad_norm": 2.3335118293762207,
      "learning_rate": 0.00014337408312958437,
      "loss": 2.0381,
      "step": 12748
    },
    {
      "epoch": 0.2833111111111111,
      "grad_norm": 1.586510419845581,
      "learning_rate": 0.00014336963769726605,
      "loss": 1.8045,
      "step": 12749
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 1.527432918548584,
      "learning_rate": 0.00014336519226494778,
      "loss": 1.6358,
      "step": 12750
    },
    {
      "epoch": 0.2833555555555556,
      "grad_norm": 1.5684510469436646,
      "learning_rate": 0.00014336074683262947,
      "loss": 2.351,
      "step": 12751
    },
    {
      "epoch": 0.2833777777777778,
      "grad_norm": 2.506312847137451,
      "learning_rate": 0.00014335630140031118,
      "loss": 0.0249,
      "step": 12752
    },
    {
      "epoch": 0.2834,
      "grad_norm": 1.4021273851394653,
      "learning_rate": 0.0001433518559679929,
      "loss": 2.1267,
      "step": 12753
    },
    {
      "epoch": 0.28342222222222224,
      "grad_norm": 1.34331476688385,
      "learning_rate": 0.0001433474105356746,
      "loss": 2.3628,
      "step": 12754
    },
    {
      "epoch": 0.28344444444444444,
      "grad_norm": 1.4662573337554932,
      "learning_rate": 0.0001433429651033563,
      "loss": 2.6657,
      "step": 12755
    },
    {
      "epoch": 0.28346666666666664,
      "grad_norm": 1.3142311573028564,
      "learning_rate": 0.00014333851967103802,
      "loss": 2.1514,
      "step": 12756
    },
    {
      "epoch": 0.2834888888888889,
      "grad_norm": 1.4520493745803833,
      "learning_rate": 0.00014333407423871973,
      "loss": 2.5134,
      "step": 12757
    },
    {
      "epoch": 0.2835111111111111,
      "grad_norm": 1.7354365587234497,
      "learning_rate": 0.00014332962880640143,
      "loss": 2.2852,
      "step": 12758
    },
    {
      "epoch": 0.28353333333333336,
      "grad_norm": 1.4577999114990234,
      "learning_rate": 0.00014332518337408314,
      "loss": 2.3477,
      "step": 12759
    },
    {
      "epoch": 0.28355555555555556,
      "grad_norm": 1.3317334651947021,
      "learning_rate": 0.00014332073794176483,
      "loss": 1.6976,
      "step": 12760
    },
    {
      "epoch": 0.28357777777777776,
      "grad_norm": 1.3188837766647339,
      "learning_rate": 0.00014331629250944656,
      "loss": 2.1481,
      "step": 12761
    },
    {
      "epoch": 0.2836,
      "grad_norm": 1.4824823141098022,
      "learning_rate": 0.00014331184707712825,
      "loss": 2.3082,
      "step": 12762
    },
    {
      "epoch": 0.2836222222222222,
      "grad_norm": 1.5029280185699463,
      "learning_rate": 0.00014330740164480996,
      "loss": 2.2444,
      "step": 12763
    },
    {
      "epoch": 0.2836444444444444,
      "grad_norm": 1.3046259880065918,
      "learning_rate": 0.0001433029562124917,
      "loss": 2.1132,
      "step": 12764
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 1.1997723579406738,
      "learning_rate": 0.00014329851078017337,
      "loss": 1.6763,
      "step": 12765
    },
    {
      "epoch": 0.2836888888888889,
      "grad_norm": 1.0300217866897583,
      "learning_rate": 0.00014329406534785508,
      "loss": 1.0746,
      "step": 12766
    },
    {
      "epoch": 0.28371111111111114,
      "grad_norm": 1.595858097076416,
      "learning_rate": 0.0001432896199155368,
      "loss": 2.1058,
      "step": 12767
    },
    {
      "epoch": 0.28373333333333334,
      "grad_norm": 1.3855671882629395,
      "learning_rate": 0.0001432851744832185,
      "loss": 1.8429,
      "step": 12768
    },
    {
      "epoch": 0.28375555555555554,
      "grad_norm": 1.6336264610290527,
      "learning_rate": 0.00014328072905090019,
      "loss": 2.0323,
      "step": 12769
    },
    {
      "epoch": 0.2837777777777778,
      "grad_norm": 1.7877528667449951,
      "learning_rate": 0.00014327628361858192,
      "loss": 1.8615,
      "step": 12770
    },
    {
      "epoch": 0.2838,
      "grad_norm": 1.3565012216567993,
      "learning_rate": 0.0001432718381862636,
      "loss": 1.9837,
      "step": 12771
    },
    {
      "epoch": 0.2838222222222222,
      "grad_norm": 1.312930941581726,
      "learning_rate": 0.00014326739275394532,
      "loss": 1.9518,
      "step": 12772
    },
    {
      "epoch": 0.28384444444444445,
      "grad_norm": 1.5102735757827759,
      "learning_rate": 0.00014326294732162705,
      "loss": 1.9388,
      "step": 12773
    },
    {
      "epoch": 0.28386666666666666,
      "grad_norm": 1.5577000379562378,
      "learning_rate": 0.00014325850188930873,
      "loss": 1.515,
      "step": 12774
    },
    {
      "epoch": 0.2838888888888889,
      "grad_norm": 1.8120900392532349,
      "learning_rate": 0.00014325405645699047,
      "loss": 2.2157,
      "step": 12775
    },
    {
      "epoch": 0.2839111111111111,
      "grad_norm": 1.7490895986557007,
      "learning_rate": 0.00014324961102467215,
      "loss": 1.752,
      "step": 12776
    },
    {
      "epoch": 0.2839333333333333,
      "grad_norm": 1.9330579042434692,
      "learning_rate": 0.00014324516559235386,
      "loss": 2.1245,
      "step": 12777
    },
    {
      "epoch": 0.28395555555555557,
      "grad_norm": 1.3629289865493774,
      "learning_rate": 0.00014324072016003557,
      "loss": 1.7088,
      "step": 12778
    },
    {
      "epoch": 0.2839777777777778,
      "grad_norm": 1.4910651445388794,
      "learning_rate": 0.00014323627472771728,
      "loss": 1.839,
      "step": 12779
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.8602932095527649,
      "learning_rate": 0.00014323182929539897,
      "loss": 0.8882,
      "step": 12780
    },
    {
      "epoch": 0.28402222222222223,
      "grad_norm": 1.39918851852417,
      "learning_rate": 0.0001432273838630807,
      "loss": 1.1335,
      "step": 12781
    },
    {
      "epoch": 0.28404444444444443,
      "grad_norm": 1.5563849210739136,
      "learning_rate": 0.0001432229384307624,
      "loss": 1.9745,
      "step": 12782
    },
    {
      "epoch": 0.2840666666666667,
      "grad_norm": 1.3546098470687866,
      "learning_rate": 0.0001432184929984441,
      "loss": 1.9074,
      "step": 12783
    },
    {
      "epoch": 0.2840888888888889,
      "grad_norm": 1.5550103187561035,
      "learning_rate": 0.00014321404756612583,
      "loss": 1.5662,
      "step": 12784
    },
    {
      "epoch": 0.2841111111111111,
      "grad_norm": 1.4664300680160522,
      "learning_rate": 0.0001432096021338075,
      "loss": 1.7603,
      "step": 12785
    },
    {
      "epoch": 0.28413333333333335,
      "grad_norm": 1.6137274503707886,
      "learning_rate": 0.00014320515670148922,
      "loss": 2.0041,
      "step": 12786
    },
    {
      "epoch": 0.28415555555555555,
      "grad_norm": 1.5708723068237305,
      "learning_rate": 0.00014320071126917093,
      "loss": 1.8666,
      "step": 12787
    },
    {
      "epoch": 0.28417777777777775,
      "grad_norm": 1.7545554637908936,
      "learning_rate": 0.00014319626583685264,
      "loss": 1.7694,
      "step": 12788
    },
    {
      "epoch": 0.2842,
      "grad_norm": 1.8765792846679688,
      "learning_rate": 0.00014319182040453435,
      "loss": 1.6874,
      "step": 12789
    },
    {
      "epoch": 0.2842222222222222,
      "grad_norm": 1.5240631103515625,
      "learning_rate": 0.00014318737497221606,
      "loss": 2.0129,
      "step": 12790
    },
    {
      "epoch": 0.28424444444444447,
      "grad_norm": 1.6236881017684937,
      "learning_rate": 0.00014318292953989777,
      "loss": 1.6784,
      "step": 12791
    },
    {
      "epoch": 0.28426666666666667,
      "grad_norm": 1.5865529775619507,
      "learning_rate": 0.00014317848410757945,
      "loss": 1.9375,
      "step": 12792
    },
    {
      "epoch": 0.28428888888888887,
      "grad_norm": 1.7089298963546753,
      "learning_rate": 0.0001431740386752612,
      "loss": 2.0809,
      "step": 12793
    },
    {
      "epoch": 0.2843111111111111,
      "grad_norm": 1.3672525882720947,
      "learning_rate": 0.00014316959324294287,
      "loss": 1.4855,
      "step": 12794
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 1.633760690689087,
      "learning_rate": 0.0001431651478106246,
      "loss": 1.8906,
      "step": 12795
    },
    {
      "epoch": 0.28435555555555553,
      "grad_norm": 1.7405827045440674,
      "learning_rate": 0.0001431607023783063,
      "loss": 1.8505,
      "step": 12796
    },
    {
      "epoch": 0.2843777777777778,
      "grad_norm": 1.3929672241210938,
      "learning_rate": 0.000143156256945988,
      "loss": 1.4991,
      "step": 12797
    },
    {
      "epoch": 0.2844,
      "grad_norm": 1.485128402709961,
      "learning_rate": 0.0001431518115136697,
      "loss": 1.5285,
      "step": 12798
    },
    {
      "epoch": 0.28442222222222224,
      "grad_norm": 1.8699060678482056,
      "learning_rate": 0.00014314736608135142,
      "loss": 1.6138,
      "step": 12799
    },
    {
      "epoch": 0.28444444444444444,
      "grad_norm": 1.585326075553894,
      "learning_rate": 0.00014314292064903313,
      "loss": 1.7806,
      "step": 12800
    },
    {
      "epoch": 0.28446666666666665,
      "grad_norm": 1.4941922426223755,
      "learning_rate": 0.00014313847521671484,
      "loss": 2.7777,
      "step": 12801
    },
    {
      "epoch": 0.2844888888888889,
      "grad_norm": 1.148305892944336,
      "learning_rate": 0.00014313402978439655,
      "loss": 1.7271,
      "step": 12802
    },
    {
      "epoch": 0.2845111111111111,
      "grad_norm": 1.4729338884353638,
      "learning_rate": 0.00014312958435207823,
      "loss": 2.4905,
      "step": 12803
    },
    {
      "epoch": 0.28453333333333336,
      "grad_norm": 1.4527018070220947,
      "learning_rate": 0.00014312513891975997,
      "loss": 2.5793,
      "step": 12804
    },
    {
      "epoch": 0.28455555555555556,
      "grad_norm": 1.6626412868499756,
      "learning_rate": 0.00014312069348744165,
      "loss": 2.1702,
      "step": 12805
    },
    {
      "epoch": 0.28457777777777776,
      "grad_norm": 1.2871695756912231,
      "learning_rate": 0.00014311624805512336,
      "loss": 1.8769,
      "step": 12806
    },
    {
      "epoch": 0.2846,
      "grad_norm": 1.4955822229385376,
      "learning_rate": 0.00014311180262280507,
      "loss": 1.9732,
      "step": 12807
    },
    {
      "epoch": 0.2846222222222222,
      "grad_norm": 1.3090360164642334,
      "learning_rate": 0.00014310735719048678,
      "loss": 1.7478,
      "step": 12808
    },
    {
      "epoch": 0.2846444444444444,
      "grad_norm": 1.4269145727157593,
      "learning_rate": 0.0001431029117581685,
      "loss": 2.1356,
      "step": 12809
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 1.7008332014083862,
      "learning_rate": 0.0001430984663258502,
      "loss": 2.8944,
      "step": 12810
    },
    {
      "epoch": 0.2846888888888889,
      "grad_norm": 1.2458269596099854,
      "learning_rate": 0.0001430940208935319,
      "loss": 1.6269,
      "step": 12811
    },
    {
      "epoch": 0.28471111111111114,
      "grad_norm": 1.4646927118301392,
      "learning_rate": 0.00014308957546121362,
      "loss": 2.2513,
      "step": 12812
    },
    {
      "epoch": 0.28473333333333334,
      "grad_norm": 1.2843918800354004,
      "learning_rate": 0.00014308513002889533,
      "loss": 1.9317,
      "step": 12813
    },
    {
      "epoch": 0.28475555555555554,
      "grad_norm": 1.4640257358551025,
      "learning_rate": 0.000143080684596577,
      "loss": 2.414,
      "step": 12814
    },
    {
      "epoch": 0.2847777777777778,
      "grad_norm": 1.5644418001174927,
      "learning_rate": 0.00014307623916425875,
      "loss": 2.2817,
      "step": 12815
    },
    {
      "epoch": 0.2848,
      "grad_norm": 1.7692316770553589,
      "learning_rate": 0.00014307179373194043,
      "loss": 1.961,
      "step": 12816
    },
    {
      "epoch": 0.2848222222222222,
      "grad_norm": 1.8197429180145264,
      "learning_rate": 0.00014306734829962214,
      "loss": 1.7386,
      "step": 12817
    },
    {
      "epoch": 0.28484444444444446,
      "grad_norm": 1.5916674137115479,
      "learning_rate": 0.00014306290286730385,
      "loss": 2.1689,
      "step": 12818
    },
    {
      "epoch": 0.28486666666666666,
      "grad_norm": 1.628698706626892,
      "learning_rate": 0.00014305845743498556,
      "loss": 2.0681,
      "step": 12819
    },
    {
      "epoch": 0.2848888888888889,
      "grad_norm": 1.823727011680603,
      "learning_rate": 0.00014305401200266727,
      "loss": 2.4639,
      "step": 12820
    },
    {
      "epoch": 0.2849111111111111,
      "grad_norm": 1.4190694093704224,
      "learning_rate": 0.00014304956657034898,
      "loss": 1.8392,
      "step": 12821
    },
    {
      "epoch": 0.2849333333333333,
      "grad_norm": 1.612139105796814,
      "learning_rate": 0.0001430451211380307,
      "loss": 2.4744,
      "step": 12822
    },
    {
      "epoch": 0.2849555555555556,
      "grad_norm": 1.5039433240890503,
      "learning_rate": 0.00014304067570571237,
      "loss": 1.8557,
      "step": 12823
    },
    {
      "epoch": 0.2849777777777778,
      "grad_norm": 1.4959874153137207,
      "learning_rate": 0.0001430362302733941,
      "loss": 2.2237,
      "step": 12824
    },
    {
      "epoch": 0.285,
      "grad_norm": 1.5954633951187134,
      "learning_rate": 0.0001430317848410758,
      "loss": 1.9515,
      "step": 12825
    },
    {
      "epoch": 0.28502222222222223,
      "grad_norm": 1.684805154800415,
      "learning_rate": 0.0001430273394087575,
      "loss": 2.1495,
      "step": 12826
    },
    {
      "epoch": 0.28504444444444443,
      "grad_norm": 1.1593996286392212,
      "learning_rate": 0.0001430228939764392,
      "loss": 1.3004,
      "step": 12827
    },
    {
      "epoch": 0.2850666666666667,
      "grad_norm": 1.3498303890228271,
      "learning_rate": 0.00014301844854412092,
      "loss": 1.8826,
      "step": 12828
    },
    {
      "epoch": 0.2850888888888889,
      "grad_norm": 1.4673513174057007,
      "learning_rate": 0.00014301400311180263,
      "loss": 1.5691,
      "step": 12829
    },
    {
      "epoch": 0.2851111111111111,
      "grad_norm": 1.7861899137496948,
      "learning_rate": 0.00014300955767948434,
      "loss": 1.8903,
      "step": 12830
    },
    {
      "epoch": 0.28513333333333335,
      "grad_norm": 1.740343689918518,
      "learning_rate": 0.00014300511224716605,
      "loss": 2.3154,
      "step": 12831
    },
    {
      "epoch": 0.28515555555555555,
      "grad_norm": 1.8470048904418945,
      "learning_rate": 0.00014300066681484776,
      "loss": 2.2763,
      "step": 12832
    },
    {
      "epoch": 0.28517777777777775,
      "grad_norm": 1.3825390338897705,
      "learning_rate": 0.00014299622138252947,
      "loss": 1.5991,
      "step": 12833
    },
    {
      "epoch": 0.2852,
      "grad_norm": 1.4230217933654785,
      "learning_rate": 0.00014299177595021115,
      "loss": 1.5719,
      "step": 12834
    },
    {
      "epoch": 0.2852222222222222,
      "grad_norm": 1.726194977760315,
      "learning_rate": 0.00014298733051789289,
      "loss": 2.0307,
      "step": 12835
    },
    {
      "epoch": 0.28524444444444447,
      "grad_norm": 1.6777257919311523,
      "learning_rate": 0.00014298288508557457,
      "loss": 1.7276,
      "step": 12836
    },
    {
      "epoch": 0.28526666666666667,
      "grad_norm": 1.1117721796035767,
      "learning_rate": 0.00014297843965325628,
      "loss": 1.0594,
      "step": 12837
    },
    {
      "epoch": 0.28528888888888887,
      "grad_norm": 1.7238868474960327,
      "learning_rate": 0.00014297399422093801,
      "loss": 1.9452,
      "step": 12838
    },
    {
      "epoch": 0.2853111111111111,
      "grad_norm": 1.3498399257659912,
      "learning_rate": 0.0001429695487886197,
      "loss": 1.6168,
      "step": 12839
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 1.8337056636810303,
      "learning_rate": 0.0001429651033563014,
      "loss": 1.9513,
      "step": 12840
    },
    {
      "epoch": 0.28535555555555553,
      "grad_norm": 2.261324882507324,
      "learning_rate": 0.00014296065792398312,
      "loss": 2.2941,
      "step": 12841
    },
    {
      "epoch": 0.2853777777777778,
      "grad_norm": 1.328522801399231,
      "learning_rate": 0.00014295621249166483,
      "loss": 1.5237,
      "step": 12842
    },
    {
      "epoch": 0.2854,
      "grad_norm": 2.2697010040283203,
      "learning_rate": 0.0001429517670593465,
      "loss": 2.368,
      "step": 12843
    },
    {
      "epoch": 0.28542222222222224,
      "grad_norm": 2.0958993434906006,
      "learning_rate": 0.00014294732162702825,
      "loss": 1.9877,
      "step": 12844
    },
    {
      "epoch": 0.28544444444444445,
      "grad_norm": 2.167738914489746,
      "learning_rate": 0.00014294287619470993,
      "loss": 2.3455,
      "step": 12845
    },
    {
      "epoch": 0.28546666666666665,
      "grad_norm": 1.7034105062484741,
      "learning_rate": 0.00014293843076239164,
      "loss": 1.7039,
      "step": 12846
    },
    {
      "epoch": 0.2854888888888889,
      "grad_norm": 1.0802433490753174,
      "learning_rate": 0.00014293398533007337,
      "loss": 0.8639,
      "step": 12847
    },
    {
      "epoch": 0.2855111111111111,
      "grad_norm": 1.4865657091140747,
      "learning_rate": 0.00014292953989775506,
      "loss": 1.9479,
      "step": 12848
    },
    {
      "epoch": 0.2855333333333333,
      "grad_norm": 1.5786182880401611,
      "learning_rate": 0.00014292509446543677,
      "loss": 1.7193,
      "step": 12849
    },
    {
      "epoch": 0.28555555555555556,
      "grad_norm": 2.4551808834075928,
      "learning_rate": 0.00014292064903311848,
      "loss": 2.0426,
      "step": 12850
    },
    {
      "epoch": 0.28557777777777776,
      "grad_norm": 1.3797765970230103,
      "learning_rate": 0.00014291620360080019,
      "loss": 1.0739,
      "step": 12851
    },
    {
      "epoch": 0.2856,
      "grad_norm": 1.4466882944107056,
      "learning_rate": 0.0001429117581684819,
      "loss": 2.1725,
      "step": 12852
    },
    {
      "epoch": 0.2856222222222222,
      "grad_norm": 1.3166604042053223,
      "learning_rate": 0.0001429073127361636,
      "loss": 2.1341,
      "step": 12853
    },
    {
      "epoch": 0.2856444444444444,
      "grad_norm": 2.919491767883301,
      "learning_rate": 0.0001429028673038453,
      "loss": 1.1499,
      "step": 12854
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 1.301313042640686,
      "learning_rate": 0.00014289842187152702,
      "loss": 2.2076,
      "step": 12855
    },
    {
      "epoch": 0.2856888888888889,
      "grad_norm": 1.2872939109802246,
      "learning_rate": 0.00014289397643920873,
      "loss": 1.8534,
      "step": 12856
    },
    {
      "epoch": 0.28571111111111114,
      "grad_norm": 1.5990103483200073,
      "learning_rate": 0.00014288953100689042,
      "loss": 2.3168,
      "step": 12857
    },
    {
      "epoch": 0.28573333333333334,
      "grad_norm": 1.3192757368087769,
      "learning_rate": 0.00014288508557457215,
      "loss": 1.9448,
      "step": 12858
    },
    {
      "epoch": 0.28575555555555554,
      "grad_norm": 1.5619628429412842,
      "learning_rate": 0.00014288064014225384,
      "loss": 2.3635,
      "step": 12859
    },
    {
      "epoch": 0.2857777777777778,
      "grad_norm": 1.9525707960128784,
      "learning_rate": 0.00014287619470993554,
      "loss": 2.3737,
      "step": 12860
    },
    {
      "epoch": 0.2858,
      "grad_norm": 1.5093088150024414,
      "learning_rate": 0.00014287174927761725,
      "loss": 2.228,
      "step": 12861
    },
    {
      "epoch": 0.2858222222222222,
      "grad_norm": 1.4550628662109375,
      "learning_rate": 0.00014286730384529896,
      "loss": 2.2628,
      "step": 12862
    },
    {
      "epoch": 0.28584444444444446,
      "grad_norm": 1.3798836469650269,
      "learning_rate": 0.00014286285841298067,
      "loss": 2.1453,
      "step": 12863
    },
    {
      "epoch": 0.28586666666666666,
      "grad_norm": 1.6503729820251465,
      "learning_rate": 0.00014285841298066238,
      "loss": 2.1397,
      "step": 12864
    },
    {
      "epoch": 0.2858888888888889,
      "grad_norm": 1.6205662488937378,
      "learning_rate": 0.0001428539675483441,
      "loss": 2.4752,
      "step": 12865
    },
    {
      "epoch": 0.2859111111111111,
      "grad_norm": 1.4234263896942139,
      "learning_rate": 0.00014284952211602578,
      "loss": 1.8548,
      "step": 12866
    },
    {
      "epoch": 0.2859333333333333,
      "grad_norm": 1.385874629020691,
      "learning_rate": 0.0001428450766837075,
      "loss": 1.6256,
      "step": 12867
    },
    {
      "epoch": 0.2859555555555556,
      "grad_norm": 1.5140620470046997,
      "learning_rate": 0.0001428406312513892,
      "loss": 2.2036,
      "step": 12868
    },
    {
      "epoch": 0.2859777777777778,
      "grad_norm": 1.632506251335144,
      "learning_rate": 0.00014283618581907093,
      "loss": 2.0054,
      "step": 12869
    },
    {
      "epoch": 0.286,
      "grad_norm": 1.6290314197540283,
      "learning_rate": 0.00014283174038675261,
      "loss": 2.2125,
      "step": 12870
    },
    {
      "epoch": 0.28602222222222223,
      "grad_norm": 1.3128715753555298,
      "learning_rate": 0.00014282729495443432,
      "loss": 1.7714,
      "step": 12871
    },
    {
      "epoch": 0.28604444444444443,
      "grad_norm": 2.18646240234375,
      "learning_rate": 0.00014282284952211603,
      "loss": 1.6045,
      "step": 12872
    },
    {
      "epoch": 0.2860666666666667,
      "grad_norm": 1.2973781824111938,
      "learning_rate": 0.00014281840408979774,
      "loss": 1.8276,
      "step": 12873
    },
    {
      "epoch": 0.2860888888888889,
      "grad_norm": 1.8317739963531494,
      "learning_rate": 0.00014281395865747945,
      "loss": 1.9227,
      "step": 12874
    },
    {
      "epoch": 0.2861111111111111,
      "grad_norm": 1.588716983795166,
      "learning_rate": 0.00014280951322516116,
      "loss": 1.9586,
      "step": 12875
    },
    {
      "epoch": 0.28613333333333335,
      "grad_norm": 1.8530913591384888,
      "learning_rate": 0.00014280506779284287,
      "loss": 2.0373,
      "step": 12876
    },
    {
      "epoch": 0.28615555555555555,
      "grad_norm": 1.4999572038650513,
      "learning_rate": 0.00014280062236052455,
      "loss": 2.045,
      "step": 12877
    },
    {
      "epoch": 0.28617777777777775,
      "grad_norm": 1.504986047744751,
      "learning_rate": 0.0001427961769282063,
      "loss": 1.6785,
      "step": 12878
    },
    {
      "epoch": 0.2862,
      "grad_norm": 1.2071179151535034,
      "learning_rate": 0.00014279173149588797,
      "loss": 0.9357,
      "step": 12879
    },
    {
      "epoch": 0.2862222222222222,
      "grad_norm": 1.4171987771987915,
      "learning_rate": 0.00014278728606356968,
      "loss": 1.6612,
      "step": 12880
    },
    {
      "epoch": 0.28624444444444447,
      "grad_norm": 1.7287952899932861,
      "learning_rate": 0.0001427828406312514,
      "loss": 2.5119,
      "step": 12881
    },
    {
      "epoch": 0.28626666666666667,
      "grad_norm": 1.8364864587783813,
      "learning_rate": 0.0001427783951989331,
      "loss": 2.2963,
      "step": 12882
    },
    {
      "epoch": 0.28628888888888887,
      "grad_norm": 1.7914336919784546,
      "learning_rate": 0.0001427739497666148,
      "loss": 2.0393,
      "step": 12883
    },
    {
      "epoch": 0.2863111111111111,
      "grad_norm": 1.673483967781067,
      "learning_rate": 0.00014276950433429652,
      "loss": 1.894,
      "step": 12884
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 1.4907562732696533,
      "learning_rate": 0.00014276505890197823,
      "loss": 1.9189,
      "step": 12885
    },
    {
      "epoch": 0.28635555555555553,
      "grad_norm": 1.6849939823150635,
      "learning_rate": 0.00014276061346965991,
      "loss": 1.7416,
      "step": 12886
    },
    {
      "epoch": 0.2863777777777778,
      "grad_norm": 1.293509602546692,
      "learning_rate": 0.00014275616803734165,
      "loss": 1.565,
      "step": 12887
    },
    {
      "epoch": 0.2864,
      "grad_norm": 1.5505257844924927,
      "learning_rate": 0.00014275172260502333,
      "loss": 1.9397,
      "step": 12888
    },
    {
      "epoch": 0.28642222222222224,
      "grad_norm": 1.764046311378479,
      "learning_rate": 0.00014274727717270507,
      "loss": 2.0103,
      "step": 12889
    },
    {
      "epoch": 0.28644444444444445,
      "grad_norm": 1.6119258403778076,
      "learning_rate": 0.00014274283174038675,
      "loss": 1.5557,
      "step": 12890
    },
    {
      "epoch": 0.28646666666666665,
      "grad_norm": 2.077592134475708,
      "learning_rate": 0.00014273838630806846,
      "loss": 2.2755,
      "step": 12891
    },
    {
      "epoch": 0.2864888888888889,
      "grad_norm": 1.414724588394165,
      "learning_rate": 0.00014273394087575017,
      "loss": 1.7906,
      "step": 12892
    },
    {
      "epoch": 0.2865111111111111,
      "grad_norm": 1.5732958316802979,
      "learning_rate": 0.00014272949544343188,
      "loss": 1.8718,
      "step": 12893
    },
    {
      "epoch": 0.2865333333333333,
      "grad_norm": 1.5336332321166992,
      "learning_rate": 0.0001427250500111136,
      "loss": 1.4593,
      "step": 12894
    },
    {
      "epoch": 0.28655555555555556,
      "grad_norm": 1.5685490369796753,
      "learning_rate": 0.0001427206045787953,
      "loss": 1.6693,
      "step": 12895
    },
    {
      "epoch": 0.28657777777777776,
      "grad_norm": 1.4125229120254517,
      "learning_rate": 0.000142716159146477,
      "loss": 1.512,
      "step": 12896
    },
    {
      "epoch": 0.2866,
      "grad_norm": 2.0652639865875244,
      "learning_rate": 0.0001427117137141587,
      "loss": 1.717,
      "step": 12897
    },
    {
      "epoch": 0.2866222222222222,
      "grad_norm": 1.672836422920227,
      "learning_rate": 0.00014270726828184043,
      "loss": 1.7536,
      "step": 12898
    },
    {
      "epoch": 0.2866444444444444,
      "grad_norm": 1.2029396295547485,
      "learning_rate": 0.0001427028228495221,
      "loss": 0.9481,
      "step": 12899
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 1.600278615951538,
      "learning_rate": 0.00014269837741720382,
      "loss": 1.2209,
      "step": 12900
    },
    {
      "epoch": 0.2866888888888889,
      "grad_norm": 1.355482816696167,
      "learning_rate": 0.00014269393198488553,
      "loss": 3.0712,
      "step": 12901
    },
    {
      "epoch": 0.28671111111111114,
      "grad_norm": 1.4027777910232544,
      "learning_rate": 0.00014268948655256724,
      "loss": 2.0959,
      "step": 12902
    },
    {
      "epoch": 0.28673333333333334,
      "grad_norm": 1.554535150527954,
      "learning_rate": 0.00014268504112024895,
      "loss": 1.944,
      "step": 12903
    },
    {
      "epoch": 0.28675555555555554,
      "grad_norm": 1.2989659309387207,
      "learning_rate": 0.00014268059568793066,
      "loss": 1.9002,
      "step": 12904
    },
    {
      "epoch": 0.2867777777777778,
      "grad_norm": 1.3263232707977295,
      "learning_rate": 0.00014267615025561237,
      "loss": 2.1522,
      "step": 12905
    },
    {
      "epoch": 0.2868,
      "grad_norm": 1.5107653141021729,
      "learning_rate": 0.00014267170482329405,
      "loss": 2.4314,
      "step": 12906
    },
    {
      "epoch": 0.2868222222222222,
      "grad_norm": 1.3703762292861938,
      "learning_rate": 0.0001426672593909758,
      "loss": 2.0397,
      "step": 12907
    },
    {
      "epoch": 0.28684444444444446,
      "grad_norm": 1.6389076709747314,
      "learning_rate": 0.00014266281395865747,
      "loss": 2.5805,
      "step": 12908
    },
    {
      "epoch": 0.28686666666666666,
      "grad_norm": 1.61137056350708,
      "learning_rate": 0.0001426583685263392,
      "loss": 2.2819,
      "step": 12909
    },
    {
      "epoch": 0.2868888888888889,
      "grad_norm": 1.5403025150299072,
      "learning_rate": 0.0001426539230940209,
      "loss": 2.2681,
      "step": 12910
    },
    {
      "epoch": 0.2869111111111111,
      "grad_norm": 1.3995212316513062,
      "learning_rate": 0.0001426494776617026,
      "loss": 2.1791,
      "step": 12911
    },
    {
      "epoch": 0.2869333333333333,
      "grad_norm": 1.4357872009277344,
      "learning_rate": 0.00014264503222938434,
      "loss": 1.7866,
      "step": 12912
    },
    {
      "epoch": 0.2869555555555556,
      "grad_norm": 1.830816626548767,
      "learning_rate": 0.00014264058679706602,
      "loss": 2.4514,
      "step": 12913
    },
    {
      "epoch": 0.2869777777777778,
      "grad_norm": 1.92805814743042,
      "learning_rate": 0.00014263614136474773,
      "loss": 2.2242,
      "step": 12914
    },
    {
      "epoch": 0.287,
      "grad_norm": 1.3683143854141235,
      "learning_rate": 0.00014263169593242944,
      "loss": 2.0797,
      "step": 12915
    },
    {
      "epoch": 0.28702222222222223,
      "grad_norm": 1.502681851387024,
      "learning_rate": 0.00014262725050011115,
      "loss": 1.8,
      "step": 12916
    },
    {
      "epoch": 0.28704444444444444,
      "grad_norm": 1.7774282693862915,
      "learning_rate": 0.00014262280506779283,
      "loss": 1.4235,
      "step": 12917
    },
    {
      "epoch": 0.2870666666666667,
      "grad_norm": 1.7497124671936035,
      "learning_rate": 0.00014261835963547457,
      "loss": 1.737,
      "step": 12918
    },
    {
      "epoch": 0.2870888888888889,
      "grad_norm": 1.4426100254058838,
      "learning_rate": 0.00014261391420315625,
      "loss": 1.9432,
      "step": 12919
    },
    {
      "epoch": 0.2871111111111111,
      "grad_norm": 1.5270814895629883,
      "learning_rate": 0.00014260946877083796,
      "loss": 1.2756,
      "step": 12920
    },
    {
      "epoch": 0.28713333333333335,
      "grad_norm": 1.8208469152450562,
      "learning_rate": 0.0001426050233385197,
      "loss": 2.0536,
      "step": 12921
    },
    {
      "epoch": 0.28715555555555555,
      "grad_norm": 1.3994159698486328,
      "learning_rate": 0.00014260057790620138,
      "loss": 1.9831,
      "step": 12922
    },
    {
      "epoch": 0.28717777777777775,
      "grad_norm": 2.0414116382598877,
      "learning_rate": 0.0001425961324738831,
      "loss": 2.9171,
      "step": 12923
    },
    {
      "epoch": 0.2872,
      "grad_norm": 2.101442575454712,
      "learning_rate": 0.0001425916870415648,
      "loss": 2.1155,
      "step": 12924
    },
    {
      "epoch": 0.2872222222222222,
      "grad_norm": 1.4164509773254395,
      "learning_rate": 0.0001425872416092465,
      "loss": 1.9939,
      "step": 12925
    },
    {
      "epoch": 0.28724444444444447,
      "grad_norm": 1.5525450706481934,
      "learning_rate": 0.00014258279617692822,
      "loss": 1.8099,
      "step": 12926
    },
    {
      "epoch": 0.28726666666666667,
      "grad_norm": 1.283334732055664,
      "learning_rate": 0.00014257835074460993,
      "loss": 1.1134,
      "step": 12927
    },
    {
      "epoch": 0.28728888888888887,
      "grad_norm": 1.544467568397522,
      "learning_rate": 0.0001425739053122916,
      "loss": 2.0687,
      "step": 12928
    },
    {
      "epoch": 0.28731111111111113,
      "grad_norm": 1.7468971014022827,
      "learning_rate": 0.00014256945987997335,
      "loss": 2.2242,
      "step": 12929
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 1.5330314636230469,
      "learning_rate": 0.00014256501444765506,
      "loss": 2.0828,
      "step": 12930
    },
    {
      "epoch": 0.28735555555555553,
      "grad_norm": 1.6578236818313599,
      "learning_rate": 0.00014256056901533674,
      "loss": 1.8152,
      "step": 12931
    },
    {
      "epoch": 0.2873777777777778,
      "grad_norm": 1.4462276697158813,
      "learning_rate": 0.00014255612358301847,
      "loss": 1.6849,
      "step": 12932
    },
    {
      "epoch": 0.2874,
      "grad_norm": 1.657167911529541,
      "learning_rate": 0.00014255167815070016,
      "loss": 2.3974,
      "step": 12933
    },
    {
      "epoch": 0.28742222222222225,
      "grad_norm": 1.645158052444458,
      "learning_rate": 0.00014254723271838187,
      "loss": 2.0761,
      "step": 12934
    },
    {
      "epoch": 0.28744444444444445,
      "grad_norm": 1.6977851390838623,
      "learning_rate": 0.00014254278728606358,
      "loss": 1.9792,
      "step": 12935
    },
    {
      "epoch": 0.28746666666666665,
      "grad_norm": 1.6771680116653442,
      "learning_rate": 0.00014253834185374529,
      "loss": 1.9759,
      "step": 12936
    },
    {
      "epoch": 0.2874888888888889,
      "grad_norm": 1.9149457216262817,
      "learning_rate": 0.000142533896421427,
      "loss": 2.2397,
      "step": 12937
    },
    {
      "epoch": 0.2875111111111111,
      "grad_norm": 1.323657751083374,
      "learning_rate": 0.0001425294509891087,
      "loss": 1.7548,
      "step": 12938
    },
    {
      "epoch": 0.2875333333333333,
      "grad_norm": 1.665488600730896,
      "learning_rate": 0.00014252500555679041,
      "loss": 1.5995,
      "step": 12939
    },
    {
      "epoch": 0.28755555555555556,
      "grad_norm": 1.7212308645248413,
      "learning_rate": 0.0001425205601244721,
      "loss": 2.0883,
      "step": 12940
    },
    {
      "epoch": 0.28757777777777777,
      "grad_norm": 1.5818184614181519,
      "learning_rate": 0.00014251611469215383,
      "loss": 1.7858,
      "step": 12941
    },
    {
      "epoch": 0.2876,
      "grad_norm": 1.4702253341674805,
      "learning_rate": 0.00014251166925983552,
      "loss": 1.8535,
      "step": 12942
    },
    {
      "epoch": 0.2876222222222222,
      "grad_norm": 1.394217848777771,
      "learning_rate": 0.00014250722382751723,
      "loss": 1.5218,
      "step": 12943
    },
    {
      "epoch": 0.2876444444444444,
      "grad_norm": 1.4988957643508911,
      "learning_rate": 0.00014250277839519894,
      "loss": 1.875,
      "step": 12944
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 1.9125237464904785,
      "learning_rate": 0.00014249833296288065,
      "loss": 1.9525,
      "step": 12945
    },
    {
      "epoch": 0.2876888888888889,
      "grad_norm": 1.6300647258758545,
      "learning_rate": 0.00014249388753056236,
      "loss": 1.8906,
      "step": 12946
    },
    {
      "epoch": 0.2877111111111111,
      "grad_norm": 1.881378173828125,
      "learning_rate": 0.00014248944209824406,
      "loss": 1.958,
      "step": 12947
    },
    {
      "epoch": 0.28773333333333334,
      "grad_norm": 1.7281492948532104,
      "learning_rate": 0.00014248499666592577,
      "loss": 2.0188,
      "step": 12948
    },
    {
      "epoch": 0.28775555555555554,
      "grad_norm": 1.7242108583450317,
      "learning_rate": 0.00014248055123360748,
      "loss": 1.78,
      "step": 12949
    },
    {
      "epoch": 0.2877777777777778,
      "grad_norm": 1.8379265069961548,
      "learning_rate": 0.0001424761058012892,
      "loss": 1.4895,
      "step": 12950
    },
    {
      "epoch": 0.2878,
      "grad_norm": 1.2904373407363892,
      "learning_rate": 0.00014247166036897088,
      "loss": 2.0027,
      "step": 12951
    },
    {
      "epoch": 0.2878222222222222,
      "grad_norm": 1.2918214797973633,
      "learning_rate": 0.0001424672149366526,
      "loss": 2.4171,
      "step": 12952
    },
    {
      "epoch": 0.28784444444444446,
      "grad_norm": 1.3570201396942139,
      "learning_rate": 0.0001424627695043343,
      "loss": 2.6049,
      "step": 12953
    },
    {
      "epoch": 0.28786666666666666,
      "grad_norm": 1.1187801361083984,
      "learning_rate": 0.000142458324072016,
      "loss": 1.0699,
      "step": 12954
    },
    {
      "epoch": 0.2878888888888889,
      "grad_norm": 1.3929858207702637,
      "learning_rate": 0.00014245387863969771,
      "loss": 2.7538,
      "step": 12955
    },
    {
      "epoch": 0.2879111111111111,
      "grad_norm": 1.2915748357772827,
      "learning_rate": 0.00014244943320737942,
      "loss": 1.9628,
      "step": 12956
    },
    {
      "epoch": 0.2879333333333333,
      "grad_norm": 1.1441607475280762,
      "learning_rate": 0.00014244498777506113,
      "loss": 1.8674,
      "step": 12957
    },
    {
      "epoch": 0.2879555555555556,
      "grad_norm": 1.3536291122436523,
      "learning_rate": 0.00014244054234274284,
      "loss": 2.1675,
      "step": 12958
    },
    {
      "epoch": 0.2879777777777778,
      "grad_norm": 1.4240615367889404,
      "learning_rate": 0.00014243609691042455,
      "loss": 2.4419,
      "step": 12959
    },
    {
      "epoch": 0.288,
      "grad_norm": 1.4518941640853882,
      "learning_rate": 0.00014243165147810624,
      "loss": 1.9184,
      "step": 12960
    },
    {
      "epoch": 0.28802222222222224,
      "grad_norm": 2.208089590072632,
      "learning_rate": 0.00014242720604578797,
      "loss": 2.1629,
      "step": 12961
    },
    {
      "epoch": 0.28804444444444444,
      "grad_norm": 1.5421528816223145,
      "learning_rate": 0.00014242276061346965,
      "loss": 2.4498,
      "step": 12962
    },
    {
      "epoch": 0.2880666666666667,
      "grad_norm": 1.3933804035186768,
      "learning_rate": 0.00014241831518115136,
      "loss": 1.6971,
      "step": 12963
    },
    {
      "epoch": 0.2880888888888889,
      "grad_norm": 1.2401363849639893,
      "learning_rate": 0.00014241386974883307,
      "loss": 1.5313,
      "step": 12964
    },
    {
      "epoch": 0.2881111111111111,
      "grad_norm": 1.405999779701233,
      "learning_rate": 0.00014240942431651478,
      "loss": 2.1237,
      "step": 12965
    },
    {
      "epoch": 0.28813333333333335,
      "grad_norm": 1.6897917985916138,
      "learning_rate": 0.0001424049788841965,
      "loss": 2.8579,
      "step": 12966
    },
    {
      "epoch": 0.28815555555555555,
      "grad_norm": 1.226752519607544,
      "learning_rate": 0.0001424005334518782,
      "loss": 1.8661,
      "step": 12967
    },
    {
      "epoch": 0.28817777777777775,
      "grad_norm": 1.7531590461730957,
      "learning_rate": 0.0001423960880195599,
      "loss": 2.2018,
      "step": 12968
    },
    {
      "epoch": 0.2882,
      "grad_norm": 1.5550874471664429,
      "learning_rate": 0.00014239164258724162,
      "loss": 1.8479,
      "step": 12969
    },
    {
      "epoch": 0.2882222222222222,
      "grad_norm": 1.5507956743240356,
      "learning_rate": 0.00014238719715492333,
      "loss": 2.3125,
      "step": 12970
    },
    {
      "epoch": 0.28824444444444447,
      "grad_norm": 1.2615940570831299,
      "learning_rate": 0.00014238275172260501,
      "loss": 1.9001,
      "step": 12971
    },
    {
      "epoch": 0.28826666666666667,
      "grad_norm": 1.369452714920044,
      "learning_rate": 0.00014237830629028675,
      "loss": 2.0366,
      "step": 12972
    },
    {
      "epoch": 0.2882888888888889,
      "grad_norm": 2.043574571609497,
      "learning_rate": 0.00014237386085796843,
      "loss": 2.5912,
      "step": 12973
    },
    {
      "epoch": 0.28831111111111113,
      "grad_norm": 1.327147364616394,
      "learning_rate": 0.00014236941542565014,
      "loss": 1.6838,
      "step": 12974
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 1.3470326662063599,
      "learning_rate": 0.00014236496999333185,
      "loss": 1.9119,
      "step": 12975
    },
    {
      "epoch": 0.28835555555555553,
      "grad_norm": 1.4550946950912476,
      "learning_rate": 0.00014236052456101356,
      "loss": 2.1271,
      "step": 12976
    },
    {
      "epoch": 0.2883777777777778,
      "grad_norm": 1.2841238975524902,
      "learning_rate": 0.00014235607912869527,
      "loss": 1.9678,
      "step": 12977
    },
    {
      "epoch": 0.2884,
      "grad_norm": 1.4048374891281128,
      "learning_rate": 0.00014235163369637698,
      "loss": 1.5365,
      "step": 12978
    },
    {
      "epoch": 0.28842222222222225,
      "grad_norm": 1.4535691738128662,
      "learning_rate": 0.0001423471882640587,
      "loss": 2.2112,
      "step": 12979
    },
    {
      "epoch": 0.28844444444444445,
      "grad_norm": 1.8675745725631714,
      "learning_rate": 0.00014234274283174037,
      "loss": 2.2011,
      "step": 12980
    },
    {
      "epoch": 0.28846666666666665,
      "grad_norm": 1.5558373928070068,
      "learning_rate": 0.0001423382973994221,
      "loss": 2.0389,
      "step": 12981
    },
    {
      "epoch": 0.2884888888888889,
      "grad_norm": 1.5255626440048218,
      "learning_rate": 0.0001423338519671038,
      "loss": 2.3211,
      "step": 12982
    },
    {
      "epoch": 0.2885111111111111,
      "grad_norm": 1.6745461225509644,
      "learning_rate": 0.00014232940653478553,
      "loss": 1.8713,
      "step": 12983
    },
    {
      "epoch": 0.2885333333333333,
      "grad_norm": 1.4957748651504517,
      "learning_rate": 0.0001423249611024672,
      "loss": 1.8985,
      "step": 12984
    },
    {
      "epoch": 0.28855555555555557,
      "grad_norm": 1.6675775051116943,
      "learning_rate": 0.00014232051567014892,
      "loss": 2.341,
      "step": 12985
    },
    {
      "epoch": 0.28857777777777777,
      "grad_norm": 1.1567230224609375,
      "learning_rate": 0.00014231607023783066,
      "loss": 1.2385,
      "step": 12986
    },
    {
      "epoch": 0.2886,
      "grad_norm": 2.2667641639709473,
      "learning_rate": 0.00014231162480551234,
      "loss": 1.9054,
      "step": 12987
    },
    {
      "epoch": 0.2886222222222222,
      "grad_norm": 1.7813905477523804,
      "learning_rate": 0.00014230717937319405,
      "loss": 2.1603,
      "step": 12988
    },
    {
      "epoch": 0.2886444444444444,
      "grad_norm": 1.4487941265106201,
      "learning_rate": 0.00014230273394087576,
      "loss": 1.8616,
      "step": 12989
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 1.4052391052246094,
      "learning_rate": 0.00014229828850855747,
      "loss": 1.6951,
      "step": 12990
    },
    {
      "epoch": 0.2886888888888889,
      "grad_norm": 1.6546682119369507,
      "learning_rate": 0.00014229384307623915,
      "loss": 2.2163,
      "step": 12991
    },
    {
      "epoch": 0.2887111111111111,
      "grad_norm": 1.4841291904449463,
      "learning_rate": 0.0001422893976439209,
      "loss": 1.6105,
      "step": 12992
    },
    {
      "epoch": 0.28873333333333334,
      "grad_norm": 1.9859001636505127,
      "learning_rate": 0.00014228495221160257,
      "loss": 2.707,
      "step": 12993
    },
    {
      "epoch": 0.28875555555555554,
      "grad_norm": 1.7745040655136108,
      "learning_rate": 0.00014228050677928428,
      "loss": 1.6257,
      "step": 12994
    },
    {
      "epoch": 0.2887777777777778,
      "grad_norm": 1.6572766304016113,
      "learning_rate": 0.00014227606134696602,
      "loss": 2.0145,
      "step": 12995
    },
    {
      "epoch": 0.2888,
      "grad_norm": 1.4650609493255615,
      "learning_rate": 0.0001422716159146477,
      "loss": 1.5477,
      "step": 12996
    },
    {
      "epoch": 0.2888222222222222,
      "grad_norm": 1.5603548288345337,
      "learning_rate": 0.0001422671704823294,
      "loss": 1.7165,
      "step": 12997
    },
    {
      "epoch": 0.28884444444444446,
      "grad_norm": 1.9465947151184082,
      "learning_rate": 0.00014226272505001112,
      "loss": 1.9958,
      "step": 12998
    },
    {
      "epoch": 0.28886666666666666,
      "grad_norm": 1.6219056844711304,
      "learning_rate": 0.00014225827961769283,
      "loss": 1.7522,
      "step": 12999
    },
    {
      "epoch": 0.28888888888888886,
      "grad_norm": 1.2391911745071411,
      "learning_rate": 0.0001422538341853745,
      "loss": 0.844,
      "step": 13000
    },
    {
      "epoch": 0.2889111111111111,
      "grad_norm": 1.2799657583236694,
      "learning_rate": 0.00014224938875305625,
      "loss": 2.5012,
      "step": 13001
    },
    {
      "epoch": 0.2889333333333333,
      "grad_norm": 1.1911017894744873,
      "learning_rate": 0.00014224494332073793,
      "loss": 2.1883,
      "step": 13002
    },
    {
      "epoch": 0.2889555555555556,
      "grad_norm": 1.2880859375,
      "learning_rate": 0.00014224049788841967,
      "loss": 1.2255,
      "step": 13003
    },
    {
      "epoch": 0.2889777777777778,
      "grad_norm": 1.6048955917358398,
      "learning_rate": 0.00014223605245610138,
      "loss": 2.6527,
      "step": 13004
    },
    {
      "epoch": 0.289,
      "grad_norm": 1.3719242811203003,
      "learning_rate": 0.00014223160702378306,
      "loss": 2.1307,
      "step": 13005
    },
    {
      "epoch": 0.28902222222222224,
      "grad_norm": 1.4820382595062256,
      "learning_rate": 0.0001422271615914648,
      "loss": 2.0762,
      "step": 13006
    },
    {
      "epoch": 0.28904444444444444,
      "grad_norm": 1.8206474781036377,
      "learning_rate": 0.00014222271615914648,
      "loss": 2.7937,
      "step": 13007
    },
    {
      "epoch": 0.2890666666666667,
      "grad_norm": 2.107976198196411,
      "learning_rate": 0.0001422182707268282,
      "loss": 2.4582,
      "step": 13008
    },
    {
      "epoch": 0.2890888888888889,
      "grad_norm": 1.706957459449768,
      "learning_rate": 0.0001422138252945099,
      "loss": 2.8337,
      "step": 13009
    },
    {
      "epoch": 0.2891111111111111,
      "grad_norm": 1.544610857963562,
      "learning_rate": 0.0001422093798621916,
      "loss": 2.5216,
      "step": 13010
    },
    {
      "epoch": 0.28913333333333335,
      "grad_norm": 1.3907122611999512,
      "learning_rate": 0.00014220493442987332,
      "loss": 2.2377,
      "step": 13011
    },
    {
      "epoch": 0.28915555555555555,
      "grad_norm": 0.9797391891479492,
      "learning_rate": 0.00014220048899755503,
      "loss": 1.0479,
      "step": 13012
    },
    {
      "epoch": 0.28917777777777776,
      "grad_norm": 1.7814503908157349,
      "learning_rate": 0.00014219604356523674,
      "loss": 2.5666,
      "step": 13013
    },
    {
      "epoch": 0.2892,
      "grad_norm": 1.5735561847686768,
      "learning_rate": 0.00014219159813291842,
      "loss": 2.1795,
      "step": 13014
    },
    {
      "epoch": 0.2892222222222222,
      "grad_norm": 1.6638927459716797,
      "learning_rate": 0.00014218715270060016,
      "loss": 1.6991,
      "step": 13015
    },
    {
      "epoch": 0.28924444444444447,
      "grad_norm": 1.5205134153366089,
      "learning_rate": 0.00014218270726828184,
      "loss": 2.1426,
      "step": 13016
    },
    {
      "epoch": 0.28926666666666667,
      "grad_norm": 1.3064005374908447,
      "learning_rate": 0.00014217826183596355,
      "loss": 1.6818,
      "step": 13017
    },
    {
      "epoch": 0.2892888888888889,
      "grad_norm": 1.507794976234436,
      "learning_rate": 0.00014217381640364526,
      "loss": 2.2638,
      "step": 13018
    },
    {
      "epoch": 0.28931111111111113,
      "grad_norm": 1.3766885995864868,
      "learning_rate": 0.00014216937097132697,
      "loss": 1.8295,
      "step": 13019
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 1.5846507549285889,
      "learning_rate": 0.00014216492553900868,
      "loss": 2.1329,
      "step": 13020
    },
    {
      "epoch": 0.28935555555555553,
      "grad_norm": 1.5204800367355347,
      "learning_rate": 0.0001421604801066904,
      "loss": 2.1161,
      "step": 13021
    },
    {
      "epoch": 0.2893777777777778,
      "grad_norm": 1.1632506847381592,
      "learning_rate": 0.0001421560346743721,
      "loss": 0.8331,
      "step": 13022
    },
    {
      "epoch": 0.2894,
      "grad_norm": 1.46877920627594,
      "learning_rate": 0.0001421515892420538,
      "loss": 1.9881,
      "step": 13023
    },
    {
      "epoch": 0.28942222222222225,
      "grad_norm": 1.2386351823806763,
      "learning_rate": 0.00014214714380973552,
      "loss": 1.6426,
      "step": 13024
    },
    {
      "epoch": 0.28944444444444445,
      "grad_norm": 1.658459186553955,
      "learning_rate": 0.0001421426983774172,
      "loss": 2.3419,
      "step": 13025
    },
    {
      "epoch": 0.28946666666666665,
      "grad_norm": 1.4981318712234497,
      "learning_rate": 0.00014213825294509893,
      "loss": 1.8166,
      "step": 13026
    },
    {
      "epoch": 0.2894888888888889,
      "grad_norm": 1.5032142400741577,
      "learning_rate": 0.00014213380751278062,
      "loss": 1.8403,
      "step": 13027
    },
    {
      "epoch": 0.2895111111111111,
      "grad_norm": 1.5707203149795532,
      "learning_rate": 0.00014212936208046233,
      "loss": 2.0239,
      "step": 13028
    },
    {
      "epoch": 0.2895333333333333,
      "grad_norm": 1.9379470348358154,
      "learning_rate": 0.00014212491664814404,
      "loss": 2.3187,
      "step": 13029
    },
    {
      "epoch": 0.28955555555555557,
      "grad_norm": 1.63045072555542,
      "learning_rate": 0.00014212047121582575,
      "loss": 1.7277,
      "step": 13030
    },
    {
      "epoch": 0.28957777777777777,
      "grad_norm": 1.5826265811920166,
      "learning_rate": 0.00014211602578350746,
      "loss": 2.0322,
      "step": 13031
    },
    {
      "epoch": 0.2896,
      "grad_norm": 1.558004379272461,
      "learning_rate": 0.00014211158035118917,
      "loss": 1.9504,
      "step": 13032
    },
    {
      "epoch": 0.2896222222222222,
      "grad_norm": 1.9408942461013794,
      "learning_rate": 0.00014210713491887088,
      "loss": 2.5136,
      "step": 13033
    },
    {
      "epoch": 0.2896444444444444,
      "grad_norm": 1.5974347591400146,
      "learning_rate": 0.00014210268948655256,
      "loss": 1.6107,
      "step": 13034
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 1.214316725730896,
      "learning_rate": 0.0001420982440542343,
      "loss": 0.731,
      "step": 13035
    },
    {
      "epoch": 0.2896888888888889,
      "grad_norm": 1.5775800943374634,
      "learning_rate": 0.00014209379862191598,
      "loss": 2.14,
      "step": 13036
    },
    {
      "epoch": 0.2897111111111111,
      "grad_norm": 1.8272361755371094,
      "learning_rate": 0.0001420893531895977,
      "loss": 2.4057,
      "step": 13037
    },
    {
      "epoch": 0.28973333333333334,
      "grad_norm": 1.482068657875061,
      "learning_rate": 0.0001420849077572794,
      "loss": 1.7952,
      "step": 13038
    },
    {
      "epoch": 0.28975555555555554,
      "grad_norm": 1.458803415298462,
      "learning_rate": 0.0001420804623249611,
      "loss": 1.884,
      "step": 13039
    },
    {
      "epoch": 0.2897777777777778,
      "grad_norm": 1.912013292312622,
      "learning_rate": 0.00014207601689264282,
      "loss": 2.0778,
      "step": 13040
    },
    {
      "epoch": 0.2898,
      "grad_norm": 1.763713002204895,
      "learning_rate": 0.00014207157146032453,
      "loss": 2.1524,
      "step": 13041
    },
    {
      "epoch": 0.2898222222222222,
      "grad_norm": 1.427655577659607,
      "learning_rate": 0.00014206712602800623,
      "loss": 1.4091,
      "step": 13042
    },
    {
      "epoch": 0.28984444444444446,
      "grad_norm": 1.4641761779785156,
      "learning_rate": 0.00014206268059568794,
      "loss": 1.8247,
      "step": 13043
    },
    {
      "epoch": 0.28986666666666666,
      "grad_norm": 2.913104295730591,
      "learning_rate": 0.00014205823516336965,
      "loss": 2.2528,
      "step": 13044
    },
    {
      "epoch": 0.28988888888888886,
      "grad_norm": 1.6834805011749268,
      "learning_rate": 0.00014205378973105134,
      "loss": 2.1952,
      "step": 13045
    },
    {
      "epoch": 0.2899111111111111,
      "grad_norm": 1.4551600217819214,
      "learning_rate": 0.00014204934429873307,
      "loss": 1.5268,
      "step": 13046
    },
    {
      "epoch": 0.2899333333333333,
      "grad_norm": 1.7217544317245483,
      "learning_rate": 0.00014204489886641476,
      "loss": 1.9993,
      "step": 13047
    },
    {
      "epoch": 0.2899555555555556,
      "grad_norm": 1.9546271562576294,
      "learning_rate": 0.00014204045343409647,
      "loss": 2.0644,
      "step": 13048
    },
    {
      "epoch": 0.2899777777777778,
      "grad_norm": 1.571734070777893,
      "learning_rate": 0.00014203600800177817,
      "loss": 1.5157,
      "step": 13049
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6152900457382202,
      "learning_rate": 0.00014203156256945988,
      "loss": 1.4575,
      "step": 13050
    },
    {
      "epoch": 0.29002222222222224,
      "grad_norm": 1.3149980306625366,
      "learning_rate": 0.0001420271171371416,
      "loss": 2.5167,
      "step": 13051
    },
    {
      "epoch": 0.29004444444444444,
      "grad_norm": 1.5640466213226318,
      "learning_rate": 0.0001420226717048233,
      "loss": 2.6397,
      "step": 13052
    },
    {
      "epoch": 0.29006666666666664,
      "grad_norm": 1.3727893829345703,
      "learning_rate": 0.000142018226272505,
      "loss": 1.6639,
      "step": 13053
    },
    {
      "epoch": 0.2900888888888889,
      "grad_norm": 1.0062123537063599,
      "learning_rate": 0.0001420137808401867,
      "loss": 1.3835,
      "step": 13054
    },
    {
      "epoch": 0.2901111111111111,
      "grad_norm": 1.4416940212249756,
      "learning_rate": 0.00014200933540786843,
      "loss": 1.9038,
      "step": 13055
    },
    {
      "epoch": 0.29013333333333335,
      "grad_norm": 1.1874799728393555,
      "learning_rate": 0.00014200488997555012,
      "loss": 1.9893,
      "step": 13056
    },
    {
      "epoch": 0.29015555555555556,
      "grad_norm": 1.1477714776992798,
      "learning_rate": 0.00014200044454323182,
      "loss": 1.6568,
      "step": 13057
    },
    {
      "epoch": 0.29017777777777776,
      "grad_norm": 1.6265244483947754,
      "learning_rate": 0.00014199599911091353,
      "loss": 2.4114,
      "step": 13058
    },
    {
      "epoch": 0.2902,
      "grad_norm": 1.375184178352356,
      "learning_rate": 0.00014199155367859524,
      "loss": 2.2478,
      "step": 13059
    },
    {
      "epoch": 0.2902222222222222,
      "grad_norm": 1.664960503578186,
      "learning_rate": 0.00014198710824627698,
      "loss": 2.6252,
      "step": 13060
    },
    {
      "epoch": 0.29024444444444447,
      "grad_norm": 1.4794412851333618,
      "learning_rate": 0.00014198266281395866,
      "loss": 2.1205,
      "step": 13061
    },
    {
      "epoch": 0.2902666666666667,
      "grad_norm": 1.462614893913269,
      "learning_rate": 0.00014197821738164037,
      "loss": 1.8294,
      "step": 13062
    },
    {
      "epoch": 0.2902888888888889,
      "grad_norm": 1.2374764680862427,
      "learning_rate": 0.00014197377194932208,
      "loss": 1.6378,
      "step": 13063
    },
    {
      "epoch": 0.29031111111111113,
      "grad_norm": 1.7140467166900635,
      "learning_rate": 0.0001419693265170038,
      "loss": 2.1474,
      "step": 13064
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 1.5767230987548828,
      "learning_rate": 0.00014196488108468547,
      "loss": 2.3424,
      "step": 13065
    },
    {
      "epoch": 0.29035555555555553,
      "grad_norm": 1.4972267150878906,
      "learning_rate": 0.0001419604356523672,
      "loss": 2.2087,
      "step": 13066
    },
    {
      "epoch": 0.2903777777777778,
      "grad_norm": 1.5159618854522705,
      "learning_rate": 0.0001419559902200489,
      "loss": 1.9883,
      "step": 13067
    },
    {
      "epoch": 0.2904,
      "grad_norm": 1.4390792846679688,
      "learning_rate": 0.0001419515447877306,
      "loss": 1.8768,
      "step": 13068
    },
    {
      "epoch": 0.29042222222222225,
      "grad_norm": 1.4646790027618408,
      "learning_rate": 0.00014194709935541234,
      "loss": 2.2316,
      "step": 13069
    },
    {
      "epoch": 0.29044444444444445,
      "grad_norm": 1.055101752281189,
      "learning_rate": 0.00014194265392309402,
      "loss": 1.1676,
      "step": 13070
    },
    {
      "epoch": 0.29046666666666665,
      "grad_norm": 1.5851558446884155,
      "learning_rate": 0.00014193820849077573,
      "loss": 2.1766,
      "step": 13071
    },
    {
      "epoch": 0.2904888888888889,
      "grad_norm": 1.6527656316757202,
      "learning_rate": 0.00014193376305845744,
      "loss": 1.6879,
      "step": 13072
    },
    {
      "epoch": 0.2905111111111111,
      "grad_norm": 1.6296720504760742,
      "learning_rate": 0.00014192931762613915,
      "loss": 2.0777,
      "step": 13073
    },
    {
      "epoch": 0.2905333333333333,
      "grad_norm": 1.4071191549301147,
      "learning_rate": 0.00014192487219382083,
      "loss": 1.9237,
      "step": 13074
    },
    {
      "epoch": 0.29055555555555557,
      "grad_norm": 1.49997878074646,
      "learning_rate": 0.00014192042676150257,
      "loss": 2.281,
      "step": 13075
    },
    {
      "epoch": 0.29057777777777777,
      "grad_norm": 1.5934149026870728,
      "learning_rate": 0.00014191598132918425,
      "loss": 2.3055,
      "step": 13076
    },
    {
      "epoch": 0.2906,
      "grad_norm": 2.066288471221924,
      "learning_rate": 0.000141911535896866,
      "loss": 1.9239,
      "step": 13077
    },
    {
      "epoch": 0.2906222222222222,
      "grad_norm": 1.4462409019470215,
      "learning_rate": 0.0001419070904645477,
      "loss": 2.1423,
      "step": 13078
    },
    {
      "epoch": 0.2906444444444444,
      "grad_norm": 1.0659300088882446,
      "learning_rate": 0.00014190264503222938,
      "loss": 0.8799,
      "step": 13079
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 1.6981093883514404,
      "learning_rate": 0.00014189819959991112,
      "loss": 2.1218,
      "step": 13080
    },
    {
      "epoch": 0.2906888888888889,
      "grad_norm": 1.8237054347991943,
      "learning_rate": 0.0001418937541675928,
      "loss": 2.1256,
      "step": 13081
    },
    {
      "epoch": 0.2907111111111111,
      "grad_norm": 1.8037679195404053,
      "learning_rate": 0.0001418893087352745,
      "loss": 2.1025,
      "step": 13082
    },
    {
      "epoch": 0.29073333333333334,
      "grad_norm": 1.3273845911026,
      "learning_rate": 0.00014188486330295622,
      "loss": 1.697,
      "step": 13083
    },
    {
      "epoch": 0.29075555555555554,
      "grad_norm": 1.3547555208206177,
      "learning_rate": 0.00014188041787063793,
      "loss": 1.6677,
      "step": 13084
    },
    {
      "epoch": 0.2907777777777778,
      "grad_norm": 1.510124683380127,
      "learning_rate": 0.00014187597243831964,
      "loss": 1.8302,
      "step": 13085
    },
    {
      "epoch": 0.2908,
      "grad_norm": 1.490809440612793,
      "learning_rate": 0.00014187152700600135,
      "loss": 2.0401,
      "step": 13086
    },
    {
      "epoch": 0.2908222222222222,
      "grad_norm": 1.5617090463638306,
      "learning_rate": 0.00014186708157368306,
      "loss": 2.2401,
      "step": 13087
    },
    {
      "epoch": 0.29084444444444446,
      "grad_norm": 1.4201006889343262,
      "learning_rate": 0.00014186263614136474,
      "loss": 0.9374,
      "step": 13088
    },
    {
      "epoch": 0.29086666666666666,
      "grad_norm": 1.4101306200027466,
      "learning_rate": 0.00014185819070904648,
      "loss": 1.0587,
      "step": 13089
    },
    {
      "epoch": 0.29088888888888886,
      "grad_norm": 1.4388760328292847,
      "learning_rate": 0.00014185374527672816,
      "loss": 1.8931,
      "step": 13090
    },
    {
      "epoch": 0.2909111111111111,
      "grad_norm": 1.5690656900405884,
      "learning_rate": 0.00014184929984440987,
      "loss": 1.8635,
      "step": 13091
    },
    {
      "epoch": 0.2909333333333333,
      "grad_norm": 1.4824481010437012,
      "learning_rate": 0.00014184485441209158,
      "loss": 1.7597,
      "step": 13092
    },
    {
      "epoch": 0.2909555555555556,
      "grad_norm": 1.6654495000839233,
      "learning_rate": 0.0001418404089797733,
      "loss": 2.0404,
      "step": 13093
    },
    {
      "epoch": 0.2909777777777778,
      "grad_norm": 1.6461845636367798,
      "learning_rate": 0.000141835963547455,
      "loss": 1.5324,
      "step": 13094
    },
    {
      "epoch": 0.291,
      "grad_norm": 3.5072944164276123,
      "learning_rate": 0.0001418315181151367,
      "loss": 1.5819,
      "step": 13095
    },
    {
      "epoch": 0.29102222222222224,
      "grad_norm": 1.6857942342758179,
      "learning_rate": 0.00014182707268281842,
      "loss": 1.6684,
      "step": 13096
    },
    {
      "epoch": 0.29104444444444444,
      "grad_norm": 2.0637357234954834,
      "learning_rate": 0.00014182262725050013,
      "loss": 2.2883,
      "step": 13097
    },
    {
      "epoch": 0.29106666666666664,
      "grad_norm": 1.519763469696045,
      "learning_rate": 0.00014181818181818184,
      "loss": 1.9597,
      "step": 13098
    },
    {
      "epoch": 0.2910888888888889,
      "grad_norm": 1.6086727380752563,
      "learning_rate": 0.00014181373638586352,
      "loss": 1.8042,
      "step": 13099
    },
    {
      "epoch": 0.2911111111111111,
      "grad_norm": 1.1133394241333008,
      "learning_rate": 0.00014180929095354526,
      "loss": 0.0667,
      "step": 13100
    },
    {
      "epoch": 0.29113333333333336,
      "grad_norm": 1.199460506439209,
      "learning_rate": 0.00014180484552122694,
      "loss": 2.0629,
      "step": 13101
    },
    {
      "epoch": 0.29115555555555556,
      "grad_norm": 2.1053905487060547,
      "learning_rate": 0.00014180040008890865,
      "loss": 2.2266,
      "step": 13102
    },
    {
      "epoch": 0.29117777777777776,
      "grad_norm": 1.3187702894210815,
      "learning_rate": 0.00014179595465659036,
      "loss": 1.4768,
      "step": 13103
    },
    {
      "epoch": 0.2912,
      "grad_norm": 1.514617919921875,
      "learning_rate": 0.00014179150922427207,
      "loss": 2.3849,
      "step": 13104
    },
    {
      "epoch": 0.2912222222222222,
      "grad_norm": 1.610911250114441,
      "learning_rate": 0.00014178706379195378,
      "loss": 2.2815,
      "step": 13105
    },
    {
      "epoch": 0.2912444444444444,
      "grad_norm": 1.5195506811141968,
      "learning_rate": 0.0001417826183596355,
      "loss": 2.0887,
      "step": 13106
    },
    {
      "epoch": 0.2912666666666667,
      "grad_norm": 1.1709494590759277,
      "learning_rate": 0.0001417781729273172,
      "loss": 1.876,
      "step": 13107
    },
    {
      "epoch": 0.2912888888888889,
      "grad_norm": 1.4380685091018677,
      "learning_rate": 0.00014177372749499888,
      "loss": 2.5393,
      "step": 13108
    },
    {
      "epoch": 0.29131111111111113,
      "grad_norm": 1.3436765670776367,
      "learning_rate": 0.00014176928206268062,
      "loss": 1.8584,
      "step": 13109
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 1.9645185470581055,
      "learning_rate": 0.0001417648366303623,
      "loss": 2.277,
      "step": 13110
    },
    {
      "epoch": 0.29135555555555553,
      "grad_norm": 1.2573933601379395,
      "learning_rate": 0.000141760391198044,
      "loss": 1.7797,
      "step": 13111
    },
    {
      "epoch": 0.2913777777777778,
      "grad_norm": 1.5149868726730347,
      "learning_rate": 0.00014175594576572572,
      "loss": 1.8172,
      "step": 13112
    },
    {
      "epoch": 0.2914,
      "grad_norm": 1.540152907371521,
      "learning_rate": 0.00014175150033340743,
      "loss": 2.4731,
      "step": 13113
    },
    {
      "epoch": 0.29142222222222225,
      "grad_norm": 1.5683523416519165,
      "learning_rate": 0.00014174705490108914,
      "loss": 2.2456,
      "step": 13114
    },
    {
      "epoch": 0.29144444444444445,
      "grad_norm": 1.4450043439865112,
      "learning_rate": 0.00014174260946877085,
      "loss": 1.9172,
      "step": 13115
    },
    {
      "epoch": 0.29146666666666665,
      "grad_norm": 1.524307131767273,
      "learning_rate": 0.00014173816403645256,
      "loss": 2.1714,
      "step": 13116
    },
    {
      "epoch": 0.2914888888888889,
      "grad_norm": 1.5079665184020996,
      "learning_rate": 0.00014173371860413427,
      "loss": 2.0849,
      "step": 13117
    },
    {
      "epoch": 0.2915111111111111,
      "grad_norm": 1.3434767723083496,
      "learning_rate": 0.00014172927317181598,
      "loss": 1.9383,
      "step": 13118
    },
    {
      "epoch": 0.2915333333333333,
      "grad_norm": 1.6181548833847046,
      "learning_rate": 0.00014172482773949766,
      "loss": 2.0798,
      "step": 13119
    },
    {
      "epoch": 0.29155555555555557,
      "grad_norm": 1.1882295608520508,
      "learning_rate": 0.0001417203823071794,
      "loss": 1.2577,
      "step": 13120
    },
    {
      "epoch": 0.29157777777777777,
      "grad_norm": 1.3436107635498047,
      "learning_rate": 0.00014171593687486108,
      "loss": 2.0575,
      "step": 13121
    },
    {
      "epoch": 0.2916,
      "grad_norm": 1.3213145732879639,
      "learning_rate": 0.0001417114914425428,
      "loss": 1.2514,
      "step": 13122
    },
    {
      "epoch": 0.2916222222222222,
      "grad_norm": 1.373707890510559,
      "learning_rate": 0.0001417070460102245,
      "loss": 1.8968,
      "step": 13123
    },
    {
      "epoch": 0.29164444444444443,
      "grad_norm": 1.425026774406433,
      "learning_rate": 0.0001417026005779062,
      "loss": 1.7967,
      "step": 13124
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 1.5273865461349487,
      "learning_rate": 0.00014169815514558792,
      "loss": 2.6412,
      "step": 13125
    },
    {
      "epoch": 0.2916888888888889,
      "grad_norm": 1.2438113689422607,
      "learning_rate": 0.00014169370971326963,
      "loss": 1.422,
      "step": 13126
    },
    {
      "epoch": 0.2917111111111111,
      "grad_norm": 1.491572380065918,
      "learning_rate": 0.00014168926428095134,
      "loss": 2.0214,
      "step": 13127
    },
    {
      "epoch": 0.29173333333333334,
      "grad_norm": 1.2632969617843628,
      "learning_rate": 0.00014168481884863302,
      "loss": 1.3245,
      "step": 13128
    },
    {
      "epoch": 0.29175555555555555,
      "grad_norm": 1.567670226097107,
      "learning_rate": 0.00014168037341631475,
      "loss": 1.7916,
      "step": 13129
    },
    {
      "epoch": 0.2917777777777778,
      "grad_norm": 1.5636049509048462,
      "learning_rate": 0.00014167592798399644,
      "loss": 1.8412,
      "step": 13130
    },
    {
      "epoch": 0.2918,
      "grad_norm": 1.369201421737671,
      "learning_rate": 0.00014167148255167815,
      "loss": 1.7861,
      "step": 13131
    },
    {
      "epoch": 0.2918222222222222,
      "grad_norm": 1.5272889137268066,
      "learning_rate": 0.00014166703711935986,
      "loss": 2.1422,
      "step": 13132
    },
    {
      "epoch": 0.29184444444444446,
      "grad_norm": 1.4817280769348145,
      "learning_rate": 0.00014166259168704157,
      "loss": 2.0157,
      "step": 13133
    },
    {
      "epoch": 0.29186666666666666,
      "grad_norm": 1.6181070804595947,
      "learning_rate": 0.0001416581462547233,
      "loss": 2.2535,
      "step": 13134
    },
    {
      "epoch": 0.29188888888888886,
      "grad_norm": 1.7143597602844238,
      "learning_rate": 0.00014165370082240499,
      "loss": 2.1556,
      "step": 13135
    },
    {
      "epoch": 0.2919111111111111,
      "grad_norm": 1.6711963415145874,
      "learning_rate": 0.0001416492553900867,
      "loss": 2.1337,
      "step": 13136
    },
    {
      "epoch": 0.2919333333333333,
      "grad_norm": 1.6012309789657593,
      "learning_rate": 0.0001416448099577684,
      "loss": 2.1057,
      "step": 13137
    },
    {
      "epoch": 0.2919555555555556,
      "grad_norm": 1.503000259399414,
      "learning_rate": 0.00014164036452545011,
      "loss": 1.1348,
      "step": 13138
    },
    {
      "epoch": 0.2919777777777778,
      "grad_norm": 1.6251115798950195,
      "learning_rate": 0.0001416359190931318,
      "loss": 2.1344,
      "step": 13139
    },
    {
      "epoch": 0.292,
      "grad_norm": 1.6614235639572144,
      "learning_rate": 0.00014163147366081353,
      "loss": 1.9818,
      "step": 13140
    },
    {
      "epoch": 0.29202222222222224,
      "grad_norm": 1.9551079273223877,
      "learning_rate": 0.00014162702822849522,
      "loss": 1.9333,
      "step": 13141
    },
    {
      "epoch": 0.29204444444444444,
      "grad_norm": 2.0889596939086914,
      "learning_rate": 0.00014162258279617693,
      "loss": 2.3878,
      "step": 13142
    },
    {
      "epoch": 0.29206666666666664,
      "grad_norm": 1.5378153324127197,
      "learning_rate": 0.00014161813736385866,
      "loss": 1.8903,
      "step": 13143
    },
    {
      "epoch": 0.2920888888888889,
      "grad_norm": 1.436907410621643,
      "learning_rate": 0.00014161369193154034,
      "loss": 1.9143,
      "step": 13144
    },
    {
      "epoch": 0.2921111111111111,
      "grad_norm": 2.242161989212036,
      "learning_rate": 0.00014160924649922205,
      "loss": 2.1462,
      "step": 13145
    },
    {
      "epoch": 0.29213333333333336,
      "grad_norm": 1.6824002265930176,
      "learning_rate": 0.00014160480106690376,
      "loss": 1.7187,
      "step": 13146
    },
    {
      "epoch": 0.29215555555555556,
      "grad_norm": 1.7119858264923096,
      "learning_rate": 0.00014160035563458547,
      "loss": 1.7843,
      "step": 13147
    },
    {
      "epoch": 0.29217777777777776,
      "grad_norm": 2.166288375854492,
      "learning_rate": 0.00014159591020226716,
      "loss": 1.4276,
      "step": 13148
    },
    {
      "epoch": 0.2922,
      "grad_norm": 1.5223636627197266,
      "learning_rate": 0.0001415914647699489,
      "loss": 1.9672,
      "step": 13149
    },
    {
      "epoch": 0.2922222222222222,
      "grad_norm": 1.539411187171936,
      "learning_rate": 0.00014158701933763058,
      "loss": 1.6726,
      "step": 13150
    },
    {
      "epoch": 0.2922444444444444,
      "grad_norm": 1.4952952861785889,
      "learning_rate": 0.00014158257390531228,
      "loss": 2.4752,
      "step": 13151
    },
    {
      "epoch": 0.2922666666666667,
      "grad_norm": 1.382944941520691,
      "learning_rate": 0.00014157812847299402,
      "loss": 2.3836,
      "step": 13152
    },
    {
      "epoch": 0.2922888888888889,
      "grad_norm": 1.5497331619262695,
      "learning_rate": 0.0001415736830406757,
      "loss": 2.717,
      "step": 13153
    },
    {
      "epoch": 0.29231111111111113,
      "grad_norm": 1.592941164970398,
      "learning_rate": 0.00014156923760835744,
      "loss": 1.6544,
      "step": 13154
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 1.4737049341201782,
      "learning_rate": 0.00014156479217603912,
      "loss": 2.3069,
      "step": 13155
    },
    {
      "epoch": 0.29235555555555554,
      "grad_norm": 1.4013605117797852,
      "learning_rate": 0.00014156034674372083,
      "loss": 1.8193,
      "step": 13156
    },
    {
      "epoch": 0.2923777777777778,
      "grad_norm": 1.4472260475158691,
      "learning_rate": 0.00014155590131140254,
      "loss": 2.2165,
      "step": 13157
    },
    {
      "epoch": 0.2924,
      "grad_norm": 1.0031241178512573,
      "learning_rate": 0.00014155145587908425,
      "loss": 1.1643,
      "step": 13158
    },
    {
      "epoch": 0.2924222222222222,
      "grad_norm": 1.6710174083709717,
      "learning_rate": 0.00014154701044676596,
      "loss": 2.2805,
      "step": 13159
    },
    {
      "epoch": 0.29244444444444445,
      "grad_norm": 1.6306672096252441,
      "learning_rate": 0.00014154256501444767,
      "loss": 1.8622,
      "step": 13160
    },
    {
      "epoch": 0.29246666666666665,
      "grad_norm": 1.5872442722320557,
      "learning_rate": 0.00014153811958212938,
      "loss": 2.3781,
      "step": 13161
    },
    {
      "epoch": 0.2924888888888889,
      "grad_norm": 1.2241698503494263,
      "learning_rate": 0.00014153367414981106,
      "loss": 0.9932,
      "step": 13162
    },
    {
      "epoch": 0.2925111111111111,
      "grad_norm": 1.5945746898651123,
      "learning_rate": 0.0001415292287174928,
      "loss": 2.0224,
      "step": 13163
    },
    {
      "epoch": 0.2925333333333333,
      "grad_norm": 2.1952614784240723,
      "learning_rate": 0.00014152478328517448,
      "loss": 2.5191,
      "step": 13164
    },
    {
      "epoch": 0.29255555555555557,
      "grad_norm": 1.4373540878295898,
      "learning_rate": 0.0001415203378528562,
      "loss": 1.7631,
      "step": 13165
    },
    {
      "epoch": 0.29257777777777777,
      "grad_norm": 1.8911443948745728,
      "learning_rate": 0.0001415158924205379,
      "loss": 2.0357,
      "step": 13166
    },
    {
      "epoch": 0.2926,
      "grad_norm": 1.4334450960159302,
      "learning_rate": 0.0001415114469882196,
      "loss": 2.1631,
      "step": 13167
    },
    {
      "epoch": 0.29262222222222223,
      "grad_norm": 1.6138488054275513,
      "learning_rate": 0.00014150700155590132,
      "loss": 2.2354,
      "step": 13168
    },
    {
      "epoch": 0.29264444444444443,
      "grad_norm": 1.6825344562530518,
      "learning_rate": 0.00014150255612358303,
      "loss": 2.2376,
      "step": 13169
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 1.6027835607528687,
      "learning_rate": 0.00014149811069126474,
      "loss": 2.2584,
      "step": 13170
    },
    {
      "epoch": 0.2926888888888889,
      "grad_norm": 1.7036168575286865,
      "learning_rate": 0.00014149366525894642,
      "loss": 2.2291,
      "step": 13171
    },
    {
      "epoch": 0.2927111111111111,
      "grad_norm": 1.5215457677841187,
      "learning_rate": 0.00014148921982662816,
      "loss": 1.8632,
      "step": 13172
    },
    {
      "epoch": 0.29273333333333335,
      "grad_norm": 1.6221647262573242,
      "learning_rate": 0.00014148477439430984,
      "loss": 2.2924,
      "step": 13173
    },
    {
      "epoch": 0.29275555555555555,
      "grad_norm": 1.589205026626587,
      "learning_rate": 0.00014148032896199158,
      "loss": 2.4272,
      "step": 13174
    },
    {
      "epoch": 0.2927777777777778,
      "grad_norm": 1.6023240089416504,
      "learning_rate": 0.00014147588352967326,
      "loss": 1.9633,
      "step": 13175
    },
    {
      "epoch": 0.2928,
      "grad_norm": 1.5202454328536987,
      "learning_rate": 0.00014147143809735497,
      "loss": 2.1538,
      "step": 13176
    },
    {
      "epoch": 0.2928222222222222,
      "grad_norm": 2.0744946002960205,
      "learning_rate": 0.00014146699266503668,
      "loss": 2.0391,
      "step": 13177
    },
    {
      "epoch": 0.29284444444444446,
      "grad_norm": 1.8192890882492065,
      "learning_rate": 0.0001414625472327184,
      "loss": 2.2606,
      "step": 13178
    },
    {
      "epoch": 0.29286666666666666,
      "grad_norm": 1.4684197902679443,
      "learning_rate": 0.0001414581018004001,
      "loss": 1.5831,
      "step": 13179
    },
    {
      "epoch": 0.29288888888888887,
      "grad_norm": 1.3679790496826172,
      "learning_rate": 0.0001414536563680818,
      "loss": 1.7197,
      "step": 13180
    },
    {
      "epoch": 0.2929111111111111,
      "grad_norm": 1.4954562187194824,
      "learning_rate": 0.00014144921093576352,
      "loss": 1.8747,
      "step": 13181
    },
    {
      "epoch": 0.2929333333333333,
      "grad_norm": 1.4379396438598633,
      "learning_rate": 0.0001414447655034452,
      "loss": 1.691,
      "step": 13182
    },
    {
      "epoch": 0.2929555555555556,
      "grad_norm": 1.5481239557266235,
      "learning_rate": 0.00014144032007112694,
      "loss": 1.863,
      "step": 13183
    },
    {
      "epoch": 0.2929777777777778,
      "grad_norm": 1.4508130550384521,
      "learning_rate": 0.00014143587463880862,
      "loss": 1.9428,
      "step": 13184
    },
    {
      "epoch": 0.293,
      "grad_norm": 1.6519526243209839,
      "learning_rate": 0.00014143142920649033,
      "loss": 2.1733,
      "step": 13185
    },
    {
      "epoch": 0.29302222222222224,
      "grad_norm": 1.2219170331954956,
      "learning_rate": 0.00014142698377417204,
      "loss": 1.4094,
      "step": 13186
    },
    {
      "epoch": 0.29304444444444444,
      "grad_norm": 1.5703802108764648,
      "learning_rate": 0.00014142253834185375,
      "loss": 1.8575,
      "step": 13187
    },
    {
      "epoch": 0.29306666666666664,
      "grad_norm": 1.6245076656341553,
      "learning_rate": 0.00014141809290953546,
      "loss": 2.3092,
      "step": 13188
    },
    {
      "epoch": 0.2930888888888889,
      "grad_norm": 1.8354915380477905,
      "learning_rate": 0.00014141364747721717,
      "loss": 2.042,
      "step": 13189
    },
    {
      "epoch": 0.2931111111111111,
      "grad_norm": 1.7853591442108154,
      "learning_rate": 0.00014140920204489888,
      "loss": 1.7422,
      "step": 13190
    },
    {
      "epoch": 0.29313333333333336,
      "grad_norm": 1.9574841260910034,
      "learning_rate": 0.0001414047566125806,
      "loss": 2.2908,
      "step": 13191
    },
    {
      "epoch": 0.29315555555555556,
      "grad_norm": 1.7158547639846802,
      "learning_rate": 0.0001414003111802623,
      "loss": 1.9418,
      "step": 13192
    },
    {
      "epoch": 0.29317777777777776,
      "grad_norm": 1.5941025018692017,
      "learning_rate": 0.00014139586574794398,
      "loss": 1.8325,
      "step": 13193
    },
    {
      "epoch": 0.2932,
      "grad_norm": 1.7816916704177856,
      "learning_rate": 0.00014139142031562572,
      "loss": 2.0007,
      "step": 13194
    },
    {
      "epoch": 0.2932222222222222,
      "grad_norm": 1.5565680265426636,
      "learning_rate": 0.0001413869748833074,
      "loss": 1.8763,
      "step": 13195
    },
    {
      "epoch": 0.2932444444444444,
      "grad_norm": 1.572635293006897,
      "learning_rate": 0.0001413825294509891,
      "loss": 2.0038,
      "step": 13196
    },
    {
      "epoch": 0.2932666666666667,
      "grad_norm": 1.8994390964508057,
      "learning_rate": 0.00014137808401867082,
      "loss": 1.9989,
      "step": 13197
    },
    {
      "epoch": 0.2932888888888889,
      "grad_norm": 1.830150842666626,
      "learning_rate": 0.00014137363858635253,
      "loss": 1.9482,
      "step": 13198
    },
    {
      "epoch": 0.29331111111111113,
      "grad_norm": 1.8105319738388062,
      "learning_rate": 0.00014136919315403424,
      "loss": 1.64,
      "step": 13199
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 1.752808690071106,
      "learning_rate": 0.00014136474772171595,
      "loss": 2.0668,
      "step": 13200
    },
    {
      "epoch": 0.29335555555555554,
      "grad_norm": 0.9969906806945801,
      "learning_rate": 0.00014136030228939766,
      "loss": 1.2794,
      "step": 13201
    },
    {
      "epoch": 0.2933777777777778,
      "grad_norm": 1.2975499629974365,
      "learning_rate": 0.00014135585685707934,
      "loss": 2.5922,
      "step": 13202
    },
    {
      "epoch": 0.2934,
      "grad_norm": 5.848032474517822,
      "learning_rate": 0.00014135141142476108,
      "loss": 1.6971,
      "step": 13203
    },
    {
      "epoch": 0.2934222222222222,
      "grad_norm": 1.5692591667175293,
      "learning_rate": 0.00014134696599244276,
      "loss": 0.6921,
      "step": 13204
    },
    {
      "epoch": 0.29344444444444445,
      "grad_norm": 1.3309354782104492,
      "learning_rate": 0.00014134252056012447,
      "loss": 1.8362,
      "step": 13205
    },
    {
      "epoch": 0.29346666666666665,
      "grad_norm": 1.6235134601593018,
      "learning_rate": 0.00014133807512780618,
      "loss": 1.7817,
      "step": 13206
    },
    {
      "epoch": 0.2934888888888889,
      "grad_norm": 1.353142261505127,
      "learning_rate": 0.0001413336296954879,
      "loss": 1.7355,
      "step": 13207
    },
    {
      "epoch": 0.2935111111111111,
      "grad_norm": 1.7711493968963623,
      "learning_rate": 0.0001413291842631696,
      "loss": 2.3805,
      "step": 13208
    },
    {
      "epoch": 0.2935333333333333,
      "grad_norm": 1.7943055629730225,
      "learning_rate": 0.0001413247388308513,
      "loss": 2.286,
      "step": 13209
    },
    {
      "epoch": 0.29355555555555557,
      "grad_norm": 1.3011330366134644,
      "learning_rate": 0.00014132029339853302,
      "loss": 1.9047,
      "step": 13210
    },
    {
      "epoch": 0.29357777777777777,
      "grad_norm": 1.4340057373046875,
      "learning_rate": 0.00014131584796621473,
      "loss": 1.7461,
      "step": 13211
    },
    {
      "epoch": 0.2936,
      "grad_norm": 1.495907187461853,
      "learning_rate": 0.00014131140253389644,
      "loss": 2.2061,
      "step": 13212
    },
    {
      "epoch": 0.29362222222222223,
      "grad_norm": 1.4084159135818481,
      "learning_rate": 0.00014130695710157812,
      "loss": 1.9144,
      "step": 13213
    },
    {
      "epoch": 0.29364444444444443,
      "grad_norm": 1.4947634935379028,
      "learning_rate": 0.00014130251166925986,
      "loss": 1.7549,
      "step": 13214
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 1.5597913265228271,
      "learning_rate": 0.00014129806623694154,
      "loss": 2.3307,
      "step": 13215
    },
    {
      "epoch": 0.2936888888888889,
      "grad_norm": 2.5621860027313232,
      "learning_rate": 0.00014129362080462325,
      "loss": 1.9899,
      "step": 13216
    },
    {
      "epoch": 0.2937111111111111,
      "grad_norm": 1.568694829940796,
      "learning_rate": 0.00014128917537230498,
      "loss": 2.0825,
      "step": 13217
    },
    {
      "epoch": 0.29373333333333335,
      "grad_norm": 1.6368788480758667,
      "learning_rate": 0.00014128472993998667,
      "loss": 2.587,
      "step": 13218
    },
    {
      "epoch": 0.29375555555555555,
      "grad_norm": 1.6196136474609375,
      "learning_rate": 0.00014128028450766838,
      "loss": 2.1644,
      "step": 13219
    },
    {
      "epoch": 0.2937777777777778,
      "grad_norm": 1.4423549175262451,
      "learning_rate": 0.00014127583907535009,
      "loss": 2.2348,
      "step": 13220
    },
    {
      "epoch": 0.2938,
      "grad_norm": 1.6046435832977295,
      "learning_rate": 0.0001412713936430318,
      "loss": 2.5275,
      "step": 13221
    },
    {
      "epoch": 0.2938222222222222,
      "grad_norm": 1.4643101692199707,
      "learning_rate": 0.00014126694821071348,
      "loss": 2.1369,
      "step": 13222
    },
    {
      "epoch": 0.29384444444444446,
      "grad_norm": 1.5892860889434814,
      "learning_rate": 0.00014126250277839521,
      "loss": 2.0749,
      "step": 13223
    },
    {
      "epoch": 0.29386666666666666,
      "grad_norm": 1.5639930963516235,
      "learning_rate": 0.0001412580573460769,
      "loss": 2.2747,
      "step": 13224
    },
    {
      "epoch": 0.29388888888888887,
      "grad_norm": 1.3869794607162476,
      "learning_rate": 0.0001412536119137586,
      "loss": 1.9656,
      "step": 13225
    },
    {
      "epoch": 0.2939111111111111,
      "grad_norm": 1.3595072031021118,
      "learning_rate": 0.00014124916648144034,
      "loss": 2.5538,
      "step": 13226
    },
    {
      "epoch": 0.2939333333333333,
      "grad_norm": 1.6540894508361816,
      "learning_rate": 0.00014124472104912203,
      "loss": 1.9773,
      "step": 13227
    },
    {
      "epoch": 0.2939555555555556,
      "grad_norm": 1.5036112070083618,
      "learning_rate": 0.00014124027561680374,
      "loss": 1.9275,
      "step": 13228
    },
    {
      "epoch": 0.2939777777777778,
      "grad_norm": 1.2950639724731445,
      "learning_rate": 0.00014123583018448545,
      "loss": 1.9854,
      "step": 13229
    },
    {
      "epoch": 0.294,
      "grad_norm": 1.745779037475586,
      "learning_rate": 0.00014123138475216716,
      "loss": 1.5905,
      "step": 13230
    },
    {
      "epoch": 0.29402222222222224,
      "grad_norm": 1.3280426263809204,
      "learning_rate": 0.00014122693931984886,
      "loss": 1.9345,
      "step": 13231
    },
    {
      "epoch": 0.29404444444444444,
      "grad_norm": 1.4178216457366943,
      "learning_rate": 0.00014122249388753057,
      "loss": 2.107,
      "step": 13232
    },
    {
      "epoch": 0.29406666666666664,
      "grad_norm": 1.5237098932266235,
      "learning_rate": 0.00014121804845521228,
      "loss": 2.016,
      "step": 13233
    },
    {
      "epoch": 0.2940888888888889,
      "grad_norm": 1.4557737112045288,
      "learning_rate": 0.000141213603022894,
      "loss": 1.9653,
      "step": 13234
    },
    {
      "epoch": 0.2941111111111111,
      "grad_norm": 1.3610384464263916,
      "learning_rate": 0.0001412091575905757,
      "loss": 1.5782,
      "step": 13235
    },
    {
      "epoch": 0.29413333333333336,
      "grad_norm": 2.03808331489563,
      "learning_rate": 0.00014120471215825739,
      "loss": 1.982,
      "step": 13236
    },
    {
      "epoch": 0.29415555555555556,
      "grad_norm": 1.3363631963729858,
      "learning_rate": 0.00014120026672593912,
      "loss": 1.6227,
      "step": 13237
    },
    {
      "epoch": 0.29417777777777776,
      "grad_norm": 1.830346941947937,
      "learning_rate": 0.0001411958212936208,
      "loss": 2.0177,
      "step": 13238
    },
    {
      "epoch": 0.2942,
      "grad_norm": 1.6867927312850952,
      "learning_rate": 0.00014119137586130251,
      "loss": 1.9896,
      "step": 13239
    },
    {
      "epoch": 0.2942222222222222,
      "grad_norm": 1.7636079788208008,
      "learning_rate": 0.00014118693042898422,
      "loss": 1.9633,
      "step": 13240
    },
    {
      "epoch": 0.2942444444444444,
      "grad_norm": 1.7125483751296997,
      "learning_rate": 0.00014118248499666593,
      "loss": 2.208,
      "step": 13241
    },
    {
      "epoch": 0.2942666666666667,
      "grad_norm": 1.725307583808899,
      "learning_rate": 0.00014117803956434764,
      "loss": 1.7661,
      "step": 13242
    },
    {
      "epoch": 0.2942888888888889,
      "grad_norm": 1.3483073711395264,
      "learning_rate": 0.00014117359413202935,
      "loss": 1.4322,
      "step": 13243
    },
    {
      "epoch": 0.29431111111111113,
      "grad_norm": 1.9815263748168945,
      "learning_rate": 0.00014116914869971106,
      "loss": 2.2,
      "step": 13244
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 1.4876675605773926,
      "learning_rate": 0.00014116470326739275,
      "loss": 1.586,
      "step": 13245
    },
    {
      "epoch": 0.29435555555555554,
      "grad_norm": 1.9906320571899414,
      "learning_rate": 0.00014116025783507448,
      "loss": 2.2316,
      "step": 13246
    },
    {
      "epoch": 0.2943777777777778,
      "grad_norm": 2.0084965229034424,
      "learning_rate": 0.00014115581240275616,
      "loss": 1.1172,
      "step": 13247
    },
    {
      "epoch": 0.2944,
      "grad_norm": 1.5622059106826782,
      "learning_rate": 0.0001411513669704379,
      "loss": 1.7029,
      "step": 13248
    },
    {
      "epoch": 0.2944222222222222,
      "grad_norm": 1.4951118230819702,
      "learning_rate": 0.00014114692153811958,
      "loss": 0.7761,
      "step": 13249
    },
    {
      "epoch": 0.29444444444444445,
      "grad_norm": 1.938132882118225,
      "learning_rate": 0.0001411424761058013,
      "loss": 1.5987,
      "step": 13250
    },
    {
      "epoch": 0.29446666666666665,
      "grad_norm": 1.2750184535980225,
      "learning_rate": 0.000141138030673483,
      "loss": 2.5127,
      "step": 13251
    },
    {
      "epoch": 0.2944888888888889,
      "grad_norm": 0.9634352326393127,
      "learning_rate": 0.0001411335852411647,
      "loss": 1.2299,
      "step": 13252
    },
    {
      "epoch": 0.2945111111111111,
      "grad_norm": 1.412908673286438,
      "learning_rate": 0.00014112913980884642,
      "loss": 2.0578,
      "step": 13253
    },
    {
      "epoch": 0.2945333333333333,
      "grad_norm": 2.56199049949646,
      "learning_rate": 0.00014112469437652813,
      "loss": 1.1148,
      "step": 13254
    },
    {
      "epoch": 0.29455555555555557,
      "grad_norm": 1.3993895053863525,
      "learning_rate": 0.00014112024894420984,
      "loss": 2.2254,
      "step": 13255
    },
    {
      "epoch": 0.29457777777777777,
      "grad_norm": 1.6162160634994507,
      "learning_rate": 0.00014111580351189152,
      "loss": 2.0488,
      "step": 13256
    },
    {
      "epoch": 0.2946,
      "grad_norm": 1.2311508655548096,
      "learning_rate": 0.00014111135807957326,
      "loss": 2.1822,
      "step": 13257
    },
    {
      "epoch": 0.29462222222222223,
      "grad_norm": 1.2834523916244507,
      "learning_rate": 0.00014110691264725494,
      "loss": 2.2302,
      "step": 13258
    },
    {
      "epoch": 0.29464444444444443,
      "grad_norm": 1.3213603496551514,
      "learning_rate": 0.00014110246721493665,
      "loss": 1.9983,
      "step": 13259
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 1.3894073963165283,
      "learning_rate": 0.00014109802178261836,
      "loss": 2.1915,
      "step": 13260
    },
    {
      "epoch": 0.2946888888888889,
      "grad_norm": 1.4375907182693481,
      "learning_rate": 0.00014109357635030007,
      "loss": 2.3904,
      "step": 13261
    },
    {
      "epoch": 0.2947111111111111,
      "grad_norm": 1.2210689783096313,
      "learning_rate": 0.00014108913091798178,
      "loss": 1.8771,
      "step": 13262
    },
    {
      "epoch": 0.29473333333333335,
      "grad_norm": 1.3879687786102295,
      "learning_rate": 0.0001410846854856635,
      "loss": 2.1532,
      "step": 13263
    },
    {
      "epoch": 0.29475555555555555,
      "grad_norm": 1.4479259252548218,
      "learning_rate": 0.0001410802400533452,
      "loss": 2.1025,
      "step": 13264
    },
    {
      "epoch": 0.2947777777777778,
      "grad_norm": 1.5690271854400635,
      "learning_rate": 0.00014107579462102688,
      "loss": 2.1487,
      "step": 13265
    },
    {
      "epoch": 0.2948,
      "grad_norm": 1.7533327341079712,
      "learning_rate": 0.00014107134918870862,
      "loss": 2.1612,
      "step": 13266
    },
    {
      "epoch": 0.2948222222222222,
      "grad_norm": 1.652646541595459,
      "learning_rate": 0.0001410669037563903,
      "loss": 2.1781,
      "step": 13267
    },
    {
      "epoch": 0.29484444444444446,
      "grad_norm": 1.454833984375,
      "learning_rate": 0.00014106245832407204,
      "loss": 1.9498,
      "step": 13268
    },
    {
      "epoch": 0.29486666666666667,
      "grad_norm": 1.4410475492477417,
      "learning_rate": 0.00014105801289175372,
      "loss": 2.1773,
      "step": 13269
    },
    {
      "epoch": 0.29488888888888887,
      "grad_norm": 1.4812557697296143,
      "learning_rate": 0.00014105356745943543,
      "loss": 1.9432,
      "step": 13270
    },
    {
      "epoch": 0.2949111111111111,
      "grad_norm": 1.869864821434021,
      "learning_rate": 0.00014104912202711714,
      "loss": 2.0568,
      "step": 13271
    },
    {
      "epoch": 0.2949333333333333,
      "grad_norm": 1.779832363128662,
      "learning_rate": 0.00014104467659479885,
      "loss": 1.958,
      "step": 13272
    },
    {
      "epoch": 0.2949555555555556,
      "grad_norm": 1.3651931285858154,
      "learning_rate": 0.00014104023116248056,
      "loss": 1.8955,
      "step": 13273
    },
    {
      "epoch": 0.2949777777777778,
      "grad_norm": 1.7179256677627563,
      "learning_rate": 0.00014103578573016227,
      "loss": 1.6285,
      "step": 13274
    },
    {
      "epoch": 0.295,
      "grad_norm": 1.6476292610168457,
      "learning_rate": 0.00014103134029784398,
      "loss": 2.3104,
      "step": 13275
    },
    {
      "epoch": 0.29502222222222224,
      "grad_norm": 1.5450993776321411,
      "learning_rate": 0.00014102689486552566,
      "loss": 2.1151,
      "step": 13276
    },
    {
      "epoch": 0.29504444444444444,
      "grad_norm": 1.7200809717178345,
      "learning_rate": 0.0001410224494332074,
      "loss": 2.1123,
      "step": 13277
    },
    {
      "epoch": 0.29506666666666664,
      "grad_norm": 1.7017391920089722,
      "learning_rate": 0.00014101800400088908,
      "loss": 2.0512,
      "step": 13278
    },
    {
      "epoch": 0.2950888888888889,
      "grad_norm": 1.677788257598877,
      "learning_rate": 0.0001410135585685708,
      "loss": 2.2605,
      "step": 13279
    },
    {
      "epoch": 0.2951111111111111,
      "grad_norm": 1.6738982200622559,
      "learning_rate": 0.0001410091131362525,
      "loss": 2.0493,
      "step": 13280
    },
    {
      "epoch": 0.29513333333333336,
      "grad_norm": 1.309291958808899,
      "learning_rate": 0.0001410046677039342,
      "loss": 1.6106,
      "step": 13281
    },
    {
      "epoch": 0.29515555555555556,
      "grad_norm": 1.4761981964111328,
      "learning_rate": 0.00014100022227161592,
      "loss": 2.0026,
      "step": 13282
    },
    {
      "epoch": 0.29517777777777776,
      "grad_norm": 1.6861937046051025,
      "learning_rate": 0.00014099577683929763,
      "loss": 2.2641,
      "step": 13283
    },
    {
      "epoch": 0.2952,
      "grad_norm": 1.4370535612106323,
      "learning_rate": 0.00014099133140697934,
      "loss": 1.8595,
      "step": 13284
    },
    {
      "epoch": 0.2952222222222222,
      "grad_norm": 1.5888713598251343,
      "learning_rate": 0.00014098688597466102,
      "loss": 1.6494,
      "step": 13285
    },
    {
      "epoch": 0.2952444444444444,
      "grad_norm": 1.9118504524230957,
      "learning_rate": 0.00014098244054234276,
      "loss": 2.2724,
      "step": 13286
    },
    {
      "epoch": 0.2952666666666667,
      "grad_norm": 1.4836044311523438,
      "learning_rate": 0.00014097799511002444,
      "loss": 1.4773,
      "step": 13287
    },
    {
      "epoch": 0.2952888888888889,
      "grad_norm": 1.5185281038284302,
      "learning_rate": 0.00014097354967770618,
      "loss": 1.5933,
      "step": 13288
    },
    {
      "epoch": 0.29531111111111114,
      "grad_norm": 1.5198742151260376,
      "learning_rate": 0.00014096910424538786,
      "loss": 1.6058,
      "step": 13289
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 1.790104627609253,
      "learning_rate": 0.00014096465881306957,
      "loss": 1.9399,
      "step": 13290
    },
    {
      "epoch": 0.29535555555555554,
      "grad_norm": 1.5388444662094116,
      "learning_rate": 0.0001409602133807513,
      "loss": 1.7504,
      "step": 13291
    },
    {
      "epoch": 0.2953777777777778,
      "grad_norm": 1.5719718933105469,
      "learning_rate": 0.000140955767948433,
      "loss": 2.0012,
      "step": 13292
    },
    {
      "epoch": 0.2954,
      "grad_norm": 1.710798740386963,
      "learning_rate": 0.0001409513225161147,
      "loss": 2.07,
      "step": 13293
    },
    {
      "epoch": 0.2954222222222222,
      "grad_norm": 2.028052806854248,
      "learning_rate": 0.0001409468770837964,
      "loss": 2.1748,
      "step": 13294
    },
    {
      "epoch": 0.29544444444444445,
      "grad_norm": 1.7121124267578125,
      "learning_rate": 0.00014094243165147812,
      "loss": 2.0437,
      "step": 13295
    },
    {
      "epoch": 0.29546666666666666,
      "grad_norm": 1.5642365217208862,
      "learning_rate": 0.0001409379862191598,
      "loss": 1.847,
      "step": 13296
    },
    {
      "epoch": 0.2954888888888889,
      "grad_norm": 1.8779278993606567,
      "learning_rate": 0.00014093354078684154,
      "loss": 1.9004,
      "step": 13297
    },
    {
      "epoch": 0.2955111111111111,
      "grad_norm": 1.6057034730911255,
      "learning_rate": 0.00014092909535452322,
      "loss": 1.7381,
      "step": 13298
    },
    {
      "epoch": 0.2955333333333333,
      "grad_norm": 1.8399721384048462,
      "learning_rate": 0.00014092464992220493,
      "loss": 1.8572,
      "step": 13299
    },
    {
      "epoch": 0.29555555555555557,
      "grad_norm": 1.9906532764434814,
      "learning_rate": 0.00014092020448988667,
      "loss": 1.6821,
      "step": 13300
    },
    {
      "epoch": 0.2955777777777778,
      "grad_norm": 1.5110180377960205,
      "learning_rate": 0.00014091575905756835,
      "loss": 2.894,
      "step": 13301
    },
    {
      "epoch": 0.2956,
      "grad_norm": 1.0999699831008911,
      "learning_rate": 0.00014091131362525006,
      "loss": 1.2351,
      "step": 13302
    },
    {
      "epoch": 0.29562222222222223,
      "grad_norm": 1.3275386095046997,
      "learning_rate": 0.00014090686819293177,
      "loss": 1.9539,
      "step": 13303
    },
    {
      "epoch": 0.29564444444444443,
      "grad_norm": 1.6740468740463257,
      "learning_rate": 0.00014090242276061348,
      "loss": 2.6123,
      "step": 13304
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 1.5981916189193726,
      "learning_rate": 0.0001408979773282952,
      "loss": 2.6528,
      "step": 13305
    },
    {
      "epoch": 0.2956888888888889,
      "grad_norm": 1.0620161294937134,
      "learning_rate": 0.0001408935318959769,
      "loss": 1.0075,
      "step": 13306
    },
    {
      "epoch": 0.2957111111111111,
      "grad_norm": 1.2304857969284058,
      "learning_rate": 0.0001408890864636586,
      "loss": 2.3259,
      "step": 13307
    },
    {
      "epoch": 0.29573333333333335,
      "grad_norm": 1.6871297359466553,
      "learning_rate": 0.00014088464103134032,
      "loss": 1.927,
      "step": 13308
    },
    {
      "epoch": 0.29575555555555555,
      "grad_norm": 1.6492680311203003,
      "learning_rate": 0.00014088019559902203,
      "loss": 2.2743,
      "step": 13309
    },
    {
      "epoch": 0.29577777777777775,
      "grad_norm": 1.587007761001587,
      "learning_rate": 0.0001408757501667037,
      "loss": 2.1043,
      "step": 13310
    },
    {
      "epoch": 0.2958,
      "grad_norm": 1.40944504737854,
      "learning_rate": 0.00014087130473438544,
      "loss": 1.6732,
      "step": 13311
    },
    {
      "epoch": 0.2958222222222222,
      "grad_norm": 1.3131966590881348,
      "learning_rate": 0.00014086685930206713,
      "loss": 2.1378,
      "step": 13312
    },
    {
      "epoch": 0.29584444444444447,
      "grad_norm": 1.554587721824646,
      "learning_rate": 0.00014086241386974884,
      "loss": 2.278,
      "step": 13313
    },
    {
      "epoch": 0.29586666666666667,
      "grad_norm": 1.664617896080017,
      "learning_rate": 0.00014085796843743055,
      "loss": 2.4442,
      "step": 13314
    },
    {
      "epoch": 0.29588888888888887,
      "grad_norm": 1.5559276342391968,
      "learning_rate": 0.00014085352300511226,
      "loss": 1.9941,
      "step": 13315
    },
    {
      "epoch": 0.2959111111111111,
      "grad_norm": 1.3618953227996826,
      "learning_rate": 0.00014084907757279397,
      "loss": 1.8781,
      "step": 13316
    },
    {
      "epoch": 0.2959333333333333,
      "grad_norm": 1.4706107378005981,
      "learning_rate": 0.00014084463214047568,
      "loss": 2.1595,
      "step": 13317
    },
    {
      "epoch": 0.2959555555555556,
      "grad_norm": 1.582854151725769,
      "learning_rate": 0.00014084018670815738,
      "loss": 2.0226,
      "step": 13318
    },
    {
      "epoch": 0.2959777777777778,
      "grad_norm": 1.2281179428100586,
      "learning_rate": 0.00014083574127583907,
      "loss": 1.3044,
      "step": 13319
    },
    {
      "epoch": 0.296,
      "grad_norm": 1.9766967296600342,
      "learning_rate": 0.0001408312958435208,
      "loss": 2.0742,
      "step": 13320
    },
    {
      "epoch": 0.29602222222222224,
      "grad_norm": 1.622494101524353,
      "learning_rate": 0.0001408268504112025,
      "loss": 2.3807,
      "step": 13321
    },
    {
      "epoch": 0.29604444444444444,
      "grad_norm": 1.6911994218826294,
      "learning_rate": 0.0001408224049788842,
      "loss": 1.8411,
      "step": 13322
    },
    {
      "epoch": 0.29606666666666664,
      "grad_norm": 1.559094786643982,
      "learning_rate": 0.0001408179595465659,
      "loss": 1.7675,
      "step": 13323
    },
    {
      "epoch": 0.2960888888888889,
      "grad_norm": 2.8051092624664307,
      "learning_rate": 0.00014081351411424762,
      "loss": 2.1975,
      "step": 13324
    },
    {
      "epoch": 0.2961111111111111,
      "grad_norm": 1.5965704917907715,
      "learning_rate": 0.00014080906868192932,
      "loss": 2.0846,
      "step": 13325
    },
    {
      "epoch": 0.29613333333333336,
      "grad_norm": 1.4649739265441895,
      "learning_rate": 0.00014080462324961103,
      "loss": 1.5984,
      "step": 13326
    },
    {
      "epoch": 0.29615555555555556,
      "grad_norm": 1.711901068687439,
      "learning_rate": 0.00014080017781729274,
      "loss": 1.6853,
      "step": 13327
    },
    {
      "epoch": 0.29617777777777776,
      "grad_norm": 1.7679152488708496,
      "learning_rate": 0.00014079573238497445,
      "loss": 1.4975,
      "step": 13328
    },
    {
      "epoch": 0.2962,
      "grad_norm": 1.22370445728302,
      "learning_rate": 0.00014079128695265616,
      "loss": 1.0713,
      "step": 13329
    },
    {
      "epoch": 0.2962222222222222,
      "grad_norm": 1.7002257108688354,
      "learning_rate": 0.00014078684152033785,
      "loss": 1.9966,
      "step": 13330
    },
    {
      "epoch": 0.2962444444444444,
      "grad_norm": 1.5895644426345825,
      "learning_rate": 0.00014078239608801958,
      "loss": 1.7716,
      "step": 13331
    },
    {
      "epoch": 0.2962666666666667,
      "grad_norm": 1.3387682437896729,
      "learning_rate": 0.00014077795065570127,
      "loss": 1.5412,
      "step": 13332
    },
    {
      "epoch": 0.2962888888888889,
      "grad_norm": 1.678091287612915,
      "learning_rate": 0.00014077350522338297,
      "loss": 1.991,
      "step": 13333
    },
    {
      "epoch": 0.29631111111111114,
      "grad_norm": 1.6692798137664795,
      "learning_rate": 0.00014076905979106468,
      "loss": 2.1457,
      "step": 13334
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 1.6470392942428589,
      "learning_rate": 0.0001407646143587464,
      "loss": 2.1364,
      "step": 13335
    },
    {
      "epoch": 0.29635555555555554,
      "grad_norm": 1.5341187715530396,
      "learning_rate": 0.0001407601689264281,
      "loss": 1.4693,
      "step": 13336
    },
    {
      "epoch": 0.2963777777777778,
      "grad_norm": 1.534643292427063,
      "learning_rate": 0.0001407557234941098,
      "loss": 1.8934,
      "step": 13337
    },
    {
      "epoch": 0.2964,
      "grad_norm": 1.4946316480636597,
      "learning_rate": 0.00014075127806179152,
      "loss": 1.9715,
      "step": 13338
    },
    {
      "epoch": 0.2964222222222222,
      "grad_norm": 1.6215964555740356,
      "learning_rate": 0.0001407468326294732,
      "loss": 2.0401,
      "step": 13339
    },
    {
      "epoch": 0.29644444444444445,
      "grad_norm": 1.6608291864395142,
      "learning_rate": 0.00014074238719715494,
      "loss": 1.9266,
      "step": 13340
    },
    {
      "epoch": 0.29646666666666666,
      "grad_norm": 1.6538771390914917,
      "learning_rate": 0.00014073794176483662,
      "loss": 2.0176,
      "step": 13341
    },
    {
      "epoch": 0.2964888888888889,
      "grad_norm": 1.680963158607483,
      "learning_rate": 0.00014073349633251833,
      "loss": 1.6214,
      "step": 13342
    },
    {
      "epoch": 0.2965111111111111,
      "grad_norm": 1.8366047143936157,
      "learning_rate": 0.00014072905090020004,
      "loss": 2.0768,
      "step": 13343
    },
    {
      "epoch": 0.2965333333333333,
      "grad_norm": 2.6665713787078857,
      "learning_rate": 0.00014072460546788175,
      "loss": 2.3518,
      "step": 13344
    },
    {
      "epoch": 0.29655555555555557,
      "grad_norm": 1.3835350275039673,
      "learning_rate": 0.00014072016003556346,
      "loss": 1.6438,
      "step": 13345
    },
    {
      "epoch": 0.2965777777777778,
      "grad_norm": 1.6756830215454102,
      "learning_rate": 0.00014071571460324517,
      "loss": 2.0627,
      "step": 13346
    },
    {
      "epoch": 0.2966,
      "grad_norm": 1.6657531261444092,
      "learning_rate": 0.00014071126917092688,
      "loss": 1.9013,
      "step": 13347
    },
    {
      "epoch": 0.29662222222222223,
      "grad_norm": 1.2318590879440308,
      "learning_rate": 0.0001407068237386086,
      "loss": 0.8555,
      "step": 13348
    },
    {
      "epoch": 0.29664444444444443,
      "grad_norm": 1.2330386638641357,
      "learning_rate": 0.0001407023783062903,
      "loss": 0.8195,
      "step": 13349
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 1.092565894126892,
      "learning_rate": 0.00014069793287397198,
      "loss": 0.592,
      "step": 13350
    },
    {
      "epoch": 0.2966888888888889,
      "grad_norm": 1.3528729677200317,
      "learning_rate": 0.00014069348744165372,
      "loss": 2.617,
      "step": 13351
    },
    {
      "epoch": 0.2967111111111111,
      "grad_norm": 1.1415574550628662,
      "learning_rate": 0.0001406890420093354,
      "loss": 2.1643,
      "step": 13352
    },
    {
      "epoch": 0.29673333333333335,
      "grad_norm": 1.2618005275726318,
      "learning_rate": 0.0001406845965770171,
      "loss": 2.4412,
      "step": 13353
    },
    {
      "epoch": 0.29675555555555555,
      "grad_norm": 1.1542404890060425,
      "learning_rate": 0.00014068015114469882,
      "loss": 2.1294,
      "step": 13354
    },
    {
      "epoch": 0.29677777777777775,
      "grad_norm": 1.3575912714004517,
      "learning_rate": 0.00014067570571238053,
      "loss": 2.5537,
      "step": 13355
    },
    {
      "epoch": 0.2968,
      "grad_norm": 1.3929345607757568,
      "learning_rate": 0.00014067126028006224,
      "loss": 2.1704,
      "step": 13356
    },
    {
      "epoch": 0.2968222222222222,
      "grad_norm": 1.3430536985397339,
      "learning_rate": 0.00014066681484774395,
      "loss": 2.4892,
      "step": 13357
    },
    {
      "epoch": 0.29684444444444447,
      "grad_norm": 1.3460702896118164,
      "learning_rate": 0.00014066236941542566,
      "loss": 2.1748,
      "step": 13358
    },
    {
      "epoch": 0.29686666666666667,
      "grad_norm": 1.277223825454712,
      "learning_rate": 0.00014065792398310734,
      "loss": 2.0219,
      "step": 13359
    },
    {
      "epoch": 0.29688888888888887,
      "grad_norm": 1.4350008964538574,
      "learning_rate": 0.00014065347855078908,
      "loss": 2.0268,
      "step": 13360
    },
    {
      "epoch": 0.2969111111111111,
      "grad_norm": 1.5643805265426636,
      "learning_rate": 0.00014064903311847076,
      "loss": 2.6116,
      "step": 13361
    },
    {
      "epoch": 0.2969333333333333,
      "grad_norm": 1.397890329360962,
      "learning_rate": 0.0001406445876861525,
      "loss": 2.2145,
      "step": 13362
    },
    {
      "epoch": 0.29695555555555553,
      "grad_norm": 1.5141963958740234,
      "learning_rate": 0.00014064014225383418,
      "loss": 1.9548,
      "step": 13363
    },
    {
      "epoch": 0.2969777777777778,
      "grad_norm": 1.4056499004364014,
      "learning_rate": 0.0001406356968215159,
      "loss": 2.153,
      "step": 13364
    },
    {
      "epoch": 0.297,
      "grad_norm": 1.383636474609375,
      "learning_rate": 0.00014063125138919763,
      "loss": 2.075,
      "step": 13365
    },
    {
      "epoch": 0.29702222222222224,
      "grad_norm": 1.4650249481201172,
      "learning_rate": 0.0001406268059568793,
      "loss": 1.8397,
      "step": 13366
    },
    {
      "epoch": 0.29704444444444444,
      "grad_norm": 1.152435302734375,
      "learning_rate": 0.00014062236052456102,
      "loss": 0.9897,
      "step": 13367
    },
    {
      "epoch": 0.29706666666666665,
      "grad_norm": 1.5390561819076538,
      "learning_rate": 0.00014061791509224273,
      "loss": 1.3106,
      "step": 13368
    },
    {
      "epoch": 0.2970888888888889,
      "grad_norm": 1.4817379713058472,
      "learning_rate": 0.00014061346965992444,
      "loss": 2.1641,
      "step": 13369
    },
    {
      "epoch": 0.2971111111111111,
      "grad_norm": 1.5798426866531372,
      "learning_rate": 0.00014060902422760612,
      "loss": 2.2589,
      "step": 13370
    },
    {
      "epoch": 0.29713333333333336,
      "grad_norm": 1.5118976831436157,
      "learning_rate": 0.00014060457879528786,
      "loss": 2.2231,
      "step": 13371
    },
    {
      "epoch": 0.29715555555555556,
      "grad_norm": 1.7788068056106567,
      "learning_rate": 0.00014060013336296954,
      "loss": 2.0297,
      "step": 13372
    },
    {
      "epoch": 0.29717777777777776,
      "grad_norm": 1.5642955303192139,
      "learning_rate": 0.00014059568793065125,
      "loss": 1.6515,
      "step": 13373
    },
    {
      "epoch": 0.2972,
      "grad_norm": 1.4059420824050903,
      "learning_rate": 0.000140591242498333,
      "loss": 1.5783,
      "step": 13374
    },
    {
      "epoch": 0.2972222222222222,
      "grad_norm": 1.2364006042480469,
      "learning_rate": 0.00014058679706601467,
      "loss": 1.329,
      "step": 13375
    },
    {
      "epoch": 0.2972444444444444,
      "grad_norm": 1.4454408884048462,
      "learning_rate": 0.00014058235163369638,
      "loss": 1.0201,
      "step": 13376
    },
    {
      "epoch": 0.2972666666666667,
      "grad_norm": 1.4567642211914062,
      "learning_rate": 0.0001405779062013781,
      "loss": 2.0264,
      "step": 13377
    },
    {
      "epoch": 0.2972888888888889,
      "grad_norm": 1.5967451333999634,
      "learning_rate": 0.0001405734607690598,
      "loss": 1.791,
      "step": 13378
    },
    {
      "epoch": 0.29731111111111114,
      "grad_norm": 1.310170292854309,
      "learning_rate": 0.00014056901533674148,
      "loss": 1.7543,
      "step": 13379
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 1.536092758178711,
      "learning_rate": 0.00014056456990442322,
      "loss": 2.0938,
      "step": 13380
    },
    {
      "epoch": 0.29735555555555554,
      "grad_norm": 1.544700264930725,
      "learning_rate": 0.00014056012447210493,
      "loss": 1.6778,
      "step": 13381
    },
    {
      "epoch": 0.2973777777777778,
      "grad_norm": 1.4778296947479248,
      "learning_rate": 0.00014055567903978664,
      "loss": 1.9482,
      "step": 13382
    },
    {
      "epoch": 0.2974,
      "grad_norm": 1.6218655109405518,
      "learning_rate": 0.00014055123360746835,
      "loss": 1.8285,
      "step": 13383
    },
    {
      "epoch": 0.2974222222222222,
      "grad_norm": 1.5744147300720215,
      "learning_rate": 0.00014054678817515003,
      "loss": 1.5848,
      "step": 13384
    },
    {
      "epoch": 0.29744444444444446,
      "grad_norm": 1.7422521114349365,
      "learning_rate": 0.00014054234274283177,
      "loss": 1.7629,
      "step": 13385
    },
    {
      "epoch": 0.29746666666666666,
      "grad_norm": 1.7375824451446533,
      "learning_rate": 0.00014053789731051345,
      "loss": 2.1859,
      "step": 13386
    },
    {
      "epoch": 0.2974888888888889,
      "grad_norm": 1.2286869287490845,
      "learning_rate": 0.00014053345187819516,
      "loss": 1.2723,
      "step": 13387
    },
    {
      "epoch": 0.2975111111111111,
      "grad_norm": 1.9449729919433594,
      "learning_rate": 0.00014052900644587687,
      "loss": 2.0325,
      "step": 13388
    },
    {
      "epoch": 0.2975333333333333,
      "grad_norm": 1.6128480434417725,
      "learning_rate": 0.00014052456101355858,
      "loss": 1.9363,
      "step": 13389
    },
    {
      "epoch": 0.2975555555555556,
      "grad_norm": 1.567576289176941,
      "learning_rate": 0.0001405201155812403,
      "loss": 2.4464,
      "step": 13390
    },
    {
      "epoch": 0.2975777777777778,
      "grad_norm": 1.6582921743392944,
      "learning_rate": 0.000140515670148922,
      "loss": 1.8258,
      "step": 13391
    },
    {
      "epoch": 0.2976,
      "grad_norm": 1.6130493879318237,
      "learning_rate": 0.0001405112247166037,
      "loss": 1.7874,
      "step": 13392
    },
    {
      "epoch": 0.29762222222222223,
      "grad_norm": 1.7812535762786865,
      "learning_rate": 0.0001405067792842854,
      "loss": 2.1005,
      "step": 13393
    },
    {
      "epoch": 0.29764444444444443,
      "grad_norm": 1.7300341129302979,
      "learning_rate": 0.00014050233385196713,
      "loss": 1.9039,
      "step": 13394
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 1.642780065536499,
      "learning_rate": 0.0001404978884196488,
      "loss": 1.6631,
      "step": 13395
    },
    {
      "epoch": 0.2976888888888889,
      "grad_norm": 1.5666630268096924,
      "learning_rate": 0.00014049344298733052,
      "loss": 1.4491,
      "step": 13396
    },
    {
      "epoch": 0.2977111111111111,
      "grad_norm": 1.437699317932129,
      "learning_rate": 0.00014048899755501223,
      "loss": 1.4066,
      "step": 13397
    },
    {
      "epoch": 0.29773333333333335,
      "grad_norm": 1.9668123722076416,
      "learning_rate": 0.00014048455212269394,
      "loss": 1.9236,
      "step": 13398
    },
    {
      "epoch": 0.29775555555555555,
      "grad_norm": 2.3944437503814697,
      "learning_rate": 0.00014048010669037565,
      "loss": 2.3731,
      "step": 13399
    },
    {
      "epoch": 0.29777777777777775,
      "grad_norm": 1.8936954736709595,
      "learning_rate": 0.00014047566125805736,
      "loss": 1.342,
      "step": 13400
    },
    {
      "epoch": 0.2978,
      "grad_norm": 1.225577473640442,
      "learning_rate": 0.00014047121582573907,
      "loss": 2.7977,
      "step": 13401
    },
    {
      "epoch": 0.2978222222222222,
      "grad_norm": 1.6750034093856812,
      "learning_rate": 0.00014046677039342078,
      "loss": 3.4132,
      "step": 13402
    },
    {
      "epoch": 0.29784444444444447,
      "grad_norm": 1.398667335510254,
      "learning_rate": 0.00014046232496110249,
      "loss": 2.2745,
      "step": 13403
    },
    {
      "epoch": 0.29786666666666667,
      "grad_norm": 1.1917612552642822,
      "learning_rate": 0.00014045787952878417,
      "loss": 2.0837,
      "step": 13404
    },
    {
      "epoch": 0.29788888888888887,
      "grad_norm": 1.5059611797332764,
      "learning_rate": 0.0001404534340964659,
      "loss": 2.2905,
      "step": 13405
    },
    {
      "epoch": 0.2979111111111111,
      "grad_norm": 1.255815029144287,
      "learning_rate": 0.0001404489886641476,
      "loss": 2.1054,
      "step": 13406
    },
    {
      "epoch": 0.29793333333333333,
      "grad_norm": 1.565347671508789,
      "learning_rate": 0.0001404445432318293,
      "loss": 1.8819,
      "step": 13407
    },
    {
      "epoch": 0.29795555555555553,
      "grad_norm": 0.7578735947608948,
      "learning_rate": 0.000140440097799511,
      "loss": 0.5366,
      "step": 13408
    },
    {
      "epoch": 0.2979777777777778,
      "grad_norm": 1.371881127357483,
      "learning_rate": 0.00014043565236719272,
      "loss": 1.8627,
      "step": 13409
    },
    {
      "epoch": 0.298,
      "grad_norm": 1.3920505046844482,
      "learning_rate": 0.00014043120693487443,
      "loss": 1.8907,
      "step": 13410
    },
    {
      "epoch": 0.29802222222222224,
      "grad_norm": 1.5060958862304688,
      "learning_rate": 0.00014042676150255614,
      "loss": 2.349,
      "step": 13411
    },
    {
      "epoch": 0.29804444444444445,
      "grad_norm": 1.3558920621871948,
      "learning_rate": 0.00014042231607023784,
      "loss": 1.7443,
      "step": 13412
    },
    {
      "epoch": 0.29806666666666665,
      "grad_norm": 1.2374379634857178,
      "learning_rate": 0.00014041787063791953,
      "loss": 2.143,
      "step": 13413
    },
    {
      "epoch": 0.2980888888888889,
      "grad_norm": 1.5359524488449097,
      "learning_rate": 0.00014041342520560126,
      "loss": 2.0404,
      "step": 13414
    },
    {
      "epoch": 0.2981111111111111,
      "grad_norm": 1.3183670043945312,
      "learning_rate": 0.00014040897977328295,
      "loss": 2.0673,
      "step": 13415
    },
    {
      "epoch": 0.2981333333333333,
      "grad_norm": 1.4169031381607056,
      "learning_rate": 0.00014040453434096466,
      "loss": 2.3429,
      "step": 13416
    },
    {
      "epoch": 0.29815555555555556,
      "grad_norm": 1.6534523963928223,
      "learning_rate": 0.00014040008890864637,
      "loss": 1.8233,
      "step": 13417
    },
    {
      "epoch": 0.29817777777777776,
      "grad_norm": 2.215211868286133,
      "learning_rate": 0.00014039564347632808,
      "loss": 0.9368,
      "step": 13418
    },
    {
      "epoch": 0.2982,
      "grad_norm": 1.2942767143249512,
      "learning_rate": 0.00014039119804400979,
      "loss": 1.5196,
      "step": 13419
    },
    {
      "epoch": 0.2982222222222222,
      "grad_norm": 1.4132120609283447,
      "learning_rate": 0.0001403867526116915,
      "loss": 1.8177,
      "step": 13420
    },
    {
      "epoch": 0.2982444444444444,
      "grad_norm": 1.5268752574920654,
      "learning_rate": 0.0001403823071793732,
      "loss": 1.9616,
      "step": 13421
    },
    {
      "epoch": 0.2982666666666667,
      "grad_norm": 1.364067792892456,
      "learning_rate": 0.00014037786174705491,
      "loss": 1.8741,
      "step": 13422
    },
    {
      "epoch": 0.2982888888888889,
      "grad_norm": 1.4811426401138306,
      "learning_rate": 0.00014037341631473662,
      "loss": 1.8783,
      "step": 13423
    },
    {
      "epoch": 0.29831111111111114,
      "grad_norm": 1.3919014930725098,
      "learning_rate": 0.0001403689708824183,
      "loss": 1.5554,
      "step": 13424
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 1.2635419368743896,
      "learning_rate": 0.00014036452545010004,
      "loss": 1.9099,
      "step": 13425
    },
    {
      "epoch": 0.29835555555555554,
      "grad_norm": 1.4334132671356201,
      "learning_rate": 0.00014036008001778173,
      "loss": 2.2109,
      "step": 13426
    },
    {
      "epoch": 0.2983777777777778,
      "grad_norm": 1.4414217472076416,
      "learning_rate": 0.00014035563458546344,
      "loss": 1.7236,
      "step": 13427
    },
    {
      "epoch": 0.2984,
      "grad_norm": 1.5458201169967651,
      "learning_rate": 0.00014035118915314514,
      "loss": 1.7963,
      "step": 13428
    },
    {
      "epoch": 0.2984222222222222,
      "grad_norm": 1.418280839920044,
      "learning_rate": 0.00014034674372082685,
      "loss": 1.45,
      "step": 13429
    },
    {
      "epoch": 0.29844444444444446,
      "grad_norm": 1.4003331661224365,
      "learning_rate": 0.00014034229828850856,
      "loss": 1.9517,
      "step": 13430
    },
    {
      "epoch": 0.29846666666666666,
      "grad_norm": 1.7244656085968018,
      "learning_rate": 0.00014033785285619027,
      "loss": 1.9399,
      "step": 13431
    },
    {
      "epoch": 0.2984888888888889,
      "grad_norm": 1.790078043937683,
      "learning_rate": 0.00014033340742387198,
      "loss": 1.8835,
      "step": 13432
    },
    {
      "epoch": 0.2985111111111111,
      "grad_norm": 1.4163936376571655,
      "learning_rate": 0.00014032896199155367,
      "loss": 2.0001,
      "step": 13433
    },
    {
      "epoch": 0.2985333333333333,
      "grad_norm": 0.9246667623519897,
      "learning_rate": 0.0001403245165592354,
      "loss": 0.5621,
      "step": 13434
    },
    {
      "epoch": 0.2985555555555556,
      "grad_norm": 1.2592071294784546,
      "learning_rate": 0.00014032007112691708,
      "loss": 1.3041,
      "step": 13435
    },
    {
      "epoch": 0.2985777777777778,
      "grad_norm": 1.6742429733276367,
      "learning_rate": 0.0001403156256945988,
      "loss": 2.1359,
      "step": 13436
    },
    {
      "epoch": 0.2986,
      "grad_norm": 1.568579912185669,
      "learning_rate": 0.0001403111802622805,
      "loss": 1.8356,
      "step": 13437
    },
    {
      "epoch": 0.29862222222222223,
      "grad_norm": 1.5866639614105225,
      "learning_rate": 0.00014030673482996221,
      "loss": 1.922,
      "step": 13438
    },
    {
      "epoch": 0.29864444444444443,
      "grad_norm": 1.5094677209854126,
      "learning_rate": 0.00014030228939764395,
      "loss": 2.0184,
      "step": 13439
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 1.681856632232666,
      "learning_rate": 0.00014029784396532563,
      "loss": 1.9859,
      "step": 13440
    },
    {
      "epoch": 0.2986888888888889,
      "grad_norm": 2.865084648132324,
      "learning_rate": 0.00014029339853300734,
      "loss": 1.768,
      "step": 13441
    },
    {
      "epoch": 0.2987111111111111,
      "grad_norm": 1.668164610862732,
      "learning_rate": 0.00014028895310068905,
      "loss": 2.1189,
      "step": 13442
    },
    {
      "epoch": 0.29873333333333335,
      "grad_norm": 1.6896361112594604,
      "learning_rate": 0.00014028450766837076,
      "loss": 1.8147,
      "step": 13443
    },
    {
      "epoch": 0.29875555555555555,
      "grad_norm": 1.5470218658447266,
      "learning_rate": 0.00014028006223605244,
      "loss": 1.7822,
      "step": 13444
    },
    {
      "epoch": 0.29877777777777775,
      "grad_norm": 1.5964598655700684,
      "learning_rate": 0.00014027561680373418,
      "loss": 1.7617,
      "step": 13445
    },
    {
      "epoch": 0.2988,
      "grad_norm": 1.804298996925354,
      "learning_rate": 0.00014027117137141586,
      "loss": 1.4234,
      "step": 13446
    },
    {
      "epoch": 0.2988222222222222,
      "grad_norm": 1.014236569404602,
      "learning_rate": 0.00014026672593909757,
      "loss": 0.8434,
      "step": 13447
    },
    {
      "epoch": 0.29884444444444447,
      "grad_norm": 1.270569920539856,
      "learning_rate": 0.0001402622805067793,
      "loss": 0.9605,
      "step": 13448
    },
    {
      "epoch": 0.29886666666666667,
      "grad_norm": 1.8152048587799072,
      "learning_rate": 0.000140257835074461,
      "loss": 2.1203,
      "step": 13449
    },
    {
      "epoch": 0.29888888888888887,
      "grad_norm": 1.8750948905944824,
      "learning_rate": 0.0001402533896421427,
      "loss": 1.6837,
      "step": 13450
    },
    {
      "epoch": 0.2989111111111111,
      "grad_norm": 1.3738597631454468,
      "learning_rate": 0.0001402489442098244,
      "loss": 2.5152,
      "step": 13451
    },
    {
      "epoch": 0.29893333333333333,
      "grad_norm": 1.2770764827728271,
      "learning_rate": 0.00014024449877750612,
      "loss": 2.3254,
      "step": 13452
    },
    {
      "epoch": 0.29895555555555553,
      "grad_norm": 1.0376720428466797,
      "learning_rate": 0.0001402400533451878,
      "loss": 1.2591,
      "step": 13453
    },
    {
      "epoch": 0.2989777777777778,
      "grad_norm": 1.4778929948806763,
      "learning_rate": 0.00014023560791286954,
      "loss": 2.4188,
      "step": 13454
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.5038765668869019,
      "learning_rate": 0.00014023116248055125,
      "loss": 2.6786,
      "step": 13455
    },
    {
      "epoch": 0.29902222222222224,
      "grad_norm": 1.3319339752197266,
      "learning_rate": 0.00014022671704823296,
      "loss": 2.3941,
      "step": 13456
    },
    {
      "epoch": 0.29904444444444445,
      "grad_norm": 1.2511826753616333,
      "learning_rate": 0.00014022227161591467,
      "loss": 1.9111,
      "step": 13457
    },
    {
      "epoch": 0.29906666666666665,
      "grad_norm": 1.509316325187683,
      "learning_rate": 0.00014021782618359635,
      "loss": 2.0959,
      "step": 13458
    },
    {
      "epoch": 0.2990888888888889,
      "grad_norm": 1.3796513080596924,
      "learning_rate": 0.0001402133807512781,
      "loss": 2.0504,
      "step": 13459
    },
    {
      "epoch": 0.2991111111111111,
      "grad_norm": 1.4142608642578125,
      "learning_rate": 0.00014020893531895977,
      "loss": 2.255,
      "step": 13460
    },
    {
      "epoch": 0.2991333333333333,
      "grad_norm": 1.3831923007965088,
      "learning_rate": 0.00014020448988664148,
      "loss": 2.003,
      "step": 13461
    },
    {
      "epoch": 0.29915555555555556,
      "grad_norm": 1.3160886764526367,
      "learning_rate": 0.0001402000444543232,
      "loss": 2.0936,
      "step": 13462
    },
    {
      "epoch": 0.29917777777777776,
      "grad_norm": 1.3164417743682861,
      "learning_rate": 0.0001401955990220049,
      "loss": 2.1316,
      "step": 13463
    },
    {
      "epoch": 0.2992,
      "grad_norm": 1.3952982425689697,
      "learning_rate": 0.0001401911535896866,
      "loss": 1.8553,
      "step": 13464
    },
    {
      "epoch": 0.2992222222222222,
      "grad_norm": 1.473364233970642,
      "learning_rate": 0.00014018670815736832,
      "loss": 1.9833,
      "step": 13465
    },
    {
      "epoch": 0.2992444444444444,
      "grad_norm": 1.3873863220214844,
      "learning_rate": 0.00014018226272505003,
      "loss": 2.1826,
      "step": 13466
    },
    {
      "epoch": 0.2992666666666667,
      "grad_norm": 1.5163898468017578,
      "learning_rate": 0.0001401778172927317,
      "loss": 2.5335,
      "step": 13467
    },
    {
      "epoch": 0.2992888888888889,
      "grad_norm": 1.3693921566009521,
      "learning_rate": 0.00014017337186041345,
      "loss": 1.9966,
      "step": 13468
    },
    {
      "epoch": 0.2993111111111111,
      "grad_norm": 1.4431849718093872,
      "learning_rate": 0.00014016892642809513,
      "loss": 2.0362,
      "step": 13469
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 1.2433794736862183,
      "learning_rate": 0.00014016448099577684,
      "loss": 1.9843,
      "step": 13470
    },
    {
      "epoch": 0.29935555555555554,
      "grad_norm": 1.946004867553711,
      "learning_rate": 0.00014016003556345855,
      "loss": 2.1145,
      "step": 13471
    },
    {
      "epoch": 0.2993777777777778,
      "grad_norm": 1.4917757511138916,
      "learning_rate": 0.00014015559013114026,
      "loss": 0.8132,
      "step": 13472
    },
    {
      "epoch": 0.2994,
      "grad_norm": 1.603119134902954,
      "learning_rate": 0.00014015114469882197,
      "loss": 2.3922,
      "step": 13473
    },
    {
      "epoch": 0.2994222222222222,
      "grad_norm": 1.733595371246338,
      "learning_rate": 0.00014014669926650368,
      "loss": 1.8839,
      "step": 13474
    },
    {
      "epoch": 0.29944444444444446,
      "grad_norm": 1.6742825508117676,
      "learning_rate": 0.0001401422538341854,
      "loss": 2.0675,
      "step": 13475
    },
    {
      "epoch": 0.29946666666666666,
      "grad_norm": 1.4945778846740723,
      "learning_rate": 0.0001401378084018671,
      "loss": 2.0917,
      "step": 13476
    },
    {
      "epoch": 0.2994888888888889,
      "grad_norm": 1.2759647369384766,
      "learning_rate": 0.0001401333629695488,
      "loss": 1.7797,
      "step": 13477
    },
    {
      "epoch": 0.2995111111111111,
      "grad_norm": 1.441306710243225,
      "learning_rate": 0.0001401289175372305,
      "loss": 1.9179,
      "step": 13478
    },
    {
      "epoch": 0.2995333333333333,
      "grad_norm": 1.927335500717163,
      "learning_rate": 0.00014012447210491223,
      "loss": 2.0788,
      "step": 13479
    },
    {
      "epoch": 0.2995555555555556,
      "grad_norm": 1.587489366531372,
      "learning_rate": 0.0001401200266725939,
      "loss": 1.9332,
      "step": 13480
    },
    {
      "epoch": 0.2995777777777778,
      "grad_norm": 1.3978796005249023,
      "learning_rate": 0.00014011558124027562,
      "loss": 1.7926,
      "step": 13481
    },
    {
      "epoch": 0.2996,
      "grad_norm": 1.5700252056121826,
      "learning_rate": 0.00014011113580795733,
      "loss": 1.8027,
      "step": 13482
    },
    {
      "epoch": 0.29962222222222223,
      "grad_norm": 1.907732605934143,
      "learning_rate": 0.00014010669037563904,
      "loss": 1.9576,
      "step": 13483
    },
    {
      "epoch": 0.29964444444444444,
      "grad_norm": 1.4654593467712402,
      "learning_rate": 0.00014010224494332075,
      "loss": 1.5317,
      "step": 13484
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 1.2921066284179688,
      "learning_rate": 0.00014009779951100246,
      "loss": 0.9885,
      "step": 13485
    },
    {
      "epoch": 0.2996888888888889,
      "grad_norm": 1.329757809638977,
      "learning_rate": 0.00014009335407868417,
      "loss": 1.7211,
      "step": 13486
    },
    {
      "epoch": 0.2997111111111111,
      "grad_norm": 1.4233120679855347,
      "learning_rate": 0.00014008890864636585,
      "loss": 1.7526,
      "step": 13487
    },
    {
      "epoch": 0.29973333333333335,
      "grad_norm": 1.6354681253433228,
      "learning_rate": 0.00014008446321404759,
      "loss": 1.9372,
      "step": 13488
    },
    {
      "epoch": 0.29975555555555555,
      "grad_norm": 1.3604995012283325,
      "learning_rate": 0.00014008001778172927,
      "loss": 1.7279,
      "step": 13489
    },
    {
      "epoch": 0.29977777777777775,
      "grad_norm": 1.4454816579818726,
      "learning_rate": 0.00014007557234941098,
      "loss": 1.6603,
      "step": 13490
    },
    {
      "epoch": 0.2998,
      "grad_norm": 1.5348656177520752,
      "learning_rate": 0.0001400711269170927,
      "loss": 1.8355,
      "step": 13491
    },
    {
      "epoch": 0.2998222222222222,
      "grad_norm": 1.4589844942092896,
      "learning_rate": 0.0001400666814847744,
      "loss": 1.9709,
      "step": 13492
    },
    {
      "epoch": 0.29984444444444447,
      "grad_norm": 1.481370210647583,
      "learning_rate": 0.0001400622360524561,
      "loss": 1.9947,
      "step": 13493
    },
    {
      "epoch": 0.29986666666666667,
      "grad_norm": 1.3174445629119873,
      "learning_rate": 0.00014005779062013782,
      "loss": 1.3804,
      "step": 13494
    },
    {
      "epoch": 0.29988888888888887,
      "grad_norm": 1.8954817056655884,
      "learning_rate": 0.00014005334518781953,
      "loss": 1.3526,
      "step": 13495
    },
    {
      "epoch": 0.29991111111111113,
      "grad_norm": 1.6694378852844238,
      "learning_rate": 0.00014004889975550124,
      "loss": 1.8311,
      "step": 13496
    },
    {
      "epoch": 0.29993333333333333,
      "grad_norm": 1.755191683769226,
      "learning_rate": 0.00014004445432318295,
      "loss": 2.0412,
      "step": 13497
    },
    {
      "epoch": 0.29995555555555553,
      "grad_norm": 1.3783429861068726,
      "learning_rate": 0.00014004000889086463,
      "loss": 0.8292,
      "step": 13498
    },
    {
      "epoch": 0.2999777777777778,
      "grad_norm": 1.7081657648086548,
      "learning_rate": 0.00014003556345854636,
      "loss": 1.7264,
      "step": 13499
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.8690482378005981,
      "learning_rate": 0.00014003111802622805,
      "loss": 1.5955,
      "step": 13500
    },
    {
      "epoch": 0.30002222222222225,
      "grad_norm": 1.3233929872512817,
      "learning_rate": 0.00014002667259390976,
      "loss": 2.5268,
      "step": 13501
    },
    {
      "epoch": 0.30004444444444445,
      "grad_norm": 1.205665111541748,
      "learning_rate": 0.00014002222716159147,
      "loss": 2.1016,
      "step": 13502
    },
    {
      "epoch": 0.30006666666666665,
      "grad_norm": 1.0754295587539673,
      "learning_rate": 0.00014001778172927318,
      "loss": 1.1559,
      "step": 13503
    },
    {
      "epoch": 0.3000888888888889,
      "grad_norm": 1.0763676166534424,
      "learning_rate": 0.00014001333629695489,
      "loss": 1.387,
      "step": 13504
    },
    {
      "epoch": 0.3001111111111111,
      "grad_norm": 1.2092455625534058,
      "learning_rate": 0.0001400088908646366,
      "loss": 2.4476,
      "step": 13505
    },
    {
      "epoch": 0.3001333333333333,
      "grad_norm": 2.1322689056396484,
      "learning_rate": 0.0001400044454323183,
      "loss": 0.8185,
      "step": 13506
    },
    {
      "epoch": 0.30015555555555556,
      "grad_norm": 1.4858872890472412,
      "learning_rate": 0.00014,
      "loss": 1.9829,
      "step": 13507
    },
    {
      "epoch": 0.30017777777777777,
      "grad_norm": 1.099316954612732,
      "learning_rate": 0.00013999555456768172,
      "loss": 1.1505,
      "step": 13508
    },
    {
      "epoch": 0.3002,
      "grad_norm": 1.603604793548584,
      "learning_rate": 0.0001399911091353634,
      "loss": 2.6517,
      "step": 13509
    },
    {
      "epoch": 0.3002222222222222,
      "grad_norm": 1.4072037935256958,
      "learning_rate": 0.00013998666370304512,
      "loss": 2.0103,
      "step": 13510
    },
    {
      "epoch": 0.3002444444444444,
      "grad_norm": 1.4358625411987305,
      "learning_rate": 0.00013998221827072683,
      "loss": 1.9779,
      "step": 13511
    },
    {
      "epoch": 0.3002666666666667,
      "grad_norm": 1.5792462825775146,
      "learning_rate": 0.00013997777283840854,
      "loss": 2.3526,
      "step": 13512
    },
    {
      "epoch": 0.3002888888888889,
      "grad_norm": 1.2517820596694946,
      "learning_rate": 0.00013997332740609027,
      "loss": 1.7613,
      "step": 13513
    },
    {
      "epoch": 0.3003111111111111,
      "grad_norm": 1.390995740890503,
      "learning_rate": 0.00013996888197377196,
      "loss": 2.3404,
      "step": 13514
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 1.5487439632415771,
      "learning_rate": 0.00013996443654145366,
      "loss": 1.9401,
      "step": 13515
    },
    {
      "epoch": 0.30035555555555554,
      "grad_norm": 1.9680622816085815,
      "learning_rate": 0.00013995999110913537,
      "loss": 1.283,
      "step": 13516
    },
    {
      "epoch": 0.3003777777777778,
      "grad_norm": 1.4182060956954956,
      "learning_rate": 0.00013995554567681708,
      "loss": 1.9852,
      "step": 13517
    },
    {
      "epoch": 0.3004,
      "grad_norm": 1.6979871988296509,
      "learning_rate": 0.00013995110024449877,
      "loss": 1.8307,
      "step": 13518
    },
    {
      "epoch": 0.3004222222222222,
      "grad_norm": 1.2733869552612305,
      "learning_rate": 0.0001399466548121805,
      "loss": 1.6689,
      "step": 13519
    },
    {
      "epoch": 0.30044444444444446,
      "grad_norm": 1.817034363746643,
      "learning_rate": 0.00013994220937986219,
      "loss": 2.3526,
      "step": 13520
    },
    {
      "epoch": 0.30046666666666666,
      "grad_norm": 1.266242504119873,
      "learning_rate": 0.0001399377639475439,
      "loss": 1.5545,
      "step": 13521
    },
    {
      "epoch": 0.3004888888888889,
      "grad_norm": 1.6433647871017456,
      "learning_rate": 0.00013993331851522563,
      "loss": 2.1474,
      "step": 13522
    },
    {
      "epoch": 0.3005111111111111,
      "grad_norm": 1.451392412185669,
      "learning_rate": 0.00013992887308290731,
      "loss": 2.1563,
      "step": 13523
    },
    {
      "epoch": 0.3005333333333333,
      "grad_norm": 1.3426884412765503,
      "learning_rate": 0.00013992442765058902,
      "loss": 1.9218,
      "step": 13524
    },
    {
      "epoch": 0.3005555555555556,
      "grad_norm": 2.0866570472717285,
      "learning_rate": 0.00013991998221827073,
      "loss": 2.4256,
      "step": 13525
    },
    {
      "epoch": 0.3005777777777778,
      "grad_norm": 1.6062873601913452,
      "learning_rate": 0.00013991553678595244,
      "loss": 1.8995,
      "step": 13526
    },
    {
      "epoch": 0.3006,
      "grad_norm": 1.2157478332519531,
      "learning_rate": 0.00013991109135363413,
      "loss": 1.7205,
      "step": 13527
    },
    {
      "epoch": 0.30062222222222224,
      "grad_norm": 1.7253742218017578,
      "learning_rate": 0.00013990664592131586,
      "loss": 1.8602,
      "step": 13528
    },
    {
      "epoch": 0.30064444444444444,
      "grad_norm": 1.5794992446899414,
      "learning_rate": 0.00013990220048899757,
      "loss": 2.5128,
      "step": 13529
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 1.5876376628875732,
      "learning_rate": 0.00013989775505667925,
      "loss": 1.7963,
      "step": 13530
    },
    {
      "epoch": 0.3006888888888889,
      "grad_norm": 1.6948045492172241,
      "learning_rate": 0.000139893309624361,
      "loss": 2.0945,
      "step": 13531
    },
    {
      "epoch": 0.3007111111111111,
      "grad_norm": 1.7217824459075928,
      "learning_rate": 0.00013988886419204267,
      "loss": 1.7137,
      "step": 13532
    },
    {
      "epoch": 0.30073333333333335,
      "grad_norm": 1.6915733814239502,
      "learning_rate": 0.0001398844187597244,
      "loss": 2.2064,
      "step": 13533
    },
    {
      "epoch": 0.30075555555555555,
      "grad_norm": 1.580593228340149,
      "learning_rate": 0.0001398799733274061,
      "loss": 1.579,
      "step": 13534
    },
    {
      "epoch": 0.30077777777777776,
      "grad_norm": 1.505662441253662,
      "learning_rate": 0.0001398755278950878,
      "loss": 1.559,
      "step": 13535
    },
    {
      "epoch": 0.3008,
      "grad_norm": 1.985045075416565,
      "learning_rate": 0.0001398710824627695,
      "loss": 2.1076,
      "step": 13536
    },
    {
      "epoch": 0.3008222222222222,
      "grad_norm": 1.6932318210601807,
      "learning_rate": 0.00013986663703045122,
      "loss": 2.3829,
      "step": 13537
    },
    {
      "epoch": 0.30084444444444447,
      "grad_norm": 1.5994645357131958,
      "learning_rate": 0.00013986219159813293,
      "loss": 1.8017,
      "step": 13538
    },
    {
      "epoch": 0.30086666666666667,
      "grad_norm": 1.439052700996399,
      "learning_rate": 0.00013985774616581464,
      "loss": 1.4554,
      "step": 13539
    },
    {
      "epoch": 0.3008888888888889,
      "grad_norm": 1.4640365839004517,
      "learning_rate": 0.00013985330073349635,
      "loss": 1.8332,
      "step": 13540
    },
    {
      "epoch": 0.30091111111111113,
      "grad_norm": 1.7163609266281128,
      "learning_rate": 0.00013984885530117803,
      "loss": 2.4365,
      "step": 13541
    },
    {
      "epoch": 0.30093333333333333,
      "grad_norm": 1.4625636339187622,
      "learning_rate": 0.00013984440986885977,
      "loss": 1.8047,
      "step": 13542
    },
    {
      "epoch": 0.30095555555555553,
      "grad_norm": 1.4004822969436646,
      "learning_rate": 0.00013983996443654145,
      "loss": 1.7329,
      "step": 13543
    },
    {
      "epoch": 0.3009777777777778,
      "grad_norm": 1.824697494506836,
      "learning_rate": 0.00013983551900422316,
      "loss": 2.3298,
      "step": 13544
    },
    {
      "epoch": 0.301,
      "grad_norm": 1.6432435512542725,
      "learning_rate": 0.00013983107357190487,
      "loss": 1.4156,
      "step": 13545
    },
    {
      "epoch": 0.30102222222222225,
      "grad_norm": 2.0559213161468506,
      "learning_rate": 0.00013982662813958658,
      "loss": 2.1689,
      "step": 13546
    },
    {
      "epoch": 0.30104444444444445,
      "grad_norm": 1.4929720163345337,
      "learning_rate": 0.0001398221827072683,
      "loss": 1.8852,
      "step": 13547
    },
    {
      "epoch": 0.30106666666666665,
      "grad_norm": 2.159691095352173,
      "learning_rate": 0.00013981773727495,
      "loss": 2.0459,
      "step": 13548
    },
    {
      "epoch": 0.3010888888888889,
      "grad_norm": 1.5161634683609009,
      "learning_rate": 0.0001398132918426317,
      "loss": 1.4838,
      "step": 13549
    },
    {
      "epoch": 0.3011111111111111,
      "grad_norm": 1.3766597509384155,
      "learning_rate": 0.0001398088464103134,
      "loss": 0.8716,
      "step": 13550
    },
    {
      "epoch": 0.3011333333333333,
      "grad_norm": 1.268760085105896,
      "learning_rate": 0.00013980440097799513,
      "loss": 2.4628,
      "step": 13551
    },
    {
      "epoch": 0.30115555555555557,
      "grad_norm": 1.2811262607574463,
      "learning_rate": 0.0001397999555456768,
      "loss": 2.8255,
      "step": 13552
    },
    {
      "epoch": 0.30117777777777777,
      "grad_norm": 1.252159833908081,
      "learning_rate": 0.00013979551011335855,
      "loss": 2.3496,
      "step": 13553
    },
    {
      "epoch": 0.3012,
      "grad_norm": 1.3436223268508911,
      "learning_rate": 0.00013979106468104023,
      "loss": 2.1002,
      "step": 13554
    },
    {
      "epoch": 0.3012222222222222,
      "grad_norm": 1.4867000579833984,
      "learning_rate": 0.00013978661924872194,
      "loss": 2.2529,
      "step": 13555
    },
    {
      "epoch": 0.3012444444444444,
      "grad_norm": 1.4273079633712769,
      "learning_rate": 0.00013978217381640365,
      "loss": 2.304,
      "step": 13556
    },
    {
      "epoch": 0.3012666666666667,
      "grad_norm": 1.4227216243743896,
      "learning_rate": 0.00013977772838408536,
      "loss": 1.9995,
      "step": 13557
    },
    {
      "epoch": 0.3012888888888889,
      "grad_norm": 1.2485544681549072,
      "learning_rate": 0.00013977328295176707,
      "loss": 2.2641,
      "step": 13558
    },
    {
      "epoch": 0.3013111111111111,
      "grad_norm": 1.2665702104568481,
      "learning_rate": 0.00013976883751944878,
      "loss": 1.893,
      "step": 13559
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 1.4886592626571655,
      "learning_rate": 0.0001397643920871305,
      "loss": 2.1608,
      "step": 13560
    },
    {
      "epoch": 0.30135555555555554,
      "grad_norm": 1.3443049192428589,
      "learning_rate": 0.00013975994665481217,
      "loss": 2.0496,
      "step": 13561
    },
    {
      "epoch": 0.3013777777777778,
      "grad_norm": 1.4061498641967773,
      "learning_rate": 0.0001397555012224939,
      "loss": 2.1678,
      "step": 13562
    },
    {
      "epoch": 0.3014,
      "grad_norm": 1.3546051979064941,
      "learning_rate": 0.0001397510557901756,
      "loss": 1.8021,
      "step": 13563
    },
    {
      "epoch": 0.3014222222222222,
      "grad_norm": 1.58320951461792,
      "learning_rate": 0.0001397466103578573,
      "loss": 2.3497,
      "step": 13564
    },
    {
      "epoch": 0.30144444444444446,
      "grad_norm": 1.495524525642395,
      "learning_rate": 0.000139742164925539,
      "loss": 1.857,
      "step": 13565
    },
    {
      "epoch": 0.30146666666666666,
      "grad_norm": 1.4952008724212646,
      "learning_rate": 0.00013973771949322072,
      "loss": 2.3867,
      "step": 13566
    },
    {
      "epoch": 0.30148888888888886,
      "grad_norm": 1.4888333082199097,
      "learning_rate": 0.00013973327406090243,
      "loss": 1.9945,
      "step": 13567
    },
    {
      "epoch": 0.3015111111111111,
      "grad_norm": 1.3242032527923584,
      "learning_rate": 0.00013972882862858414,
      "loss": 1.823,
      "step": 13568
    },
    {
      "epoch": 0.3015333333333333,
      "grad_norm": 1.4995371103286743,
      "learning_rate": 0.00013972438319626585,
      "loss": 2.036,
      "step": 13569
    },
    {
      "epoch": 0.3015555555555556,
      "grad_norm": 1.8555870056152344,
      "learning_rate": 0.00013971993776394756,
      "loss": 2.0231,
      "step": 13570
    },
    {
      "epoch": 0.3015777777777778,
      "grad_norm": 1.8380786180496216,
      "learning_rate": 0.00013971549233162927,
      "loss": 2.0922,
      "step": 13571
    },
    {
      "epoch": 0.3016,
      "grad_norm": 1.4700642824172974,
      "learning_rate": 0.00013971104689931095,
      "loss": 1.9614,
      "step": 13572
    },
    {
      "epoch": 0.30162222222222224,
      "grad_norm": 1.5877171754837036,
      "learning_rate": 0.0001397066014669927,
      "loss": 2.1438,
      "step": 13573
    },
    {
      "epoch": 0.30164444444444444,
      "grad_norm": 1.5898704528808594,
      "learning_rate": 0.00013970215603467437,
      "loss": 1.9408,
      "step": 13574
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 1.730238676071167,
      "learning_rate": 0.00013969771060235608,
      "loss": 2.4864,
      "step": 13575
    },
    {
      "epoch": 0.3016888888888889,
      "grad_norm": 1.9700775146484375,
      "learning_rate": 0.0001396932651700378,
      "loss": 1.6632,
      "step": 13576
    },
    {
      "epoch": 0.3017111111111111,
      "grad_norm": 1.3540754318237305,
      "learning_rate": 0.0001396888197377195,
      "loss": 1.4268,
      "step": 13577
    },
    {
      "epoch": 0.30173333333333335,
      "grad_norm": 1.5053329467773438,
      "learning_rate": 0.0001396843743054012,
      "loss": 1.8579,
      "step": 13578
    },
    {
      "epoch": 0.30175555555555555,
      "grad_norm": 2.6923129558563232,
      "learning_rate": 0.00013967992887308292,
      "loss": 2.4578,
      "step": 13579
    },
    {
      "epoch": 0.30177777777777776,
      "grad_norm": 1.68904447555542,
      "learning_rate": 0.00013967548344076463,
      "loss": 1.8508,
      "step": 13580
    },
    {
      "epoch": 0.3018,
      "grad_norm": 1.8455766439437866,
      "learning_rate": 0.0001396710380084463,
      "loss": 2.2339,
      "step": 13581
    },
    {
      "epoch": 0.3018222222222222,
      "grad_norm": 1.464028239250183,
      "learning_rate": 0.00013966659257612805,
      "loss": 1.7347,
      "step": 13582
    },
    {
      "epoch": 0.30184444444444447,
      "grad_norm": 1.6988893747329712,
      "learning_rate": 0.00013966214714380973,
      "loss": 2.2045,
      "step": 13583
    },
    {
      "epoch": 0.30186666666666667,
      "grad_norm": 2.175968647003174,
      "learning_rate": 0.00013965770171149144,
      "loss": 2.2928,
      "step": 13584
    },
    {
      "epoch": 0.3018888888888889,
      "grad_norm": 1.3429275751113892,
      "learning_rate": 0.00013965325627917315,
      "loss": 1.5428,
      "step": 13585
    },
    {
      "epoch": 0.30191111111111113,
      "grad_norm": 1.7095732688903809,
      "learning_rate": 0.00013964881084685486,
      "loss": 1.786,
      "step": 13586
    },
    {
      "epoch": 0.30193333333333333,
      "grad_norm": 1.5701265335083008,
      "learning_rate": 0.00013964436541453657,
      "loss": 1.6404,
      "step": 13587
    },
    {
      "epoch": 0.30195555555555553,
      "grad_norm": 1.3496320247650146,
      "learning_rate": 0.00013963991998221828,
      "loss": 1.8221,
      "step": 13588
    },
    {
      "epoch": 0.3019777777777778,
      "grad_norm": 1.420290470123291,
      "learning_rate": 0.0001396354745499,
      "loss": 1.8873,
      "step": 13589
    },
    {
      "epoch": 0.302,
      "grad_norm": 1.6843087673187256,
      "learning_rate": 0.0001396310291175817,
      "loss": 1.6781,
      "step": 13590
    },
    {
      "epoch": 0.30202222222222225,
      "grad_norm": 1.4900866746902466,
      "learning_rate": 0.0001396265836852634,
      "loss": 1.8196,
      "step": 13591
    },
    {
      "epoch": 0.30204444444444445,
      "grad_norm": 1.3037426471710205,
      "learning_rate": 0.0001396221382529451,
      "loss": 1.4771,
      "step": 13592
    },
    {
      "epoch": 0.30206666666666665,
      "grad_norm": 1.6842143535614014,
      "learning_rate": 0.00013961769282062683,
      "loss": 2.0892,
      "step": 13593
    },
    {
      "epoch": 0.3020888888888889,
      "grad_norm": 1.568956971168518,
      "learning_rate": 0.0001396132473883085,
      "loss": 2.3181,
      "step": 13594
    },
    {
      "epoch": 0.3021111111111111,
      "grad_norm": 1.8111647367477417,
      "learning_rate": 0.00013960880195599022,
      "loss": 2.1803,
      "step": 13595
    },
    {
      "epoch": 0.3021333333333333,
      "grad_norm": 1.400860071182251,
      "learning_rate": 0.00013960435652367195,
      "loss": 1.6726,
      "step": 13596
    },
    {
      "epoch": 0.30215555555555557,
      "grad_norm": 1.7713271379470825,
      "learning_rate": 0.00013959991109135364,
      "loss": 2.0801,
      "step": 13597
    },
    {
      "epoch": 0.30217777777777777,
      "grad_norm": 1.6609368324279785,
      "learning_rate": 0.00013959546565903535,
      "loss": 1.7044,
      "step": 13598
    },
    {
      "epoch": 0.3022,
      "grad_norm": 2.1730096340179443,
      "learning_rate": 0.00013959102022671706,
      "loss": 2.1901,
      "step": 13599
    },
    {
      "epoch": 0.3022222222222222,
      "grad_norm": 1.4668461084365845,
      "learning_rate": 0.00013958657479439877,
      "loss": 1.1607,
      "step": 13600
    },
    {
      "epoch": 0.3022444444444444,
      "grad_norm": 1.2907363176345825,
      "learning_rate": 0.00013958212936208045,
      "loss": 2.7594,
      "step": 13601
    },
    {
      "epoch": 0.3022666666666667,
      "grad_norm": 0.9014082551002502,
      "learning_rate": 0.00013957768392976218,
      "loss": 1.2262,
      "step": 13602
    },
    {
      "epoch": 0.3022888888888889,
      "grad_norm": 1.154075026512146,
      "learning_rate": 0.0001395732384974439,
      "loss": 1.0902,
      "step": 13603
    },
    {
      "epoch": 0.3023111111111111,
      "grad_norm": 1.5777803659439087,
      "learning_rate": 0.00013956879306512558,
      "loss": 1.5066,
      "step": 13604
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 1.4857807159423828,
      "learning_rate": 0.0001395643476328073,
      "loss": 2.2617,
      "step": 13605
    },
    {
      "epoch": 0.30235555555555554,
      "grad_norm": 1.6189955472946167,
      "learning_rate": 0.000139559902200489,
      "loss": 2.3754,
      "step": 13606
    },
    {
      "epoch": 0.3023777777777778,
      "grad_norm": 1.3329392671585083,
      "learning_rate": 0.0001395554567681707,
      "loss": 2.2324,
      "step": 13607
    },
    {
      "epoch": 0.3024,
      "grad_norm": 1.6185524463653564,
      "learning_rate": 0.00013955101133585242,
      "loss": 2.2679,
      "step": 13608
    },
    {
      "epoch": 0.3024222222222222,
      "grad_norm": 1.518144130706787,
      "learning_rate": 0.00013954656590353412,
      "loss": 1.1889,
      "step": 13609
    },
    {
      "epoch": 0.30244444444444446,
      "grad_norm": 1.596171498298645,
      "learning_rate": 0.00013954212047121583,
      "loss": 1.6537,
      "step": 13610
    },
    {
      "epoch": 0.30246666666666666,
      "grad_norm": 1.2813036441802979,
      "learning_rate": 0.00013953767503889754,
      "loss": 2.012,
      "step": 13611
    },
    {
      "epoch": 0.30248888888888886,
      "grad_norm": 1.3366460800170898,
      "learning_rate": 0.00013953322960657925,
      "loss": 2.0596,
      "step": 13612
    },
    {
      "epoch": 0.3025111111111111,
      "grad_norm": 1.9018512964248657,
      "learning_rate": 0.00013952878417426096,
      "loss": 1.1506,
      "step": 13613
    },
    {
      "epoch": 0.3025333333333333,
      "grad_norm": 1.8160994052886963,
      "learning_rate": 0.00013952433874194267,
      "loss": 1.9054,
      "step": 13614
    },
    {
      "epoch": 0.3025555555555556,
      "grad_norm": 1.389988660812378,
      "learning_rate": 0.00013951989330962436,
      "loss": 1.7565,
      "step": 13615
    },
    {
      "epoch": 0.3025777777777778,
      "grad_norm": 1.627014398574829,
      "learning_rate": 0.0001395154478773061,
      "loss": 0.0684,
      "step": 13616
    },
    {
      "epoch": 0.3026,
      "grad_norm": 1.1802722215652466,
      "learning_rate": 0.00013951100244498777,
      "loss": 1.0369,
      "step": 13617
    },
    {
      "epoch": 0.30262222222222224,
      "grad_norm": 1.1944799423217773,
      "learning_rate": 0.00013950655701266948,
      "loss": 1.5127,
      "step": 13618
    },
    {
      "epoch": 0.30264444444444444,
      "grad_norm": 1.379866361618042,
      "learning_rate": 0.0001395021115803512,
      "loss": 1.9905,
      "step": 13619
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 1.529077172279358,
      "learning_rate": 0.0001394976661480329,
      "loss": 2.122,
      "step": 13620
    },
    {
      "epoch": 0.3026888888888889,
      "grad_norm": 1.7452797889709473,
      "learning_rate": 0.0001394932207157146,
      "loss": 2.2538,
      "step": 13621
    },
    {
      "epoch": 0.3027111111111111,
      "grad_norm": 1.4753944873809814,
      "learning_rate": 0.00013948877528339632,
      "loss": 1.7942,
      "step": 13622
    },
    {
      "epoch": 0.30273333333333335,
      "grad_norm": 1.5363773107528687,
      "learning_rate": 0.00013948432985107803,
      "loss": 2.3794,
      "step": 13623
    },
    {
      "epoch": 0.30275555555555556,
      "grad_norm": 1.6231931447982788,
      "learning_rate": 0.00013947988441875971,
      "loss": 2.0161,
      "step": 13624
    },
    {
      "epoch": 0.30277777777777776,
      "grad_norm": 1.8446481227874756,
      "learning_rate": 0.00013947543898644145,
      "loss": 2.0047,
      "step": 13625
    },
    {
      "epoch": 0.3028,
      "grad_norm": 1.3616507053375244,
      "learning_rate": 0.00013947099355412313,
      "loss": 1.6826,
      "step": 13626
    },
    {
      "epoch": 0.3028222222222222,
      "grad_norm": 1.62070894241333,
      "learning_rate": 0.00013946654812180487,
      "loss": 1.8151,
      "step": 13627
    },
    {
      "epoch": 0.30284444444444447,
      "grad_norm": 1.4197635650634766,
      "learning_rate": 0.00013946210268948655,
      "loss": 1.9249,
      "step": 13628
    },
    {
      "epoch": 0.3028666666666667,
      "grad_norm": 1.55915367603302,
      "learning_rate": 0.00013945765725716826,
      "loss": 2.1272,
      "step": 13629
    },
    {
      "epoch": 0.3028888888888889,
      "grad_norm": 1.4122544527053833,
      "learning_rate": 0.00013945321182484997,
      "loss": 1.9366,
      "step": 13630
    },
    {
      "epoch": 0.30291111111111113,
      "grad_norm": 0.9795495271682739,
      "learning_rate": 0.00013944876639253168,
      "loss": 0.5489,
      "step": 13631
    },
    {
      "epoch": 0.30293333333333333,
      "grad_norm": 1.901584506034851,
      "learning_rate": 0.0001394443209602134,
      "loss": 2.3034,
      "step": 13632
    },
    {
      "epoch": 0.30295555555555553,
      "grad_norm": 1.20268976688385,
      "learning_rate": 0.0001394398755278951,
      "loss": 1.087,
      "step": 13633
    },
    {
      "epoch": 0.3029777777777778,
      "grad_norm": 1.4633170366287231,
      "learning_rate": 0.0001394354300955768,
      "loss": 1.9528,
      "step": 13634
    },
    {
      "epoch": 0.303,
      "grad_norm": 1.4948315620422363,
      "learning_rate": 0.0001394309846632585,
      "loss": 1.9253,
      "step": 13635
    },
    {
      "epoch": 0.30302222222222225,
      "grad_norm": 2.158743143081665,
      "learning_rate": 0.00013942653923094023,
      "loss": 2.2511,
      "step": 13636
    },
    {
      "epoch": 0.30304444444444445,
      "grad_norm": 1.6421869993209839,
      "learning_rate": 0.0001394220937986219,
      "loss": 1.9881,
      "step": 13637
    },
    {
      "epoch": 0.30306666666666665,
      "grad_norm": 1.572248935699463,
      "learning_rate": 0.00013941764836630362,
      "loss": 1.6218,
      "step": 13638
    },
    {
      "epoch": 0.3030888888888889,
      "grad_norm": 1.4282870292663574,
      "learning_rate": 0.00013941320293398533,
      "loss": 1.6247,
      "step": 13639
    },
    {
      "epoch": 0.3031111111111111,
      "grad_norm": 1.841686487197876,
      "learning_rate": 0.00013940875750166704,
      "loss": 2.0158,
      "step": 13640
    },
    {
      "epoch": 0.3031333333333333,
      "grad_norm": 1.7895939350128174,
      "learning_rate": 0.00013940431206934875,
      "loss": 1.5481,
      "step": 13641
    },
    {
      "epoch": 0.30315555555555557,
      "grad_norm": 1.6414110660552979,
      "learning_rate": 0.00013939986663703046,
      "loss": 1.8246,
      "step": 13642
    },
    {
      "epoch": 0.30317777777777777,
      "grad_norm": 1.658042311668396,
      "learning_rate": 0.00013939542120471217,
      "loss": 2.3278,
      "step": 13643
    },
    {
      "epoch": 0.3032,
      "grad_norm": 1.7173064947128296,
      "learning_rate": 0.00013939097577239385,
      "loss": 1.5876,
      "step": 13644
    },
    {
      "epoch": 0.3032222222222222,
      "grad_norm": 1.884833812713623,
      "learning_rate": 0.0001393865303400756,
      "loss": 2.0696,
      "step": 13645
    },
    {
      "epoch": 0.3032444444444444,
      "grad_norm": 1.4491287469863892,
      "learning_rate": 0.00013938208490775727,
      "loss": 1.5145,
      "step": 13646
    },
    {
      "epoch": 0.3032666666666667,
      "grad_norm": 1.8227890729904175,
      "learning_rate": 0.000139377639475439,
      "loss": 1.7946,
      "step": 13647
    },
    {
      "epoch": 0.3032888888888889,
      "grad_norm": 1.6972851753234863,
      "learning_rate": 0.0001393731940431207,
      "loss": 1.7843,
      "step": 13648
    },
    {
      "epoch": 0.3033111111111111,
      "grad_norm": 2.4729740619659424,
      "learning_rate": 0.0001393687486108024,
      "loss": 1.9795,
      "step": 13649
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 1.3949693441390991,
      "learning_rate": 0.0001393643031784841,
      "loss": 0.6829,
      "step": 13650
    },
    {
      "epoch": 0.30335555555555554,
      "grad_norm": 1.6058905124664307,
      "learning_rate": 0.00013935985774616582,
      "loss": 2.2195,
      "step": 13651
    },
    {
      "epoch": 0.3033777777777778,
      "grad_norm": 1.9465945959091187,
      "learning_rate": 0.00013935541231384753,
      "loss": 2.4302,
      "step": 13652
    },
    {
      "epoch": 0.3034,
      "grad_norm": 1.6860383749008179,
      "learning_rate": 0.00013935096688152924,
      "loss": 2.7166,
      "step": 13653
    },
    {
      "epoch": 0.3034222222222222,
      "grad_norm": 2.19301700592041,
      "learning_rate": 0.00013934652144921095,
      "loss": 2.5708,
      "step": 13654
    },
    {
      "epoch": 0.30344444444444446,
      "grad_norm": 1.4928231239318848,
      "learning_rate": 0.00013934207601689263,
      "loss": 2.0816,
      "step": 13655
    },
    {
      "epoch": 0.30346666666666666,
      "grad_norm": 1.4616715908050537,
      "learning_rate": 0.00013933763058457437,
      "loss": 2.1084,
      "step": 13656
    },
    {
      "epoch": 0.30348888888888886,
      "grad_norm": 1.4299705028533936,
      "learning_rate": 0.00013933318515225605,
      "loss": 2.3193,
      "step": 13657
    },
    {
      "epoch": 0.3035111111111111,
      "grad_norm": 1.5065031051635742,
      "learning_rate": 0.00013932873971993776,
      "loss": 2.3098,
      "step": 13658
    },
    {
      "epoch": 0.3035333333333333,
      "grad_norm": 1.3576568365097046,
      "learning_rate": 0.00013932429428761947,
      "loss": 2.1547,
      "step": 13659
    },
    {
      "epoch": 0.3035555555555556,
      "grad_norm": 1.5722484588623047,
      "learning_rate": 0.00013931984885530118,
      "loss": 2.2599,
      "step": 13660
    },
    {
      "epoch": 0.3035777777777778,
      "grad_norm": 1.542235016822815,
      "learning_rate": 0.0001393154034229829,
      "loss": 1.801,
      "step": 13661
    },
    {
      "epoch": 0.3036,
      "grad_norm": 1.4796940088272095,
      "learning_rate": 0.0001393109579906646,
      "loss": 1.9022,
      "step": 13662
    },
    {
      "epoch": 0.30362222222222224,
      "grad_norm": 1.305196762084961,
      "learning_rate": 0.0001393065125583463,
      "loss": 1.9466,
      "step": 13663
    },
    {
      "epoch": 0.30364444444444444,
      "grad_norm": 1.4405767917633057,
      "learning_rate": 0.000139302067126028,
      "loss": 0.9197,
      "step": 13664
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 1.363928198814392,
      "learning_rate": 0.00013929762169370973,
      "loss": 1.7136,
      "step": 13665
    },
    {
      "epoch": 0.3036888888888889,
      "grad_norm": 1.7448279857635498,
      "learning_rate": 0.0001392931762613914,
      "loss": 2.0988,
      "step": 13666
    },
    {
      "epoch": 0.3037111111111111,
      "grad_norm": 1.9401049613952637,
      "learning_rate": 0.00013928873082907315,
      "loss": 1.8105,
      "step": 13667
    },
    {
      "epoch": 0.30373333333333336,
      "grad_norm": 1.4465364217758179,
      "learning_rate": 0.00013928428539675483,
      "loss": 1.8145,
      "step": 13668
    },
    {
      "epoch": 0.30375555555555556,
      "grad_norm": 1.319559931755066,
      "learning_rate": 0.00013927983996443654,
      "loss": 1.5626,
      "step": 13669
    },
    {
      "epoch": 0.30377777777777776,
      "grad_norm": 1.4462568759918213,
      "learning_rate": 0.00013927539453211828,
      "loss": 1.9931,
      "step": 13670
    },
    {
      "epoch": 0.3038,
      "grad_norm": 1.8820627927780151,
      "learning_rate": 0.00013927094909979996,
      "loss": 2.403,
      "step": 13671
    },
    {
      "epoch": 0.3038222222222222,
      "grad_norm": 1.9192402362823486,
      "learning_rate": 0.00013926650366748167,
      "loss": 2.3822,
      "step": 13672
    },
    {
      "epoch": 0.3038444444444444,
      "grad_norm": 1.864487648010254,
      "learning_rate": 0.00013926205823516338,
      "loss": 2.2854,
      "step": 13673
    },
    {
      "epoch": 0.3038666666666667,
      "grad_norm": 1.6464602947235107,
      "learning_rate": 0.0001392576128028451,
      "loss": 1.6604,
      "step": 13674
    },
    {
      "epoch": 0.3038888888888889,
      "grad_norm": 1.5282018184661865,
      "learning_rate": 0.00013925316737052677,
      "loss": 1.7573,
      "step": 13675
    },
    {
      "epoch": 0.30391111111111113,
      "grad_norm": 1.356603741645813,
      "learning_rate": 0.0001392487219382085,
      "loss": 1.8161,
      "step": 13676
    },
    {
      "epoch": 0.30393333333333333,
      "grad_norm": 1.5256400108337402,
      "learning_rate": 0.00013924427650589022,
      "loss": 2.1127,
      "step": 13677
    },
    {
      "epoch": 0.30395555555555553,
      "grad_norm": 1.5401711463928223,
      "learning_rate": 0.0001392398310735719,
      "loss": 1.5407,
      "step": 13678
    },
    {
      "epoch": 0.3039777777777778,
      "grad_norm": 1.712289810180664,
      "learning_rate": 0.00013923538564125364,
      "loss": 1.8261,
      "step": 13679
    },
    {
      "epoch": 0.304,
      "grad_norm": 1.1488196849822998,
      "learning_rate": 0.00013923094020893532,
      "loss": 1.2229,
      "step": 13680
    },
    {
      "epoch": 0.30402222222222225,
      "grad_norm": 1.5059146881103516,
      "learning_rate": 0.00013922649477661703,
      "loss": 1.8138,
      "step": 13681
    },
    {
      "epoch": 0.30404444444444445,
      "grad_norm": 1.69931960105896,
      "learning_rate": 0.00013922204934429874,
      "loss": 1.5533,
      "step": 13682
    },
    {
      "epoch": 0.30406666666666665,
      "grad_norm": 2.1295313835144043,
      "learning_rate": 0.00013921760391198045,
      "loss": 2.436,
      "step": 13683
    },
    {
      "epoch": 0.3040888888888889,
      "grad_norm": 1.294191598892212,
      "learning_rate": 0.00013921315847966216,
      "loss": 1.6828,
      "step": 13684
    },
    {
      "epoch": 0.3041111111111111,
      "grad_norm": 1.4992022514343262,
      "learning_rate": 0.00013920871304734387,
      "loss": 1.6828,
      "step": 13685
    },
    {
      "epoch": 0.3041333333333333,
      "grad_norm": 1.6657321453094482,
      "learning_rate": 0.00013920426761502558,
      "loss": 1.9787,
      "step": 13686
    },
    {
      "epoch": 0.30415555555555557,
      "grad_norm": 1.5683879852294922,
      "learning_rate": 0.00013919982218270729,
      "loss": 1.8648,
      "step": 13687
    },
    {
      "epoch": 0.30417777777777777,
      "grad_norm": 1.6174489259719849,
      "learning_rate": 0.000139195376750389,
      "loss": 1.9636,
      "step": 13688
    },
    {
      "epoch": 0.3042,
      "grad_norm": 1.7671178579330444,
      "learning_rate": 0.00013919093131807068,
      "loss": 1.8409,
      "step": 13689
    },
    {
      "epoch": 0.3042222222222222,
      "grad_norm": 1.4827687740325928,
      "learning_rate": 0.00013918648588575241,
      "loss": 2.0203,
      "step": 13690
    },
    {
      "epoch": 0.30424444444444443,
      "grad_norm": 1.6786807775497437,
      "learning_rate": 0.0001391820404534341,
      "loss": 2.2223,
      "step": 13691
    },
    {
      "epoch": 0.3042666666666667,
      "grad_norm": 1.5595284700393677,
      "learning_rate": 0.0001391775950211158,
      "loss": 1.6408,
      "step": 13692
    },
    {
      "epoch": 0.3042888888888889,
      "grad_norm": 1.6192582845687866,
      "learning_rate": 0.00013917314958879752,
      "loss": 1.8007,
      "step": 13693
    },
    {
      "epoch": 0.3043111111111111,
      "grad_norm": 1.4452760219573975,
      "learning_rate": 0.00013916870415647923,
      "loss": 1.6401,
      "step": 13694
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 1.9201929569244385,
      "learning_rate": 0.00013916425872416094,
      "loss": 2.0671,
      "step": 13695
    },
    {
      "epoch": 0.30435555555555555,
      "grad_norm": 1.9534897804260254,
      "learning_rate": 0.00013915981329184264,
      "loss": 1.9621,
      "step": 13696
    },
    {
      "epoch": 0.3043777777777778,
      "grad_norm": 1.6889088153839111,
      "learning_rate": 0.00013915536785952435,
      "loss": 2.1839,
      "step": 13697
    },
    {
      "epoch": 0.3044,
      "grad_norm": 1.5589231252670288,
      "learning_rate": 0.00013915092242720604,
      "loss": 1.6073,
      "step": 13698
    },
    {
      "epoch": 0.3044222222222222,
      "grad_norm": 2.148355007171631,
      "learning_rate": 0.00013914647699488777,
      "loss": 1.9177,
      "step": 13699
    },
    {
      "epoch": 0.30444444444444446,
      "grad_norm": 1.7534397840499878,
      "learning_rate": 0.00013914203156256946,
      "loss": 1.1901,
      "step": 13700
    },
    {
      "epoch": 0.30446666666666666,
      "grad_norm": 0.9341179728507996,
      "learning_rate": 0.00013913758613025117,
      "loss": 1.1749,
      "step": 13701
    },
    {
      "epoch": 0.30448888888888886,
      "grad_norm": 1.2922115325927734,
      "learning_rate": 0.00013913314069793288,
      "loss": 2.1997,
      "step": 13702
    },
    {
      "epoch": 0.3045111111111111,
      "grad_norm": 1.3933700323104858,
      "learning_rate": 0.00013912869526561459,
      "loss": 2.8889,
      "step": 13703
    },
    {
      "epoch": 0.3045333333333333,
      "grad_norm": 1.676308035850525,
      "learning_rate": 0.0001391242498332963,
      "loss": 2.3023,
      "step": 13704
    },
    {
      "epoch": 0.3045555555555556,
      "grad_norm": 1.505165934562683,
      "learning_rate": 0.000139119804400978,
      "loss": 2.4922,
      "step": 13705
    },
    {
      "epoch": 0.3045777777777778,
      "grad_norm": 1.4070775508880615,
      "learning_rate": 0.00013911535896865971,
      "loss": 1.9942,
      "step": 13706
    },
    {
      "epoch": 0.3046,
      "grad_norm": 1.4939082860946655,
      "learning_rate": 0.00013911091353634142,
      "loss": 2.1309,
      "step": 13707
    },
    {
      "epoch": 0.30462222222222224,
      "grad_norm": 1.3338706493377686,
      "learning_rate": 0.00013910646810402313,
      "loss": 1.9111,
      "step": 13708
    },
    {
      "epoch": 0.30464444444444444,
      "grad_norm": 1.5333561897277832,
      "learning_rate": 0.00013910202267170482,
      "loss": 2.5194,
      "step": 13709
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 1.7375473976135254,
      "learning_rate": 0.00013909757723938655,
      "loss": 2.103,
      "step": 13710
    },
    {
      "epoch": 0.3046888888888889,
      "grad_norm": 2.8479132652282715,
      "learning_rate": 0.00013909313180706824,
      "loss": 1.8871,
      "step": 13711
    },
    {
      "epoch": 0.3047111111111111,
      "grad_norm": 1.2814732789993286,
      "learning_rate": 0.00013908868637474994,
      "loss": 1.8202,
      "step": 13712
    },
    {
      "epoch": 0.30473333333333336,
      "grad_norm": 1.862287998199463,
      "learning_rate": 0.00013908424094243165,
      "loss": 1.643,
      "step": 13713
    },
    {
      "epoch": 0.30475555555555556,
      "grad_norm": 1.3170785903930664,
      "learning_rate": 0.00013907979551011336,
      "loss": 1.937,
      "step": 13714
    },
    {
      "epoch": 0.30477777777777776,
      "grad_norm": 1.4372085332870483,
      "learning_rate": 0.00013907535007779507,
      "loss": 2.2764,
      "step": 13715
    },
    {
      "epoch": 0.3048,
      "grad_norm": 1.567046046257019,
      "learning_rate": 0.00013907090464547678,
      "loss": 1.8159,
      "step": 13716
    },
    {
      "epoch": 0.3048222222222222,
      "grad_norm": 2.4650163650512695,
      "learning_rate": 0.0001390664592131585,
      "loss": 1.9537,
      "step": 13717
    },
    {
      "epoch": 0.3048444444444444,
      "grad_norm": 1.476766586303711,
      "learning_rate": 0.00013906201378084018,
      "loss": 2.0097,
      "step": 13718
    },
    {
      "epoch": 0.3048666666666667,
      "grad_norm": 1.6958833932876587,
      "learning_rate": 0.0001390575683485219,
      "loss": 2.0878,
      "step": 13719
    },
    {
      "epoch": 0.3048888888888889,
      "grad_norm": 1.4559109210968018,
      "learning_rate": 0.0001390531229162036,
      "loss": 1.6499,
      "step": 13720
    },
    {
      "epoch": 0.30491111111111113,
      "grad_norm": 1.3385353088378906,
      "learning_rate": 0.0001390486774838853,
      "loss": 1.5517,
      "step": 13721
    },
    {
      "epoch": 0.30493333333333333,
      "grad_norm": 2.0399246215820312,
      "learning_rate": 0.00013904423205156701,
      "loss": 2.1007,
      "step": 13722
    },
    {
      "epoch": 0.30495555555555554,
      "grad_norm": 1.6132887601852417,
      "learning_rate": 0.00013903978661924872,
      "loss": 1.9557,
      "step": 13723
    },
    {
      "epoch": 0.3049777777777778,
      "grad_norm": 1.4522148370742798,
      "learning_rate": 0.00013903534118693043,
      "loss": 1.9917,
      "step": 13724
    },
    {
      "epoch": 0.305,
      "grad_norm": 1.9510313272476196,
      "learning_rate": 0.00013903089575461214,
      "loss": 2.8407,
      "step": 13725
    },
    {
      "epoch": 0.3050222222222222,
      "grad_norm": 1.701329231262207,
      "learning_rate": 0.00013902645032229385,
      "loss": 1.9405,
      "step": 13726
    },
    {
      "epoch": 0.30504444444444445,
      "grad_norm": 1.383161187171936,
      "learning_rate": 0.00013902200488997556,
      "loss": 1.6601,
      "step": 13727
    },
    {
      "epoch": 0.30506666666666665,
      "grad_norm": 1.4945966005325317,
      "learning_rate": 0.00013901755945765727,
      "loss": 1.9873,
      "step": 13728
    },
    {
      "epoch": 0.3050888888888889,
      "grad_norm": 0.16321808099746704,
      "learning_rate": 0.00013901311402533895,
      "loss": 0.0306,
      "step": 13729
    },
    {
      "epoch": 0.3051111111111111,
      "grad_norm": 1.448625087738037,
      "learning_rate": 0.0001390086685930207,
      "loss": 1.6087,
      "step": 13730
    },
    {
      "epoch": 0.3051333333333333,
      "grad_norm": 1.1532068252563477,
      "learning_rate": 0.00013900422316070237,
      "loss": 0.7173,
      "step": 13731
    },
    {
      "epoch": 0.30515555555555557,
      "grad_norm": 1.8345098495483398,
      "learning_rate": 0.00013899977772838408,
      "loss": 2.3861,
      "step": 13732
    },
    {
      "epoch": 0.30517777777777777,
      "grad_norm": 1.3960418701171875,
      "learning_rate": 0.0001389953322960658,
      "loss": 1.9036,
      "step": 13733
    },
    {
      "epoch": 0.3052,
      "grad_norm": 1.5755211114883423,
      "learning_rate": 0.0001389908868637475,
      "loss": 2.0238,
      "step": 13734
    },
    {
      "epoch": 0.30522222222222223,
      "grad_norm": 1.6024249792099,
      "learning_rate": 0.0001389864414314292,
      "loss": 2.0097,
      "step": 13735
    },
    {
      "epoch": 0.30524444444444443,
      "grad_norm": 1.623235821723938,
      "learning_rate": 0.00013898199599911092,
      "loss": 1.8381,
      "step": 13736
    },
    {
      "epoch": 0.3052666666666667,
      "grad_norm": 1.4286805391311646,
      "learning_rate": 0.00013897755056679263,
      "loss": 1.7552,
      "step": 13737
    },
    {
      "epoch": 0.3052888888888889,
      "grad_norm": 1.5654516220092773,
      "learning_rate": 0.0001389731051344743,
      "loss": 2.1763,
      "step": 13738
    },
    {
      "epoch": 0.3053111111111111,
      "grad_norm": 1.7787368297576904,
      "learning_rate": 0.00013896865970215605,
      "loss": 1.939,
      "step": 13739
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 1.5498270988464355,
      "learning_rate": 0.00013896421426983773,
      "loss": 1.9282,
      "step": 13740
    },
    {
      "epoch": 0.30535555555555555,
      "grad_norm": 1.6146597862243652,
      "learning_rate": 0.00013895976883751947,
      "loss": 1.7698,
      "step": 13741
    },
    {
      "epoch": 0.3053777777777778,
      "grad_norm": 1.729714035987854,
      "learning_rate": 0.00013895532340520118,
      "loss": 1.72,
      "step": 13742
    },
    {
      "epoch": 0.3054,
      "grad_norm": 1.3762142658233643,
      "learning_rate": 0.00013895087797288286,
      "loss": 1.5389,
      "step": 13743
    },
    {
      "epoch": 0.3054222222222222,
      "grad_norm": 2.120990037918091,
      "learning_rate": 0.0001389464325405646,
      "loss": 1.6122,
      "step": 13744
    },
    {
      "epoch": 0.30544444444444446,
      "grad_norm": 1.5022410154342651,
      "learning_rate": 0.00013894198710824628,
      "loss": 1.624,
      "step": 13745
    },
    {
      "epoch": 0.30546666666666666,
      "grad_norm": 1.3016598224639893,
      "learning_rate": 0.000138937541675928,
      "loss": 1.0656,
      "step": 13746
    },
    {
      "epoch": 0.30548888888888887,
      "grad_norm": 1.628497838973999,
      "learning_rate": 0.0001389330962436097,
      "loss": 1.7045,
      "step": 13747
    },
    {
      "epoch": 0.3055111111111111,
      "grad_norm": 1.5169780254364014,
      "learning_rate": 0.0001389286508112914,
      "loss": 1.7602,
      "step": 13748
    },
    {
      "epoch": 0.3055333333333333,
      "grad_norm": 1.843976616859436,
      "learning_rate": 0.0001389242053789731,
      "loss": 1.0853,
      "step": 13749
    },
    {
      "epoch": 0.3055555555555556,
      "grad_norm": 1.7067950963974,
      "learning_rate": 0.00013891975994665483,
      "loss": 1.6801,
      "step": 13750
    },
    {
      "epoch": 0.3055777777777778,
      "grad_norm": 1.2024327516555786,
      "learning_rate": 0.00013891531451433654,
      "loss": 2.4265,
      "step": 13751
    },
    {
      "epoch": 0.3056,
      "grad_norm": 1.4422208070755005,
      "learning_rate": 0.00013891086908201822,
      "loss": 2.6603,
      "step": 13752
    },
    {
      "epoch": 0.30562222222222224,
      "grad_norm": 1.7801992893218994,
      "learning_rate": 0.00013890642364969996,
      "loss": 2.3123,
      "step": 13753
    },
    {
      "epoch": 0.30564444444444444,
      "grad_norm": 0.9899319410324097,
      "learning_rate": 0.00013890197821738164,
      "loss": 1.1771,
      "step": 13754
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 1.6449174880981445,
      "learning_rate": 0.00013889753278506335,
      "loss": 2.658,
      "step": 13755
    },
    {
      "epoch": 0.3056888888888889,
      "grad_norm": 1.7780181169509888,
      "learning_rate": 0.00013889308735274506,
      "loss": 2.3067,
      "step": 13756
    },
    {
      "epoch": 0.3057111111111111,
      "grad_norm": 1.4242727756500244,
      "learning_rate": 0.00013888864192042677,
      "loss": 2.2731,
      "step": 13757
    },
    {
      "epoch": 0.30573333333333336,
      "grad_norm": 1.505516529083252,
      "learning_rate": 0.00013888419648810845,
      "loss": 2.2267,
      "step": 13758
    },
    {
      "epoch": 0.30575555555555556,
      "grad_norm": 1.5384268760681152,
      "learning_rate": 0.0001388797510557902,
      "loss": 1.1075,
      "step": 13759
    },
    {
      "epoch": 0.30577777777777776,
      "grad_norm": 1.3866219520568848,
      "learning_rate": 0.0001388753056234719,
      "loss": 1.5991,
      "step": 13760
    },
    {
      "epoch": 0.3058,
      "grad_norm": 1.5545363426208496,
      "learning_rate": 0.0001388708601911536,
      "loss": 1.6708,
      "step": 13761
    },
    {
      "epoch": 0.3058222222222222,
      "grad_norm": 1.4898438453674316,
      "learning_rate": 0.00013886641475883532,
      "loss": 2.0911,
      "step": 13762
    },
    {
      "epoch": 0.3058444444444444,
      "grad_norm": 1.4648627042770386,
      "learning_rate": 0.000138861969326517,
      "loss": 1.9253,
      "step": 13763
    },
    {
      "epoch": 0.3058666666666667,
      "grad_norm": 1.6768361330032349,
      "learning_rate": 0.00013885752389419874,
      "loss": 2.3743,
      "step": 13764
    },
    {
      "epoch": 0.3058888888888889,
      "grad_norm": 1.3615089654922485,
      "learning_rate": 0.00013885307846188042,
      "loss": 2.3888,
      "step": 13765
    },
    {
      "epoch": 0.30591111111111113,
      "grad_norm": 1.2548315525054932,
      "learning_rate": 0.00013884863302956213,
      "loss": 1.9823,
      "step": 13766
    },
    {
      "epoch": 0.30593333333333333,
      "grad_norm": 1.451814889907837,
      "learning_rate": 0.00013884418759724384,
      "loss": 1.8841,
      "step": 13767
    },
    {
      "epoch": 0.30595555555555554,
      "grad_norm": 1.6232117414474487,
      "learning_rate": 0.00013883974216492555,
      "loss": 2.5485,
      "step": 13768
    },
    {
      "epoch": 0.3059777777777778,
      "grad_norm": 1.1473405361175537,
      "learning_rate": 0.00013883529673260726,
      "loss": 1.3513,
      "step": 13769
    },
    {
      "epoch": 0.306,
      "grad_norm": 1.053438425064087,
      "learning_rate": 0.00013883085130028897,
      "loss": 1.0004,
      "step": 13770
    },
    {
      "epoch": 0.3060222222222222,
      "grad_norm": 1.4854295253753662,
      "learning_rate": 0.00013882640586797068,
      "loss": 1.8391,
      "step": 13771
    },
    {
      "epoch": 0.30604444444444445,
      "grad_norm": 1.3416213989257812,
      "learning_rate": 0.00013882196043565236,
      "loss": 1.2066,
      "step": 13772
    },
    {
      "epoch": 0.30606666666666665,
      "grad_norm": 1.6513631343841553,
      "learning_rate": 0.0001388175150033341,
      "loss": 2.0405,
      "step": 13773
    },
    {
      "epoch": 0.3060888888888889,
      "grad_norm": 1.6390308141708374,
      "learning_rate": 0.00013881306957101578,
      "loss": 2.3473,
      "step": 13774
    },
    {
      "epoch": 0.3061111111111111,
      "grad_norm": 1.439377784729004,
      "learning_rate": 0.0001388086241386975,
      "loss": 1.5413,
      "step": 13775
    },
    {
      "epoch": 0.3061333333333333,
      "grad_norm": 2.0975334644317627,
      "learning_rate": 0.0001388041787063792,
      "loss": 2.2373,
      "step": 13776
    },
    {
      "epoch": 0.30615555555555557,
      "grad_norm": 1.652158498764038,
      "learning_rate": 0.0001387997332740609,
      "loss": 1.9848,
      "step": 13777
    },
    {
      "epoch": 0.30617777777777777,
      "grad_norm": 1.573106050491333,
      "learning_rate": 0.00013879528784174262,
      "loss": 1.9895,
      "step": 13778
    },
    {
      "epoch": 0.3062,
      "grad_norm": 1.8465821743011475,
      "learning_rate": 0.00013879084240942433,
      "loss": 1.8299,
      "step": 13779
    },
    {
      "epoch": 0.30622222222222223,
      "grad_norm": 2.0442779064178467,
      "learning_rate": 0.00013878639697710604,
      "loss": 1.8326,
      "step": 13780
    },
    {
      "epoch": 0.30624444444444443,
      "grad_norm": 1.668172001838684,
      "learning_rate": 0.00013878195154478775,
      "loss": 2.1183,
      "step": 13781
    },
    {
      "epoch": 0.3062666666666667,
      "grad_norm": 1.5456243753433228,
      "learning_rate": 0.00013877750611246946,
      "loss": 1.7699,
      "step": 13782
    },
    {
      "epoch": 0.3062888888888889,
      "grad_norm": 1.6904675960540771,
      "learning_rate": 0.00013877306068015114,
      "loss": 2.1368,
      "step": 13783
    },
    {
      "epoch": 0.3063111111111111,
      "grad_norm": 1.3244386911392212,
      "learning_rate": 0.00013876861524783287,
      "loss": 1.8175,
      "step": 13784
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 1.758496642112732,
      "learning_rate": 0.00013876416981551456,
      "loss": 1.8002,
      "step": 13785
    },
    {
      "epoch": 0.30635555555555555,
      "grad_norm": 1.2628625631332397,
      "learning_rate": 0.00013875972438319627,
      "loss": 1.6281,
      "step": 13786
    },
    {
      "epoch": 0.3063777777777778,
      "grad_norm": 1.4908511638641357,
      "learning_rate": 0.00013875527895087798,
      "loss": 1.789,
      "step": 13787
    },
    {
      "epoch": 0.3064,
      "grad_norm": 1.7477388381958008,
      "learning_rate": 0.00013875083351855969,
      "loss": 2.0453,
      "step": 13788
    },
    {
      "epoch": 0.3064222222222222,
      "grad_norm": 1.8421368598937988,
      "learning_rate": 0.0001387463880862414,
      "loss": 2.2378,
      "step": 13789
    },
    {
      "epoch": 0.30644444444444446,
      "grad_norm": 2.2382020950317383,
      "learning_rate": 0.0001387419426539231,
      "loss": 2.226,
      "step": 13790
    },
    {
      "epoch": 0.30646666666666667,
      "grad_norm": 1.5752580165863037,
      "learning_rate": 0.00013873749722160481,
      "loss": 1.8532,
      "step": 13791
    },
    {
      "epoch": 0.30648888888888887,
      "grad_norm": 1.6521440744400024,
      "learning_rate": 0.0001387330517892865,
      "loss": 1.9577,
      "step": 13792
    },
    {
      "epoch": 0.3065111111111111,
      "grad_norm": 1.4919140338897705,
      "learning_rate": 0.00013872860635696823,
      "loss": 1.7768,
      "step": 13793
    },
    {
      "epoch": 0.3065333333333333,
      "grad_norm": 1.6336369514465332,
      "learning_rate": 0.00013872416092464992,
      "loss": 1.8945,
      "step": 13794
    },
    {
      "epoch": 0.3065555555555556,
      "grad_norm": 1.6614155769348145,
      "learning_rate": 0.00013871971549233163,
      "loss": 1.8677,
      "step": 13795
    },
    {
      "epoch": 0.3065777777777778,
      "grad_norm": 1.8231849670410156,
      "learning_rate": 0.00013871527006001334,
      "loss": 1.9523,
      "step": 13796
    },
    {
      "epoch": 0.3066,
      "grad_norm": 1.5446659326553345,
      "learning_rate": 0.00013871082462769505,
      "loss": 1.9276,
      "step": 13797
    },
    {
      "epoch": 0.30662222222222224,
      "grad_norm": 1.597603440284729,
      "learning_rate": 0.00013870637919537676,
      "loss": 1.6813,
      "step": 13798
    },
    {
      "epoch": 0.30664444444444444,
      "grad_norm": 1.6375997066497803,
      "learning_rate": 0.00013870193376305846,
      "loss": 1.8511,
      "step": 13799
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 1.0835840702056885,
      "learning_rate": 0.00013869748833074017,
      "loss": 0.0593,
      "step": 13800
    },
    {
      "epoch": 0.3066888888888889,
      "grad_norm": 1.3348485231399536,
      "learning_rate": 0.00013869304289842188,
      "loss": 2.3574,
      "step": 13801
    },
    {
      "epoch": 0.3067111111111111,
      "grad_norm": 1.541895866394043,
      "learning_rate": 0.0001386885974661036,
      "loss": 2.3303,
      "step": 13802
    },
    {
      "epoch": 0.30673333333333336,
      "grad_norm": 1.3982082605361938,
      "learning_rate": 0.00013868415203378528,
      "loss": 2.203,
      "step": 13803
    },
    {
      "epoch": 0.30675555555555556,
      "grad_norm": 1.6466811895370483,
      "learning_rate": 0.000138679706601467,
      "loss": 2.3671,
      "step": 13804
    },
    {
      "epoch": 0.30677777777777776,
      "grad_norm": 1.5009733438491821,
      "learning_rate": 0.0001386752611691487,
      "loss": 2.1374,
      "step": 13805
    },
    {
      "epoch": 0.3068,
      "grad_norm": 1.4587434530258179,
      "learning_rate": 0.0001386708157368304,
      "loss": 2.2152,
      "step": 13806
    },
    {
      "epoch": 0.3068222222222222,
      "grad_norm": 1.6604282855987549,
      "learning_rate": 0.00013866637030451211,
      "loss": 2.2034,
      "step": 13807
    },
    {
      "epoch": 0.3068444444444444,
      "grad_norm": 1.4450674057006836,
      "learning_rate": 0.00013866192487219382,
      "loss": 1.5881,
      "step": 13808
    },
    {
      "epoch": 0.3068666666666667,
      "grad_norm": 1.7861037254333496,
      "learning_rate": 0.00013865747943987553,
      "loss": 2.2787,
      "step": 13809
    },
    {
      "epoch": 0.3068888888888889,
      "grad_norm": 1.3484361171722412,
      "learning_rate": 0.00013865303400755724,
      "loss": 1.937,
      "step": 13810
    },
    {
      "epoch": 0.30691111111111113,
      "grad_norm": 2.2081892490386963,
      "learning_rate": 0.00013864858857523895,
      "loss": 2.0483,
      "step": 13811
    },
    {
      "epoch": 0.30693333333333334,
      "grad_norm": 1.486942172050476,
      "learning_rate": 0.00013864414314292064,
      "loss": 2.113,
      "step": 13812
    },
    {
      "epoch": 0.30695555555555554,
      "grad_norm": 1.4426084756851196,
      "learning_rate": 0.00013863969771060237,
      "loss": 2.4218,
      "step": 13813
    },
    {
      "epoch": 0.3069777777777778,
      "grad_norm": 1.587053894996643,
      "learning_rate": 0.00013863525227828405,
      "loss": 2.0158,
      "step": 13814
    },
    {
      "epoch": 0.307,
      "grad_norm": 1.4816187620162964,
      "learning_rate": 0.00013863080684596576,
      "loss": 1.8452,
      "step": 13815
    },
    {
      "epoch": 0.3070222222222222,
      "grad_norm": 1.614773154258728,
      "learning_rate": 0.0001386263614136475,
      "loss": 1.9476,
      "step": 13816
    },
    {
      "epoch": 0.30704444444444445,
      "grad_norm": 1.589471697807312,
      "learning_rate": 0.00013862191598132918,
      "loss": 2.3296,
      "step": 13817
    },
    {
      "epoch": 0.30706666666666665,
      "grad_norm": 1.5196164846420288,
      "learning_rate": 0.00013861747054901092,
      "loss": 2.1581,
      "step": 13818
    },
    {
      "epoch": 0.3070888888888889,
      "grad_norm": 1.58475923538208,
      "learning_rate": 0.0001386130251166926,
      "loss": 2.2713,
      "step": 13819
    },
    {
      "epoch": 0.3071111111111111,
      "grad_norm": 1.4467188119888306,
      "learning_rate": 0.0001386085796843743,
      "loss": 2.1797,
      "step": 13820
    },
    {
      "epoch": 0.3071333333333333,
      "grad_norm": 1.2935689687728882,
      "learning_rate": 0.00013860413425205602,
      "loss": 1.5643,
      "step": 13821
    },
    {
      "epoch": 0.30715555555555557,
      "grad_norm": 1.4449868202209473,
      "learning_rate": 0.00013859968881973773,
      "loss": 2.2009,
      "step": 13822
    },
    {
      "epoch": 0.30717777777777777,
      "grad_norm": 1.4313377141952515,
      "learning_rate": 0.00013859524338741941,
      "loss": 1.8908,
      "step": 13823
    },
    {
      "epoch": 0.3072,
      "grad_norm": 1.4670963287353516,
      "learning_rate": 0.00013859079795510115,
      "loss": 2.0201,
      "step": 13824
    },
    {
      "epoch": 0.30722222222222223,
      "grad_norm": 1.5568047761917114,
      "learning_rate": 0.00013858635252278286,
      "loss": 1.951,
      "step": 13825
    },
    {
      "epoch": 0.30724444444444443,
      "grad_norm": 1.5808863639831543,
      "learning_rate": 0.00013858190709046454,
      "loss": 2.2647,
      "step": 13826
    },
    {
      "epoch": 0.3072666666666667,
      "grad_norm": 1.9262381792068481,
      "learning_rate": 0.00013857746165814628,
      "loss": 2.0431,
      "step": 13827
    },
    {
      "epoch": 0.3072888888888889,
      "grad_norm": 1.9138346910476685,
      "learning_rate": 0.00013857301622582796,
      "loss": 2.1639,
      "step": 13828
    },
    {
      "epoch": 0.3073111111111111,
      "grad_norm": 1.6441527605056763,
      "learning_rate": 0.00013856857079350967,
      "loss": 1.8469,
      "step": 13829
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 1.5379667282104492,
      "learning_rate": 0.00013856412536119138,
      "loss": 1.9044,
      "step": 13830
    },
    {
      "epoch": 0.30735555555555555,
      "grad_norm": 1.4608930349349976,
      "learning_rate": 0.0001385596799288731,
      "loss": 1.9218,
      "step": 13831
    },
    {
      "epoch": 0.3073777777777778,
      "grad_norm": 1.5382466316223145,
      "learning_rate": 0.00013855523449655477,
      "loss": 2.0134,
      "step": 13832
    },
    {
      "epoch": 0.3074,
      "grad_norm": 1.8682641983032227,
      "learning_rate": 0.0001385507890642365,
      "loss": 1.9676,
      "step": 13833
    },
    {
      "epoch": 0.3074222222222222,
      "grad_norm": 1.4353758096694946,
      "learning_rate": 0.00013854634363191822,
      "loss": 1.4125,
      "step": 13834
    },
    {
      "epoch": 0.30744444444444446,
      "grad_norm": 1.3262537717819214,
      "learning_rate": 0.00013854189819959993,
      "loss": 1.4804,
      "step": 13835
    },
    {
      "epoch": 0.30746666666666667,
      "grad_norm": 1.4729385375976562,
      "learning_rate": 0.00013853745276728164,
      "loss": 1.7596,
      "step": 13836
    },
    {
      "epoch": 0.30748888888888887,
      "grad_norm": 0.4721151292324066,
      "learning_rate": 0.00013853300733496332,
      "loss": 0.0434,
      "step": 13837
    },
    {
      "epoch": 0.3075111111111111,
      "grad_norm": 2.1302309036254883,
      "learning_rate": 0.00013852856190264506,
      "loss": 2.0111,
      "step": 13838
    },
    {
      "epoch": 0.3075333333333333,
      "grad_norm": 1.4383587837219238,
      "learning_rate": 0.00013852411647032674,
      "loss": 1.9152,
      "step": 13839
    },
    {
      "epoch": 0.3075555555555556,
      "grad_norm": 1.8333278894424438,
      "learning_rate": 0.00013851967103800845,
      "loss": 1.9589,
      "step": 13840
    },
    {
      "epoch": 0.3075777777777778,
      "grad_norm": 1.3966175317764282,
      "learning_rate": 0.00013851522560569016,
      "loss": 1.7144,
      "step": 13841
    },
    {
      "epoch": 0.3076,
      "grad_norm": 1.7173314094543457,
      "learning_rate": 0.00013851078017337187,
      "loss": 1.9803,
      "step": 13842
    },
    {
      "epoch": 0.30762222222222224,
      "grad_norm": 1.3370856046676636,
      "learning_rate": 0.00013850633474105358,
      "loss": 1.5331,
      "step": 13843
    },
    {
      "epoch": 0.30764444444444444,
      "grad_norm": 1.9045332670211792,
      "learning_rate": 0.0001385018893087353,
      "loss": 1.7925,
      "step": 13844
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 1.4250842332839966,
      "learning_rate": 0.000138497443876417,
      "loss": 1.3151,
      "step": 13845
    },
    {
      "epoch": 0.3076888888888889,
      "grad_norm": 1.438642978668213,
      "learning_rate": 0.00013849299844409868,
      "loss": 1.5996,
      "step": 13846
    },
    {
      "epoch": 0.3077111111111111,
      "grad_norm": 1.1389871835708618,
      "learning_rate": 0.00013848855301178042,
      "loss": 1.0116,
      "step": 13847
    },
    {
      "epoch": 0.30773333333333336,
      "grad_norm": 1.452143669128418,
      "learning_rate": 0.0001384841075794621,
      "loss": 1.8159,
      "step": 13848
    },
    {
      "epoch": 0.30775555555555556,
      "grad_norm": 0.20696479082107544,
      "learning_rate": 0.0001384796621471438,
      "loss": 0.0434,
      "step": 13849
    },
    {
      "epoch": 0.30777777777777776,
      "grad_norm": 1.4441680908203125,
      "learning_rate": 0.00013847521671482552,
      "loss": 0.8607,
      "step": 13850
    },
    {
      "epoch": 0.3078,
      "grad_norm": 1.2391107082366943,
      "learning_rate": 0.00013847077128250723,
      "loss": 2.3568,
      "step": 13851
    },
    {
      "epoch": 0.3078222222222222,
      "grad_norm": 0.999893307685852,
      "learning_rate": 0.00013846632585018894,
      "loss": 1.0473,
      "step": 13852
    },
    {
      "epoch": 0.3078444444444444,
      "grad_norm": 1.5987623929977417,
      "learning_rate": 0.00013846188041787065,
      "loss": 2.3809,
      "step": 13853
    },
    {
      "epoch": 0.3078666666666667,
      "grad_norm": 1.7368212938308716,
      "learning_rate": 0.00013845743498555236,
      "loss": 2.2725,
      "step": 13854
    },
    {
      "epoch": 0.3078888888888889,
      "grad_norm": 1.3419880867004395,
      "learning_rate": 0.00013845298955323407,
      "loss": 2.2399,
      "step": 13855
    },
    {
      "epoch": 0.30791111111111114,
      "grad_norm": 1.519182562828064,
      "learning_rate": 0.00013844854412091578,
      "loss": 1.7818,
      "step": 13856
    },
    {
      "epoch": 0.30793333333333334,
      "grad_norm": 1.3966163396835327,
      "learning_rate": 0.00013844409868859746,
      "loss": 2.2215,
      "step": 13857
    },
    {
      "epoch": 0.30795555555555554,
      "grad_norm": 1.440101981163025,
      "learning_rate": 0.0001384396532562792,
      "loss": 2.1294,
      "step": 13858
    },
    {
      "epoch": 0.3079777777777778,
      "grad_norm": 1.4723707437515259,
      "learning_rate": 0.00013843520782396088,
      "loss": 0.8915,
      "step": 13859
    },
    {
      "epoch": 0.308,
      "grad_norm": 1.9689998626708984,
      "learning_rate": 0.0001384307623916426,
      "loss": 2.3665,
      "step": 13860
    },
    {
      "epoch": 0.3080222222222222,
      "grad_norm": 1.4289076328277588,
      "learning_rate": 0.0001384263169593243,
      "loss": 2.1411,
      "step": 13861
    },
    {
      "epoch": 0.30804444444444445,
      "grad_norm": 2.277376890182495,
      "learning_rate": 0.000138421871527006,
      "loss": 1.3571,
      "step": 13862
    },
    {
      "epoch": 0.30806666666666666,
      "grad_norm": 1.228498101234436,
      "learning_rate": 0.00013841742609468772,
      "loss": 1.7777,
      "step": 13863
    },
    {
      "epoch": 0.3080888888888889,
      "grad_norm": 1.4918724298477173,
      "learning_rate": 0.00013841298066236943,
      "loss": 2.1801,
      "step": 13864
    },
    {
      "epoch": 0.3081111111111111,
      "grad_norm": 1.5100126266479492,
      "learning_rate": 0.00013840853523005114,
      "loss": 2.0247,
      "step": 13865
    },
    {
      "epoch": 0.3081333333333333,
      "grad_norm": 1.620227575302124,
      "learning_rate": 0.00013840408979773282,
      "loss": 2.3037,
      "step": 13866
    },
    {
      "epoch": 0.30815555555555557,
      "grad_norm": 1.5666202306747437,
      "learning_rate": 0.00013839964436541456,
      "loss": 2.5026,
      "step": 13867
    },
    {
      "epoch": 0.3081777777777778,
      "grad_norm": 1.7010735273361206,
      "learning_rate": 0.00013839519893309624,
      "loss": 1.7755,
      "step": 13868
    },
    {
      "epoch": 0.3082,
      "grad_norm": 1.5818805694580078,
      "learning_rate": 0.00013839075350077795,
      "loss": 1.7121,
      "step": 13869
    },
    {
      "epoch": 0.30822222222222223,
      "grad_norm": 1.2636548280715942,
      "learning_rate": 0.00013838630806845966,
      "loss": 1.2847,
      "step": 13870
    },
    {
      "epoch": 0.30824444444444443,
      "grad_norm": 1.6111434698104858,
      "learning_rate": 0.00013838186263614137,
      "loss": 2.1472,
      "step": 13871
    },
    {
      "epoch": 0.3082666666666667,
      "grad_norm": 1.827828288078308,
      "learning_rate": 0.00013837741720382308,
      "loss": 2.0646,
      "step": 13872
    },
    {
      "epoch": 0.3082888888888889,
      "grad_norm": 1.5211790800094604,
      "learning_rate": 0.0001383729717715048,
      "loss": 2.2975,
      "step": 13873
    },
    {
      "epoch": 0.3083111111111111,
      "grad_norm": 1.7269341945648193,
      "learning_rate": 0.0001383685263391865,
      "loss": 1.9943,
      "step": 13874
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 1.4760934114456177,
      "learning_rate": 0.0001383640809068682,
      "loss": 1.7377,
      "step": 13875
    },
    {
      "epoch": 0.30835555555555555,
      "grad_norm": 1.5015301704406738,
      "learning_rate": 0.00013835963547454992,
      "loss": 1.7982,
      "step": 13876
    },
    {
      "epoch": 0.30837777777777775,
      "grad_norm": 1.4136091470718384,
      "learning_rate": 0.0001383551900422316,
      "loss": 1.7426,
      "step": 13877
    },
    {
      "epoch": 0.3084,
      "grad_norm": 1.6540052890777588,
      "learning_rate": 0.00013835074460991333,
      "loss": 2.0739,
      "step": 13878
    },
    {
      "epoch": 0.3084222222222222,
      "grad_norm": 1.713016152381897,
      "learning_rate": 0.00013834629917759502,
      "loss": 2.0731,
      "step": 13879
    },
    {
      "epoch": 0.30844444444444447,
      "grad_norm": 1.3012731075286865,
      "learning_rate": 0.00013834185374527673,
      "loss": 0.9399,
      "step": 13880
    },
    {
      "epoch": 0.30846666666666667,
      "grad_norm": 0.23697960376739502,
      "learning_rate": 0.00013833740831295844,
      "loss": 0.0278,
      "step": 13881
    },
    {
      "epoch": 0.30848888888888887,
      "grad_norm": 1.9303960800170898,
      "learning_rate": 0.00013833296288064015,
      "loss": 2.1916,
      "step": 13882
    },
    {
      "epoch": 0.3085111111111111,
      "grad_norm": 1.4629460573196411,
      "learning_rate": 0.00013832851744832186,
      "loss": 1.6372,
      "step": 13883
    },
    {
      "epoch": 0.3085333333333333,
      "grad_norm": 1.7199451923370361,
      "learning_rate": 0.00013832407201600357,
      "loss": 1.9794,
      "step": 13884
    },
    {
      "epoch": 0.3085555555555556,
      "grad_norm": 1.48097562789917,
      "learning_rate": 0.00013831962658368528,
      "loss": 2.0852,
      "step": 13885
    },
    {
      "epoch": 0.3085777777777778,
      "grad_norm": 1.3607208728790283,
      "learning_rate": 0.00013831518115136696,
      "loss": 1.7946,
      "step": 13886
    },
    {
      "epoch": 0.3086,
      "grad_norm": 1.253129005432129,
      "learning_rate": 0.0001383107357190487,
      "loss": 1.4762,
      "step": 13887
    },
    {
      "epoch": 0.30862222222222224,
      "grad_norm": 1.4882522821426392,
      "learning_rate": 0.00013830629028673038,
      "loss": 1.793,
      "step": 13888
    },
    {
      "epoch": 0.30864444444444444,
      "grad_norm": 1.8299809694290161,
      "learning_rate": 0.00013830184485441209,
      "loss": 1.9118,
      "step": 13889
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 1.62740957736969,
      "learning_rate": 0.00013829739942209382,
      "loss": 2.0388,
      "step": 13890
    },
    {
      "epoch": 0.3086888888888889,
      "grad_norm": 1.6605536937713623,
      "learning_rate": 0.0001382929539897755,
      "loss": 1.4601,
      "step": 13891
    },
    {
      "epoch": 0.3087111111111111,
      "grad_norm": 1.5017931461334229,
      "learning_rate": 0.00013828850855745724,
      "loss": 1.6734,
      "step": 13892
    },
    {
      "epoch": 0.30873333333333336,
      "grad_norm": 1.879783272743225,
      "learning_rate": 0.00013828406312513892,
      "loss": 1.9189,
      "step": 13893
    },
    {
      "epoch": 0.30875555555555556,
      "grad_norm": 1.4576717615127563,
      "learning_rate": 0.00013827961769282063,
      "loss": 1.5446,
      "step": 13894
    },
    {
      "epoch": 0.30877777777777776,
      "grad_norm": 2.0276358127593994,
      "learning_rate": 0.00013827517226050234,
      "loss": 2.0563,
      "step": 13895
    },
    {
      "epoch": 0.3088,
      "grad_norm": 1.591843843460083,
      "learning_rate": 0.00013827072682818405,
      "loss": 1.9197,
      "step": 13896
    },
    {
      "epoch": 0.3088222222222222,
      "grad_norm": 1.7463412284851074,
      "learning_rate": 0.00013826628139586574,
      "loss": 1.9163,
      "step": 13897
    },
    {
      "epoch": 0.3088444444444444,
      "grad_norm": 1.564815640449524,
      "learning_rate": 0.00013826183596354747,
      "loss": 1.7534,
      "step": 13898
    },
    {
      "epoch": 0.3088666666666667,
      "grad_norm": 1.5221879482269287,
      "learning_rate": 0.00013825739053122918,
      "loss": 1.7394,
      "step": 13899
    },
    {
      "epoch": 0.3088888888888889,
      "grad_norm": 1.3807284832000732,
      "learning_rate": 0.00013825294509891087,
      "loss": 1.5399,
      "step": 13900
    },
    {
      "epoch": 0.30891111111111114,
      "grad_norm": 1.2622300386428833,
      "learning_rate": 0.0001382484996665926,
      "loss": 1.5632,
      "step": 13901
    },
    {
      "epoch": 0.30893333333333334,
      "grad_norm": 1.2210708856582642,
      "learning_rate": 0.00013824405423427428,
      "loss": 1.5445,
      "step": 13902
    },
    {
      "epoch": 0.30895555555555554,
      "grad_norm": 1.2641805410385132,
      "learning_rate": 0.000138239608801956,
      "loss": 2.2446,
      "step": 13903
    },
    {
      "epoch": 0.3089777777777778,
      "grad_norm": 1.4431610107421875,
      "learning_rate": 0.0001382351633696377,
      "loss": 1.8011,
      "step": 13904
    },
    {
      "epoch": 0.309,
      "grad_norm": 1.5148141384124756,
      "learning_rate": 0.0001382307179373194,
      "loss": 2.1521,
      "step": 13905
    },
    {
      "epoch": 0.3090222222222222,
      "grad_norm": 1.3361854553222656,
      "learning_rate": 0.0001382262725050011,
      "loss": 1.887,
      "step": 13906
    },
    {
      "epoch": 0.30904444444444445,
      "grad_norm": 1.4143811464309692,
      "learning_rate": 0.00013822182707268283,
      "loss": 1.7753,
      "step": 13907
    },
    {
      "epoch": 0.30906666666666666,
      "grad_norm": 1.4195023775100708,
      "learning_rate": 0.00013821738164036454,
      "loss": 1.9421,
      "step": 13908
    },
    {
      "epoch": 0.3090888888888889,
      "grad_norm": 1.8031831979751587,
      "learning_rate": 0.00013821293620804622,
      "loss": 2.1039,
      "step": 13909
    },
    {
      "epoch": 0.3091111111111111,
      "grad_norm": 1.3164290189743042,
      "learning_rate": 0.00013820849077572796,
      "loss": 1.7001,
      "step": 13910
    },
    {
      "epoch": 0.3091333333333333,
      "grad_norm": 1.4052860736846924,
      "learning_rate": 0.00013820404534340964,
      "loss": 2.293,
      "step": 13911
    },
    {
      "epoch": 0.3091555555555556,
      "grad_norm": 1.4358325004577637,
      "learning_rate": 0.00013819959991109138,
      "loss": 1.7337,
      "step": 13912
    },
    {
      "epoch": 0.3091777777777778,
      "grad_norm": 1.8511271476745605,
      "learning_rate": 0.00013819515447877306,
      "loss": 2.5634,
      "step": 13913
    },
    {
      "epoch": 0.3092,
      "grad_norm": 1.6111503839492798,
      "learning_rate": 0.00013819070904645477,
      "loss": 2.0094,
      "step": 13914
    },
    {
      "epoch": 0.30922222222222223,
      "grad_norm": 1.438344120979309,
      "learning_rate": 0.00013818626361413648,
      "loss": 1.7672,
      "step": 13915
    },
    {
      "epoch": 0.30924444444444443,
      "grad_norm": 1.5046342611312866,
      "learning_rate": 0.0001381818181818182,
      "loss": 2.1585,
      "step": 13916
    },
    {
      "epoch": 0.3092666666666667,
      "grad_norm": 1.6631345748901367,
      "learning_rate": 0.0001381773727494999,
      "loss": 2.3091,
      "step": 13917
    },
    {
      "epoch": 0.3092888888888889,
      "grad_norm": 1.6059281826019287,
      "learning_rate": 0.0001381729273171816,
      "loss": 2.3207,
      "step": 13918
    },
    {
      "epoch": 0.3093111111111111,
      "grad_norm": 1.4327492713928223,
      "learning_rate": 0.00013816848188486332,
      "loss": 2.0706,
      "step": 13919
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 1.749092698097229,
      "learning_rate": 0.000138164036452545,
      "loss": 2.08,
      "step": 13920
    },
    {
      "epoch": 0.30935555555555555,
      "grad_norm": 1.6078417301177979,
      "learning_rate": 0.00013815959102022674,
      "loss": 2.1924,
      "step": 13921
    },
    {
      "epoch": 0.30937777777777775,
      "grad_norm": 1.3181723356246948,
      "learning_rate": 0.00013815514558790842,
      "loss": 2.1355,
      "step": 13922
    },
    {
      "epoch": 0.3094,
      "grad_norm": 1.3948878049850464,
      "learning_rate": 0.00013815070015559013,
      "loss": 1.9677,
      "step": 13923
    },
    {
      "epoch": 0.3094222222222222,
      "grad_norm": 1.9416180849075317,
      "learning_rate": 0.00013814625472327184,
      "loss": 2.4923,
      "step": 13924
    },
    {
      "epoch": 0.30944444444444447,
      "grad_norm": 1.5022289752960205,
      "learning_rate": 0.00013814180929095355,
      "loss": 2.0956,
      "step": 13925
    },
    {
      "epoch": 0.30946666666666667,
      "grad_norm": 1.5713502168655396,
      "learning_rate": 0.00013813736385863526,
      "loss": 1.9146,
      "step": 13926
    },
    {
      "epoch": 0.30948888888888887,
      "grad_norm": 1.0328806638717651,
      "learning_rate": 0.00013813291842631697,
      "loss": 0.9529,
      "step": 13927
    },
    {
      "epoch": 0.3095111111111111,
      "grad_norm": 1.9170184135437012,
      "learning_rate": 0.00013812847299399868,
      "loss": 1.8445,
      "step": 13928
    },
    {
      "epoch": 0.3095333333333333,
      "grad_norm": 1.7572425603866577,
      "learning_rate": 0.00013812402756168036,
      "loss": 1.9318,
      "step": 13929
    },
    {
      "epoch": 0.30955555555555553,
      "grad_norm": 1.5218181610107422,
      "learning_rate": 0.0001381195821293621,
      "loss": 2.006,
      "step": 13930
    },
    {
      "epoch": 0.3095777777777778,
      "grad_norm": 1.5002373456954956,
      "learning_rate": 0.00013811513669704378,
      "loss": 2.1942,
      "step": 13931
    },
    {
      "epoch": 0.3096,
      "grad_norm": 1.6830034255981445,
      "learning_rate": 0.00013811069126472552,
      "loss": 2.0744,
      "step": 13932
    },
    {
      "epoch": 0.30962222222222224,
      "grad_norm": 1.3928158283233643,
      "learning_rate": 0.0001381062458324072,
      "loss": 1.8635,
      "step": 13933
    },
    {
      "epoch": 0.30964444444444444,
      "grad_norm": 1.6214193105697632,
      "learning_rate": 0.0001381018004000889,
      "loss": 1.9808,
      "step": 13934
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 1.783396601676941,
      "learning_rate": 0.00013809735496777062,
      "loss": 2.0925,
      "step": 13935
    },
    {
      "epoch": 0.3096888888888889,
      "grad_norm": 1.463733434677124,
      "learning_rate": 0.00013809290953545233,
      "loss": 1.2736,
      "step": 13936
    },
    {
      "epoch": 0.3097111111111111,
      "grad_norm": 1.9142602682113647,
      "learning_rate": 0.00013808846410313404,
      "loss": 2.0051,
      "step": 13937
    },
    {
      "epoch": 0.30973333333333336,
      "grad_norm": 1.7158751487731934,
      "learning_rate": 0.00013808401867081575,
      "loss": 2.1646,
      "step": 13938
    },
    {
      "epoch": 0.30975555555555556,
      "grad_norm": 1.4657810926437378,
      "learning_rate": 0.00013807957323849746,
      "loss": 1.6223,
      "step": 13939
    },
    {
      "epoch": 0.30977777777777776,
      "grad_norm": 2.087221145629883,
      "learning_rate": 0.00013807512780617914,
      "loss": 1.9687,
      "step": 13940
    },
    {
      "epoch": 0.3098,
      "grad_norm": 1.599025845527649,
      "learning_rate": 0.00013807068237386088,
      "loss": 2.006,
      "step": 13941
    },
    {
      "epoch": 0.3098222222222222,
      "grad_norm": 1.3109887838363647,
      "learning_rate": 0.00013806623694154256,
      "loss": 1.269,
      "step": 13942
    },
    {
      "epoch": 0.3098444444444444,
      "grad_norm": 1.8034135103225708,
      "learning_rate": 0.00013806179150922427,
      "loss": 1.7225,
      "step": 13943
    },
    {
      "epoch": 0.3098666666666667,
      "grad_norm": 1.6896556615829468,
      "learning_rate": 0.00013805734607690598,
      "loss": 1.5351,
      "step": 13944
    },
    {
      "epoch": 0.3098888888888889,
      "grad_norm": 1.533957600593567,
      "learning_rate": 0.0001380529006445877,
      "loss": 1.9491,
      "step": 13945
    },
    {
      "epoch": 0.30991111111111114,
      "grad_norm": 1.798163652420044,
      "learning_rate": 0.0001380484552122694,
      "loss": 1.7627,
      "step": 13946
    },
    {
      "epoch": 0.30993333333333334,
      "grad_norm": 1.6031856536865234,
      "learning_rate": 0.0001380440097799511,
      "loss": 1.7024,
      "step": 13947
    },
    {
      "epoch": 0.30995555555555554,
      "grad_norm": 1.9475373029708862,
      "learning_rate": 0.00013803956434763282,
      "loss": 1.9734,
      "step": 13948
    },
    {
      "epoch": 0.3099777777777778,
      "grad_norm": 1.5822869539260864,
      "learning_rate": 0.00013803511891531453,
      "loss": 1.7441,
      "step": 13949
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4659470319747925,
      "learning_rate": 0.00013803067348299624,
      "loss": 1.1123,
      "step": 13950
    },
    {
      "epoch": 0.3100222222222222,
      "grad_norm": 1.2577028274536133,
      "learning_rate": 0.00013802622805067792,
      "loss": 1.2937,
      "step": 13951
    },
    {
      "epoch": 0.31004444444444446,
      "grad_norm": 1.1991510391235352,
      "learning_rate": 0.00013802178261835966,
      "loss": 2.1689,
      "step": 13952
    },
    {
      "epoch": 0.31006666666666666,
      "grad_norm": 2.1179370880126953,
      "learning_rate": 0.00013801733718604134,
      "loss": 1.1693,
      "step": 13953
    },
    {
      "epoch": 0.3100888888888889,
      "grad_norm": 1.4629664421081543,
      "learning_rate": 0.00013801289175372305,
      "loss": 2.1524,
      "step": 13954
    },
    {
      "epoch": 0.3101111111111111,
      "grad_norm": 1.5160493850708008,
      "learning_rate": 0.00013800844632140476,
      "loss": 2.3554,
      "step": 13955
    },
    {
      "epoch": 0.3101333333333333,
      "grad_norm": 1.4026522636413574,
      "learning_rate": 0.00013800400088908647,
      "loss": 2.0777,
      "step": 13956
    },
    {
      "epoch": 0.3101555555555556,
      "grad_norm": 1.4704316854476929,
      "learning_rate": 0.00013799955545676818,
      "loss": 2.1641,
      "step": 13957
    },
    {
      "epoch": 0.3101777777777778,
      "grad_norm": 1.6092407703399658,
      "learning_rate": 0.0001379951100244499,
      "loss": 2.4016,
      "step": 13958
    },
    {
      "epoch": 0.3102,
      "grad_norm": 1.2121318578720093,
      "learning_rate": 0.0001379906645921316,
      "loss": 1.6977,
      "step": 13959
    },
    {
      "epoch": 0.31022222222222223,
      "grad_norm": 1.5557079315185547,
      "learning_rate": 0.00013798621915981328,
      "loss": 2.0357,
      "step": 13960
    },
    {
      "epoch": 0.31024444444444443,
      "grad_norm": 1.3271546363830566,
      "learning_rate": 0.00013798177372749502,
      "loss": 1.4228,
      "step": 13961
    },
    {
      "epoch": 0.3102666666666667,
      "grad_norm": 1.4968043565750122,
      "learning_rate": 0.0001379773282951767,
      "loss": 2.143,
      "step": 13962
    },
    {
      "epoch": 0.3102888888888889,
      "grad_norm": 1.4012079238891602,
      "learning_rate": 0.0001379728828628584,
      "loss": 1.3899,
      "step": 13963
    },
    {
      "epoch": 0.3103111111111111,
      "grad_norm": 1.4836682081222534,
      "learning_rate": 0.00013796843743054015,
      "loss": 2.365,
      "step": 13964
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 1.9085150957107544,
      "learning_rate": 0.00013796399199822183,
      "loss": 2.4373,
      "step": 13965
    },
    {
      "epoch": 0.31035555555555555,
      "grad_norm": 1.6836293935775757,
      "learning_rate": 0.00013795954656590354,
      "loss": 2.0766,
      "step": 13966
    },
    {
      "epoch": 0.31037777777777775,
      "grad_norm": 1.5752811431884766,
      "learning_rate": 0.00013795510113358525,
      "loss": 2.2099,
      "step": 13967
    },
    {
      "epoch": 0.3104,
      "grad_norm": 1.791139841079712,
      "learning_rate": 0.00013795065570126696,
      "loss": 1.021,
      "step": 13968
    },
    {
      "epoch": 0.3104222222222222,
      "grad_norm": 1.612539291381836,
      "learning_rate": 0.00013794621026894867,
      "loss": 2.1767,
      "step": 13969
    },
    {
      "epoch": 0.31044444444444447,
      "grad_norm": 1.4469250440597534,
      "learning_rate": 0.00013794176483663038,
      "loss": 1.9068,
      "step": 13970
    },
    {
      "epoch": 0.31046666666666667,
      "grad_norm": 1.4456490278244019,
      "learning_rate": 0.00013793731940431206,
      "loss": 2.1964,
      "step": 13971
    },
    {
      "epoch": 0.31048888888888887,
      "grad_norm": 1.7241721153259277,
      "learning_rate": 0.0001379328739719938,
      "loss": 2.2247,
      "step": 13972
    },
    {
      "epoch": 0.3105111111111111,
      "grad_norm": 1.7031760215759277,
      "learning_rate": 0.0001379284285396755,
      "loss": 2.0197,
      "step": 13973
    },
    {
      "epoch": 0.31053333333333333,
      "grad_norm": 1.5760446786880493,
      "learning_rate": 0.0001379239831073572,
      "loss": 2.0409,
      "step": 13974
    },
    {
      "epoch": 0.31055555555555553,
      "grad_norm": 1.530490756034851,
      "learning_rate": 0.00013791953767503892,
      "loss": 2.1912,
      "step": 13975
    },
    {
      "epoch": 0.3105777777777778,
      "grad_norm": 1.4387092590332031,
      "learning_rate": 0.0001379150922427206,
      "loss": 1.5403,
      "step": 13976
    },
    {
      "epoch": 0.3106,
      "grad_norm": 1.2169780731201172,
      "learning_rate": 0.00013791064681040232,
      "loss": 1.0346,
      "step": 13977
    },
    {
      "epoch": 0.31062222222222224,
      "grad_norm": 1.572641134262085,
      "learning_rate": 0.00013790620137808403,
      "loss": 1.8907,
      "step": 13978
    },
    {
      "epoch": 0.31064444444444445,
      "grad_norm": 1.5483512878417969,
      "learning_rate": 0.00013790175594576574,
      "loss": 2.1564,
      "step": 13979
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 1.516046166419983,
      "learning_rate": 0.00013789731051344742,
      "loss": 1.9872,
      "step": 13980
    },
    {
      "epoch": 0.3106888888888889,
      "grad_norm": 1.479801893234253,
      "learning_rate": 0.00013789286508112915,
      "loss": 1.6854,
      "step": 13981
    },
    {
      "epoch": 0.3107111111111111,
      "grad_norm": 2.090023994445801,
      "learning_rate": 0.00013788841964881086,
      "loss": 2.2427,
      "step": 13982
    },
    {
      "epoch": 0.3107333333333333,
      "grad_norm": 1.6393046379089355,
      "learning_rate": 0.00013788397421649255,
      "loss": 1.6469,
      "step": 13983
    },
    {
      "epoch": 0.31075555555555556,
      "grad_norm": 1.5180633068084717,
      "learning_rate": 0.00013787952878417428,
      "loss": 1.7598,
      "step": 13984
    },
    {
      "epoch": 0.31077777777777776,
      "grad_norm": 1.7667075395584106,
      "learning_rate": 0.00013787508335185597,
      "loss": 2.0603,
      "step": 13985
    },
    {
      "epoch": 0.3108,
      "grad_norm": 1.7897759675979614,
      "learning_rate": 0.00013787063791953768,
      "loss": 1.8169,
      "step": 13986
    },
    {
      "epoch": 0.3108222222222222,
      "grad_norm": 1.493990421295166,
      "learning_rate": 0.00013786619248721939,
      "loss": 2.0706,
      "step": 13987
    },
    {
      "epoch": 0.3108444444444444,
      "grad_norm": 1.5964401960372925,
      "learning_rate": 0.0001378617470549011,
      "loss": 1.848,
      "step": 13988
    },
    {
      "epoch": 0.3108666666666667,
      "grad_norm": 1.4136369228363037,
      "learning_rate": 0.0001378573016225828,
      "loss": 1.6465,
      "step": 13989
    },
    {
      "epoch": 0.3108888888888889,
      "grad_norm": 1.591991901397705,
      "learning_rate": 0.00013785285619026451,
      "loss": 1.8616,
      "step": 13990
    },
    {
      "epoch": 0.31091111111111114,
      "grad_norm": 1.466995358467102,
      "learning_rate": 0.00013784841075794622,
      "loss": 1.7488,
      "step": 13991
    },
    {
      "epoch": 0.31093333333333334,
      "grad_norm": 1.2250326871871948,
      "learning_rate": 0.00013784396532562793,
      "loss": 1.5654,
      "step": 13992
    },
    {
      "epoch": 0.31095555555555554,
      "grad_norm": 1.9176915884017944,
      "learning_rate": 0.00013783951989330964,
      "loss": 2.1087,
      "step": 13993
    },
    {
      "epoch": 0.3109777777777778,
      "grad_norm": 1.4579769372940063,
      "learning_rate": 0.00013783507446099133,
      "loss": 1.2714,
      "step": 13994
    },
    {
      "epoch": 0.311,
      "grad_norm": 1.3439240455627441,
      "learning_rate": 0.00013783062902867306,
      "loss": 1.4837,
      "step": 13995
    },
    {
      "epoch": 0.3110222222222222,
      "grad_norm": 1.8619282245635986,
      "learning_rate": 0.00013782618359635474,
      "loss": 2.1516,
      "step": 13996
    },
    {
      "epoch": 0.31104444444444446,
      "grad_norm": 1.8577039241790771,
      "learning_rate": 0.00013782173816403645,
      "loss": 1.7355,
      "step": 13997
    },
    {
      "epoch": 0.31106666666666666,
      "grad_norm": 1.8546497821807861,
      "learning_rate": 0.00013781729273171816,
      "loss": 2.5214,
      "step": 13998
    },
    {
      "epoch": 0.3110888888888889,
      "grad_norm": 1.9358015060424805,
      "learning_rate": 0.00013781284729939987,
      "loss": 1.8587,
      "step": 13999
    },
    {
      "epoch": 0.3111111111111111,
      "grad_norm": 1.8174139261245728,
      "learning_rate": 0.00013780840186708158,
      "loss": 0.7932,
      "step": 14000
    },
    {
      "epoch": 0.3111333333333333,
      "grad_norm": 1.7286661863327026,
      "learning_rate": 0.0001378039564347633,
      "loss": 2.517,
      "step": 14001
    },
    {
      "epoch": 0.3111555555555556,
      "grad_norm": 1.325692892074585,
      "learning_rate": 0.000137799511002445,
      "loss": 1.5,
      "step": 14002
    },
    {
      "epoch": 0.3111777777777778,
      "grad_norm": 1.2208259105682373,
      "learning_rate": 0.00013779506557012668,
      "loss": 1.9712,
      "step": 14003
    },
    {
      "epoch": 0.3112,
      "grad_norm": 1.4205337762832642,
      "learning_rate": 0.00013779062013780842,
      "loss": 1.9469,
      "step": 14004
    },
    {
      "epoch": 0.31122222222222223,
      "grad_norm": 1.33218252658844,
      "learning_rate": 0.0001377861747054901,
      "loss": 2.0934,
      "step": 14005
    },
    {
      "epoch": 0.31124444444444443,
      "grad_norm": 1.423278570175171,
      "learning_rate": 0.00013778172927317184,
      "loss": 1.9969,
      "step": 14006
    },
    {
      "epoch": 0.3112666666666667,
      "grad_norm": 1.5850127935409546,
      "learning_rate": 0.00013777728384085352,
      "loss": 2.3426,
      "step": 14007
    },
    {
      "epoch": 0.3112888888888889,
      "grad_norm": 1.435025930404663,
      "learning_rate": 0.00013777283840853523,
      "loss": 2.044,
      "step": 14008
    },
    {
      "epoch": 0.3113111111111111,
      "grad_norm": 1.3072900772094727,
      "learning_rate": 0.00013776839297621694,
      "loss": 2.2512,
      "step": 14009
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 1.5338071584701538,
      "learning_rate": 0.00013776394754389865,
      "loss": 2.406,
      "step": 14010
    },
    {
      "epoch": 0.31135555555555555,
      "grad_norm": 1.5761070251464844,
      "learning_rate": 0.00013775950211158036,
      "loss": 2.424,
      "step": 14011
    },
    {
      "epoch": 0.31137777777777775,
      "grad_norm": 1.3734076023101807,
      "learning_rate": 0.00013775505667926207,
      "loss": 2.1963,
      "step": 14012
    },
    {
      "epoch": 0.3114,
      "grad_norm": 1.4841375350952148,
      "learning_rate": 0.00013775061124694378,
      "loss": 2.3472,
      "step": 14013
    },
    {
      "epoch": 0.3114222222222222,
      "grad_norm": 1.4268704652786255,
      "learning_rate": 0.00013774616581462546,
      "loss": 1.9997,
      "step": 14014
    },
    {
      "epoch": 0.31144444444444447,
      "grad_norm": 1.6447291374206543,
      "learning_rate": 0.0001377417203823072,
      "loss": 2.0185,
      "step": 14015
    },
    {
      "epoch": 0.31146666666666667,
      "grad_norm": 1.5749232769012451,
      "learning_rate": 0.00013773727494998888,
      "loss": 2.2327,
      "step": 14016
    },
    {
      "epoch": 0.31148888888888887,
      "grad_norm": 1.3392751216888428,
      "learning_rate": 0.0001377328295176706,
      "loss": 1.9121,
      "step": 14017
    },
    {
      "epoch": 0.3115111111111111,
      "grad_norm": 0.7181409597396851,
      "learning_rate": 0.0001377283840853523,
      "loss": 0.0353,
      "step": 14018
    },
    {
      "epoch": 0.31153333333333333,
      "grad_norm": 1.5642507076263428,
      "learning_rate": 0.000137723938653034,
      "loss": 1.6187,
      "step": 14019
    },
    {
      "epoch": 0.31155555555555553,
      "grad_norm": 1.4600569009780884,
      "learning_rate": 0.00013771949322071572,
      "loss": 1.653,
      "step": 14020
    },
    {
      "epoch": 0.3115777777777778,
      "grad_norm": 1.4803255796432495,
      "learning_rate": 0.00013771504778839743,
      "loss": 1.9607,
      "step": 14021
    },
    {
      "epoch": 0.3116,
      "grad_norm": 1.5582396984100342,
      "learning_rate": 0.00013771060235607914,
      "loss": 1.6964,
      "step": 14022
    },
    {
      "epoch": 0.31162222222222224,
      "grad_norm": 1.6845242977142334,
      "learning_rate": 0.00013770615692376082,
      "loss": 1.9597,
      "step": 14023
    },
    {
      "epoch": 0.31164444444444445,
      "grad_norm": 1.726950764656067,
      "learning_rate": 0.00013770171149144256,
      "loss": 1.9777,
      "step": 14024
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 1.8673887252807617,
      "learning_rate": 0.00013769726605912424,
      "loss": 2.0987,
      "step": 14025
    },
    {
      "epoch": 0.3116888888888889,
      "grad_norm": 1.7010374069213867,
      "learning_rate": 0.00013769282062680598,
      "loss": 2.1112,
      "step": 14026
    },
    {
      "epoch": 0.3117111111111111,
      "grad_norm": 1.8459110260009766,
      "learning_rate": 0.00013768837519448766,
      "loss": 1.8775,
      "step": 14027
    },
    {
      "epoch": 0.3117333333333333,
      "grad_norm": 1.617756962776184,
      "learning_rate": 0.00013768392976216937,
      "loss": 1.6986,
      "step": 14028
    },
    {
      "epoch": 0.31175555555555556,
      "grad_norm": 1.7264151573181152,
      "learning_rate": 0.00013767948432985108,
      "loss": 1.9909,
      "step": 14029
    },
    {
      "epoch": 0.31177777777777776,
      "grad_norm": 1.346435308456421,
      "learning_rate": 0.0001376750388975328,
      "loss": 1.8114,
      "step": 14030
    },
    {
      "epoch": 0.3118,
      "grad_norm": 1.040837049484253,
      "learning_rate": 0.0001376705934652145,
      "loss": 0.6108,
      "step": 14031
    },
    {
      "epoch": 0.3118222222222222,
      "grad_norm": 1.3754435777664185,
      "learning_rate": 0.0001376661480328962,
      "loss": 1.9549,
      "step": 14032
    },
    {
      "epoch": 0.3118444444444444,
      "grad_norm": 1.4678070545196533,
      "learning_rate": 0.00013766170260057792,
      "loss": 1.9871,
      "step": 14033
    },
    {
      "epoch": 0.3118666666666667,
      "grad_norm": 1.550415277481079,
      "learning_rate": 0.0001376572571682596,
      "loss": 2.129,
      "step": 14034
    },
    {
      "epoch": 0.3118888888888889,
      "grad_norm": 1.3059251308441162,
      "learning_rate": 0.00013765281173594134,
      "loss": 1.6811,
      "step": 14035
    },
    {
      "epoch": 0.3119111111111111,
      "grad_norm": 1.8747462034225464,
      "learning_rate": 0.00013764836630362302,
      "loss": 2.0462,
      "step": 14036
    },
    {
      "epoch": 0.31193333333333334,
      "grad_norm": 1.3843567371368408,
      "learning_rate": 0.00013764392087130473,
      "loss": 1.5504,
      "step": 14037
    },
    {
      "epoch": 0.31195555555555554,
      "grad_norm": 1.5265511274337769,
      "learning_rate": 0.00013763947543898647,
      "loss": 1.8833,
      "step": 14038
    },
    {
      "epoch": 0.3119777777777778,
      "grad_norm": 1.444573998451233,
      "learning_rate": 0.00013763503000666815,
      "loss": 1.7834,
      "step": 14039
    },
    {
      "epoch": 0.312,
      "grad_norm": 1.890494704246521,
      "learning_rate": 0.00013763058457434986,
      "loss": 2.1169,
      "step": 14040
    },
    {
      "epoch": 0.3120222222222222,
      "grad_norm": 1.4367904663085938,
      "learning_rate": 0.00013762613914203157,
      "loss": 1.7641,
      "step": 14041
    },
    {
      "epoch": 0.31204444444444446,
      "grad_norm": 1.8207472562789917,
      "learning_rate": 0.00013762169370971328,
      "loss": 2.0094,
      "step": 14042
    },
    {
      "epoch": 0.31206666666666666,
      "grad_norm": 1.8339134454727173,
      "learning_rate": 0.00013761724827739496,
      "loss": 2.5537,
      "step": 14043
    },
    {
      "epoch": 0.3120888888888889,
      "grad_norm": 1.4581019878387451,
      "learning_rate": 0.0001376128028450767,
      "loss": 1.7874,
      "step": 14044
    },
    {
      "epoch": 0.3121111111111111,
      "grad_norm": 1.7401084899902344,
      "learning_rate": 0.00013760835741275838,
      "loss": 1.9611,
      "step": 14045
    },
    {
      "epoch": 0.3121333333333333,
      "grad_norm": 1.745902419090271,
      "learning_rate": 0.00013760391198044012,
      "loss": 2.0328,
      "step": 14046
    },
    {
      "epoch": 0.3121555555555556,
      "grad_norm": 1.60177743434906,
      "learning_rate": 0.00013759946654812183,
      "loss": 1.8834,
      "step": 14047
    },
    {
      "epoch": 0.3121777777777778,
      "grad_norm": 1.8116599321365356,
      "learning_rate": 0.0001375950211158035,
      "loss": 2.1408,
      "step": 14048
    },
    {
      "epoch": 0.3122,
      "grad_norm": 1.5452512502670288,
      "learning_rate": 0.00013759057568348525,
      "loss": 2.0301,
      "step": 14049
    },
    {
      "epoch": 0.31222222222222223,
      "grad_norm": 1.7430799007415771,
      "learning_rate": 0.00013758613025116693,
      "loss": 1.8261,
      "step": 14050
    },
    {
      "epoch": 0.31224444444444444,
      "grad_norm": 1.3729138374328613,
      "learning_rate": 0.00013758168481884864,
      "loss": 2.4385,
      "step": 14051
    },
    {
      "epoch": 0.3122666666666667,
      "grad_norm": 1.1558417081832886,
      "learning_rate": 0.00013757723938653035,
      "loss": 2.5798,
      "step": 14052
    },
    {
      "epoch": 0.3122888888888889,
      "grad_norm": 1.2940922975540161,
      "learning_rate": 0.00013757279395421206,
      "loss": 2.5473,
      "step": 14053
    },
    {
      "epoch": 0.3123111111111111,
      "grad_norm": 1.2906473875045776,
      "learning_rate": 0.00013756834852189374,
      "loss": 1.6128,
      "step": 14054
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 1.5076605081558228,
      "learning_rate": 0.00013756390308957548,
      "loss": 2.9767,
      "step": 14055
    },
    {
      "epoch": 0.31235555555555555,
      "grad_norm": 1.3281503915786743,
      "learning_rate": 0.00013755945765725719,
      "loss": 2.0953,
      "step": 14056
    },
    {
      "epoch": 0.31237777777777775,
      "grad_norm": 1.6716302633285522,
      "learning_rate": 0.00013755501222493887,
      "loss": 2.1113,
      "step": 14057
    },
    {
      "epoch": 0.3124,
      "grad_norm": 1.6058111190795898,
      "learning_rate": 0.0001375505667926206,
      "loss": 2.1742,
      "step": 14058
    },
    {
      "epoch": 0.3124222222222222,
      "grad_norm": 1.4481462240219116,
      "learning_rate": 0.0001375461213603023,
      "loss": 2.0236,
      "step": 14059
    },
    {
      "epoch": 0.31244444444444447,
      "grad_norm": 1.3220146894454956,
      "learning_rate": 0.000137541675927984,
      "loss": 1.7196,
      "step": 14060
    },
    {
      "epoch": 0.31246666666666667,
      "grad_norm": 1.8957468271255493,
      "learning_rate": 0.0001375372304956657,
      "loss": 1.4783,
      "step": 14061
    },
    {
      "epoch": 0.31248888888888887,
      "grad_norm": 2.547015905380249,
      "learning_rate": 0.00013753278506334742,
      "loss": 2.5276,
      "step": 14062
    },
    {
      "epoch": 0.31251111111111113,
      "grad_norm": 1.3427225351333618,
      "learning_rate": 0.00013752833963102913,
      "loss": 1.7298,
      "step": 14063
    },
    {
      "epoch": 0.31253333333333333,
      "grad_norm": 1.5845496654510498,
      "learning_rate": 0.00013752389419871084,
      "loss": 2.1088,
      "step": 14064
    },
    {
      "epoch": 0.31255555555555553,
      "grad_norm": 1.9267436265945435,
      "learning_rate": 0.00013751944876639255,
      "loss": 2.2425,
      "step": 14065
    },
    {
      "epoch": 0.3125777777777778,
      "grad_norm": 1.8050419092178345,
      "learning_rate": 0.00013751500333407426,
      "loss": 1.6703,
      "step": 14066
    },
    {
      "epoch": 0.3126,
      "grad_norm": 1.8998379707336426,
      "learning_rate": 0.00013751055790175596,
      "loss": 1.8126,
      "step": 14067
    },
    {
      "epoch": 0.31262222222222225,
      "grad_norm": 1.7270355224609375,
      "learning_rate": 0.00013750611246943765,
      "loss": 1.8749,
      "step": 14068
    },
    {
      "epoch": 0.31264444444444445,
      "grad_norm": 1.8024863004684448,
      "learning_rate": 0.00013750166703711938,
      "loss": 1.9048,
      "step": 14069
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 1.6163750886917114,
      "learning_rate": 0.00013749722160480107,
      "loss": 2.0306,
      "step": 14070
    },
    {
      "epoch": 0.3126888888888889,
      "grad_norm": 1.4407399892807007,
      "learning_rate": 0.00013749277617248278,
      "loss": 1.7803,
      "step": 14071
    },
    {
      "epoch": 0.3127111111111111,
      "grad_norm": 1.674599289894104,
      "learning_rate": 0.00013748833074016449,
      "loss": 2.2468,
      "step": 14072
    },
    {
      "epoch": 0.3127333333333333,
      "grad_norm": 1.4770081043243408,
      "learning_rate": 0.0001374838853078462,
      "loss": 1.7372,
      "step": 14073
    },
    {
      "epoch": 0.31275555555555556,
      "grad_norm": 1.4290262460708618,
      "learning_rate": 0.0001374794398755279,
      "loss": 1.8691,
      "step": 14074
    },
    {
      "epoch": 0.31277777777777777,
      "grad_norm": 1.4922503232955933,
      "learning_rate": 0.00013747499444320961,
      "loss": 2.0191,
      "step": 14075
    },
    {
      "epoch": 0.3128,
      "grad_norm": 1.6846832036972046,
      "learning_rate": 0.00013747054901089132,
      "loss": 1.625,
      "step": 14076
    },
    {
      "epoch": 0.3128222222222222,
      "grad_norm": 1.6021533012390137,
      "learning_rate": 0.000137466103578573,
      "loss": 1.7021,
      "step": 14077
    },
    {
      "epoch": 0.3128444444444444,
      "grad_norm": 1.7286309003829956,
      "learning_rate": 0.00013746165814625474,
      "loss": 2.1318,
      "step": 14078
    },
    {
      "epoch": 0.3128666666666667,
      "grad_norm": 1.8222682476043701,
      "learning_rate": 0.00013745721271393643,
      "loss": 2.1219,
      "step": 14079
    },
    {
      "epoch": 0.3128888888888889,
      "grad_norm": 1.8463443517684937,
      "learning_rate": 0.00013745276728161814,
      "loss": 2.2556,
      "step": 14080
    },
    {
      "epoch": 0.3129111111111111,
      "grad_norm": 1.600345253944397,
      "learning_rate": 0.00013744832184929985,
      "loss": 1.4167,
      "step": 14081
    },
    {
      "epoch": 0.31293333333333334,
      "grad_norm": 1.6543101072311401,
      "learning_rate": 0.00013744387641698155,
      "loss": 2.2904,
      "step": 14082
    },
    {
      "epoch": 0.31295555555555554,
      "grad_norm": 1.899821162223816,
      "learning_rate": 0.00013743943098466326,
      "loss": 2.5355,
      "step": 14083
    },
    {
      "epoch": 0.3129777777777778,
      "grad_norm": 1.4835572242736816,
      "learning_rate": 0.00013743498555234497,
      "loss": 1.8539,
      "step": 14084
    },
    {
      "epoch": 0.313,
      "grad_norm": 1.439231276512146,
      "learning_rate": 0.00013743054012002668,
      "loss": 1.9778,
      "step": 14085
    },
    {
      "epoch": 0.3130222222222222,
      "grad_norm": 1.3928378820419312,
      "learning_rate": 0.0001374260946877084,
      "loss": 1.8046,
      "step": 14086
    },
    {
      "epoch": 0.31304444444444446,
      "grad_norm": 1.805988073348999,
      "learning_rate": 0.0001374216492553901,
      "loss": 2.1087,
      "step": 14087
    },
    {
      "epoch": 0.31306666666666666,
      "grad_norm": 1.3914515972137451,
      "learning_rate": 0.00013741720382307179,
      "loss": 1.7586,
      "step": 14088
    },
    {
      "epoch": 0.3130888888888889,
      "grad_norm": 1.5330651998519897,
      "learning_rate": 0.00013741275839075352,
      "loss": 1.944,
      "step": 14089
    },
    {
      "epoch": 0.3131111111111111,
      "grad_norm": 1.4621583223342896,
      "learning_rate": 0.0001374083129584352,
      "loss": 1.749,
      "step": 14090
    },
    {
      "epoch": 0.3131333333333333,
      "grad_norm": 1.8784555196762085,
      "learning_rate": 0.00013740386752611691,
      "loss": 1.9364,
      "step": 14091
    },
    {
      "epoch": 0.3131555555555556,
      "grad_norm": 1.429979681968689,
      "learning_rate": 0.00013739942209379862,
      "loss": 1.5603,
      "step": 14092
    },
    {
      "epoch": 0.3131777777777778,
      "grad_norm": 1.690008521080017,
      "learning_rate": 0.00013739497666148033,
      "loss": 2.3015,
      "step": 14093
    },
    {
      "epoch": 0.3132,
      "grad_norm": 1.5837488174438477,
      "learning_rate": 0.00013739053122916204,
      "loss": 2.0191,
      "step": 14094
    },
    {
      "epoch": 0.31322222222222224,
      "grad_norm": 1.6542924642562866,
      "learning_rate": 0.00013738608579684375,
      "loss": 1.8299,
      "step": 14095
    },
    {
      "epoch": 0.31324444444444444,
      "grad_norm": 1.806518793106079,
      "learning_rate": 0.00013738164036452546,
      "loss": 2.1483,
      "step": 14096
    },
    {
      "epoch": 0.3132666666666667,
      "grad_norm": 1.6931078433990479,
      "learning_rate": 0.00013737719493220715,
      "loss": 1.8631,
      "step": 14097
    },
    {
      "epoch": 0.3132888888888889,
      "grad_norm": 2.054365873336792,
      "learning_rate": 0.00013737274949988888,
      "loss": 2.0241,
      "step": 14098
    },
    {
      "epoch": 0.3133111111111111,
      "grad_norm": 1.4977458715438843,
      "learning_rate": 0.00013736830406757056,
      "loss": 1.3632,
      "step": 14099
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 1.5283576250076294,
      "learning_rate": 0.00013736385863525227,
      "loss": 1.2904,
      "step": 14100
    },
    {
      "epoch": 0.31335555555555555,
      "grad_norm": 1.3171727657318115,
      "learning_rate": 0.00013735941320293398,
      "loss": 2.6873,
      "step": 14101
    },
    {
      "epoch": 0.31337777777777776,
      "grad_norm": 1.116787314414978,
      "learning_rate": 0.0001373549677706157,
      "loss": 1.1527,
      "step": 14102
    },
    {
      "epoch": 0.3134,
      "grad_norm": 1.5718072652816772,
      "learning_rate": 0.0001373505223382974,
      "loss": 2.1446,
      "step": 14103
    },
    {
      "epoch": 0.3134222222222222,
      "grad_norm": 1.6672041416168213,
      "learning_rate": 0.0001373460769059791,
      "loss": 2.5339,
      "step": 14104
    },
    {
      "epoch": 0.31344444444444447,
      "grad_norm": 1.4251002073287964,
      "learning_rate": 0.00013734163147366082,
      "loss": 2.3803,
      "step": 14105
    },
    {
      "epoch": 0.31346666666666667,
      "grad_norm": 1.358526587486267,
      "learning_rate": 0.00013733718604134253,
      "loss": 2.3101,
      "step": 14106
    },
    {
      "epoch": 0.3134888888888889,
      "grad_norm": 1.3329523801803589,
      "learning_rate": 0.00013733274060902424,
      "loss": 1.9062,
      "step": 14107
    },
    {
      "epoch": 0.31351111111111113,
      "grad_norm": 1.5242266654968262,
      "learning_rate": 0.00013732829517670592,
      "loss": 2.182,
      "step": 14108
    },
    {
      "epoch": 0.31353333333333333,
      "grad_norm": 1.5857539176940918,
      "learning_rate": 0.00013732384974438766,
      "loss": 2.2196,
      "step": 14109
    },
    {
      "epoch": 0.31355555555555553,
      "grad_norm": 1.4696640968322754,
      "learning_rate": 0.00013731940431206934,
      "loss": 1.8888,
      "step": 14110
    },
    {
      "epoch": 0.3135777777777778,
      "grad_norm": 1.2093045711517334,
      "learning_rate": 0.00013731495887975105,
      "loss": 1.9093,
      "step": 14111
    },
    {
      "epoch": 0.3136,
      "grad_norm": 1.4581775665283203,
      "learning_rate": 0.0001373105134474328,
      "loss": 1.5895,
      "step": 14112
    },
    {
      "epoch": 0.31362222222222225,
      "grad_norm": 1.4224977493286133,
      "learning_rate": 0.00013730606801511447,
      "loss": 1.8671,
      "step": 14113
    },
    {
      "epoch": 0.31364444444444445,
      "grad_norm": 1.4916441440582275,
      "learning_rate": 0.00013730162258279618,
      "loss": 1.7318,
      "step": 14114
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 1.5725853443145752,
      "learning_rate": 0.0001372971771504779,
      "loss": 1.9658,
      "step": 14115
    },
    {
      "epoch": 0.3136888888888889,
      "grad_norm": 1.4301557540893555,
      "learning_rate": 0.0001372927317181596,
      "loss": 1.7934,
      "step": 14116
    },
    {
      "epoch": 0.3137111111111111,
      "grad_norm": 1.5875787734985352,
      "learning_rate": 0.00013728828628584128,
      "loss": 1.5936,
      "step": 14117
    },
    {
      "epoch": 0.3137333333333333,
      "grad_norm": 1.3239375352859497,
      "learning_rate": 0.00013728384085352302,
      "loss": 1.757,
      "step": 14118
    },
    {
      "epoch": 0.31375555555555557,
      "grad_norm": 1.554451584815979,
      "learning_rate": 0.0001372793954212047,
      "loss": 2.43,
      "step": 14119
    },
    {
      "epoch": 0.31377777777777777,
      "grad_norm": 1.569452166557312,
      "learning_rate": 0.00013727494998888644,
      "loss": 2.0281,
      "step": 14120
    },
    {
      "epoch": 0.3138,
      "grad_norm": 1.1161302328109741,
      "learning_rate": 0.00013727050455656815,
      "loss": 1.4763,
      "step": 14121
    },
    {
      "epoch": 0.3138222222222222,
      "grad_norm": 1.9855186939239502,
      "learning_rate": 0.00013726605912424983,
      "loss": 2.031,
      "step": 14122
    },
    {
      "epoch": 0.3138444444444444,
      "grad_norm": 1.5903654098510742,
      "learning_rate": 0.00013726161369193157,
      "loss": 2.0196,
      "step": 14123
    },
    {
      "epoch": 0.3138666666666667,
      "grad_norm": 1.638308048248291,
      "learning_rate": 0.00013725716825961325,
      "loss": 1.9914,
      "step": 14124
    },
    {
      "epoch": 0.3138888888888889,
      "grad_norm": 1.4680355787277222,
      "learning_rate": 0.00013725272282729496,
      "loss": 1.7196,
      "step": 14125
    },
    {
      "epoch": 0.3139111111111111,
      "grad_norm": 1.2993720769882202,
      "learning_rate": 0.00013724827739497667,
      "loss": 1.8434,
      "step": 14126
    },
    {
      "epoch": 0.31393333333333334,
      "grad_norm": 1.5186842679977417,
      "learning_rate": 0.00013724383196265838,
      "loss": 2.0177,
      "step": 14127
    },
    {
      "epoch": 0.31395555555555554,
      "grad_norm": 1.3742367029190063,
      "learning_rate": 0.00013723938653034006,
      "loss": 1.4511,
      "step": 14128
    },
    {
      "epoch": 0.3139777777777778,
      "grad_norm": 1.1973071098327637,
      "learning_rate": 0.0001372349410980218,
      "loss": 0.9846,
      "step": 14129
    },
    {
      "epoch": 0.314,
      "grad_norm": 1.125571370124817,
      "learning_rate": 0.0001372304956657035,
      "loss": 0.915,
      "step": 14130
    },
    {
      "epoch": 0.3140222222222222,
      "grad_norm": 1.7606797218322754,
      "learning_rate": 0.0001372260502333852,
      "loss": 2.2306,
      "step": 14131
    },
    {
      "epoch": 0.31404444444444446,
      "grad_norm": 1.8472083806991577,
      "learning_rate": 0.00013722160480106693,
      "loss": 2.4593,
      "step": 14132
    },
    {
      "epoch": 0.31406666666666666,
      "grad_norm": 1.691352367401123,
      "learning_rate": 0.0001372171593687486,
      "loss": 2.2152,
      "step": 14133
    },
    {
      "epoch": 0.31408888888888886,
      "grad_norm": 1.529012680053711,
      "learning_rate": 0.00013721271393643032,
      "loss": 1.6929,
      "step": 14134
    },
    {
      "epoch": 0.3141111111111111,
      "grad_norm": 1.752224087715149,
      "learning_rate": 0.00013720826850411203,
      "loss": 2.2881,
      "step": 14135
    },
    {
      "epoch": 0.3141333333333333,
      "grad_norm": 1.6739636659622192,
      "learning_rate": 0.00013720382307179374,
      "loss": 2.3938,
      "step": 14136
    },
    {
      "epoch": 0.3141555555555556,
      "grad_norm": 1.5075390338897705,
      "learning_rate": 0.00013719937763947542,
      "loss": 1.7343,
      "step": 14137
    },
    {
      "epoch": 0.3141777777777778,
      "grad_norm": 1.7152504920959473,
      "learning_rate": 0.00013719493220715716,
      "loss": 2.1535,
      "step": 14138
    },
    {
      "epoch": 0.3142,
      "grad_norm": 1.6726073026657104,
      "learning_rate": 0.00013719048677483887,
      "loss": 2.1076,
      "step": 14139
    },
    {
      "epoch": 0.31422222222222224,
      "grad_norm": 1.510697364807129,
      "learning_rate": 0.00013718604134252058,
      "loss": 1.8414,
      "step": 14140
    },
    {
      "epoch": 0.31424444444444444,
      "grad_norm": 1.5316790342330933,
      "learning_rate": 0.0001371815959102023,
      "loss": 1.8778,
      "step": 14141
    },
    {
      "epoch": 0.3142666666666667,
      "grad_norm": 2.180356502532959,
      "learning_rate": 0.00013717715047788397,
      "loss": 2.3797,
      "step": 14142
    },
    {
      "epoch": 0.3142888888888889,
      "grad_norm": 1.669861912727356,
      "learning_rate": 0.0001371727050455657,
      "loss": 2.167,
      "step": 14143
    },
    {
      "epoch": 0.3143111111111111,
      "grad_norm": 1.5846498012542725,
      "learning_rate": 0.0001371682596132474,
      "loss": 1.9831,
      "step": 14144
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 2.17118501663208,
      "learning_rate": 0.0001371638141809291,
      "loss": 1.7285,
      "step": 14145
    },
    {
      "epoch": 0.31435555555555555,
      "grad_norm": 1.40232253074646,
      "learning_rate": 0.0001371593687486108,
      "loss": 1.5171,
      "step": 14146
    },
    {
      "epoch": 0.31437777777777776,
      "grad_norm": 1.5610064268112183,
      "learning_rate": 0.00013715492331629252,
      "loss": 1.8631,
      "step": 14147
    },
    {
      "epoch": 0.3144,
      "grad_norm": 1.6922935247421265,
      "learning_rate": 0.00013715047788397423,
      "loss": 2.1983,
      "step": 14148
    },
    {
      "epoch": 0.3144222222222222,
      "grad_norm": 1.6371476650238037,
      "learning_rate": 0.00013714603245165594,
      "loss": 1.6251,
      "step": 14149
    },
    {
      "epoch": 0.31444444444444447,
      "grad_norm": 2.077970266342163,
      "learning_rate": 0.00013714158701933765,
      "loss": 1.9689,
      "step": 14150
    },
    {
      "epoch": 0.31446666666666667,
      "grad_norm": 1.2532172203063965,
      "learning_rate": 0.00013713714158701933,
      "loss": 2.5256,
      "step": 14151
    },
    {
      "epoch": 0.3144888888888889,
      "grad_norm": 1.2306205034255981,
      "learning_rate": 0.00013713269615470107,
      "loss": 2.615,
      "step": 14152
    },
    {
      "epoch": 0.31451111111111113,
      "grad_norm": 1.1647719144821167,
      "learning_rate": 0.00013712825072238275,
      "loss": 2.3531,
      "step": 14153
    },
    {
      "epoch": 0.31453333333333333,
      "grad_norm": 1.3134313821792603,
      "learning_rate": 0.00013712380529006446,
      "loss": 2.6843,
      "step": 14154
    },
    {
      "epoch": 0.31455555555555553,
      "grad_norm": 1.3442912101745605,
      "learning_rate": 0.00013711935985774617,
      "loss": 2.2224,
      "step": 14155
    },
    {
      "epoch": 0.3145777777777778,
      "grad_norm": 1.3549448251724243,
      "learning_rate": 0.00013711491442542788,
      "loss": 2.2697,
      "step": 14156
    },
    {
      "epoch": 0.3146,
      "grad_norm": 1.809593915939331,
      "learning_rate": 0.0001371104689931096,
      "loss": 2.6472,
      "step": 14157
    },
    {
      "epoch": 0.31462222222222225,
      "grad_norm": 1.404325246810913,
      "learning_rate": 0.0001371060235607913,
      "loss": 2.1174,
      "step": 14158
    },
    {
      "epoch": 0.31464444444444445,
      "grad_norm": 1.359817624092102,
      "learning_rate": 0.000137101578128473,
      "loss": 2.2252,
      "step": 14159
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 1.402374505996704,
      "learning_rate": 0.00013709713269615472,
      "loss": 2.0683,
      "step": 14160
    },
    {
      "epoch": 0.3146888888888889,
      "grad_norm": 1.2926007509231567,
      "learning_rate": 0.00013709268726383643,
      "loss": 2.2413,
      "step": 14161
    },
    {
      "epoch": 0.3147111111111111,
      "grad_norm": 1.3749589920043945,
      "learning_rate": 0.0001370882418315181,
      "loss": 1.9041,
      "step": 14162
    },
    {
      "epoch": 0.3147333333333333,
      "grad_norm": 1.475118637084961,
      "learning_rate": 0.00013708379639919984,
      "loss": 2.1493,
      "step": 14163
    },
    {
      "epoch": 0.31475555555555557,
      "grad_norm": 1.4553297758102417,
      "learning_rate": 0.00013707935096688153,
      "loss": 1.7297,
      "step": 14164
    },
    {
      "epoch": 0.31477777777777777,
      "grad_norm": 1.6829735040664673,
      "learning_rate": 0.00013707490553456324,
      "loss": 2.3719,
      "step": 14165
    },
    {
      "epoch": 0.3148,
      "grad_norm": 1.8326990604400635,
      "learning_rate": 0.00013707046010224495,
      "loss": 2.4206,
      "step": 14166
    },
    {
      "epoch": 0.3148222222222222,
      "grad_norm": 1.4436062574386597,
      "learning_rate": 0.00013706601466992666,
      "loss": 1.9593,
      "step": 14167
    },
    {
      "epoch": 0.3148444444444444,
      "grad_norm": 3.810070753097534,
      "learning_rate": 0.00013706156923760837,
      "loss": 1.4215,
      "step": 14168
    },
    {
      "epoch": 0.3148666666666667,
      "grad_norm": 1.620886206626892,
      "learning_rate": 0.00013705712380529007,
      "loss": 2.0431,
      "step": 14169
    },
    {
      "epoch": 0.3148888888888889,
      "grad_norm": 1.4724169969558716,
      "learning_rate": 0.00013705267837297178,
      "loss": 1.5614,
      "step": 14170
    },
    {
      "epoch": 0.3149111111111111,
      "grad_norm": 1.7383159399032593,
      "learning_rate": 0.00013704823294065347,
      "loss": 2.3802,
      "step": 14171
    },
    {
      "epoch": 0.31493333333333334,
      "grad_norm": 2.030681610107422,
      "learning_rate": 0.0001370437875083352,
      "loss": 1.7828,
      "step": 14172
    },
    {
      "epoch": 0.31495555555555554,
      "grad_norm": 1.6657534837722778,
      "learning_rate": 0.00013703934207601689,
      "loss": 2.427,
      "step": 14173
    },
    {
      "epoch": 0.3149777777777778,
      "grad_norm": 1.4912755489349365,
      "learning_rate": 0.0001370348966436986,
      "loss": 1.6276,
      "step": 14174
    },
    {
      "epoch": 0.315,
      "grad_norm": 1.7783408164978027,
      "learning_rate": 0.0001370304512113803,
      "loss": 2.0697,
      "step": 14175
    },
    {
      "epoch": 0.3150222222222222,
      "grad_norm": 1.4034470319747925,
      "learning_rate": 0.00013702600577906202,
      "loss": 1.9581,
      "step": 14176
    },
    {
      "epoch": 0.31504444444444446,
      "grad_norm": 1.5304843187332153,
      "learning_rate": 0.00013702156034674372,
      "loss": 2.2434,
      "step": 14177
    },
    {
      "epoch": 0.31506666666666666,
      "grad_norm": 1.6571404933929443,
      "learning_rate": 0.00013701711491442543,
      "loss": 2.1263,
      "step": 14178
    },
    {
      "epoch": 0.31508888888888886,
      "grad_norm": 1.6825227737426758,
      "learning_rate": 0.00013701266948210714,
      "loss": 1.8414,
      "step": 14179
    },
    {
      "epoch": 0.3151111111111111,
      "grad_norm": 1.5139497518539429,
      "learning_rate": 0.00013700822404978885,
      "loss": 1.7525,
      "step": 14180
    },
    {
      "epoch": 0.3151333333333333,
      "grad_norm": 1.4887970685958862,
      "learning_rate": 0.00013700377861747056,
      "loss": 1.7118,
      "step": 14181
    },
    {
      "epoch": 0.3151555555555556,
      "grad_norm": 1.6021828651428223,
      "learning_rate": 0.00013699933318515225,
      "loss": 1.7651,
      "step": 14182
    },
    {
      "epoch": 0.3151777777777778,
      "grad_norm": 1.2072943449020386,
      "learning_rate": 0.00013699488775283398,
      "loss": 0.9618,
      "step": 14183
    },
    {
      "epoch": 0.3152,
      "grad_norm": 1.4244755506515503,
      "learning_rate": 0.00013699044232051567,
      "loss": 0.6541,
      "step": 14184
    },
    {
      "epoch": 0.31522222222222224,
      "grad_norm": 1.4634934663772583,
      "learning_rate": 0.00013698599688819737,
      "loss": 1.4574,
      "step": 14185
    },
    {
      "epoch": 0.31524444444444444,
      "grad_norm": 1.8430818319320679,
      "learning_rate": 0.0001369815514558791,
      "loss": 2.1008,
      "step": 14186
    },
    {
      "epoch": 0.31526666666666664,
      "grad_norm": 1.7828917503356934,
      "learning_rate": 0.0001369771060235608,
      "loss": 1.8319,
      "step": 14187
    },
    {
      "epoch": 0.3152888888888889,
      "grad_norm": 1.7618224620819092,
      "learning_rate": 0.0001369726605912425,
      "loss": 1.5808,
      "step": 14188
    },
    {
      "epoch": 0.3153111111111111,
      "grad_norm": 1.5816762447357178,
      "learning_rate": 0.0001369682151589242,
      "loss": 1.9284,
      "step": 14189
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 1.5656695365905762,
      "learning_rate": 0.00013696376972660592,
      "loss": 2.2439,
      "step": 14190
    },
    {
      "epoch": 0.31535555555555556,
      "grad_norm": 1.4711430072784424,
      "learning_rate": 0.0001369593242942876,
      "loss": 1.0146,
      "step": 14191
    },
    {
      "epoch": 0.31537777777777776,
      "grad_norm": 1.9662891626358032,
      "learning_rate": 0.00013695487886196934,
      "loss": 1.8318,
      "step": 14192
    },
    {
      "epoch": 0.3154,
      "grad_norm": 1.721409797668457,
      "learning_rate": 0.00013695043342965102,
      "loss": 1.6622,
      "step": 14193
    },
    {
      "epoch": 0.3154222222222222,
      "grad_norm": 1.5554701089859009,
      "learning_rate": 0.00013694598799733273,
      "loss": 1.8901,
      "step": 14194
    },
    {
      "epoch": 0.31544444444444447,
      "grad_norm": 1.822001576423645,
      "learning_rate": 0.00013694154256501447,
      "loss": 1.9792,
      "step": 14195
    },
    {
      "epoch": 0.3154666666666667,
      "grad_norm": 1.7198163270950317,
      "learning_rate": 0.00013693709713269615,
      "loss": 1.6731,
      "step": 14196
    },
    {
      "epoch": 0.3154888888888889,
      "grad_norm": 2.0947325229644775,
      "learning_rate": 0.0001369326517003779,
      "loss": 1.7994,
      "step": 14197
    },
    {
      "epoch": 0.31551111111111113,
      "grad_norm": 1.774003505706787,
      "learning_rate": 0.00013692820626805957,
      "loss": 1.7276,
      "step": 14198
    },
    {
      "epoch": 0.31553333333333333,
      "grad_norm": 2.1385419368743896,
      "learning_rate": 0.00013692376083574128,
      "loss": 1.856,
      "step": 14199
    },
    {
      "epoch": 0.31555555555555553,
      "grad_norm": 1.910830020904541,
      "learning_rate": 0.000136919315403423,
      "loss": 1.3032,
      "step": 14200
    },
    {
      "epoch": 0.3155777777777778,
      "grad_norm": 1.620287299156189,
      "learning_rate": 0.0001369148699711047,
      "loss": 2.7149,
      "step": 14201
    },
    {
      "epoch": 0.3156,
      "grad_norm": 1.3932334184646606,
      "learning_rate": 0.00013691042453878638,
      "loss": 2.4683,
      "step": 14202
    },
    {
      "epoch": 0.31562222222222225,
      "grad_norm": 1.7446266412734985,
      "learning_rate": 0.00013690597910646812,
      "loss": 1.9345,
      "step": 14203
    },
    {
      "epoch": 0.31564444444444445,
      "grad_norm": 1.4068080186843872,
      "learning_rate": 0.00013690153367414983,
      "loss": 2.4175,
      "step": 14204
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 1.3521244525909424,
      "learning_rate": 0.0001368970882418315,
      "loss": 1.9588,
      "step": 14205
    },
    {
      "epoch": 0.3156888888888889,
      "grad_norm": 1.438369870185852,
      "learning_rate": 0.00013689264280951325,
      "loss": 1.9983,
      "step": 14206
    },
    {
      "epoch": 0.3157111111111111,
      "grad_norm": 1.4631813764572144,
      "learning_rate": 0.00013688819737719493,
      "loss": 2.2878,
      "step": 14207
    },
    {
      "epoch": 0.3157333333333333,
      "grad_norm": 1.7215341329574585,
      "learning_rate": 0.00013688375194487664,
      "loss": 2.0972,
      "step": 14208
    },
    {
      "epoch": 0.31575555555555557,
      "grad_norm": 1.186112642288208,
      "learning_rate": 0.00013687930651255835,
      "loss": 1.5004,
      "step": 14209
    },
    {
      "epoch": 0.31577777777777777,
      "grad_norm": 1.2923035621643066,
      "learning_rate": 0.00013687486108024006,
      "loss": 1.7909,
      "step": 14210
    },
    {
      "epoch": 0.3158,
      "grad_norm": 1.3637925386428833,
      "learning_rate": 0.00013687041564792174,
      "loss": 1.8449,
      "step": 14211
    },
    {
      "epoch": 0.3158222222222222,
      "grad_norm": 1.5073753595352173,
      "learning_rate": 0.00013686597021560348,
      "loss": 2.0801,
      "step": 14212
    },
    {
      "epoch": 0.3158444444444444,
      "grad_norm": 1.7338014841079712,
      "learning_rate": 0.0001368615247832852,
      "loss": 2.0515,
      "step": 14213
    },
    {
      "epoch": 0.3158666666666667,
      "grad_norm": 1.2573158740997314,
      "learning_rate": 0.0001368570793509669,
      "loss": 1.6016,
      "step": 14214
    },
    {
      "epoch": 0.3158888888888889,
      "grad_norm": 1.5503456592559814,
      "learning_rate": 0.0001368526339186486,
      "loss": 1.4949,
      "step": 14215
    },
    {
      "epoch": 0.3159111111111111,
      "grad_norm": 1.119325041770935,
      "learning_rate": 0.0001368481884863303,
      "loss": 1.087,
      "step": 14216
    },
    {
      "epoch": 0.31593333333333334,
      "grad_norm": 1.6740673780441284,
      "learning_rate": 0.00013684374305401203,
      "loss": 2.7076,
      "step": 14217
    },
    {
      "epoch": 0.31595555555555555,
      "grad_norm": 1.4759544134140015,
      "learning_rate": 0.0001368392976216937,
      "loss": 2.2976,
      "step": 14218
    },
    {
      "epoch": 0.3159777777777778,
      "grad_norm": 1.4621175527572632,
      "learning_rate": 0.00013683485218937542,
      "loss": 2.2052,
      "step": 14219
    },
    {
      "epoch": 0.316,
      "grad_norm": 1.5130854845046997,
      "learning_rate": 0.00013683040675705713,
      "loss": 2.261,
      "step": 14220
    },
    {
      "epoch": 0.3160222222222222,
      "grad_norm": 1.4157631397247314,
      "learning_rate": 0.00013682596132473884,
      "loss": 2.341,
      "step": 14221
    },
    {
      "epoch": 0.31604444444444446,
      "grad_norm": 1.6103307008743286,
      "learning_rate": 0.00013682151589242055,
      "loss": 2.3519,
      "step": 14222
    },
    {
      "epoch": 0.31606666666666666,
      "grad_norm": 2.191511392593384,
      "learning_rate": 0.00013681707046010226,
      "loss": 1.5515,
      "step": 14223
    },
    {
      "epoch": 0.31608888888888886,
      "grad_norm": 1.664231538772583,
      "learning_rate": 0.00013681262502778397,
      "loss": 1.9953,
      "step": 14224
    },
    {
      "epoch": 0.3161111111111111,
      "grad_norm": 1.537237286567688,
      "learning_rate": 0.00013680817959546565,
      "loss": 2.0453,
      "step": 14225
    },
    {
      "epoch": 0.3161333333333333,
      "grad_norm": 1.6603413820266724,
      "learning_rate": 0.0001368037341631474,
      "loss": 1.7384,
      "step": 14226
    },
    {
      "epoch": 0.3161555555555556,
      "grad_norm": 1.4012377262115479,
      "learning_rate": 0.00013679928873082907,
      "loss": 2.0042,
      "step": 14227
    },
    {
      "epoch": 0.3161777777777778,
      "grad_norm": 2.0101518630981445,
      "learning_rate": 0.00013679484329851078,
      "loss": 2.4053,
      "step": 14228
    },
    {
      "epoch": 0.3162,
      "grad_norm": 1.5745997428894043,
      "learning_rate": 0.0001367903978661925,
      "loss": 2.2984,
      "step": 14229
    },
    {
      "epoch": 0.31622222222222224,
      "grad_norm": 1.5330495834350586,
      "learning_rate": 0.0001367859524338742,
      "loss": 1.8583,
      "step": 14230
    },
    {
      "epoch": 0.31624444444444444,
      "grad_norm": 1.4815083742141724,
      "learning_rate": 0.0001367815070015559,
      "loss": 1.9386,
      "step": 14231
    },
    {
      "epoch": 0.31626666666666664,
      "grad_norm": 1.0641231536865234,
      "learning_rate": 0.00013677706156923762,
      "loss": 0.8325,
      "step": 14232
    },
    {
      "epoch": 0.3162888888888889,
      "grad_norm": 1.5419976711273193,
      "learning_rate": 0.00013677261613691933,
      "loss": 1.7121,
      "step": 14233
    },
    {
      "epoch": 0.3163111111111111,
      "grad_norm": 1.6543136835098267,
      "learning_rate": 0.00013676817070460104,
      "loss": 2.0249,
      "step": 14234
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 2.2183732986450195,
      "learning_rate": 0.00013676372527228275,
      "loss": 1.6093,
      "step": 14235
    },
    {
      "epoch": 0.31635555555555556,
      "grad_norm": 1.2076891660690308,
      "learning_rate": 0.00013675927983996443,
      "loss": 1.1283,
      "step": 14236
    },
    {
      "epoch": 0.31637777777777776,
      "grad_norm": 1.5501281023025513,
      "learning_rate": 0.00013675483440764617,
      "loss": 1.9355,
      "step": 14237
    },
    {
      "epoch": 0.3164,
      "grad_norm": 1.0127077102661133,
      "learning_rate": 0.00013675038897532785,
      "loss": 0.7468,
      "step": 14238
    },
    {
      "epoch": 0.3164222222222222,
      "grad_norm": 1.6157935857772827,
      "learning_rate": 0.00013674594354300956,
      "loss": 1.9327,
      "step": 14239
    },
    {
      "epoch": 0.3164444444444444,
      "grad_norm": 1.4100903272628784,
      "learning_rate": 0.00013674149811069127,
      "loss": 1.6054,
      "step": 14240
    },
    {
      "epoch": 0.3164666666666667,
      "grad_norm": 1.6153665781021118,
      "learning_rate": 0.00013673705267837298,
      "loss": 1.5539,
      "step": 14241
    },
    {
      "epoch": 0.3164888888888889,
      "grad_norm": 1.8202916383743286,
      "learning_rate": 0.0001367326072460547,
      "loss": 2.1065,
      "step": 14242
    },
    {
      "epoch": 0.31651111111111113,
      "grad_norm": 1.6413496732711792,
      "learning_rate": 0.0001367281618137364,
      "loss": 1.4363,
      "step": 14243
    },
    {
      "epoch": 0.31653333333333333,
      "grad_norm": 1.9697035551071167,
      "learning_rate": 0.0001367237163814181,
      "loss": 1.478,
      "step": 14244
    },
    {
      "epoch": 0.31655555555555553,
      "grad_norm": 1.9807792901992798,
      "learning_rate": 0.0001367192709490998,
      "loss": 1.7341,
      "step": 14245
    },
    {
      "epoch": 0.3165777777777778,
      "grad_norm": 1.7915539741516113,
      "learning_rate": 0.00013671482551678153,
      "loss": 1.7204,
      "step": 14246
    },
    {
      "epoch": 0.3166,
      "grad_norm": 1.5669306516647339,
      "learning_rate": 0.0001367103800844632,
      "loss": 1.4903,
      "step": 14247
    },
    {
      "epoch": 0.31662222222222225,
      "grad_norm": 2.3341541290283203,
      "learning_rate": 0.00013670593465214492,
      "loss": 2.2066,
      "step": 14248
    },
    {
      "epoch": 0.31664444444444445,
      "grad_norm": 1.9881764650344849,
      "learning_rate": 0.00013670148921982663,
      "loss": 1.1792,
      "step": 14249
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 2.1581311225891113,
      "learning_rate": 0.00013669704378750834,
      "loss": 0.8703,
      "step": 14250
    },
    {
      "epoch": 0.3166888888888889,
      "grad_norm": 1.2658209800720215,
      "learning_rate": 0.00013669259835519005,
      "loss": 1.198,
      "step": 14251
    },
    {
      "epoch": 0.3167111111111111,
      "grad_norm": 0.9541028141975403,
      "learning_rate": 0.00013668815292287176,
      "loss": 1.1879,
      "step": 14252
    },
    {
      "epoch": 0.3167333333333333,
      "grad_norm": 1.3766592741012573,
      "learning_rate": 0.00013668370749055347,
      "loss": 2.408,
      "step": 14253
    },
    {
      "epoch": 0.31675555555555557,
      "grad_norm": 1.4677467346191406,
      "learning_rate": 0.00013667926205823518,
      "loss": 2.3024,
      "step": 14254
    },
    {
      "epoch": 0.31677777777777777,
      "grad_norm": 1.4630874395370483,
      "learning_rate": 0.00013667481662591689,
      "loss": 2.1894,
      "step": 14255
    },
    {
      "epoch": 0.3168,
      "grad_norm": 1.5834237337112427,
      "learning_rate": 0.00013667037119359857,
      "loss": 2.361,
      "step": 14256
    },
    {
      "epoch": 0.3168222222222222,
      "grad_norm": 1.466271162033081,
      "learning_rate": 0.0001366659257612803,
      "loss": 2.1628,
      "step": 14257
    },
    {
      "epoch": 0.31684444444444443,
      "grad_norm": 1.665322184562683,
      "learning_rate": 0.000136661480328962,
      "loss": 2.1216,
      "step": 14258
    },
    {
      "epoch": 0.3168666666666667,
      "grad_norm": 1.3759649991989136,
      "learning_rate": 0.0001366570348966437,
      "loss": 2.0662,
      "step": 14259
    },
    {
      "epoch": 0.3168888888888889,
      "grad_norm": 1.5637043714523315,
      "learning_rate": 0.00013665258946432543,
      "loss": 1.9575,
      "step": 14260
    },
    {
      "epoch": 0.3169111111111111,
      "grad_norm": 1.3604363203048706,
      "learning_rate": 0.00013664814403200712,
      "loss": 2.153,
      "step": 14261
    },
    {
      "epoch": 0.31693333333333334,
      "grad_norm": 1.3283607959747314,
      "learning_rate": 0.00013664369859968883,
      "loss": 2.1797,
      "step": 14262
    },
    {
      "epoch": 0.31695555555555555,
      "grad_norm": 1.7351081371307373,
      "learning_rate": 0.00013663925316737054,
      "loss": 2.2317,
      "step": 14263
    },
    {
      "epoch": 0.3169777777777778,
      "grad_norm": 1.6258090734481812,
      "learning_rate": 0.00013663480773505224,
      "loss": 2.2199,
      "step": 14264
    },
    {
      "epoch": 0.317,
      "grad_norm": 1.4971284866333008,
      "learning_rate": 0.00013663036230273393,
      "loss": 1.0697,
      "step": 14265
    },
    {
      "epoch": 0.3170222222222222,
      "grad_norm": 1.6105786561965942,
      "learning_rate": 0.00013662591687041566,
      "loss": 1.6961,
      "step": 14266
    },
    {
      "epoch": 0.31704444444444446,
      "grad_norm": 1.6936124563217163,
      "learning_rate": 0.00013662147143809735,
      "loss": 1.4522,
      "step": 14267
    },
    {
      "epoch": 0.31706666666666666,
      "grad_norm": 1.5655856132507324,
      "learning_rate": 0.00013661702600577906,
      "loss": 2.0471,
      "step": 14268
    },
    {
      "epoch": 0.31708888888888886,
      "grad_norm": 1.5513505935668945,
      "learning_rate": 0.0001366125805734608,
      "loss": 1.6134,
      "step": 14269
    },
    {
      "epoch": 0.3171111111111111,
      "grad_norm": 1.7003477811813354,
      "learning_rate": 0.00013660813514114248,
      "loss": 2.2617,
      "step": 14270
    },
    {
      "epoch": 0.3171333333333333,
      "grad_norm": 1.5177606344223022,
      "learning_rate": 0.0001366036897088242,
      "loss": 1.719,
      "step": 14271
    },
    {
      "epoch": 0.3171555555555556,
      "grad_norm": 1.6245743036270142,
      "learning_rate": 0.0001365992442765059,
      "loss": 2.0885,
      "step": 14272
    },
    {
      "epoch": 0.3171777777777778,
      "grad_norm": 1.5778932571411133,
      "learning_rate": 0.0001365947988441876,
      "loss": 2.2896,
      "step": 14273
    },
    {
      "epoch": 0.3172,
      "grad_norm": 1.5440545082092285,
      "learning_rate": 0.00013659035341186931,
      "loss": 2.0039,
      "step": 14274
    },
    {
      "epoch": 0.31722222222222224,
      "grad_norm": 1.7262839078903198,
      "learning_rate": 0.00013658590797955102,
      "loss": 2.2919,
      "step": 14275
    },
    {
      "epoch": 0.31724444444444444,
      "grad_norm": 1.488444447517395,
      "learning_rate": 0.0001365814625472327,
      "loss": 1.8735,
      "step": 14276
    },
    {
      "epoch": 0.31726666666666664,
      "grad_norm": 1.4978413581848145,
      "learning_rate": 0.00013657701711491444,
      "loss": 1.9693,
      "step": 14277
    },
    {
      "epoch": 0.3172888888888889,
      "grad_norm": 2.023763656616211,
      "learning_rate": 0.00013657257168259615,
      "loss": 2.5996,
      "step": 14278
    },
    {
      "epoch": 0.3173111111111111,
      "grad_norm": 1.7160060405731201,
      "learning_rate": 0.00013656812625027783,
      "loss": 2.4237,
      "step": 14279
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 2.0533673763275146,
      "learning_rate": 0.00013656368081795957,
      "loss": 2.0228,
      "step": 14280
    },
    {
      "epoch": 0.31735555555555556,
      "grad_norm": 1.8814928531646729,
      "learning_rate": 0.00013655923538564125,
      "loss": 1.8361,
      "step": 14281
    },
    {
      "epoch": 0.31737777777777776,
      "grad_norm": 1.994650959968567,
      "learning_rate": 0.00013655478995332296,
      "loss": 1.9664,
      "step": 14282
    },
    {
      "epoch": 0.3174,
      "grad_norm": 1.3756299018859863,
      "learning_rate": 0.00013655034452100467,
      "loss": 1.4257,
      "step": 14283
    },
    {
      "epoch": 0.3174222222222222,
      "grad_norm": 1.7107470035552979,
      "learning_rate": 0.00013654589908868638,
      "loss": 1.8446,
      "step": 14284
    },
    {
      "epoch": 0.3174444444444444,
      "grad_norm": 1.7096939086914062,
      "learning_rate": 0.0001365414536563681,
      "loss": 1.6676,
      "step": 14285
    },
    {
      "epoch": 0.3174666666666667,
      "grad_norm": 1.6212939023971558,
      "learning_rate": 0.0001365370082240498,
      "loss": 1.8828,
      "step": 14286
    },
    {
      "epoch": 0.3174888888888889,
      "grad_norm": 1.4468225240707397,
      "learning_rate": 0.0001365325627917315,
      "loss": 1.6822,
      "step": 14287
    },
    {
      "epoch": 0.31751111111111113,
      "grad_norm": 1.4747813940048218,
      "learning_rate": 0.0001365281173594132,
      "loss": 1.5487,
      "step": 14288
    },
    {
      "epoch": 0.31753333333333333,
      "grad_norm": 1.703894853591919,
      "learning_rate": 0.00013652367192709493,
      "loss": 2.016,
      "step": 14289
    },
    {
      "epoch": 0.31755555555555554,
      "grad_norm": 1.8579102754592896,
      "learning_rate": 0.00013651922649477661,
      "loss": 2.3347,
      "step": 14290
    },
    {
      "epoch": 0.3175777777777778,
      "grad_norm": 1.6877292394638062,
      "learning_rate": 0.00013651478106245835,
      "loss": 1.9565,
      "step": 14291
    },
    {
      "epoch": 0.3176,
      "grad_norm": 1.8500548601150513,
      "learning_rate": 0.00013651033563014003,
      "loss": 1.7924,
      "step": 14292
    },
    {
      "epoch": 0.3176222222222222,
      "grad_norm": 1.8213423490524292,
      "learning_rate": 0.00013650589019782174,
      "loss": 1.834,
      "step": 14293
    },
    {
      "epoch": 0.31764444444444445,
      "grad_norm": 1.5837945938110352,
      "learning_rate": 0.00013650144476550345,
      "loss": 1.8667,
      "step": 14294
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 2.051729917526245,
      "learning_rate": 0.00013649699933318516,
      "loss": 2.0599,
      "step": 14295
    },
    {
      "epoch": 0.3176888888888889,
      "grad_norm": 1.690903663635254,
      "learning_rate": 0.00013649255390086687,
      "loss": 1.8558,
      "step": 14296
    },
    {
      "epoch": 0.3177111111111111,
      "grad_norm": 1.4486874341964722,
      "learning_rate": 0.00013648810846854858,
      "loss": 0.9887,
      "step": 14297
    },
    {
      "epoch": 0.3177333333333333,
      "grad_norm": 1.0833956003189087,
      "learning_rate": 0.0001364836630362303,
      "loss": 0.7263,
      "step": 14298
    },
    {
      "epoch": 0.31775555555555557,
      "grad_norm": 2.4244720935821533,
      "learning_rate": 0.00013647921760391197,
      "loss": 2.0178,
      "step": 14299
    },
    {
      "epoch": 0.31777777777777777,
      "grad_norm": 2.1436986923217773,
      "learning_rate": 0.0001364747721715937,
      "loss": 1.7347,
      "step": 14300
    },
    {
      "epoch": 0.3178,
      "grad_norm": 1.3731383085250854,
      "learning_rate": 0.0001364703267392754,
      "loss": 2.9945,
      "step": 14301
    },
    {
      "epoch": 0.31782222222222223,
      "grad_norm": 1.419034481048584,
      "learning_rate": 0.0001364658813069571,
      "loss": 1.9644,
      "step": 14302
    },
    {
      "epoch": 0.31784444444444443,
      "grad_norm": 1.210418939590454,
      "learning_rate": 0.0001364614358746388,
      "loss": 1.8486,
      "step": 14303
    },
    {
      "epoch": 0.3178666666666667,
      "grad_norm": 1.3214998245239258,
      "learning_rate": 0.00013645699044232052,
      "loss": 2.1831,
      "step": 14304
    },
    {
      "epoch": 0.3178888888888889,
      "grad_norm": 1.5284028053283691,
      "learning_rate": 0.00013645254501000223,
      "loss": 2.0583,
      "step": 14305
    },
    {
      "epoch": 0.3179111111111111,
      "grad_norm": 1.4969090223312378,
      "learning_rate": 0.00013644809957768394,
      "loss": 2.2,
      "step": 14306
    },
    {
      "epoch": 0.31793333333333335,
      "grad_norm": 2.261747121810913,
      "learning_rate": 0.00013644365414536565,
      "loss": 2.4268,
      "step": 14307
    },
    {
      "epoch": 0.31795555555555555,
      "grad_norm": 1.381343960762024,
      "learning_rate": 0.00013643920871304733,
      "loss": 1.8272,
      "step": 14308
    },
    {
      "epoch": 0.3179777777777778,
      "grad_norm": 1.3033620119094849,
      "learning_rate": 0.00013643476328072907,
      "loss": 1.752,
      "step": 14309
    },
    {
      "epoch": 0.318,
      "grad_norm": 1.5967117547988892,
      "learning_rate": 0.00013643031784841075,
      "loss": 2.0416,
      "step": 14310
    },
    {
      "epoch": 0.3180222222222222,
      "grad_norm": 1.4650131464004517,
      "learning_rate": 0.0001364258724160925,
      "loss": 2.4579,
      "step": 14311
    },
    {
      "epoch": 0.31804444444444446,
      "grad_norm": 1.5227893590927124,
      "learning_rate": 0.00013642142698377417,
      "loss": 2.1502,
      "step": 14312
    },
    {
      "epoch": 0.31806666666666666,
      "grad_norm": 1.5951632261276245,
      "learning_rate": 0.00013641698155145588,
      "loss": 2.4391,
      "step": 14313
    },
    {
      "epoch": 0.31808888888888887,
      "grad_norm": 1.5421583652496338,
      "learning_rate": 0.0001364125361191376,
      "loss": 2.444,
      "step": 14314
    },
    {
      "epoch": 0.3181111111111111,
      "grad_norm": 1.5178604125976562,
      "learning_rate": 0.0001364080906868193,
      "loss": 2.0945,
      "step": 14315
    },
    {
      "epoch": 0.3181333333333333,
      "grad_norm": 3.1565237045288086,
      "learning_rate": 0.000136403645254501,
      "loss": 0.7328,
      "step": 14316
    },
    {
      "epoch": 0.3181555555555556,
      "grad_norm": 1.6452927589416504,
      "learning_rate": 0.00013639919982218272,
      "loss": 2.2455,
      "step": 14317
    },
    {
      "epoch": 0.3181777777777778,
      "grad_norm": 1.618493676185608,
      "learning_rate": 0.00013639475438986443,
      "loss": 2.1312,
      "step": 14318
    },
    {
      "epoch": 0.3182,
      "grad_norm": 1.5538216829299927,
      "learning_rate": 0.0001363903089575461,
      "loss": 1.5421,
      "step": 14319
    },
    {
      "epoch": 0.31822222222222224,
      "grad_norm": 1.5174789428710938,
      "learning_rate": 0.00013638586352522785,
      "loss": 1.7658,
      "step": 14320
    },
    {
      "epoch": 0.31824444444444444,
      "grad_norm": 1.7892085313796997,
      "learning_rate": 0.00013638141809290953,
      "loss": 2.4089,
      "step": 14321
    },
    {
      "epoch": 0.31826666666666664,
      "grad_norm": 1.38895583152771,
      "learning_rate": 0.00013637697266059124,
      "loss": 2.0277,
      "step": 14322
    },
    {
      "epoch": 0.3182888888888889,
      "grad_norm": 1.5715789794921875,
      "learning_rate": 0.00013637252722827295,
      "loss": 1.7848,
      "step": 14323
    },
    {
      "epoch": 0.3183111111111111,
      "grad_norm": 1.473315954208374,
      "learning_rate": 0.00013636808179595466,
      "loss": 1.9163,
      "step": 14324
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 1.5753456354141235,
      "learning_rate": 0.00013636363636363637,
      "loss": 1.755,
      "step": 14325
    },
    {
      "epoch": 0.31835555555555556,
      "grad_norm": 1.5928534269332886,
      "learning_rate": 0.00013635919093131808,
      "loss": 2.0222,
      "step": 14326
    },
    {
      "epoch": 0.31837777777777776,
      "grad_norm": 1.440002679824829,
      "learning_rate": 0.0001363547454989998,
      "loss": 1.8983,
      "step": 14327
    },
    {
      "epoch": 0.3184,
      "grad_norm": 1.6209264993667603,
      "learning_rate": 0.0001363503000666815,
      "loss": 2.1998,
      "step": 14328
    },
    {
      "epoch": 0.3184222222222222,
      "grad_norm": 1.5272347927093506,
      "learning_rate": 0.0001363458546343632,
      "loss": 2.1446,
      "step": 14329
    },
    {
      "epoch": 0.3184444444444444,
      "grad_norm": 1.7266796827316284,
      "learning_rate": 0.0001363414092020449,
      "loss": 1.4556,
      "step": 14330
    },
    {
      "epoch": 0.3184666666666667,
      "grad_norm": 1.790083408355713,
      "learning_rate": 0.00013633696376972663,
      "loss": 1.6552,
      "step": 14331
    },
    {
      "epoch": 0.3184888888888889,
      "grad_norm": 1.421205759048462,
      "learning_rate": 0.0001363325183374083,
      "loss": 1.3592,
      "step": 14332
    },
    {
      "epoch": 0.31851111111111113,
      "grad_norm": 1.4706991910934448,
      "learning_rate": 0.00013632807290509002,
      "loss": 1.6453,
      "step": 14333
    },
    {
      "epoch": 0.31853333333333333,
      "grad_norm": 1.4170833826065063,
      "learning_rate": 0.00013632362747277176,
      "loss": 1.47,
      "step": 14334
    },
    {
      "epoch": 0.31855555555555554,
      "grad_norm": 1.3761515617370605,
      "learning_rate": 0.00013631918204045344,
      "loss": 1.5723,
      "step": 14335
    },
    {
      "epoch": 0.3185777777777778,
      "grad_norm": 1.722008466720581,
      "learning_rate": 0.00013631473660813515,
      "loss": 1.9303,
      "step": 14336
    },
    {
      "epoch": 0.3186,
      "grad_norm": 1.4336543083190918,
      "learning_rate": 0.00013631029117581686,
      "loss": 1.9179,
      "step": 14337
    },
    {
      "epoch": 0.3186222222222222,
      "grad_norm": 1.4911447763442993,
      "learning_rate": 0.00013630584574349857,
      "loss": 1.9069,
      "step": 14338
    },
    {
      "epoch": 0.31864444444444445,
      "grad_norm": 1.9457063674926758,
      "learning_rate": 0.00013630140031118025,
      "loss": 2.1292,
      "step": 14339
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 1.7572097778320312,
      "learning_rate": 0.00013629695487886199,
      "loss": 2.0281,
      "step": 14340
    },
    {
      "epoch": 0.3186888888888889,
      "grad_norm": 1.51090407371521,
      "learning_rate": 0.00013629250944654367,
      "loss": 1.7068,
      "step": 14341
    },
    {
      "epoch": 0.3187111111111111,
      "grad_norm": 1.5771567821502686,
      "learning_rate": 0.00013628806401422538,
      "loss": 1.8594,
      "step": 14342
    },
    {
      "epoch": 0.3187333333333333,
      "grad_norm": 2.17806077003479,
      "learning_rate": 0.00013628361858190711,
      "loss": 1.8657,
      "step": 14343
    },
    {
      "epoch": 0.31875555555555557,
      "grad_norm": 1.7819112539291382,
      "learning_rate": 0.0001362791731495888,
      "loss": 2.154,
      "step": 14344
    },
    {
      "epoch": 0.31877777777777777,
      "grad_norm": 1.911959171295166,
      "learning_rate": 0.0001362747277172705,
      "loss": 1.6436,
      "step": 14345
    },
    {
      "epoch": 0.3188,
      "grad_norm": 1.5512268543243408,
      "learning_rate": 0.00013627028228495222,
      "loss": 1.4341,
      "step": 14346
    },
    {
      "epoch": 0.31882222222222223,
      "grad_norm": 1.782946228981018,
      "learning_rate": 0.00013626583685263393,
      "loss": 1.9057,
      "step": 14347
    },
    {
      "epoch": 0.31884444444444443,
      "grad_norm": 1.6143288612365723,
      "learning_rate": 0.00013626139142031564,
      "loss": 1.7139,
      "step": 14348
    },
    {
      "epoch": 0.3188666666666667,
      "grad_norm": 1.592227578163147,
      "learning_rate": 0.00013625694598799735,
      "loss": 1.9673,
      "step": 14349
    },
    {
      "epoch": 0.3188888888888889,
      "grad_norm": 1.916487216949463,
      "learning_rate": 0.00013625250055567903,
      "loss": 1.844,
      "step": 14350
    },
    {
      "epoch": 0.3189111111111111,
      "grad_norm": 1.4103658199310303,
      "learning_rate": 0.00013624805512336076,
      "loss": 2.6534,
      "step": 14351
    },
    {
      "epoch": 0.31893333333333335,
      "grad_norm": 1.381038784980774,
      "learning_rate": 0.00013624360969104247,
      "loss": 2.3348,
      "step": 14352
    },
    {
      "epoch": 0.31895555555555555,
      "grad_norm": 1.2539469003677368,
      "learning_rate": 0.00013623916425872416,
      "loss": 2.1246,
      "step": 14353
    },
    {
      "epoch": 0.3189777777777778,
      "grad_norm": 1.6659373044967651,
      "learning_rate": 0.0001362347188264059,
      "loss": 2.4515,
      "step": 14354
    },
    {
      "epoch": 0.319,
      "grad_norm": 1.6557743549346924,
      "learning_rate": 0.00013623027339408758,
      "loss": 2.1805,
      "step": 14355
    },
    {
      "epoch": 0.3190222222222222,
      "grad_norm": 1.64714777469635,
      "learning_rate": 0.00013622582796176929,
      "loss": 1.913,
      "step": 14356
    },
    {
      "epoch": 0.31904444444444446,
      "grad_norm": 1.3634066581726074,
      "learning_rate": 0.000136221382529451,
      "loss": 2.1832,
      "step": 14357
    },
    {
      "epoch": 0.31906666666666667,
      "grad_norm": 1.4067996740341187,
      "learning_rate": 0.0001362169370971327,
      "loss": 1.9091,
      "step": 14358
    },
    {
      "epoch": 0.31908888888888887,
      "grad_norm": 1.332293152809143,
      "learning_rate": 0.00013621249166481441,
      "loss": 1.8498,
      "step": 14359
    },
    {
      "epoch": 0.3191111111111111,
      "grad_norm": 1.5414124727249146,
      "learning_rate": 0.00013620804623249612,
      "loss": 0.673,
      "step": 14360
    },
    {
      "epoch": 0.3191333333333333,
      "grad_norm": 1.4647325277328491,
      "learning_rate": 0.00013620360080017783,
      "loss": 2.1397,
      "step": 14361
    },
    {
      "epoch": 0.3191555555555556,
      "grad_norm": 1.3497326374053955,
      "learning_rate": 0.00013619915536785952,
      "loss": 2.3991,
      "step": 14362
    },
    {
      "epoch": 0.3191777777777778,
      "grad_norm": 1.4783270359039307,
      "learning_rate": 0.00013619470993554125,
      "loss": 2.1044,
      "step": 14363
    },
    {
      "epoch": 0.3192,
      "grad_norm": 1.3387596607208252,
      "learning_rate": 0.00013619026450322294,
      "loss": 2.2721,
      "step": 14364
    },
    {
      "epoch": 0.31922222222222224,
      "grad_norm": 1.610723614692688,
      "learning_rate": 0.00013618581907090465,
      "loss": 2.3208,
      "step": 14365
    },
    {
      "epoch": 0.31924444444444444,
      "grad_norm": 1.4868674278259277,
      "learning_rate": 0.00013618137363858635,
      "loss": 1.9041,
      "step": 14366
    },
    {
      "epoch": 0.31926666666666664,
      "grad_norm": 1.5873793363571167,
      "learning_rate": 0.00013617692820626806,
      "loss": 2.0256,
      "step": 14367
    },
    {
      "epoch": 0.3192888888888889,
      "grad_norm": 1.6049797534942627,
      "learning_rate": 0.00013617248277394977,
      "loss": 2.4407,
      "step": 14368
    },
    {
      "epoch": 0.3193111111111111,
      "grad_norm": 1.5442659854888916,
      "learning_rate": 0.00013616803734163148,
      "loss": 1.6926,
      "step": 14369
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 1.4973424673080444,
      "learning_rate": 0.0001361635919093132,
      "loss": 1.9216,
      "step": 14370
    },
    {
      "epoch": 0.31935555555555556,
      "grad_norm": 1.511650800704956,
      "learning_rate": 0.0001361591464769949,
      "loss": 2.0636,
      "step": 14371
    },
    {
      "epoch": 0.31937777777777776,
      "grad_norm": 1.5437283515930176,
      "learning_rate": 0.0001361547010446766,
      "loss": 2.0666,
      "step": 14372
    },
    {
      "epoch": 0.3194,
      "grad_norm": 1.4608211517333984,
      "learning_rate": 0.0001361502556123583,
      "loss": 1.9226,
      "step": 14373
    },
    {
      "epoch": 0.3194222222222222,
      "grad_norm": 1.467897653579712,
      "learning_rate": 0.00013614581018004003,
      "loss": 1.9176,
      "step": 14374
    },
    {
      "epoch": 0.3194444444444444,
      "grad_norm": 1.6145106554031372,
      "learning_rate": 0.00013614136474772171,
      "loss": 1.9266,
      "step": 14375
    },
    {
      "epoch": 0.3194666666666667,
      "grad_norm": 1.5877552032470703,
      "learning_rate": 0.00013613691931540342,
      "loss": 1.9912,
      "step": 14376
    },
    {
      "epoch": 0.3194888888888889,
      "grad_norm": 1.8274803161621094,
      "learning_rate": 0.00013613247388308513,
      "loss": 1.8906,
      "step": 14377
    },
    {
      "epoch": 0.31951111111111113,
      "grad_norm": 1.3794376850128174,
      "learning_rate": 0.00013612802845076684,
      "loss": 2.1423,
      "step": 14378
    },
    {
      "epoch": 0.31953333333333334,
      "grad_norm": 1.617216944694519,
      "learning_rate": 0.00013612358301844855,
      "loss": 2.3503,
      "step": 14379
    },
    {
      "epoch": 0.31955555555555554,
      "grad_norm": 1.9958176612854004,
      "learning_rate": 0.00013611913758613026,
      "loss": 2.7268,
      "step": 14380
    },
    {
      "epoch": 0.3195777777777778,
      "grad_norm": 1.5313714742660522,
      "learning_rate": 0.00013611469215381197,
      "loss": 1.7582,
      "step": 14381
    },
    {
      "epoch": 0.3196,
      "grad_norm": 1.2846136093139648,
      "learning_rate": 0.00013611024672149365,
      "loss": 1.3438,
      "step": 14382
    },
    {
      "epoch": 0.3196222222222222,
      "grad_norm": 1.7341231107711792,
      "learning_rate": 0.0001361058012891754,
      "loss": 2.043,
      "step": 14383
    },
    {
      "epoch": 0.31964444444444445,
      "grad_norm": 0.9396565556526184,
      "learning_rate": 0.00013610135585685707,
      "loss": 0.9656,
      "step": 14384
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 1.4100778102874756,
      "learning_rate": 0.0001360969104245388,
      "loss": 1.7552,
      "step": 14385
    },
    {
      "epoch": 0.3196888888888889,
      "grad_norm": 1.5785207748413086,
      "learning_rate": 0.0001360924649922205,
      "loss": 2.1614,
      "step": 14386
    },
    {
      "epoch": 0.3197111111111111,
      "grad_norm": 1.662047028541565,
      "learning_rate": 0.0001360880195599022,
      "loss": 1.7917,
      "step": 14387
    },
    {
      "epoch": 0.3197333333333333,
      "grad_norm": 1.4834256172180176,
      "learning_rate": 0.0001360835741275839,
      "loss": 1.7834,
      "step": 14388
    },
    {
      "epoch": 0.31975555555555557,
      "grad_norm": 1.388229489326477,
      "learning_rate": 0.00013607912869526562,
      "loss": 1.5534,
      "step": 14389
    },
    {
      "epoch": 0.31977777777777777,
      "grad_norm": 1.3636670112609863,
      "learning_rate": 0.00013607468326294733,
      "loss": 1.3968,
      "step": 14390
    },
    {
      "epoch": 0.3198,
      "grad_norm": 2.185699939727783,
      "learning_rate": 0.00013607023783062904,
      "loss": 2.3953,
      "step": 14391
    },
    {
      "epoch": 0.31982222222222223,
      "grad_norm": 1.631361484527588,
      "learning_rate": 0.00013606579239831075,
      "loss": 2.2936,
      "step": 14392
    },
    {
      "epoch": 0.31984444444444443,
      "grad_norm": 1.8195544481277466,
      "learning_rate": 0.00013606134696599243,
      "loss": 2.0494,
      "step": 14393
    },
    {
      "epoch": 0.3198666666666667,
      "grad_norm": 2.397498846054077,
      "learning_rate": 0.00013605690153367417,
      "loss": 2.1111,
      "step": 14394
    },
    {
      "epoch": 0.3198888888888889,
      "grad_norm": 1.6529887914657593,
      "learning_rate": 0.00013605245610135585,
      "loss": 1.9883,
      "step": 14395
    },
    {
      "epoch": 0.3199111111111111,
      "grad_norm": 1.723158597946167,
      "learning_rate": 0.00013604801066903756,
      "loss": 1.9956,
      "step": 14396
    },
    {
      "epoch": 0.31993333333333335,
      "grad_norm": 1.6655652523040771,
      "learning_rate": 0.00013604356523671927,
      "loss": 1.9953,
      "step": 14397
    },
    {
      "epoch": 0.31995555555555555,
      "grad_norm": 1.6944613456726074,
      "learning_rate": 0.00013603911980440098,
      "loss": 1.7171,
      "step": 14398
    },
    {
      "epoch": 0.3199777777777778,
      "grad_norm": 2.1209871768951416,
      "learning_rate": 0.0001360346743720827,
      "loss": 2.068,
      "step": 14399
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6111583709716797,
      "learning_rate": 0.0001360302289397644,
      "loss": 1.365,
      "step": 14400
    },
    {
      "epoch": 0.3200222222222222,
      "grad_norm": 1.211592435836792,
      "learning_rate": 0.0001360257835074461,
      "loss": 2.5305,
      "step": 14401
    },
    {
      "epoch": 0.32004444444444446,
      "grad_norm": 1.0236034393310547,
      "learning_rate": 0.0001360213380751278,
      "loss": 1.1394,
      "step": 14402
    },
    {
      "epoch": 0.32006666666666667,
      "grad_norm": 1.4801384210586548,
      "learning_rate": 0.00013601689264280953,
      "loss": 2.2888,
      "step": 14403
    },
    {
      "epoch": 0.32008888888888887,
      "grad_norm": 1.7298308610916138,
      "learning_rate": 0.0001360124472104912,
      "loss": 2.2285,
      "step": 14404
    },
    {
      "epoch": 0.3201111111111111,
      "grad_norm": 1.406265377998352,
      "learning_rate": 0.00013600800177817295,
      "loss": 2.3997,
      "step": 14405
    },
    {
      "epoch": 0.3201333333333333,
      "grad_norm": 1.3736507892608643,
      "learning_rate": 0.00013600355634585463,
      "loss": 2.309,
      "step": 14406
    },
    {
      "epoch": 0.3201555555555556,
      "grad_norm": 1.3767801523208618,
      "learning_rate": 0.00013599911091353634,
      "loss": 2.3259,
      "step": 14407
    },
    {
      "epoch": 0.3201777777777778,
      "grad_norm": 1.5416696071624756,
      "learning_rate": 0.00013599466548121808,
      "loss": 2.3851,
      "step": 14408
    },
    {
      "epoch": 0.3202,
      "grad_norm": 1.1228278875350952,
      "learning_rate": 0.00013599022004889976,
      "loss": 1.244,
      "step": 14409
    },
    {
      "epoch": 0.32022222222222224,
      "grad_norm": 1.5522693395614624,
      "learning_rate": 0.00013598577461658147,
      "loss": 2.1303,
      "step": 14410
    },
    {
      "epoch": 0.32024444444444444,
      "grad_norm": 1.6263362169265747,
      "learning_rate": 0.00013598132918426318,
      "loss": 2.2147,
      "step": 14411
    },
    {
      "epoch": 0.32026666666666664,
      "grad_norm": 1.555820345878601,
      "learning_rate": 0.0001359768837519449,
      "loss": 2.2754,
      "step": 14412
    },
    {
      "epoch": 0.3202888888888889,
      "grad_norm": 1.6137653589248657,
      "learning_rate": 0.00013597243831962657,
      "loss": 2.1613,
      "step": 14413
    },
    {
      "epoch": 0.3203111111111111,
      "grad_norm": 1.3864575624465942,
      "learning_rate": 0.0001359679928873083,
      "loss": 2.2881,
      "step": 14414
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 1.9993412494659424,
      "learning_rate": 0.00013596354745499,
      "loss": 1.8958,
      "step": 14415
    },
    {
      "epoch": 0.32035555555555556,
      "grad_norm": 1.4547139406204224,
      "learning_rate": 0.0001359591020226717,
      "loss": 2.0767,
      "step": 14416
    },
    {
      "epoch": 0.32037777777777776,
      "grad_norm": 2.0988054275512695,
      "learning_rate": 0.00013595465659035344,
      "loss": 1.7549,
      "step": 14417
    },
    {
      "epoch": 0.3204,
      "grad_norm": 1.4712440967559814,
      "learning_rate": 0.00013595021115803512,
      "loss": 1.7009,
      "step": 14418
    },
    {
      "epoch": 0.3204222222222222,
      "grad_norm": 1.7955584526062012,
      "learning_rate": 0.00013594576572571683,
      "loss": 2.0499,
      "step": 14419
    },
    {
      "epoch": 0.3204444444444444,
      "grad_norm": 0.8924117684364319,
      "learning_rate": 0.00013594132029339854,
      "loss": 0.9109,
      "step": 14420
    },
    {
      "epoch": 0.3204666666666667,
      "grad_norm": 0.22730086743831635,
      "learning_rate": 0.00013593687486108025,
      "loss": 0.0397,
      "step": 14421
    },
    {
      "epoch": 0.3204888888888889,
      "grad_norm": 2.017496347427368,
      "learning_rate": 0.00013593242942876193,
      "loss": 2.0233,
      "step": 14422
    },
    {
      "epoch": 0.32051111111111114,
      "grad_norm": 1.4104983806610107,
      "learning_rate": 0.00013592798399644367,
      "loss": 1.7682,
      "step": 14423
    },
    {
      "epoch": 0.32053333333333334,
      "grad_norm": 1.445452094078064,
      "learning_rate": 0.00013592353856412535,
      "loss": 1.6362,
      "step": 14424
    },
    {
      "epoch": 0.32055555555555554,
      "grad_norm": 1.2957106828689575,
      "learning_rate": 0.0001359190931318071,
      "loss": 1.9676,
      "step": 14425
    },
    {
      "epoch": 0.3205777777777778,
      "grad_norm": 1.3169571161270142,
      "learning_rate": 0.0001359146476994888,
      "loss": 1.641,
      "step": 14426
    },
    {
      "epoch": 0.3206,
      "grad_norm": 1.4128286838531494,
      "learning_rate": 0.00013591020226717048,
      "loss": 2.0546,
      "step": 14427
    },
    {
      "epoch": 0.3206222222222222,
      "grad_norm": 1.45816171169281,
      "learning_rate": 0.00013590575683485222,
      "loss": 1.9608,
      "step": 14428
    },
    {
      "epoch": 0.32064444444444445,
      "grad_norm": 1.555121898651123,
      "learning_rate": 0.0001359013114025339,
      "loss": 1.9528,
      "step": 14429
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 1.3688931465148926,
      "learning_rate": 0.0001358968659702156,
      "loss": 1.5381,
      "step": 14430
    },
    {
      "epoch": 0.3206888888888889,
      "grad_norm": 1.9370217323303223,
      "learning_rate": 0.00013589242053789732,
      "loss": 2.261,
      "step": 14431
    },
    {
      "epoch": 0.3207111111111111,
      "grad_norm": 1.8044980764389038,
      "learning_rate": 0.00013588797510557903,
      "loss": 2.0184,
      "step": 14432
    },
    {
      "epoch": 0.3207333333333333,
      "grad_norm": 1.9821703433990479,
      "learning_rate": 0.00013588352967326074,
      "loss": 2.4046,
      "step": 14433
    },
    {
      "epoch": 0.32075555555555557,
      "grad_norm": 1.273141860961914,
      "learning_rate": 0.00013587908424094245,
      "loss": 1.4669,
      "step": 14434
    },
    {
      "epoch": 0.3207777777777778,
      "grad_norm": 1.8458876609802246,
      "learning_rate": 0.00013587463880862416,
      "loss": 2.2283,
      "step": 14435
    },
    {
      "epoch": 0.3208,
      "grad_norm": 1.570969581604004,
      "learning_rate": 0.00013587019337630584,
      "loss": 1.838,
      "step": 14436
    },
    {
      "epoch": 0.32082222222222223,
      "grad_norm": 1.5306845903396606,
      "learning_rate": 0.00013586574794398758,
      "loss": 1.8831,
      "step": 14437
    },
    {
      "epoch": 0.32084444444444443,
      "grad_norm": 1.3181419372558594,
      "learning_rate": 0.00013586130251166926,
      "loss": 1.3118,
      "step": 14438
    },
    {
      "epoch": 0.3208666666666667,
      "grad_norm": 1.4008885622024536,
      "learning_rate": 0.00013585685707935097,
      "loss": 1.6602,
      "step": 14439
    },
    {
      "epoch": 0.3208888888888889,
      "grad_norm": 1.3208262920379639,
      "learning_rate": 0.00013585241164703268,
      "loss": 1.5502,
      "step": 14440
    },
    {
      "epoch": 0.3209111111111111,
      "grad_norm": 1.4258079528808594,
      "learning_rate": 0.0001358479662147144,
      "loss": 2.0807,
      "step": 14441
    },
    {
      "epoch": 0.32093333333333335,
      "grad_norm": 1.387584924697876,
      "learning_rate": 0.0001358435207823961,
      "loss": 1.6786,
      "step": 14442
    },
    {
      "epoch": 0.32095555555555555,
      "grad_norm": 1.867624044418335,
      "learning_rate": 0.0001358390753500778,
      "loss": 2.0738,
      "step": 14443
    },
    {
      "epoch": 0.32097777777777775,
      "grad_norm": 1.5959028005599976,
      "learning_rate": 0.00013583462991775952,
      "loss": 1.8166,
      "step": 14444
    },
    {
      "epoch": 0.321,
      "grad_norm": 1.6959697008132935,
      "learning_rate": 0.00013583018448544123,
      "loss": 1.6896,
      "step": 14445
    },
    {
      "epoch": 0.3210222222222222,
      "grad_norm": 1.7078721523284912,
      "learning_rate": 0.00013582573905312293,
      "loss": 1.536,
      "step": 14446
    },
    {
      "epoch": 0.32104444444444447,
      "grad_norm": 1.8300282955169678,
      "learning_rate": 0.00013582129362080462,
      "loss": 1.9332,
      "step": 14447
    },
    {
      "epoch": 0.32106666666666667,
      "grad_norm": 1.8743000030517578,
      "learning_rate": 0.00013581684818848635,
      "loss": 1.8445,
      "step": 14448
    },
    {
      "epoch": 0.32108888888888887,
      "grad_norm": 1.8341888189315796,
      "learning_rate": 0.00013581240275616804,
      "loss": 2.0009,
      "step": 14449
    },
    {
      "epoch": 0.3211111111111111,
      "grad_norm": 0.9840743541717529,
      "learning_rate": 0.00013580795732384975,
      "loss": 0.5901,
      "step": 14450
    },
    {
      "epoch": 0.3211333333333333,
      "grad_norm": 1.2204058170318604,
      "learning_rate": 0.00013580351189153146,
      "loss": 2.3811,
      "step": 14451
    },
    {
      "epoch": 0.3211555555555556,
      "grad_norm": 2.9114115238189697,
      "learning_rate": 0.00013579906645921317,
      "loss": 1.2044,
      "step": 14452
    },
    {
      "epoch": 0.3211777777777778,
      "grad_norm": 0.8899987936019897,
      "learning_rate": 0.00013579462102689487,
      "loss": 1.3359,
      "step": 14453
    },
    {
      "epoch": 0.3212,
      "grad_norm": 0.9247779846191406,
      "learning_rate": 0.00013579017559457658,
      "loss": 1.3065,
      "step": 14454
    },
    {
      "epoch": 0.32122222222222224,
      "grad_norm": 1.2938175201416016,
      "learning_rate": 0.0001357857301622583,
      "loss": 2.3753,
      "step": 14455
    },
    {
      "epoch": 0.32124444444444444,
      "grad_norm": 2.1552720069885254,
      "learning_rate": 0.00013578128472993998,
      "loss": 1.557,
      "step": 14456
    },
    {
      "epoch": 0.32126666666666664,
      "grad_norm": 1.376110315322876,
      "learning_rate": 0.0001357768392976217,
      "loss": 2.5963,
      "step": 14457
    },
    {
      "epoch": 0.3212888888888889,
      "grad_norm": 1.5700280666351318,
      "learning_rate": 0.0001357723938653034,
      "loss": 2.4318,
      "step": 14458
    },
    {
      "epoch": 0.3213111111111111,
      "grad_norm": 1.4000742435455322,
      "learning_rate": 0.0001357679484329851,
      "loss": 1.999,
      "step": 14459
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 1.3954973220825195,
      "learning_rate": 0.00013576350300066682,
      "loss": 2.3558,
      "step": 14460
    },
    {
      "epoch": 0.32135555555555556,
      "grad_norm": 1.443099856376648,
      "learning_rate": 0.00013575905756834852,
      "loss": 2.2918,
      "step": 14461
    },
    {
      "epoch": 0.32137777777777776,
      "grad_norm": 1.402430534362793,
      "learning_rate": 0.00013575461213603023,
      "loss": 2.2596,
      "step": 14462
    },
    {
      "epoch": 0.3214,
      "grad_norm": 1.2843035459518433,
      "learning_rate": 0.00013575016670371194,
      "loss": 1.2123,
      "step": 14463
    },
    {
      "epoch": 0.3214222222222222,
      "grad_norm": 1.44947350025177,
      "learning_rate": 0.00013574572127139365,
      "loss": 1.7369,
      "step": 14464
    },
    {
      "epoch": 0.3214444444444444,
      "grad_norm": 1.4001415967941284,
      "learning_rate": 0.00013574127583907536,
      "loss": 2.0806,
      "step": 14465
    },
    {
      "epoch": 0.3214666666666667,
      "grad_norm": 1.324552297592163,
      "learning_rate": 0.00013573683040675707,
      "loss": 1.978,
      "step": 14466
    },
    {
      "epoch": 0.3214888888888889,
      "grad_norm": 1.6885682344436646,
      "learning_rate": 0.00013573238497443876,
      "loss": 2.2703,
      "step": 14467
    },
    {
      "epoch": 0.32151111111111114,
      "grad_norm": 1.4642893075942993,
      "learning_rate": 0.0001357279395421205,
      "loss": 2.0781,
      "step": 14468
    },
    {
      "epoch": 0.32153333333333334,
      "grad_norm": 1.7343837022781372,
      "learning_rate": 0.00013572349410980217,
      "loss": 2.0643,
      "step": 14469
    },
    {
      "epoch": 0.32155555555555554,
      "grad_norm": 1.5303850173950195,
      "learning_rate": 0.00013571904867748388,
      "loss": 2.517,
      "step": 14470
    },
    {
      "epoch": 0.3215777777777778,
      "grad_norm": 1.3721745014190674,
      "learning_rate": 0.0001357146032451656,
      "loss": 1.6488,
      "step": 14471
    },
    {
      "epoch": 0.3216,
      "grad_norm": 1.3281619548797607,
      "learning_rate": 0.0001357101578128473,
      "loss": 1.8322,
      "step": 14472
    },
    {
      "epoch": 0.3216222222222222,
      "grad_norm": 1.3839373588562012,
      "learning_rate": 0.000135705712380529,
      "loss": 1.7614,
      "step": 14473
    },
    {
      "epoch": 0.32164444444444446,
      "grad_norm": 1.6046562194824219,
      "learning_rate": 0.00013570126694821072,
      "loss": 2.3023,
      "step": 14474
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 1.6206951141357422,
      "learning_rate": 0.00013569682151589243,
      "loss": 2.2579,
      "step": 14475
    },
    {
      "epoch": 0.3216888888888889,
      "grad_norm": 1.5264345407485962,
      "learning_rate": 0.00013569237608357411,
      "loss": 2.2783,
      "step": 14476
    },
    {
      "epoch": 0.3217111111111111,
      "grad_norm": 1.4792755842208862,
      "learning_rate": 0.00013568793065125585,
      "loss": 1.8422,
      "step": 14477
    },
    {
      "epoch": 0.3217333333333333,
      "grad_norm": 1.6728601455688477,
      "learning_rate": 0.00013568348521893753,
      "loss": 1.8758,
      "step": 14478
    },
    {
      "epoch": 0.3217555555555556,
      "grad_norm": 1.5395736694335938,
      "learning_rate": 0.00013567903978661924,
      "loss": 2.021,
      "step": 14479
    },
    {
      "epoch": 0.3217777777777778,
      "grad_norm": 1.662528157234192,
      "learning_rate": 0.00013567459435430095,
      "loss": 2.3459,
      "step": 14480
    },
    {
      "epoch": 0.3218,
      "grad_norm": 1.5977174043655396,
      "learning_rate": 0.00013567014892198266,
      "loss": 2.0733,
      "step": 14481
    },
    {
      "epoch": 0.32182222222222223,
      "grad_norm": 1.4418507814407349,
      "learning_rate": 0.0001356657034896644,
      "loss": 1.6367,
      "step": 14482
    },
    {
      "epoch": 0.32184444444444443,
      "grad_norm": 1.6680927276611328,
      "learning_rate": 0.00013566125805734608,
      "loss": 1.9905,
      "step": 14483
    },
    {
      "epoch": 0.3218666666666667,
      "grad_norm": 1.9472788572311401,
      "learning_rate": 0.0001356568126250278,
      "loss": 0.5728,
      "step": 14484
    },
    {
      "epoch": 0.3218888888888889,
      "grad_norm": 1.2325010299682617,
      "learning_rate": 0.0001356523671927095,
      "loss": 1.4797,
      "step": 14485
    },
    {
      "epoch": 0.3219111111111111,
      "grad_norm": 1.5515111684799194,
      "learning_rate": 0.0001356479217603912,
      "loss": 1.7869,
      "step": 14486
    },
    {
      "epoch": 0.32193333333333335,
      "grad_norm": 1.725419282913208,
      "learning_rate": 0.0001356434763280729,
      "loss": 2.2091,
      "step": 14487
    },
    {
      "epoch": 0.32195555555555555,
      "grad_norm": 1.6914247274398804,
      "learning_rate": 0.00013563903089575463,
      "loss": 2.1627,
      "step": 14488
    },
    {
      "epoch": 0.32197777777777775,
      "grad_norm": 1.7053958177566528,
      "learning_rate": 0.0001356345854634363,
      "loss": 2.0957,
      "step": 14489
    },
    {
      "epoch": 0.322,
      "grad_norm": 1.6734461784362793,
      "learning_rate": 0.00013563014003111802,
      "loss": 1.9536,
      "step": 14490
    },
    {
      "epoch": 0.3220222222222222,
      "grad_norm": 1.959954857826233,
      "learning_rate": 0.00013562569459879976,
      "loss": 1.7802,
      "step": 14491
    },
    {
      "epoch": 0.32204444444444447,
      "grad_norm": 2.1658921241760254,
      "learning_rate": 0.00013562124916648144,
      "loss": 2.2786,
      "step": 14492
    },
    {
      "epoch": 0.32206666666666667,
      "grad_norm": 1.7410928010940552,
      "learning_rate": 0.00013561680373416315,
      "loss": 1.9623,
      "step": 14493
    },
    {
      "epoch": 0.32208888888888887,
      "grad_norm": 1.6201913356781006,
      "learning_rate": 0.00013561235830184486,
      "loss": 1.5851,
      "step": 14494
    },
    {
      "epoch": 0.3221111111111111,
      "grad_norm": 1.7591726779937744,
      "learning_rate": 0.00013560791286952657,
      "loss": 2.3745,
      "step": 14495
    },
    {
      "epoch": 0.3221333333333333,
      "grad_norm": 1.5024341344833374,
      "learning_rate": 0.00013560346743720825,
      "loss": 2.0973,
      "step": 14496
    },
    {
      "epoch": 0.32215555555555553,
      "grad_norm": 2.140791893005371,
      "learning_rate": 0.00013559902200489,
      "loss": 1.7391,
      "step": 14497
    },
    {
      "epoch": 0.3221777777777778,
      "grad_norm": 1.71046781539917,
      "learning_rate": 0.00013559457657257167,
      "loss": 1.8895,
      "step": 14498
    },
    {
      "epoch": 0.3222,
      "grad_norm": 1.801433801651001,
      "learning_rate": 0.0001355901311402534,
      "loss": 1.7743,
      "step": 14499
    },
    {
      "epoch": 0.32222222222222224,
      "grad_norm": 1.8264708518981934,
      "learning_rate": 0.00013558568570793512,
      "loss": 1.6973,
      "step": 14500
    },
    {
      "epoch": 0.32224444444444444,
      "grad_norm": 1.152395486831665,
      "learning_rate": 0.0001355812402756168,
      "loss": 1.2851,
      "step": 14501
    },
    {
      "epoch": 0.32226666666666665,
      "grad_norm": 1.3119055032730103,
      "learning_rate": 0.00013557679484329854,
      "loss": 2.0631,
      "step": 14502
    },
    {
      "epoch": 0.3222888888888889,
      "grad_norm": 1.1983975172042847,
      "learning_rate": 0.00013557234941098022,
      "loss": 2.4656,
      "step": 14503
    },
    {
      "epoch": 0.3223111111111111,
      "grad_norm": 1.4998762607574463,
      "learning_rate": 0.00013556790397866193,
      "loss": 2.4193,
      "step": 14504
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 1.2648814916610718,
      "learning_rate": 0.00013556345854634364,
      "loss": 1.8338,
      "step": 14505
    },
    {
      "epoch": 0.32235555555555556,
      "grad_norm": 1.2190356254577637,
      "learning_rate": 0.00013555901311402535,
      "loss": 2.1294,
      "step": 14506
    },
    {
      "epoch": 0.32237777777777776,
      "grad_norm": 1.450200080871582,
      "learning_rate": 0.00013555456768170706,
      "loss": 2.3003,
      "step": 14507
    },
    {
      "epoch": 0.3224,
      "grad_norm": 1.477889060974121,
      "learning_rate": 0.00013555012224938877,
      "loss": 2.439,
      "step": 14508
    },
    {
      "epoch": 0.3224222222222222,
      "grad_norm": 1.5497987270355225,
      "learning_rate": 0.00013554567681707048,
      "loss": 2.556,
      "step": 14509
    },
    {
      "epoch": 0.3224444444444444,
      "grad_norm": 1.3811061382293701,
      "learning_rate": 0.00013554123138475216,
      "loss": 2.2171,
      "step": 14510
    },
    {
      "epoch": 0.3224666666666667,
      "grad_norm": 1.5708106756210327,
      "learning_rate": 0.0001355367859524339,
      "loss": 2.103,
      "step": 14511
    },
    {
      "epoch": 0.3224888888888889,
      "grad_norm": 1.713820219039917,
      "learning_rate": 0.00013553234052011558,
      "loss": 2.7734,
      "step": 14512
    },
    {
      "epoch": 0.32251111111111114,
      "grad_norm": 1.6861492395401,
      "learning_rate": 0.0001355278950877973,
      "loss": 2.3654,
      "step": 14513
    },
    {
      "epoch": 0.32253333333333334,
      "grad_norm": 1.810496211051941,
      "learning_rate": 0.000135523449655479,
      "loss": 1.9924,
      "step": 14514
    },
    {
      "epoch": 0.32255555555555554,
      "grad_norm": 1.384818434715271,
      "learning_rate": 0.0001355190042231607,
      "loss": 1.8405,
      "step": 14515
    },
    {
      "epoch": 0.3225777777777778,
      "grad_norm": 1.2701953649520874,
      "learning_rate": 0.00013551455879084242,
      "loss": 2.1509,
      "step": 14516
    },
    {
      "epoch": 0.3226,
      "grad_norm": 1.578622579574585,
      "learning_rate": 0.00013551011335852413,
      "loss": 2.3052,
      "step": 14517
    },
    {
      "epoch": 0.3226222222222222,
      "grad_norm": 1.5229339599609375,
      "learning_rate": 0.00013550566792620584,
      "loss": 2.3545,
      "step": 14518
    },
    {
      "epoch": 0.32264444444444446,
      "grad_norm": 1.7695934772491455,
      "learning_rate": 0.00013550122249388755,
      "loss": 2.302,
      "step": 14519
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 1.5000277757644653,
      "learning_rate": 0.00013549677706156926,
      "loss": 2.2332,
      "step": 14520
    },
    {
      "epoch": 0.3226888888888889,
      "grad_norm": 1.8133550882339478,
      "learning_rate": 0.00013549233162925094,
      "loss": 2.109,
      "step": 14521
    },
    {
      "epoch": 0.3227111111111111,
      "grad_norm": 1.3863379955291748,
      "learning_rate": 0.00013548788619693268,
      "loss": 1.7687,
      "step": 14522
    },
    {
      "epoch": 0.3227333333333333,
      "grad_norm": 1.51914644241333,
      "learning_rate": 0.00013548344076461436,
      "loss": 1.8022,
      "step": 14523
    },
    {
      "epoch": 0.3227555555555556,
      "grad_norm": 1.5257991552352905,
      "learning_rate": 0.00013547899533229607,
      "loss": 2.1509,
      "step": 14524
    },
    {
      "epoch": 0.3227777777777778,
      "grad_norm": 1.4040406942367554,
      "learning_rate": 0.00013547454989997778,
      "loss": 2.0855,
      "step": 14525
    },
    {
      "epoch": 0.3228,
      "grad_norm": 1.5048850774765015,
      "learning_rate": 0.0001354701044676595,
      "loss": 2.3254,
      "step": 14526
    },
    {
      "epoch": 0.32282222222222223,
      "grad_norm": 1.655943512916565,
      "learning_rate": 0.0001354656590353412,
      "loss": 1.8882,
      "step": 14527
    },
    {
      "epoch": 0.32284444444444443,
      "grad_norm": 1.655017614364624,
      "learning_rate": 0.0001354612136030229,
      "loss": 1.8864,
      "step": 14528
    },
    {
      "epoch": 0.3228666666666667,
      "grad_norm": 1.4226858615875244,
      "learning_rate": 0.00013545676817070462,
      "loss": 1.9005,
      "step": 14529
    },
    {
      "epoch": 0.3228888888888889,
      "grad_norm": 1.462887167930603,
      "learning_rate": 0.0001354523227383863,
      "loss": 1.7211,
      "step": 14530
    },
    {
      "epoch": 0.3229111111111111,
      "grad_norm": 1.7417354583740234,
      "learning_rate": 0.00013544787730606804,
      "loss": 1.9364,
      "step": 14531
    },
    {
      "epoch": 0.32293333333333335,
      "grad_norm": 1.8864167928695679,
      "learning_rate": 0.00013544343187374972,
      "loss": 1.1842,
      "step": 14532
    },
    {
      "epoch": 0.32295555555555555,
      "grad_norm": 1.4981324672698975,
      "learning_rate": 0.00013543898644143143,
      "loss": 1.7011,
      "step": 14533
    },
    {
      "epoch": 0.32297777777777775,
      "grad_norm": 1.7088615894317627,
      "learning_rate": 0.00013543454100911314,
      "loss": 2.0155,
      "step": 14534
    },
    {
      "epoch": 0.323,
      "grad_norm": 1.7308850288391113,
      "learning_rate": 0.00013543009557679485,
      "loss": 2.0828,
      "step": 14535
    },
    {
      "epoch": 0.3230222222222222,
      "grad_norm": 1.2434577941894531,
      "learning_rate": 0.00013542565014447656,
      "loss": 1.244,
      "step": 14536
    },
    {
      "epoch": 0.32304444444444447,
      "grad_norm": 1.5066168308258057,
      "learning_rate": 0.00013542120471215827,
      "loss": 1.7373,
      "step": 14537
    },
    {
      "epoch": 0.32306666666666667,
      "grad_norm": 1.3344948291778564,
      "learning_rate": 0.00013541675927983998,
      "loss": 1.5677,
      "step": 14538
    },
    {
      "epoch": 0.32308888888888887,
      "grad_norm": 1.6558890342712402,
      "learning_rate": 0.00013541231384752169,
      "loss": 1.5946,
      "step": 14539
    },
    {
      "epoch": 0.3231111111111111,
      "grad_norm": 1.5863734483718872,
      "learning_rate": 0.0001354078684152034,
      "loss": 1.929,
      "step": 14540
    },
    {
      "epoch": 0.32313333333333333,
      "grad_norm": 1.9422245025634766,
      "learning_rate": 0.00013540342298288508,
      "loss": 1.9496,
      "step": 14541
    },
    {
      "epoch": 0.32315555555555553,
      "grad_norm": 1.674411416053772,
      "learning_rate": 0.00013539897755056681,
      "loss": 1.9047,
      "step": 14542
    },
    {
      "epoch": 0.3231777777777778,
      "grad_norm": 1.558496117591858,
      "learning_rate": 0.0001353945321182485,
      "loss": 1.7489,
      "step": 14543
    },
    {
      "epoch": 0.3232,
      "grad_norm": 1.718308448791504,
      "learning_rate": 0.0001353900866859302,
      "loss": 1.7602,
      "step": 14544
    },
    {
      "epoch": 0.32322222222222224,
      "grad_norm": 1.5549718141555786,
      "learning_rate": 0.00013538564125361192,
      "loss": 1.416,
      "step": 14545
    },
    {
      "epoch": 0.32324444444444445,
      "grad_norm": 1.4666023254394531,
      "learning_rate": 0.00013538119582129363,
      "loss": 1.5783,
      "step": 14546
    },
    {
      "epoch": 0.32326666666666665,
      "grad_norm": 1.6251037120819092,
      "learning_rate": 0.00013537675038897534,
      "loss": 2.0451,
      "step": 14547
    },
    {
      "epoch": 0.3232888888888889,
      "grad_norm": 1.4492263793945312,
      "learning_rate": 0.00013537230495665704,
      "loss": 1.0308,
      "step": 14548
    },
    {
      "epoch": 0.3233111111111111,
      "grad_norm": 1.569075345993042,
      "learning_rate": 0.00013536785952433875,
      "loss": 1.1575,
      "step": 14549
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 2.6423702239990234,
      "learning_rate": 0.00013536341409202044,
      "loss": 1.705,
      "step": 14550
    },
    {
      "epoch": 0.32335555555555556,
      "grad_norm": 1.1280380487442017,
      "learning_rate": 0.00013535896865970217,
      "loss": 1.2995,
      "step": 14551
    },
    {
      "epoch": 0.32337777777777776,
      "grad_norm": 1.414288878440857,
      "learning_rate": 0.00013535452322738386,
      "loss": 2.5433,
      "step": 14552
    },
    {
      "epoch": 0.3234,
      "grad_norm": 1.5756556987762451,
      "learning_rate": 0.00013535007779506557,
      "loss": 2.222,
      "step": 14553
    },
    {
      "epoch": 0.3234222222222222,
      "grad_norm": 1.547850489616394,
      "learning_rate": 0.00013534563236274728,
      "loss": 2.371,
      "step": 14554
    },
    {
      "epoch": 0.3234444444444444,
      "grad_norm": 1.0785021781921387,
      "learning_rate": 0.00013534118693042898,
      "loss": 1.2602,
      "step": 14555
    },
    {
      "epoch": 0.3234666666666667,
      "grad_norm": 1.3996285200119019,
      "learning_rate": 0.00013533674149811072,
      "loss": 1.8057,
      "step": 14556
    },
    {
      "epoch": 0.3234888888888889,
      "grad_norm": 1.3020923137664795,
      "learning_rate": 0.0001353322960657924,
      "loss": 1.4618,
      "step": 14557
    },
    {
      "epoch": 0.32351111111111114,
      "grad_norm": 1.4854457378387451,
      "learning_rate": 0.00013532785063347411,
      "loss": 2.0548,
      "step": 14558
    },
    {
      "epoch": 0.32353333333333334,
      "grad_norm": 1.5056886672973633,
      "learning_rate": 0.00013532340520115582,
      "loss": 1.6634,
      "step": 14559
    },
    {
      "epoch": 0.32355555555555554,
      "grad_norm": 1.4339615106582642,
      "learning_rate": 0.00013531895976883753,
      "loss": 1.9036,
      "step": 14560
    },
    {
      "epoch": 0.3235777777777778,
      "grad_norm": 1.321903944015503,
      "learning_rate": 0.00013531451433651922,
      "loss": 1.7891,
      "step": 14561
    },
    {
      "epoch": 0.3236,
      "grad_norm": 1.5293309688568115,
      "learning_rate": 0.00013531006890420095,
      "loss": 2.2459,
      "step": 14562
    },
    {
      "epoch": 0.3236222222222222,
      "grad_norm": 1.8408520221710205,
      "learning_rate": 0.00013530562347188263,
      "loss": 1.9813,
      "step": 14563
    },
    {
      "epoch": 0.32364444444444446,
      "grad_norm": 1.3799574375152588,
      "learning_rate": 0.00013530117803956434,
      "loss": 2.1546,
      "step": 14564
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 1.6310679912567139,
      "learning_rate": 0.00013529673260724608,
      "loss": 1.7305,
      "step": 14565
    },
    {
      "epoch": 0.3236888888888889,
      "grad_norm": 1.4017935991287231,
      "learning_rate": 0.00013529228717492776,
      "loss": 1.4867,
      "step": 14566
    },
    {
      "epoch": 0.3237111111111111,
      "grad_norm": 1.6813900470733643,
      "learning_rate": 0.00013528784174260947,
      "loss": 2.1207,
      "step": 14567
    },
    {
      "epoch": 0.3237333333333333,
      "grad_norm": 1.8177093267440796,
      "learning_rate": 0.00013528339631029118,
      "loss": 2.4185,
      "step": 14568
    },
    {
      "epoch": 0.3237555555555556,
      "grad_norm": 1.6473982334136963,
      "learning_rate": 0.0001352789508779729,
      "loss": 2.0785,
      "step": 14569
    },
    {
      "epoch": 0.3237777777777778,
      "grad_norm": 1.970863699913025,
      "learning_rate": 0.00013527450544565458,
      "loss": 2.0016,
      "step": 14570
    },
    {
      "epoch": 0.3238,
      "grad_norm": 1.8074498176574707,
      "learning_rate": 0.0001352700600133363,
      "loss": 1.8616,
      "step": 14571
    },
    {
      "epoch": 0.32382222222222223,
      "grad_norm": 1.6781405210494995,
      "learning_rate": 0.000135265614581018,
      "loss": 1.9921,
      "step": 14572
    },
    {
      "epoch": 0.32384444444444443,
      "grad_norm": 1.601254940032959,
      "learning_rate": 0.0001352611691486997,
      "loss": 1.9142,
      "step": 14573
    },
    {
      "epoch": 0.3238666666666667,
      "grad_norm": 1.8414578437805176,
      "learning_rate": 0.00013525672371638144,
      "loss": 1.841,
      "step": 14574
    },
    {
      "epoch": 0.3238888888888889,
      "grad_norm": 1.6506335735321045,
      "learning_rate": 0.00013525227828406312,
      "loss": 2.0407,
      "step": 14575
    },
    {
      "epoch": 0.3239111111111111,
      "grad_norm": 1.9437754154205322,
      "learning_rate": 0.00013524783285174486,
      "loss": 2.1338,
      "step": 14576
    },
    {
      "epoch": 0.32393333333333335,
      "grad_norm": 1.4526417255401611,
      "learning_rate": 0.00013524338741942654,
      "loss": 1.691,
      "step": 14577
    },
    {
      "epoch": 0.32395555555555555,
      "grad_norm": 1.3817439079284668,
      "learning_rate": 0.00013523894198710825,
      "loss": 1.411,
      "step": 14578
    },
    {
      "epoch": 0.32397777777777775,
      "grad_norm": 1.5322372913360596,
      "learning_rate": 0.00013523449655478996,
      "loss": 1.6851,
      "step": 14579
    },
    {
      "epoch": 0.324,
      "grad_norm": 1.582411289215088,
      "learning_rate": 0.00013523005112247167,
      "loss": 2.2394,
      "step": 14580
    },
    {
      "epoch": 0.3240222222222222,
      "grad_norm": 1.5392662286758423,
      "learning_rate": 0.00013522560569015338,
      "loss": 1.9418,
      "step": 14581
    },
    {
      "epoch": 0.32404444444444447,
      "grad_norm": 1.7737164497375488,
      "learning_rate": 0.0001352211602578351,
      "loss": 2.3131,
      "step": 14582
    },
    {
      "epoch": 0.32406666666666667,
      "grad_norm": 1.381763219833374,
      "learning_rate": 0.0001352167148255168,
      "loss": 1.566,
      "step": 14583
    },
    {
      "epoch": 0.32408888888888887,
      "grad_norm": 1.8178457021713257,
      "learning_rate": 0.00013521226939319848,
      "loss": 2.1126,
      "step": 14584
    },
    {
      "epoch": 0.3241111111111111,
      "grad_norm": 1.8298481702804565,
      "learning_rate": 0.00013520782396088022,
      "loss": 2.1279,
      "step": 14585
    },
    {
      "epoch": 0.32413333333333333,
      "grad_norm": 1.549846887588501,
      "learning_rate": 0.0001352033785285619,
      "loss": 1.8891,
      "step": 14586
    },
    {
      "epoch": 0.32415555555555553,
      "grad_norm": 1.6115403175354004,
      "learning_rate": 0.0001351989330962436,
      "loss": 1.8699,
      "step": 14587
    },
    {
      "epoch": 0.3241777777777778,
      "grad_norm": 1.8846466541290283,
      "learning_rate": 0.00013519448766392532,
      "loss": 2.5554,
      "step": 14588
    },
    {
      "epoch": 0.3242,
      "grad_norm": 1.5042108297348022,
      "learning_rate": 0.00013519004223160703,
      "loss": 1.8571,
      "step": 14589
    },
    {
      "epoch": 0.32422222222222224,
      "grad_norm": 2.0195343494415283,
      "learning_rate": 0.00013518559679928874,
      "loss": 2.0091,
      "step": 14590
    },
    {
      "epoch": 0.32424444444444445,
      "grad_norm": 1.3901649713516235,
      "learning_rate": 0.00013518115136697045,
      "loss": 1.7507,
      "step": 14591
    },
    {
      "epoch": 0.32426666666666665,
      "grad_norm": 1.6047512292861938,
      "learning_rate": 0.00013517670593465216,
      "loss": 1.6926,
      "step": 14592
    },
    {
      "epoch": 0.3242888888888889,
      "grad_norm": 1.7068864107131958,
      "learning_rate": 0.00013517226050233387,
      "loss": 2.2233,
      "step": 14593
    },
    {
      "epoch": 0.3243111111111111,
      "grad_norm": 1.680158257484436,
      "learning_rate": 0.00013516781507001558,
      "loss": 1.7327,
      "step": 14594
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 1.3850892782211304,
      "learning_rate": 0.00013516336963769726,
      "loss": 1.7154,
      "step": 14595
    },
    {
      "epoch": 0.32435555555555556,
      "grad_norm": 2.92238712310791,
      "learning_rate": 0.000135158924205379,
      "loss": 1.9553,
      "step": 14596
    },
    {
      "epoch": 0.32437777777777776,
      "grad_norm": 1.9745829105377197,
      "learning_rate": 0.00013515447877306068,
      "loss": 2.2999,
      "step": 14597
    },
    {
      "epoch": 0.3244,
      "grad_norm": 1.626255750656128,
      "learning_rate": 0.0001351500333407424,
      "loss": 1.7356,
      "step": 14598
    },
    {
      "epoch": 0.3244222222222222,
      "grad_norm": 1.2096275091171265,
      "learning_rate": 0.0001351455879084241,
      "loss": 0.9271,
      "step": 14599
    },
    {
      "epoch": 0.3244444444444444,
      "grad_norm": 1.5866039991378784,
      "learning_rate": 0.0001351411424761058,
      "loss": 1.1374,
      "step": 14600
    },
    {
      "epoch": 0.3244666666666667,
      "grad_norm": 1.5905983448028564,
      "learning_rate": 0.00013513669704378752,
      "loss": 2.5445,
      "step": 14601
    },
    {
      "epoch": 0.3244888888888889,
      "grad_norm": 1.3882371187210083,
      "learning_rate": 0.00013513225161146923,
      "loss": 2.1614,
      "step": 14602
    },
    {
      "epoch": 0.3245111111111111,
      "grad_norm": 1.2654187679290771,
      "learning_rate": 0.00013512780617915094,
      "loss": 1.3948,
      "step": 14603
    },
    {
      "epoch": 0.32453333333333334,
      "grad_norm": 0.33971866965293884,
      "learning_rate": 0.00013512336074683262,
      "loss": 0.0211,
      "step": 14604
    },
    {
      "epoch": 0.32455555555555554,
      "grad_norm": 1.2066205739974976,
      "learning_rate": 0.00013511891531451436,
      "loss": 1.6366,
      "step": 14605
    },
    {
      "epoch": 0.3245777777777778,
      "grad_norm": 1.536219596862793,
      "learning_rate": 0.00013511446988219604,
      "loss": 2.098,
      "step": 14606
    },
    {
      "epoch": 0.3246,
      "grad_norm": 1.3624001741409302,
      "learning_rate": 0.00013511002444987775,
      "loss": 2.1168,
      "step": 14607
    },
    {
      "epoch": 0.3246222222222222,
      "grad_norm": 1.664465069770813,
      "learning_rate": 0.00013510557901755946,
      "loss": 2.1636,
      "step": 14608
    },
    {
      "epoch": 0.32464444444444446,
      "grad_norm": 1.455706238746643,
      "learning_rate": 0.00013510113358524117,
      "loss": 2.1853,
      "step": 14609
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 1.1387683153152466,
      "learning_rate": 0.00013509668815292288,
      "loss": 1.1711,
      "step": 14610
    },
    {
      "epoch": 0.3246888888888889,
      "grad_norm": 1.7930538654327393,
      "learning_rate": 0.0001350922427206046,
      "loss": 1.7752,
      "step": 14611
    },
    {
      "epoch": 0.3247111111111111,
      "grad_norm": 1.2386400699615479,
      "learning_rate": 0.0001350877972882863,
      "loss": 1.6099,
      "step": 14612
    },
    {
      "epoch": 0.3247333333333333,
      "grad_norm": 1.6215656995773315,
      "learning_rate": 0.000135083351855968,
      "loss": 2.1662,
      "step": 14613
    },
    {
      "epoch": 0.3247555555555556,
      "grad_norm": 2.208132743835449,
      "learning_rate": 0.00013507890642364972,
      "loss": 2.5251,
      "step": 14614
    },
    {
      "epoch": 0.3247777777777778,
      "grad_norm": 1.5960891246795654,
      "learning_rate": 0.0001350744609913314,
      "loss": 2.0261,
      "step": 14615
    },
    {
      "epoch": 0.3248,
      "grad_norm": 1.239406704902649,
      "learning_rate": 0.00013507001555901314,
      "loss": 1.0502,
      "step": 14616
    },
    {
      "epoch": 0.32482222222222223,
      "grad_norm": 1.407010793685913,
      "learning_rate": 0.00013506557012669482,
      "loss": 1.8257,
      "step": 14617
    },
    {
      "epoch": 0.32484444444444444,
      "grad_norm": 1.499849796295166,
      "learning_rate": 0.00013506112469437653,
      "loss": 2.0032,
      "step": 14618
    },
    {
      "epoch": 0.3248666666666667,
      "grad_norm": 1.3314135074615479,
      "learning_rate": 0.00013505667926205824,
      "loss": 1.6459,
      "step": 14619
    },
    {
      "epoch": 0.3248888888888889,
      "grad_norm": 1.4337327480316162,
      "learning_rate": 0.00013505223382973995,
      "loss": 1.3344,
      "step": 14620
    },
    {
      "epoch": 0.3249111111111111,
      "grad_norm": 1.4220049381256104,
      "learning_rate": 0.00013504778839742166,
      "loss": 2.2105,
      "step": 14621
    },
    {
      "epoch": 0.32493333333333335,
      "grad_norm": 1.5816484689712524,
      "learning_rate": 0.00013504334296510337,
      "loss": 2.5807,
      "step": 14622
    },
    {
      "epoch": 0.32495555555555555,
      "grad_norm": 1.6997846364974976,
      "learning_rate": 0.00013503889753278508,
      "loss": 2.4361,
      "step": 14623
    },
    {
      "epoch": 0.32497777777777775,
      "grad_norm": 1.5674463510513306,
      "learning_rate": 0.00013503445210046676,
      "loss": 1.9506,
      "step": 14624
    },
    {
      "epoch": 0.325,
      "grad_norm": 1.3909543752670288,
      "learning_rate": 0.0001350300066681485,
      "loss": 2.0077,
      "step": 14625
    },
    {
      "epoch": 0.3250222222222222,
      "grad_norm": 1.4022209644317627,
      "learning_rate": 0.00013502556123583018,
      "loss": 1.8123,
      "step": 14626
    },
    {
      "epoch": 0.32504444444444447,
      "grad_norm": 1.683890700340271,
      "learning_rate": 0.0001350211158035119,
      "loss": 1.6874,
      "step": 14627
    },
    {
      "epoch": 0.32506666666666667,
      "grad_norm": 1.5030468702316284,
      "learning_rate": 0.0001350166703711936,
      "loss": 2.2598,
      "step": 14628
    },
    {
      "epoch": 0.32508888888888887,
      "grad_norm": 1.2701387405395508,
      "learning_rate": 0.0001350122249388753,
      "loss": 1.7072,
      "step": 14629
    },
    {
      "epoch": 0.32511111111111113,
      "grad_norm": 1.1605100631713867,
      "learning_rate": 0.00013500777950655702,
      "loss": 1.1447,
      "step": 14630
    },
    {
      "epoch": 0.32513333333333333,
      "grad_norm": 1.6288206577301025,
      "learning_rate": 0.00013500333407423873,
      "loss": 2.1031,
      "step": 14631
    },
    {
      "epoch": 0.32515555555555553,
      "grad_norm": 1.6103936433792114,
      "learning_rate": 0.00013499888864192044,
      "loss": 1.4006,
      "step": 14632
    },
    {
      "epoch": 0.3251777777777778,
      "grad_norm": 1.623854637145996,
      "learning_rate": 0.00013499444320960215,
      "loss": 1.8712,
      "step": 14633
    },
    {
      "epoch": 0.3252,
      "grad_norm": 1.679429531097412,
      "learning_rate": 0.00013498999777728386,
      "loss": 1.8249,
      "step": 14634
    },
    {
      "epoch": 0.32522222222222225,
      "grad_norm": 2.0995168685913086,
      "learning_rate": 0.00013498555234496554,
      "loss": 2.2215,
      "step": 14635
    },
    {
      "epoch": 0.32524444444444445,
      "grad_norm": 1.5487711429595947,
      "learning_rate": 0.00013498110691264727,
      "loss": 2.0487,
      "step": 14636
    },
    {
      "epoch": 0.32526666666666665,
      "grad_norm": 1.7386480569839478,
      "learning_rate": 0.00013497666148032896,
      "loss": 2.0484,
      "step": 14637
    },
    {
      "epoch": 0.3252888888888889,
      "grad_norm": 1.6212338209152222,
      "learning_rate": 0.00013497221604801067,
      "loss": 1.8042,
      "step": 14638
    },
    {
      "epoch": 0.3253111111111111,
      "grad_norm": 1.5402944087982178,
      "learning_rate": 0.0001349677706156924,
      "loss": 1.7496,
      "step": 14639
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 1.486384630203247,
      "learning_rate": 0.00013496332518337409,
      "loss": 1.7105,
      "step": 14640
    },
    {
      "epoch": 0.32535555555555556,
      "grad_norm": 1.669076919555664,
      "learning_rate": 0.0001349588797510558,
      "loss": 1.8337,
      "step": 14641
    },
    {
      "epoch": 0.32537777777777777,
      "grad_norm": 1.6433589458465576,
      "learning_rate": 0.0001349544343187375,
      "loss": 1.7862,
      "step": 14642
    },
    {
      "epoch": 0.3254,
      "grad_norm": 1.8683438301086426,
      "learning_rate": 0.00013494998888641921,
      "loss": 2.4956,
      "step": 14643
    },
    {
      "epoch": 0.3254222222222222,
      "grad_norm": 1.5780231952667236,
      "learning_rate": 0.0001349455434541009,
      "loss": 1.5981,
      "step": 14644
    },
    {
      "epoch": 0.3254444444444444,
      "grad_norm": 1.6241858005523682,
      "learning_rate": 0.00013494109802178263,
      "loss": 2.0845,
      "step": 14645
    },
    {
      "epoch": 0.3254666666666667,
      "grad_norm": 1.4872368574142456,
      "learning_rate": 0.00013493665258946432,
      "loss": 1.8933,
      "step": 14646
    },
    {
      "epoch": 0.3254888888888889,
      "grad_norm": 1.5563489198684692,
      "learning_rate": 0.00013493220715714603,
      "loss": 2.1046,
      "step": 14647
    },
    {
      "epoch": 0.3255111111111111,
      "grad_norm": 1.5319688320159912,
      "learning_rate": 0.00013492776172482776,
      "loss": 0.8974,
      "step": 14648
    },
    {
      "epoch": 0.32553333333333334,
      "grad_norm": 1.7749207019805908,
      "learning_rate": 0.00013492331629250945,
      "loss": 1.9327,
      "step": 14649
    },
    {
      "epoch": 0.32555555555555554,
      "grad_norm": 1.0720438957214355,
      "learning_rate": 0.00013491887086019118,
      "loss": 0.7469,
      "step": 14650
    },
    {
      "epoch": 0.3255777777777778,
      "grad_norm": 1.1570892333984375,
      "learning_rate": 0.00013491442542787286,
      "loss": 2.39,
      "step": 14651
    },
    {
      "epoch": 0.3256,
      "grad_norm": 0.2688906490802765,
      "learning_rate": 0.00013490997999555457,
      "loss": 0.0163,
      "step": 14652
    },
    {
      "epoch": 0.3256222222222222,
      "grad_norm": 1.5699143409729004,
      "learning_rate": 0.00013490553456323628,
      "loss": 2.246,
      "step": 14653
    },
    {
      "epoch": 0.32564444444444446,
      "grad_norm": 1.4767076969146729,
      "learning_rate": 0.000134901089130918,
      "loss": 2.3117,
      "step": 14654
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 1.2708700895309448,
      "learning_rate": 0.0001348966436985997,
      "loss": 1.6785,
      "step": 14655
    },
    {
      "epoch": 0.3256888888888889,
      "grad_norm": 1.4810078144073486,
      "learning_rate": 0.0001348921982662814,
      "loss": 2.1221,
      "step": 14656
    },
    {
      "epoch": 0.3257111111111111,
      "grad_norm": 1.3479464054107666,
      "learning_rate": 0.00013488775283396312,
      "loss": 2.0176,
      "step": 14657
    },
    {
      "epoch": 0.3257333333333333,
      "grad_norm": 1.223720669746399,
      "learning_rate": 0.0001348833074016448,
      "loss": 1.8294,
      "step": 14658
    },
    {
      "epoch": 0.3257555555555556,
      "grad_norm": 1.4565491676330566,
      "learning_rate": 0.00013487886196932654,
      "loss": 1.4794,
      "step": 14659
    },
    {
      "epoch": 0.3257777777777778,
      "grad_norm": 1.5166654586791992,
      "learning_rate": 0.00013487441653700822,
      "loss": 2.0315,
      "step": 14660
    },
    {
      "epoch": 0.3258,
      "grad_norm": 1.5613106489181519,
      "learning_rate": 0.00013486997110468993,
      "loss": 2.1067,
      "step": 14661
    },
    {
      "epoch": 0.32582222222222224,
      "grad_norm": 1.2641384601593018,
      "learning_rate": 0.00013486552567237164,
      "loss": 1.8633,
      "step": 14662
    },
    {
      "epoch": 0.32584444444444444,
      "grad_norm": 1.7128533124923706,
      "learning_rate": 0.00013486108024005335,
      "loss": 2.6935,
      "step": 14663
    },
    {
      "epoch": 0.3258666666666667,
      "grad_norm": 1.7475078105926514,
      "learning_rate": 0.00013485663480773506,
      "loss": 2.345,
      "step": 14664
    },
    {
      "epoch": 0.3258888888888889,
      "grad_norm": 1.5176634788513184,
      "learning_rate": 0.00013485218937541677,
      "loss": 1.7249,
      "step": 14665
    },
    {
      "epoch": 0.3259111111111111,
      "grad_norm": 1.3711298704147339,
      "learning_rate": 0.00013484774394309848,
      "loss": 1.8338,
      "step": 14666
    },
    {
      "epoch": 0.32593333333333335,
      "grad_norm": 1.6281715631484985,
      "learning_rate": 0.00013484329851078016,
      "loss": 2.2212,
      "step": 14667
    },
    {
      "epoch": 0.32595555555555555,
      "grad_norm": 1.0154637098312378,
      "learning_rate": 0.0001348388530784619,
      "loss": 0.9548,
      "step": 14668
    },
    {
      "epoch": 0.32597777777777776,
      "grad_norm": 1.5175656080245972,
      "learning_rate": 0.00013483440764614358,
      "loss": 2.0388,
      "step": 14669
    },
    {
      "epoch": 0.326,
      "grad_norm": 1.7304809093475342,
      "learning_rate": 0.00013482996221382532,
      "loss": 2.4175,
      "step": 14670
    },
    {
      "epoch": 0.3260222222222222,
      "grad_norm": 0.2701224684715271,
      "learning_rate": 0.000134825516781507,
      "loss": 0.0285,
      "step": 14671
    },
    {
      "epoch": 0.32604444444444447,
      "grad_norm": 1.5369154214859009,
      "learning_rate": 0.0001348210713491887,
      "loss": 1.9915,
      "step": 14672
    },
    {
      "epoch": 0.32606666666666667,
      "grad_norm": 1.4589951038360596,
      "learning_rate": 0.00013481662591687042,
      "loss": 2.1584,
      "step": 14673
    },
    {
      "epoch": 0.3260888888888889,
      "grad_norm": 1.310490369796753,
      "learning_rate": 0.00013481218048455213,
      "loss": 1.9797,
      "step": 14674
    },
    {
      "epoch": 0.32611111111111113,
      "grad_norm": 1.8299416303634644,
      "learning_rate": 0.00013480773505223384,
      "loss": 2.3089,
      "step": 14675
    },
    {
      "epoch": 0.32613333333333333,
      "grad_norm": 2.3098223209381104,
      "learning_rate": 0.00013480328961991555,
      "loss": 2.9046,
      "step": 14676
    },
    {
      "epoch": 0.32615555555555553,
      "grad_norm": 1.5383925437927246,
      "learning_rate": 0.00013479884418759726,
      "loss": 2.0311,
      "step": 14677
    },
    {
      "epoch": 0.3261777777777778,
      "grad_norm": 1.3234373331069946,
      "learning_rate": 0.00013479439875527894,
      "loss": 1.9849,
      "step": 14678
    },
    {
      "epoch": 0.3262,
      "grad_norm": 1.4348728656768799,
      "learning_rate": 0.00013478995332296068,
      "loss": 0.8498,
      "step": 14679
    },
    {
      "epoch": 0.32622222222222225,
      "grad_norm": 1.4990395307540894,
      "learning_rate": 0.00013478550789064236,
      "loss": 0.8567,
      "step": 14680
    },
    {
      "epoch": 0.32624444444444445,
      "grad_norm": 1.5746880769729614,
      "learning_rate": 0.00013478106245832407,
      "loss": 2.2385,
      "step": 14681
    },
    {
      "epoch": 0.32626666666666665,
      "grad_norm": 1.6748789548873901,
      "learning_rate": 0.00013477661702600578,
      "loss": 1.7599,
      "step": 14682
    },
    {
      "epoch": 0.3262888888888889,
      "grad_norm": 1.699853539466858,
      "learning_rate": 0.0001347721715936875,
      "loss": 2.0854,
      "step": 14683
    },
    {
      "epoch": 0.3263111111111111,
      "grad_norm": 1.4371978044509888,
      "learning_rate": 0.0001347677261613692,
      "loss": 1.9821,
      "step": 14684
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 1.3240114450454712,
      "learning_rate": 0.0001347632807290509,
      "loss": 1.6728,
      "step": 14685
    },
    {
      "epoch": 0.32635555555555557,
      "grad_norm": 1.330146074295044,
      "learning_rate": 0.00013475883529673262,
      "loss": 1.5242,
      "step": 14686
    },
    {
      "epoch": 0.32637777777777777,
      "grad_norm": 1.3809961080551147,
      "learning_rate": 0.0001347543898644143,
      "loss": 1.7048,
      "step": 14687
    },
    {
      "epoch": 0.3264,
      "grad_norm": 1.6686054468154907,
      "learning_rate": 0.00013474994443209604,
      "loss": 1.2762,
      "step": 14688
    },
    {
      "epoch": 0.3264222222222222,
      "grad_norm": 1.3276551961898804,
      "learning_rate": 0.00013474549899977772,
      "loss": 1.5888,
      "step": 14689
    },
    {
      "epoch": 0.3264444444444444,
      "grad_norm": 1.8214689493179321,
      "learning_rate": 0.00013474105356745946,
      "loss": 2.1631,
      "step": 14690
    },
    {
      "epoch": 0.3264666666666667,
      "grad_norm": 1.3565387725830078,
      "learning_rate": 0.00013473660813514114,
      "loss": 1.537,
      "step": 14691
    },
    {
      "epoch": 0.3264888888888889,
      "grad_norm": 1.6621782779693604,
      "learning_rate": 0.00013473216270282285,
      "loss": 1.7736,
      "step": 14692
    },
    {
      "epoch": 0.3265111111111111,
      "grad_norm": 1.4888163805007935,
      "learning_rate": 0.00013472771727050456,
      "loss": 1.5312,
      "step": 14693
    },
    {
      "epoch": 0.32653333333333334,
      "grad_norm": 1.5635403394699097,
      "learning_rate": 0.00013472327183818627,
      "loss": 1.6233,
      "step": 14694
    },
    {
      "epoch": 0.32655555555555554,
      "grad_norm": 1.6668602228164673,
      "learning_rate": 0.00013471882640586798,
      "loss": 1.7952,
      "step": 14695
    },
    {
      "epoch": 0.3265777777777778,
      "grad_norm": 1.6962034702301025,
      "learning_rate": 0.0001347143809735497,
      "loss": 1.9495,
      "step": 14696
    },
    {
      "epoch": 0.3266,
      "grad_norm": 1.9228417873382568,
      "learning_rate": 0.0001347099355412314,
      "loss": 2.0968,
      "step": 14697
    },
    {
      "epoch": 0.3266222222222222,
      "grad_norm": 8.574187278747559,
      "learning_rate": 0.00013470549010891308,
      "loss": 1.6528,
      "step": 14698
    },
    {
      "epoch": 0.32664444444444446,
      "grad_norm": 1.8467937707901,
      "learning_rate": 0.00013470104467659482,
      "loss": 1.7868,
      "step": 14699
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 1.8582217693328857,
      "learning_rate": 0.0001346965992442765,
      "loss": 1.7853,
      "step": 14700
    },
    {
      "epoch": 0.32668888888888886,
      "grad_norm": 1.2545381784439087,
      "learning_rate": 0.0001346921538119582,
      "loss": 1.9515,
      "step": 14701
    },
    {
      "epoch": 0.3267111111111111,
      "grad_norm": 0.9738498330116272,
      "learning_rate": 0.00013468770837963992,
      "loss": 1.2998,
      "step": 14702
    },
    {
      "epoch": 0.3267333333333333,
      "grad_norm": 1.7989574670791626,
      "learning_rate": 0.00013468326294732163,
      "loss": 2.4321,
      "step": 14703
    },
    {
      "epoch": 0.3267555555555556,
      "grad_norm": 1.3848596811294556,
      "learning_rate": 0.00013467881751500334,
      "loss": 2.0309,
      "step": 14704
    },
    {
      "epoch": 0.3267777777777778,
      "grad_norm": 1.4511117935180664,
      "learning_rate": 0.00013467437208268505,
      "loss": 2.1219,
      "step": 14705
    },
    {
      "epoch": 0.3268,
      "grad_norm": 1.4260886907577515,
      "learning_rate": 0.00013466992665036676,
      "loss": 1.8947,
      "step": 14706
    },
    {
      "epoch": 0.32682222222222224,
      "grad_norm": 1.5265026092529297,
      "learning_rate": 0.00013466548121804847,
      "loss": 2.1026,
      "step": 14707
    },
    {
      "epoch": 0.32684444444444444,
      "grad_norm": 1.4048616886138916,
      "learning_rate": 0.00013466103578573018,
      "loss": 2.0122,
      "step": 14708
    },
    {
      "epoch": 0.3268666666666667,
      "grad_norm": 1.4686038494110107,
      "learning_rate": 0.00013465659035341186,
      "loss": 1.9708,
      "step": 14709
    },
    {
      "epoch": 0.3268888888888889,
      "grad_norm": 1.5374776124954224,
      "learning_rate": 0.0001346521449210936,
      "loss": 1.9996,
      "step": 14710
    },
    {
      "epoch": 0.3269111111111111,
      "grad_norm": 1.6538431644439697,
      "learning_rate": 0.00013464769948877528,
      "loss": 2.2168,
      "step": 14711
    },
    {
      "epoch": 0.32693333333333335,
      "grad_norm": 1.2241393327713013,
      "learning_rate": 0.000134643254056457,
      "loss": 1.8568,
      "step": 14712
    },
    {
      "epoch": 0.32695555555555555,
      "grad_norm": 1.452717900276184,
      "learning_rate": 0.00013463880862413873,
      "loss": 1.9937,
      "step": 14713
    },
    {
      "epoch": 0.32697777777777776,
      "grad_norm": 1.6080851554870605,
      "learning_rate": 0.0001346343631918204,
      "loss": 1.8886,
      "step": 14714
    },
    {
      "epoch": 0.327,
      "grad_norm": 1.4949493408203125,
      "learning_rate": 0.00013462991775950212,
      "loss": 2.0211,
      "step": 14715
    },
    {
      "epoch": 0.3270222222222222,
      "grad_norm": 1.2916984558105469,
      "learning_rate": 0.00013462547232718383,
      "loss": 1.7764,
      "step": 14716
    },
    {
      "epoch": 0.32704444444444447,
      "grad_norm": 1.4327634572982788,
      "learning_rate": 0.00013462102689486554,
      "loss": 1.8255,
      "step": 14717
    },
    {
      "epoch": 0.32706666666666667,
      "grad_norm": 1.6176109313964844,
      "learning_rate": 0.00013461658146254722,
      "loss": 2.1334,
      "step": 14718
    },
    {
      "epoch": 0.3270888888888889,
      "grad_norm": 1.307971715927124,
      "learning_rate": 0.00013461213603022896,
      "loss": 1.9996,
      "step": 14719
    },
    {
      "epoch": 0.32711111111111113,
      "grad_norm": 1.3527964353561401,
      "learning_rate": 0.00013460769059791064,
      "loss": 2.3192,
      "step": 14720
    },
    {
      "epoch": 0.32713333333333333,
      "grad_norm": 1.4070472717285156,
      "learning_rate": 0.00013460324516559235,
      "loss": 1.7596,
      "step": 14721
    },
    {
      "epoch": 0.32715555555555553,
      "grad_norm": 1.573690414428711,
      "learning_rate": 0.00013459879973327408,
      "loss": 1.9275,
      "step": 14722
    },
    {
      "epoch": 0.3271777777777778,
      "grad_norm": 4.89084005355835,
      "learning_rate": 0.00013459435430095577,
      "loss": 0.9451,
      "step": 14723
    },
    {
      "epoch": 0.3272,
      "grad_norm": 1.5048365592956543,
      "learning_rate": 0.00013458990886863748,
      "loss": 1.9289,
      "step": 14724
    },
    {
      "epoch": 0.32722222222222225,
      "grad_norm": 1.9118901491165161,
      "learning_rate": 0.0001345854634363192,
      "loss": 2.1688,
      "step": 14725
    },
    {
      "epoch": 0.32724444444444445,
      "grad_norm": 1.398643970489502,
      "learning_rate": 0.0001345810180040009,
      "loss": 1.0224,
      "step": 14726
    },
    {
      "epoch": 0.32726666666666665,
      "grad_norm": 0.9058153033256531,
      "learning_rate": 0.0001345765725716826,
      "loss": 0.7687,
      "step": 14727
    },
    {
      "epoch": 0.3272888888888889,
      "grad_norm": 1.8270570039749146,
      "learning_rate": 0.00013457212713936432,
      "loss": 2.3216,
      "step": 14728
    },
    {
      "epoch": 0.3273111111111111,
      "grad_norm": 1.3845454454421997,
      "learning_rate": 0.00013456768170704602,
      "loss": 1.7544,
      "step": 14729
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 1.5077896118164062,
      "learning_rate": 0.00013456323627472773,
      "loss": 1.7688,
      "step": 14730
    },
    {
      "epoch": 0.32735555555555557,
      "grad_norm": 1.4623022079467773,
      "learning_rate": 0.00013455879084240944,
      "loss": 1.9082,
      "step": 14731
    },
    {
      "epoch": 0.32737777777777777,
      "grad_norm": 1.4086765050888062,
      "learning_rate": 0.00013455434541009113,
      "loss": 1.6779,
      "step": 14732
    },
    {
      "epoch": 0.3274,
      "grad_norm": 1.5320334434509277,
      "learning_rate": 0.00013454989997777286,
      "loss": 1.5762,
      "step": 14733
    },
    {
      "epoch": 0.3274222222222222,
      "grad_norm": 1.949285626411438,
      "learning_rate": 0.00013454545454545455,
      "loss": 1.9448,
      "step": 14734
    },
    {
      "epoch": 0.3274444444444444,
      "grad_norm": 1.6646007299423218,
      "learning_rate": 0.00013454100911313626,
      "loss": 2.0401,
      "step": 14735
    },
    {
      "epoch": 0.3274666666666667,
      "grad_norm": 1.6890418529510498,
      "learning_rate": 0.00013453656368081797,
      "loss": 1.9666,
      "step": 14736
    },
    {
      "epoch": 0.3274888888888889,
      "grad_norm": 1.7754675149917603,
      "learning_rate": 0.00013453211824849967,
      "loss": 1.4348,
      "step": 14737
    },
    {
      "epoch": 0.3275111111111111,
      "grad_norm": 1.7699031829833984,
      "learning_rate": 0.00013452767281618138,
      "loss": 1.5022,
      "step": 14738
    },
    {
      "epoch": 0.32753333333333334,
      "grad_norm": 1.6831908226013184,
      "learning_rate": 0.0001345232273838631,
      "loss": 1.7561,
      "step": 14739
    },
    {
      "epoch": 0.32755555555555554,
      "grad_norm": 1.6631733179092407,
      "learning_rate": 0.0001345187819515448,
      "loss": 1.7979,
      "step": 14740
    },
    {
      "epoch": 0.3275777777777778,
      "grad_norm": 1.8861390352249146,
      "learning_rate": 0.00013451433651922649,
      "loss": 1.6062,
      "step": 14741
    },
    {
      "epoch": 0.3276,
      "grad_norm": 1.3844192028045654,
      "learning_rate": 0.00013450989108690822,
      "loss": 1.5993,
      "step": 14742
    },
    {
      "epoch": 0.3276222222222222,
      "grad_norm": 1.5677651166915894,
      "learning_rate": 0.0001345054456545899,
      "loss": 1.7091,
      "step": 14743
    },
    {
      "epoch": 0.32764444444444446,
      "grad_norm": 1.585920810699463,
      "learning_rate": 0.00013450100022227162,
      "loss": 1.8241,
      "step": 14744
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 1.782940149307251,
      "learning_rate": 0.00013449655478995332,
      "loss": 2.1149,
      "step": 14745
    },
    {
      "epoch": 0.32768888888888886,
      "grad_norm": 1.5467020273208618,
      "learning_rate": 0.00013449210935763503,
      "loss": 1.6041,
      "step": 14746
    },
    {
      "epoch": 0.3277111111111111,
      "grad_norm": 1.0517538785934448,
      "learning_rate": 0.00013448766392531674,
      "loss": 0.6973,
      "step": 14747
    },
    {
      "epoch": 0.3277333333333333,
      "grad_norm": 2.0906357765197754,
      "learning_rate": 0.00013448321849299845,
      "loss": 2.1084,
      "step": 14748
    },
    {
      "epoch": 0.3277555555555556,
      "grad_norm": 1.0796172618865967,
      "learning_rate": 0.00013447877306068016,
      "loss": 0.633,
      "step": 14749
    },
    {
      "epoch": 0.3277777777777778,
      "grad_norm": 1.5532238483428955,
      "learning_rate": 0.00013447432762836187,
      "loss": 1.2958,
      "step": 14750
    },
    {
      "epoch": 0.3278,
      "grad_norm": 0.8952016234397888,
      "learning_rate": 0.00013446988219604358,
      "loss": 1.3654,
      "step": 14751
    },
    {
      "epoch": 0.32782222222222224,
      "grad_norm": 1.3357447385787964,
      "learning_rate": 0.00013446543676372526,
      "loss": 2.5472,
      "step": 14752
    },
    {
      "epoch": 0.32784444444444444,
      "grad_norm": 1.3960400819778442,
      "learning_rate": 0.000134460991331407,
      "loss": 0.0226,
      "step": 14753
    },
    {
      "epoch": 0.32786666666666664,
      "grad_norm": 1.3904833793640137,
      "learning_rate": 0.00013445654589908868,
      "loss": 2.7281,
      "step": 14754
    },
    {
      "epoch": 0.3278888888888889,
      "grad_norm": 2.434985399246216,
      "learning_rate": 0.0001344521004667704,
      "loss": 1.9779,
      "step": 14755
    },
    {
      "epoch": 0.3279111111111111,
      "grad_norm": 1.7746390104293823,
      "learning_rate": 0.0001344476550344521,
      "loss": 1.0092,
      "step": 14756
    },
    {
      "epoch": 0.32793333333333335,
      "grad_norm": 2.066648483276367,
      "learning_rate": 0.0001344432096021338,
      "loss": 2.0367,
      "step": 14757
    },
    {
      "epoch": 0.32795555555555556,
      "grad_norm": 1.7727484703063965,
      "learning_rate": 0.00013443876416981552,
      "loss": 2.3602,
      "step": 14758
    },
    {
      "epoch": 0.32797777777777776,
      "grad_norm": 1.574819564819336,
      "learning_rate": 0.00013443431873749723,
      "loss": 1.8518,
      "step": 14759
    },
    {
      "epoch": 0.328,
      "grad_norm": 1.5181854963302612,
      "learning_rate": 0.00013442987330517894,
      "loss": 1.9104,
      "step": 14760
    },
    {
      "epoch": 0.3280222222222222,
      "grad_norm": 1.5668753385543823,
      "learning_rate": 0.00013442542787286062,
      "loss": 2.278,
      "step": 14761
    },
    {
      "epoch": 0.32804444444444447,
      "grad_norm": 1.3054264783859253,
      "learning_rate": 0.00013442098244054236,
      "loss": 1.8998,
      "step": 14762
    },
    {
      "epoch": 0.3280666666666667,
      "grad_norm": 1.5218993425369263,
      "learning_rate": 0.00013441653700822404,
      "loss": 2.0359,
      "step": 14763
    },
    {
      "epoch": 0.3280888888888889,
      "grad_norm": 1.6736791133880615,
      "learning_rate": 0.00013441209157590578,
      "loss": 2.345,
      "step": 14764
    },
    {
      "epoch": 0.32811111111111113,
      "grad_norm": 1.2804327011108398,
      "learning_rate": 0.00013440764614358746,
      "loss": 1.7479,
      "step": 14765
    },
    {
      "epoch": 0.32813333333333333,
      "grad_norm": 1.5110384225845337,
      "learning_rate": 0.00013440320071126917,
      "loss": 2.0291,
      "step": 14766
    },
    {
      "epoch": 0.32815555555555553,
      "grad_norm": 1.5601832866668701,
      "learning_rate": 0.00013439875527895088,
      "loss": 1.9147,
      "step": 14767
    },
    {
      "epoch": 0.3281777777777778,
      "grad_norm": 1.6298389434814453,
      "learning_rate": 0.0001343943098466326,
      "loss": 1.8559,
      "step": 14768
    },
    {
      "epoch": 0.3282,
      "grad_norm": 1.2208656072616577,
      "learning_rate": 0.0001343898644143143,
      "loss": 1.2156,
      "step": 14769
    },
    {
      "epoch": 0.32822222222222225,
      "grad_norm": 1.419114112854004,
      "learning_rate": 0.000134385418981996,
      "loss": 1.804,
      "step": 14770
    },
    {
      "epoch": 0.32824444444444445,
      "grad_norm": 1.3814663887023926,
      "learning_rate": 0.00013438097354967772,
      "loss": 1.6225,
      "step": 14771
    },
    {
      "epoch": 0.32826666666666665,
      "grad_norm": 1.3035985231399536,
      "learning_rate": 0.0001343765281173594,
      "loss": 1.7775,
      "step": 14772
    },
    {
      "epoch": 0.3282888888888889,
      "grad_norm": 2.137982130050659,
      "learning_rate": 0.00013437208268504114,
      "loss": 2.3518,
      "step": 14773
    },
    {
      "epoch": 0.3283111111111111,
      "grad_norm": 1.5744765996932983,
      "learning_rate": 0.00013436763725272282,
      "loss": 1.9914,
      "step": 14774
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 1.5163096189498901,
      "learning_rate": 0.00013436319182040453,
      "loss": 2.1316,
      "step": 14775
    },
    {
      "epoch": 0.32835555555555557,
      "grad_norm": 1.4180283546447754,
      "learning_rate": 0.00013435874638808624,
      "loss": 2.0188,
      "step": 14776
    },
    {
      "epoch": 0.32837777777777777,
      "grad_norm": 1.508278250694275,
      "learning_rate": 0.00013435430095576795,
      "loss": 1.7813,
      "step": 14777
    },
    {
      "epoch": 0.3284,
      "grad_norm": 1.5701098442077637,
      "learning_rate": 0.00013434985552344966,
      "loss": 1.9477,
      "step": 14778
    },
    {
      "epoch": 0.3284222222222222,
      "grad_norm": 1.8123623132705688,
      "learning_rate": 0.00013434541009113137,
      "loss": 1.882,
      "step": 14779
    },
    {
      "epoch": 0.32844444444444443,
      "grad_norm": 1.6941062211990356,
      "learning_rate": 0.00013434096465881308,
      "loss": 2.0473,
      "step": 14780
    },
    {
      "epoch": 0.3284666666666667,
      "grad_norm": 1.213079810142517,
      "learning_rate": 0.00013433651922649476,
      "loss": 0.7965,
      "step": 14781
    },
    {
      "epoch": 0.3284888888888889,
      "grad_norm": 1.625036597251892,
      "learning_rate": 0.0001343320737941765,
      "loss": 2.2525,
      "step": 14782
    },
    {
      "epoch": 0.3285111111111111,
      "grad_norm": 2.1432697772979736,
      "learning_rate": 0.00013432762836185818,
      "loss": 2.2395,
      "step": 14783
    },
    {
      "epoch": 0.32853333333333334,
      "grad_norm": 1.4842801094055176,
      "learning_rate": 0.00013432318292953992,
      "loss": 1.761,
      "step": 14784
    },
    {
      "epoch": 0.32855555555555555,
      "grad_norm": 1.63811194896698,
      "learning_rate": 0.0001343187374972216,
      "loss": 2.2453,
      "step": 14785
    },
    {
      "epoch": 0.3285777777777778,
      "grad_norm": 1.2981895208358765,
      "learning_rate": 0.0001343142920649033,
      "loss": 1.4341,
      "step": 14786
    },
    {
      "epoch": 0.3286,
      "grad_norm": 1.5808261632919312,
      "learning_rate": 0.00013430984663258505,
      "loss": 1.9424,
      "step": 14787
    },
    {
      "epoch": 0.3286222222222222,
      "grad_norm": 1.4160581827163696,
      "learning_rate": 0.00013430540120026673,
      "loss": 1.7671,
      "step": 14788
    },
    {
      "epoch": 0.32864444444444446,
      "grad_norm": 1.5533714294433594,
      "learning_rate": 0.00013430095576794844,
      "loss": 1.8582,
      "step": 14789
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 1.4638067483901978,
      "learning_rate": 0.00013429651033563015,
      "loss": 1.3824,
      "step": 14790
    },
    {
      "epoch": 0.32868888888888886,
      "grad_norm": 2.145125389099121,
      "learning_rate": 0.00013429206490331186,
      "loss": 2.383,
      "step": 14791
    },
    {
      "epoch": 0.3287111111111111,
      "grad_norm": 1.4047305583953857,
      "learning_rate": 0.00013428761947099354,
      "loss": 1.9334,
      "step": 14792
    },
    {
      "epoch": 0.3287333333333333,
      "grad_norm": 1.906773567199707,
      "learning_rate": 0.00013428317403867528,
      "loss": 1.9838,
      "step": 14793
    },
    {
      "epoch": 0.3287555555555556,
      "grad_norm": 1.528169870376587,
      "learning_rate": 0.00013427872860635696,
      "loss": 1.8291,
      "step": 14794
    },
    {
      "epoch": 0.3287777777777778,
      "grad_norm": 1.8619223833084106,
      "learning_rate": 0.00013427428317403867,
      "loss": 2.284,
      "step": 14795
    },
    {
      "epoch": 0.3288,
      "grad_norm": 1.5073665380477905,
      "learning_rate": 0.0001342698377417204,
      "loss": 1.6864,
      "step": 14796
    },
    {
      "epoch": 0.32882222222222224,
      "grad_norm": 1.7652978897094727,
      "learning_rate": 0.0001342653923094021,
      "loss": 2.1814,
      "step": 14797
    },
    {
      "epoch": 0.32884444444444444,
      "grad_norm": 1.7808451652526855,
      "learning_rate": 0.0001342609468770838,
      "loss": 1.7912,
      "step": 14798
    },
    {
      "epoch": 0.32886666666666664,
      "grad_norm": 1.6693317890167236,
      "learning_rate": 0.0001342565014447655,
      "loss": 1.5357,
      "step": 14799
    },
    {
      "epoch": 0.3288888888888889,
      "grad_norm": 1.4704281091690063,
      "learning_rate": 0.00013425205601244722,
      "loss": 1.2857,
      "step": 14800
    },
    {
      "epoch": 0.3289111111111111,
      "grad_norm": 1.3858985900878906,
      "learning_rate": 0.0001342476105801289,
      "loss": 2.6143,
      "step": 14801
    },
    {
      "epoch": 0.32893333333333336,
      "grad_norm": 1.470017910003662,
      "learning_rate": 0.00013424316514781064,
      "loss": 2.7294,
      "step": 14802
    },
    {
      "epoch": 0.32895555555555556,
      "grad_norm": 1.1777637004852295,
      "learning_rate": 0.00013423871971549235,
      "loss": 2.223,
      "step": 14803
    },
    {
      "epoch": 0.32897777777777776,
      "grad_norm": 1.217437982559204,
      "learning_rate": 0.00013423427428317406,
      "loss": 2.0758,
      "step": 14804
    },
    {
      "epoch": 0.329,
      "grad_norm": 1.2898468971252441,
      "learning_rate": 0.00013422982885085577,
      "loss": 2.0424,
      "step": 14805
    },
    {
      "epoch": 0.3290222222222222,
      "grad_norm": 1.458283543586731,
      "learning_rate": 0.00013422538341853745,
      "loss": 2.5862,
      "step": 14806
    },
    {
      "epoch": 0.3290444444444444,
      "grad_norm": 1.4006062746047974,
      "learning_rate": 0.00013422093798621919,
      "loss": 2.1348,
      "step": 14807
    },
    {
      "epoch": 0.3290666666666667,
      "grad_norm": 1.2210752964019775,
      "learning_rate": 0.00013421649255390087,
      "loss": 2.0604,
      "step": 14808
    },
    {
      "epoch": 0.3290888888888889,
      "grad_norm": 1.5088109970092773,
      "learning_rate": 0.00013421204712158258,
      "loss": 2.1052,
      "step": 14809
    },
    {
      "epoch": 0.32911111111111113,
      "grad_norm": 1.582876205444336,
      "learning_rate": 0.0001342076016892643,
      "loss": 1.5265,
      "step": 14810
    },
    {
      "epoch": 0.32913333333333333,
      "grad_norm": 1.4824671745300293,
      "learning_rate": 0.000134203156256946,
      "loss": 1.8126,
      "step": 14811
    },
    {
      "epoch": 0.32915555555555553,
      "grad_norm": 1.8946452140808105,
      "learning_rate": 0.0001341987108246277,
      "loss": 2.1378,
      "step": 14812
    },
    {
      "epoch": 0.3291777777777778,
      "grad_norm": 1.581336498260498,
      "learning_rate": 0.00013419426539230942,
      "loss": 2.1799,
      "step": 14813
    },
    {
      "epoch": 0.3292,
      "grad_norm": 1.4550236463546753,
      "learning_rate": 0.00013418981995999113,
      "loss": 1.7099,
      "step": 14814
    },
    {
      "epoch": 0.32922222222222225,
      "grad_norm": 1.464158535003662,
      "learning_rate": 0.0001341853745276728,
      "loss": 1.7848,
      "step": 14815
    },
    {
      "epoch": 0.32924444444444445,
      "grad_norm": 1.1888201236724854,
      "learning_rate": 0.00013418092909535455,
      "loss": 1.5856,
      "step": 14816
    },
    {
      "epoch": 0.32926666666666665,
      "grad_norm": 1.5825493335723877,
      "learning_rate": 0.00013417648366303623,
      "loss": 2.1434,
      "step": 14817
    },
    {
      "epoch": 0.3292888888888889,
      "grad_norm": 1.556445598602295,
      "learning_rate": 0.00013417203823071794,
      "loss": 2.4409,
      "step": 14818
    },
    {
      "epoch": 0.3293111111111111,
      "grad_norm": 1.5487456321716309,
      "learning_rate": 0.00013416759279839965,
      "loss": 1.9989,
      "step": 14819
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 1.5356310606002808,
      "learning_rate": 0.00013416314736608136,
      "loss": 1.5266,
      "step": 14820
    },
    {
      "epoch": 0.32935555555555557,
      "grad_norm": 1.8623871803283691,
      "learning_rate": 0.00013415870193376307,
      "loss": 2.2661,
      "step": 14821
    },
    {
      "epoch": 0.32937777777777777,
      "grad_norm": 1.6639119386672974,
      "learning_rate": 0.00013415425650144478,
      "loss": 2.0526,
      "step": 14822
    },
    {
      "epoch": 0.3294,
      "grad_norm": 1.9935535192489624,
      "learning_rate": 0.00013414981106912649,
      "loss": 2.1006,
      "step": 14823
    },
    {
      "epoch": 0.3294222222222222,
      "grad_norm": 1.7131001949310303,
      "learning_rate": 0.0001341453656368082,
      "loss": 2.031,
      "step": 14824
    },
    {
      "epoch": 0.32944444444444443,
      "grad_norm": 1.4933767318725586,
      "learning_rate": 0.0001341409202044899,
      "loss": 2.0484,
      "step": 14825
    },
    {
      "epoch": 0.3294666666666667,
      "grad_norm": 1.5102839469909668,
      "learning_rate": 0.0001341364747721716,
      "loss": 1.9988,
      "step": 14826
    },
    {
      "epoch": 0.3294888888888889,
      "grad_norm": 1.5051419734954834,
      "learning_rate": 0.00013413202933985332,
      "loss": 2.2718,
      "step": 14827
    },
    {
      "epoch": 0.3295111111111111,
      "grad_norm": 1.5115951299667358,
      "learning_rate": 0.000134127583907535,
      "loss": 2.0678,
      "step": 14828
    },
    {
      "epoch": 0.32953333333333334,
      "grad_norm": 1.3901351690292358,
      "learning_rate": 0.00013412313847521672,
      "loss": 1.9381,
      "step": 14829
    },
    {
      "epoch": 0.32955555555555555,
      "grad_norm": 1.4820195436477661,
      "learning_rate": 0.00013411869304289843,
      "loss": 1.0261,
      "step": 14830
    },
    {
      "epoch": 0.3295777777777778,
      "grad_norm": 1.5012775659561157,
      "learning_rate": 0.00013411424761058014,
      "loss": 2.0534,
      "step": 14831
    },
    {
      "epoch": 0.3296,
      "grad_norm": 1.487446904182434,
      "learning_rate": 0.00013410980217826184,
      "loss": 1.6692,
      "step": 14832
    },
    {
      "epoch": 0.3296222222222222,
      "grad_norm": 1.6501842737197876,
      "learning_rate": 0.00013410535674594355,
      "loss": 1.7507,
      "step": 14833
    },
    {
      "epoch": 0.32964444444444446,
      "grad_norm": 2.2483649253845215,
      "learning_rate": 0.00013410091131362526,
      "loss": 2.4852,
      "step": 14834
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 1.576177954673767,
      "learning_rate": 0.00013409646588130695,
      "loss": 1.7504,
      "step": 14835
    },
    {
      "epoch": 0.32968888888888886,
      "grad_norm": 1.8386248350143433,
      "learning_rate": 0.00013409202044898868,
      "loss": 2.0958,
      "step": 14836
    },
    {
      "epoch": 0.3297111111111111,
      "grad_norm": 1.2230116128921509,
      "learning_rate": 0.00013408757501667037,
      "loss": 1.2181,
      "step": 14837
    },
    {
      "epoch": 0.3297333333333333,
      "grad_norm": 1.6341084241867065,
      "learning_rate": 0.00013408312958435208,
      "loss": 2.252,
      "step": 14838
    },
    {
      "epoch": 0.3297555555555556,
      "grad_norm": 1.623618245124817,
      "learning_rate": 0.00013407868415203378,
      "loss": 1.71,
      "step": 14839
    },
    {
      "epoch": 0.3297777777777778,
      "grad_norm": 1.7364041805267334,
      "learning_rate": 0.0001340742387197155,
      "loss": 2.2302,
      "step": 14840
    },
    {
      "epoch": 0.3298,
      "grad_norm": 1.6503523588180542,
      "learning_rate": 0.0001340697932873972,
      "loss": 2.3916,
      "step": 14841
    },
    {
      "epoch": 0.32982222222222224,
      "grad_norm": 1.810543179512024,
      "learning_rate": 0.00013406534785507891,
      "loss": 1.7529,
      "step": 14842
    },
    {
      "epoch": 0.32984444444444444,
      "grad_norm": 1.9506402015686035,
      "learning_rate": 0.00013406090242276062,
      "loss": 1.5904,
      "step": 14843
    },
    {
      "epoch": 0.32986666666666664,
      "grad_norm": 1.8802648782730103,
      "learning_rate": 0.00013405645699044233,
      "loss": 1.9782,
      "step": 14844
    },
    {
      "epoch": 0.3298888888888889,
      "grad_norm": 1.6082801818847656,
      "learning_rate": 0.00013405201155812404,
      "loss": 1.6402,
      "step": 14845
    },
    {
      "epoch": 0.3299111111111111,
      "grad_norm": 1.6228443384170532,
      "learning_rate": 0.00013404756612580573,
      "loss": 1.7352,
      "step": 14846
    },
    {
      "epoch": 0.32993333333333336,
      "grad_norm": 1.2964296340942383,
      "learning_rate": 0.00013404312069348746,
      "loss": 1.3178,
      "step": 14847
    },
    {
      "epoch": 0.32995555555555556,
      "grad_norm": 1.9877504110336304,
      "learning_rate": 0.00013403867526116914,
      "loss": 1.8129,
      "step": 14848
    },
    {
      "epoch": 0.32997777777777776,
      "grad_norm": 1.473488450050354,
      "learning_rate": 0.00013403422982885085,
      "loss": 1.5029,
      "step": 14849
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8373631238937378,
      "learning_rate": 0.00013402978439653256,
      "loss": 0.5481,
      "step": 14850
    },
    {
      "epoch": 0.3300222222222222,
      "grad_norm": 0.9992607235908508,
      "learning_rate": 0.00013402533896421427,
      "loss": 1.3094,
      "step": 14851
    },
    {
      "epoch": 0.3300444444444444,
      "grad_norm": 1.306057333946228,
      "learning_rate": 0.00013402089353189598,
      "loss": 2.1015,
      "step": 14852
    },
    {
      "epoch": 0.3300666666666667,
      "grad_norm": 1.3344688415527344,
      "learning_rate": 0.0001340164480995777,
      "loss": 2.0289,
      "step": 14853
    },
    {
      "epoch": 0.3300888888888889,
      "grad_norm": 1.4226605892181396,
      "learning_rate": 0.0001340120026672594,
      "loss": 2.5238,
      "step": 14854
    },
    {
      "epoch": 0.33011111111111113,
      "grad_norm": 2.263209342956543,
      "learning_rate": 0.00013400755723494108,
      "loss": 2.5764,
      "step": 14855
    },
    {
      "epoch": 0.33013333333333333,
      "grad_norm": 1.8505034446716309,
      "learning_rate": 0.00013400311180262282,
      "loss": 1.6004,
      "step": 14856
    },
    {
      "epoch": 0.33015555555555554,
      "grad_norm": 1.2757809162139893,
      "learning_rate": 0.0001339986663703045,
      "loss": 2.1334,
      "step": 14857
    },
    {
      "epoch": 0.3301777777777778,
      "grad_norm": 1.544830322265625,
      "learning_rate": 0.0001339942209379862,
      "loss": 1.2895,
      "step": 14858
    },
    {
      "epoch": 0.3302,
      "grad_norm": 1.4044806957244873,
      "learning_rate": 0.00013398977550566792,
      "loss": 1.9374,
      "step": 14859
    },
    {
      "epoch": 0.3302222222222222,
      "grad_norm": 1.4270024299621582,
      "learning_rate": 0.00013398533007334963,
      "loss": 2.2301,
      "step": 14860
    },
    {
      "epoch": 0.33024444444444445,
      "grad_norm": 1.7588618993759155,
      "learning_rate": 0.00013398088464103137,
      "loss": 2.2327,
      "step": 14861
    },
    {
      "epoch": 0.33026666666666665,
      "grad_norm": 1.4310911893844604,
      "learning_rate": 0.00013397643920871305,
      "loss": 2.186,
      "step": 14862
    },
    {
      "epoch": 0.3302888888888889,
      "grad_norm": 1.4851751327514648,
      "learning_rate": 0.00013397199377639476,
      "loss": 1.9928,
      "step": 14863
    },
    {
      "epoch": 0.3303111111111111,
      "grad_norm": 1.8244752883911133,
      "learning_rate": 0.00013396754834407647,
      "loss": 2.3317,
      "step": 14864
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 1.5497554540634155,
      "learning_rate": 0.00013396310291175818,
      "loss": 1.7868,
      "step": 14865
    },
    {
      "epoch": 0.33035555555555557,
      "grad_norm": 1.3135483264923096,
      "learning_rate": 0.00013395865747943986,
      "loss": 2.0324,
      "step": 14866
    },
    {
      "epoch": 0.33037777777777777,
      "grad_norm": 1.5496737957000732,
      "learning_rate": 0.0001339542120471216,
      "loss": 1.823,
      "step": 14867
    },
    {
      "epoch": 0.3304,
      "grad_norm": 1.494277000427246,
      "learning_rate": 0.00013394976661480328,
      "loss": 1.9265,
      "step": 14868
    },
    {
      "epoch": 0.33042222222222223,
      "grad_norm": 1.412466287612915,
      "learning_rate": 0.000133945321182485,
      "loss": 1.2035,
      "step": 14869
    },
    {
      "epoch": 0.33044444444444443,
      "grad_norm": 1.5409069061279297,
      "learning_rate": 0.00013394087575016673,
      "loss": 2.0154,
      "step": 14870
    },
    {
      "epoch": 0.3304666666666667,
      "grad_norm": 1.5917062759399414,
      "learning_rate": 0.0001339364303178484,
      "loss": 1.9247,
      "step": 14871
    },
    {
      "epoch": 0.3304888888888889,
      "grad_norm": 1.6191962957382202,
      "learning_rate": 0.00013393198488553012,
      "loss": 2.2443,
      "step": 14872
    },
    {
      "epoch": 0.3305111111111111,
      "grad_norm": 2.1549227237701416,
      "learning_rate": 0.00013392753945321183,
      "loss": 2.5801,
      "step": 14873
    },
    {
      "epoch": 0.33053333333333335,
      "grad_norm": 1.4663766622543335,
      "learning_rate": 0.00013392309402089354,
      "loss": 1.8643,
      "step": 14874
    },
    {
      "epoch": 0.33055555555555555,
      "grad_norm": 1.670920729637146,
      "learning_rate": 0.00013391864858857522,
      "loss": 1.8261,
      "step": 14875
    },
    {
      "epoch": 0.3305777777777778,
      "grad_norm": 1.5441339015960693,
      "learning_rate": 0.00013391420315625696,
      "loss": 1.7807,
      "step": 14876
    },
    {
      "epoch": 0.3306,
      "grad_norm": 1.5202275514602661,
      "learning_rate": 0.00013390975772393867,
      "loss": 1.4095,
      "step": 14877
    },
    {
      "epoch": 0.3306222222222222,
      "grad_norm": 1.4914921522140503,
      "learning_rate": 0.00013390531229162038,
      "loss": 1.7772,
      "step": 14878
    },
    {
      "epoch": 0.33064444444444446,
      "grad_norm": 1.7591371536254883,
      "learning_rate": 0.0001339008668593021,
      "loss": 2.1539,
      "step": 14879
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 1.2052299976348877,
      "learning_rate": 0.00013389642142698377,
      "loss": 1.0142,
      "step": 14880
    },
    {
      "epoch": 0.33068888888888887,
      "grad_norm": 1.8744579553604126,
      "learning_rate": 0.0001338919759946655,
      "loss": 1.9949,
      "step": 14881
    },
    {
      "epoch": 0.3307111111111111,
      "grad_norm": 1.849635124206543,
      "learning_rate": 0.0001338875305623472,
      "loss": 1.7994,
      "step": 14882
    },
    {
      "epoch": 0.3307333333333333,
      "grad_norm": 1.728659987449646,
      "learning_rate": 0.0001338830851300289,
      "loss": 1.4338,
      "step": 14883
    },
    {
      "epoch": 0.3307555555555556,
      "grad_norm": 1.5377089977264404,
      "learning_rate": 0.0001338786396977106,
      "loss": 1.7438,
      "step": 14884
    },
    {
      "epoch": 0.3307777777777778,
      "grad_norm": 1.556777834892273,
      "learning_rate": 0.00013387419426539232,
      "loss": 1.8397,
      "step": 14885
    },
    {
      "epoch": 0.3308,
      "grad_norm": 1.6425981521606445,
      "learning_rate": 0.00013386974883307403,
      "loss": 1.87,
      "step": 14886
    },
    {
      "epoch": 0.33082222222222224,
      "grad_norm": 1.32017982006073,
      "learning_rate": 0.00013386530340075574,
      "loss": 1.35,
      "step": 14887
    },
    {
      "epoch": 0.33084444444444444,
      "grad_norm": 1.2627791166305542,
      "learning_rate": 0.00013386085796843745,
      "loss": 1.0071,
      "step": 14888
    },
    {
      "epoch": 0.33086666666666664,
      "grad_norm": 1.7320002317428589,
      "learning_rate": 0.00013385641253611913,
      "loss": 2.1932,
      "step": 14889
    },
    {
      "epoch": 0.3308888888888889,
      "grad_norm": 2.0041863918304443,
      "learning_rate": 0.00013385196710380087,
      "loss": 1.8539,
      "step": 14890
    },
    {
      "epoch": 0.3309111111111111,
      "grad_norm": 1.6897153854370117,
      "learning_rate": 0.00013384752167148255,
      "loss": 2.0762,
      "step": 14891
    },
    {
      "epoch": 0.33093333333333336,
      "grad_norm": 1.48915433883667,
      "learning_rate": 0.00013384307623916426,
      "loss": 1.5985,
      "step": 14892
    },
    {
      "epoch": 0.33095555555555556,
      "grad_norm": 1.7720773220062256,
      "learning_rate": 0.00013383863080684597,
      "loss": 1.7871,
      "step": 14893
    },
    {
      "epoch": 0.33097777777777776,
      "grad_norm": 1.4519182443618774,
      "learning_rate": 0.00013383418537452768,
      "loss": 1.6882,
      "step": 14894
    },
    {
      "epoch": 0.331,
      "grad_norm": 1.6570557355880737,
      "learning_rate": 0.0001338297399422094,
      "loss": 1.7535,
      "step": 14895
    },
    {
      "epoch": 0.3310222222222222,
      "grad_norm": 1.7765507698059082,
      "learning_rate": 0.0001338252945098911,
      "loss": 1.8857,
      "step": 14896
    },
    {
      "epoch": 0.3310444444444444,
      "grad_norm": 1.644800066947937,
      "learning_rate": 0.0001338208490775728,
      "loss": 2.2243,
      "step": 14897
    },
    {
      "epoch": 0.3310666666666667,
      "grad_norm": 1.6024184226989746,
      "learning_rate": 0.00013381640364525452,
      "loss": 1.337,
      "step": 14898
    },
    {
      "epoch": 0.3310888888888889,
      "grad_norm": 1.720812439918518,
      "learning_rate": 0.00013381195821293623,
      "loss": 1.6062,
      "step": 14899
    },
    {
      "epoch": 0.33111111111111113,
      "grad_norm": 1.7303980588912964,
      "learning_rate": 0.0001338075127806179,
      "loss": 1.7524,
      "step": 14900
    },
    {
      "epoch": 0.33113333333333334,
      "grad_norm": 1.2218501567840576,
      "learning_rate": 0.00013380306734829965,
      "loss": 2.3943,
      "step": 14901
    },
    {
      "epoch": 0.33115555555555554,
      "grad_norm": 0.9202598333358765,
      "learning_rate": 0.00013379862191598133,
      "loss": 1.2047,
      "step": 14902
    },
    {
      "epoch": 0.3311777777777778,
      "grad_norm": 0.9311439990997314,
      "learning_rate": 0.00013379417648366304,
      "loss": 0.8788,
      "step": 14903
    },
    {
      "epoch": 0.3312,
      "grad_norm": 1.220837116241455,
      "learning_rate": 0.00013378973105134475,
      "loss": 1.958,
      "step": 14904
    },
    {
      "epoch": 0.3312222222222222,
      "grad_norm": 1.4357545375823975,
      "learning_rate": 0.00013378528561902646,
      "loss": 2.4759,
      "step": 14905
    },
    {
      "epoch": 0.33124444444444445,
      "grad_norm": 1.481488585472107,
      "learning_rate": 0.00013378084018670817,
      "loss": 2.3181,
      "step": 14906
    },
    {
      "epoch": 0.33126666666666665,
      "grad_norm": 1.536889672279358,
      "learning_rate": 0.00013377639475438988,
      "loss": 2.0872,
      "step": 14907
    },
    {
      "epoch": 0.3312888888888889,
      "grad_norm": 1.6949740648269653,
      "learning_rate": 0.00013377194932207159,
      "loss": 2.1067,
      "step": 14908
    },
    {
      "epoch": 0.3313111111111111,
      "grad_norm": 1.2468335628509521,
      "learning_rate": 0.00013376750388975327,
      "loss": 1.725,
      "step": 14909
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 1.6555140018463135,
      "learning_rate": 0.000133763058457435,
      "loss": 1.9882,
      "step": 14910
    },
    {
      "epoch": 0.33135555555555557,
      "grad_norm": 1.4092499017715454,
      "learning_rate": 0.0001337586130251167,
      "loss": 1.61,
      "step": 14911
    },
    {
      "epoch": 0.33137777777777777,
      "grad_norm": 1.6482467651367188,
      "learning_rate": 0.0001337541675927984,
      "loss": 1.9989,
      "step": 14912
    },
    {
      "epoch": 0.3314,
      "grad_norm": 5.2270660400390625,
      "learning_rate": 0.0001337497221604801,
      "loss": 1.9174,
      "step": 14913
    },
    {
      "epoch": 0.33142222222222223,
      "grad_norm": 1.0195256471633911,
      "learning_rate": 0.00013374527672816182,
      "loss": 0.9932,
      "step": 14914
    },
    {
      "epoch": 0.33144444444444443,
      "grad_norm": 1.2252284288406372,
      "learning_rate": 0.00013374083129584353,
      "loss": 0.8359,
      "step": 14915
    },
    {
      "epoch": 0.3314666666666667,
      "grad_norm": 1.7458423376083374,
      "learning_rate": 0.00013373638586352524,
      "loss": 2.0949,
      "step": 14916
    },
    {
      "epoch": 0.3314888888888889,
      "grad_norm": 1.5062663555145264,
      "learning_rate": 0.00013373194043120695,
      "loss": 2.3322,
      "step": 14917
    },
    {
      "epoch": 0.3315111111111111,
      "grad_norm": 1.5581252574920654,
      "learning_rate": 0.00013372749499888866,
      "loss": 2.2452,
      "step": 14918
    },
    {
      "epoch": 0.33153333333333335,
      "grad_norm": 1.944230556488037,
      "learning_rate": 0.00013372304956657036,
      "loss": 2.1638,
      "step": 14919
    },
    {
      "epoch": 0.33155555555555555,
      "grad_norm": 1.5748116970062256,
      "learning_rate": 0.00013371860413425205,
      "loss": 1.7859,
      "step": 14920
    },
    {
      "epoch": 0.3315777777777778,
      "grad_norm": 1.7082396745681763,
      "learning_rate": 0.00013371415870193378,
      "loss": 2.2091,
      "step": 14921
    },
    {
      "epoch": 0.3316,
      "grad_norm": 1.7277263402938843,
      "learning_rate": 0.00013370971326961547,
      "loss": 2.0571,
      "step": 14922
    },
    {
      "epoch": 0.3316222222222222,
      "grad_norm": 1.8638765811920166,
      "learning_rate": 0.00013370526783729718,
      "loss": 2.4681,
      "step": 14923
    },
    {
      "epoch": 0.33164444444444446,
      "grad_norm": 1.8234813213348389,
      "learning_rate": 0.00013370082240497889,
      "loss": 1.9744,
      "step": 14924
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 1.517885446548462,
      "learning_rate": 0.0001336963769726606,
      "loss": 2.2068,
      "step": 14925
    },
    {
      "epoch": 0.33168888888888887,
      "grad_norm": 1.4884915351867676,
      "learning_rate": 0.0001336919315403423,
      "loss": 1.9621,
      "step": 14926
    },
    {
      "epoch": 0.3317111111111111,
      "grad_norm": 1.6032606363296509,
      "learning_rate": 0.00013368748610802401,
      "loss": 1.6223,
      "step": 14927
    },
    {
      "epoch": 0.3317333333333333,
      "grad_norm": 1.7087160348892212,
      "learning_rate": 0.00013368304067570572,
      "loss": 2.0543,
      "step": 14928
    },
    {
      "epoch": 0.3317555555555556,
      "grad_norm": 1.7051855325698853,
      "learning_rate": 0.0001336785952433874,
      "loss": 1.9432,
      "step": 14929
    },
    {
      "epoch": 0.3317777777777778,
      "grad_norm": 2.122692823410034,
      "learning_rate": 0.00013367414981106914,
      "loss": 1.2488,
      "step": 14930
    },
    {
      "epoch": 0.3318,
      "grad_norm": 1.467495322227478,
      "learning_rate": 0.00013366970437875083,
      "loss": 2.1783,
      "step": 14931
    },
    {
      "epoch": 0.33182222222222224,
      "grad_norm": 1.464652419090271,
      "learning_rate": 0.00013366525894643254,
      "loss": 1.9419,
      "step": 14932
    },
    {
      "epoch": 0.33184444444444444,
      "grad_norm": 1.4239577054977417,
      "learning_rate": 0.00013366081351411425,
      "loss": 0.9257,
      "step": 14933
    },
    {
      "epoch": 0.33186666666666664,
      "grad_norm": 1.47995924949646,
      "learning_rate": 0.00013365636808179595,
      "loss": 2.1125,
      "step": 14934
    },
    {
      "epoch": 0.3318888888888889,
      "grad_norm": 2.1627581119537354,
      "learning_rate": 0.0001336519226494777,
      "loss": 2.0495,
      "step": 14935
    },
    {
      "epoch": 0.3319111111111111,
      "grad_norm": 1.620978593826294,
      "learning_rate": 0.00013364747721715937,
      "loss": 1.7387,
      "step": 14936
    },
    {
      "epoch": 0.33193333333333336,
      "grad_norm": 1.510809063911438,
      "learning_rate": 0.00013364303178484108,
      "loss": 1.4401,
      "step": 14937
    },
    {
      "epoch": 0.33195555555555556,
      "grad_norm": 1.5225563049316406,
      "learning_rate": 0.0001336385863525228,
      "loss": 2.0729,
      "step": 14938
    },
    {
      "epoch": 0.33197777777777776,
      "grad_norm": 1.4798707962036133,
      "learning_rate": 0.0001336341409202045,
      "loss": 1.6959,
      "step": 14939
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.4249595403671265,
      "learning_rate": 0.00013362969548788619,
      "loss": 1.3653,
      "step": 14940
    },
    {
      "epoch": 0.3320222222222222,
      "grad_norm": 1.5865689516067505,
      "learning_rate": 0.00013362525005556792,
      "loss": 1.9178,
      "step": 14941
    },
    {
      "epoch": 0.3320444444444444,
      "grad_norm": 1.6504199504852295,
      "learning_rate": 0.0001336208046232496,
      "loss": 2.265,
      "step": 14942
    },
    {
      "epoch": 0.3320666666666667,
      "grad_norm": 1.7226885557174683,
      "learning_rate": 0.00013361635919093131,
      "loss": 2.0707,
      "step": 14943
    },
    {
      "epoch": 0.3320888888888889,
      "grad_norm": 1.7720891237258911,
      "learning_rate": 0.00013361191375861305,
      "loss": 1.9546,
      "step": 14944
    },
    {
      "epoch": 0.33211111111111113,
      "grad_norm": 1.6771609783172607,
      "learning_rate": 0.00013360746832629473,
      "loss": 1.7499,
      "step": 14945
    },
    {
      "epoch": 0.33213333333333334,
      "grad_norm": 1.7901510000228882,
      "learning_rate": 0.00013360302289397644,
      "loss": 1.9831,
      "step": 14946
    },
    {
      "epoch": 0.33215555555555554,
      "grad_norm": 1.5873759984970093,
      "learning_rate": 0.00013359857746165815,
      "loss": 1.4501,
      "step": 14947
    },
    {
      "epoch": 0.3321777777777778,
      "grad_norm": 1.6854981184005737,
      "learning_rate": 0.00013359413202933986,
      "loss": 2.1228,
      "step": 14948
    },
    {
      "epoch": 0.3322,
      "grad_norm": 1.3492079973220825,
      "learning_rate": 0.00013358968659702154,
      "loss": 1.5056,
      "step": 14949
    },
    {
      "epoch": 0.3322222222222222,
      "grad_norm": 1.603071928024292,
      "learning_rate": 0.00013358524116470328,
      "loss": 1.6384,
      "step": 14950
    },
    {
      "epoch": 0.33224444444444445,
      "grad_norm": 1.4738349914550781,
      "learning_rate": 0.000133580795732385,
      "loss": 2.3423,
      "step": 14951
    },
    {
      "epoch": 0.33226666666666665,
      "grad_norm": 1.5385081768035889,
      "learning_rate": 0.00013357635030006667,
      "loss": 1.8987,
      "step": 14952
    },
    {
      "epoch": 0.3322888888888889,
      "grad_norm": 1.4453113079071045,
      "learning_rate": 0.0001335719048677484,
      "loss": 2.4754,
      "step": 14953
    },
    {
      "epoch": 0.3323111111111111,
      "grad_norm": 1.3891608715057373,
      "learning_rate": 0.0001335674594354301,
      "loss": 2.5206,
      "step": 14954
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 1.696335792541504,
      "learning_rate": 0.00013356301400311183,
      "loss": 2.4894,
      "step": 14955
    },
    {
      "epoch": 0.33235555555555557,
      "grad_norm": 1.3072489500045776,
      "learning_rate": 0.0001335585685707935,
      "loss": 2.0277,
      "step": 14956
    },
    {
      "epoch": 0.33237777777777777,
      "grad_norm": 1.757770299911499,
      "learning_rate": 0.00013355412313847522,
      "loss": 1.8837,
      "step": 14957
    },
    {
      "epoch": 0.3324,
      "grad_norm": 1.5446239709854126,
      "learning_rate": 0.00013354967770615693,
      "loss": 2.0274,
      "step": 14958
    },
    {
      "epoch": 0.33242222222222223,
      "grad_norm": 1.4245452880859375,
      "learning_rate": 0.00013354523227383864,
      "loss": 1.8411,
      "step": 14959
    },
    {
      "epoch": 0.33244444444444443,
      "grad_norm": 1.649070382118225,
      "learning_rate": 0.00013354078684152035,
      "loss": 2.3597,
      "step": 14960
    },
    {
      "epoch": 0.3324666666666667,
      "grad_norm": 1.6328564882278442,
      "learning_rate": 0.00013353634140920206,
      "loss": 2.9,
      "step": 14961
    },
    {
      "epoch": 0.3324888888888889,
      "grad_norm": 1.7074956893920898,
      "learning_rate": 0.00013353189597688377,
      "loss": 1.8938,
      "step": 14962
    },
    {
      "epoch": 0.3325111111111111,
      "grad_norm": 1.3297374248504639,
      "learning_rate": 0.00013352745054456545,
      "loss": 1.3563,
      "step": 14963
    },
    {
      "epoch": 0.33253333333333335,
      "grad_norm": 1.5371856689453125,
      "learning_rate": 0.0001335230051122472,
      "loss": 2.3895,
      "step": 14964
    },
    {
      "epoch": 0.33255555555555555,
      "grad_norm": 1.4399608373641968,
      "learning_rate": 0.00013351855967992887,
      "loss": 2.2452,
      "step": 14965
    },
    {
      "epoch": 0.3325777777777778,
      "grad_norm": 1.3788535594940186,
      "learning_rate": 0.00013351411424761058,
      "loss": 1.5126,
      "step": 14966
    },
    {
      "epoch": 0.3326,
      "grad_norm": 1.5265525579452515,
      "learning_rate": 0.0001335096688152923,
      "loss": 2.4647,
      "step": 14967
    },
    {
      "epoch": 0.3326222222222222,
      "grad_norm": 1.3686935901641846,
      "learning_rate": 0.000133505223382974,
      "loss": 1.908,
      "step": 14968
    },
    {
      "epoch": 0.33264444444444446,
      "grad_norm": 1.388962984085083,
      "learning_rate": 0.0001335007779506557,
      "loss": 1.7949,
      "step": 14969
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 1.4271247386932373,
      "learning_rate": 0.00013349633251833742,
      "loss": 1.9128,
      "step": 14970
    },
    {
      "epoch": 0.33268888888888887,
      "grad_norm": 1.2287639379501343,
      "learning_rate": 0.00013349188708601913,
      "loss": 1.583,
      "step": 14971
    },
    {
      "epoch": 0.3327111111111111,
      "grad_norm": 1.64622163772583,
      "learning_rate": 0.00013348744165370084,
      "loss": 2.4816,
      "step": 14972
    },
    {
      "epoch": 0.3327333333333333,
      "grad_norm": 0.23840661346912384,
      "learning_rate": 0.00013348299622138255,
      "loss": 0.0251,
      "step": 14973
    },
    {
      "epoch": 0.3327555555555556,
      "grad_norm": 1.6438642740249634,
      "learning_rate": 0.00013347855078906423,
      "loss": 1.5796,
      "step": 14974
    },
    {
      "epoch": 0.3327777777777778,
      "grad_norm": 1.6902780532836914,
      "learning_rate": 0.00013347410535674597,
      "loss": 2.1158,
      "step": 14975
    },
    {
      "epoch": 0.3328,
      "grad_norm": 1.5758342742919922,
      "learning_rate": 0.00013346965992442765,
      "loss": 2.1249,
      "step": 14976
    },
    {
      "epoch": 0.33282222222222224,
      "grad_norm": 1.7389702796936035,
      "learning_rate": 0.00013346521449210936,
      "loss": 2.1727,
      "step": 14977
    },
    {
      "epoch": 0.33284444444444444,
      "grad_norm": 1.841691017150879,
      "learning_rate": 0.00013346076905979107,
      "loss": 2.0063,
      "step": 14978
    },
    {
      "epoch": 0.33286666666666664,
      "grad_norm": 1.389522910118103,
      "learning_rate": 0.00013345632362747278,
      "loss": 2.0844,
      "step": 14979
    },
    {
      "epoch": 0.3328888888888889,
      "grad_norm": 1.4507948160171509,
      "learning_rate": 0.0001334518781951545,
      "loss": 1.9412,
      "step": 14980
    },
    {
      "epoch": 0.3329111111111111,
      "grad_norm": 1.4584420919418335,
      "learning_rate": 0.0001334474327628362,
      "loss": 1.7126,
      "step": 14981
    },
    {
      "epoch": 0.33293333333333336,
      "grad_norm": 1.412414789199829,
      "learning_rate": 0.0001334429873305179,
      "loss": 1.9997,
      "step": 14982
    },
    {
      "epoch": 0.33295555555555556,
      "grad_norm": 1.4866526126861572,
      "learning_rate": 0.0001334385418981996,
      "loss": 1.9343,
      "step": 14983
    },
    {
      "epoch": 0.33297777777777776,
      "grad_norm": 1.8242988586425781,
      "learning_rate": 0.00013343409646588133,
      "loss": 1.67,
      "step": 14984
    },
    {
      "epoch": 0.333,
      "grad_norm": 1.8911644220352173,
      "learning_rate": 0.000133429651033563,
      "loss": 2.0101,
      "step": 14985
    },
    {
      "epoch": 0.3330222222222222,
      "grad_norm": 1.6360609531402588,
      "learning_rate": 0.00013342520560124472,
      "loss": 2.3995,
      "step": 14986
    },
    {
      "epoch": 0.3330444444444444,
      "grad_norm": 1.3638116121292114,
      "learning_rate": 0.00013342076016892643,
      "loss": 1.7707,
      "step": 14987
    },
    {
      "epoch": 0.3330666666666667,
      "grad_norm": 1.879350185394287,
      "learning_rate": 0.00013341631473660814,
      "loss": 2.0122,
      "step": 14988
    },
    {
      "epoch": 0.3330888888888889,
      "grad_norm": 1.5635889768600464,
      "learning_rate": 0.00013341186930428985,
      "loss": 2.0107,
      "step": 14989
    },
    {
      "epoch": 0.33311111111111114,
      "grad_norm": 1.5088671445846558,
      "learning_rate": 0.00013340742387197156,
      "loss": 1.9921,
      "step": 14990
    },
    {
      "epoch": 0.33313333333333334,
      "grad_norm": 1.8754167556762695,
      "learning_rate": 0.00013340297843965327,
      "loss": 1.7344,
      "step": 14991
    },
    {
      "epoch": 0.33315555555555554,
      "grad_norm": 1.9241101741790771,
      "learning_rate": 0.00013339853300733498,
      "loss": 2.4442,
      "step": 14992
    },
    {
      "epoch": 0.3331777777777778,
      "grad_norm": 1.5428639650344849,
      "learning_rate": 0.0001333940875750167,
      "loss": 1.5042,
      "step": 14993
    },
    {
      "epoch": 0.3332,
      "grad_norm": 1.4024056196212769,
      "learning_rate": 0.00013338964214269837,
      "loss": 1.499,
      "step": 14994
    },
    {
      "epoch": 0.3332222222222222,
      "grad_norm": 1.9242002964019775,
      "learning_rate": 0.0001333851967103801,
      "loss": 2.384,
      "step": 14995
    },
    {
      "epoch": 0.33324444444444445,
      "grad_norm": 1.6773474216461182,
      "learning_rate": 0.0001333807512780618,
      "loss": 1.921,
      "step": 14996
    },
    {
      "epoch": 0.33326666666666666,
      "grad_norm": 1.9157344102859497,
      "learning_rate": 0.0001333763058457435,
      "loss": 2.0087,
      "step": 14997
    },
    {
      "epoch": 0.3332888888888889,
      "grad_norm": 1.7518550157546997,
      "learning_rate": 0.0001333718604134252,
      "loss": 1.4537,
      "step": 14998
    },
    {
      "epoch": 0.3333111111111111,
      "grad_norm": 1.7503314018249512,
      "learning_rate": 0.00013336741498110692,
      "loss": 1.8596,
      "step": 14999
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 2.08127760887146,
      "learning_rate": 0.00013336296954878863,
      "loss": 2.0789,
      "step": 15000
    },
    {
      "epoch": 0.33335555555555557,
      "grad_norm": 1.2799015045166016,
      "learning_rate": 0.00013335852411647034,
      "loss": 2.4773,
      "step": 15001
    },
    {
      "epoch": 0.3333777777777778,
      "grad_norm": 0.8240202069282532,
      "learning_rate": 0.00013335407868415205,
      "loss": 1.1317,
      "step": 15002
    },
    {
      "epoch": 0.3334,
      "grad_norm": 1.5519909858703613,
      "learning_rate": 0.00013334963325183373,
      "loss": 2.3207,
      "step": 15003
    },
    {
      "epoch": 0.33342222222222223,
      "grad_norm": 1.514775276184082,
      "learning_rate": 0.00013334518781951547,
      "loss": 2.2337,
      "step": 15004
    },
    {
      "epoch": 0.33344444444444443,
      "grad_norm": 1.4991538524627686,
      "learning_rate": 0.00013334074238719715,
      "loss": 2.5301,
      "step": 15005
    },
    {
      "epoch": 0.3334666666666667,
      "grad_norm": 1.3046088218688965,
      "learning_rate": 0.00013333629695487886,
      "loss": 2.1478,
      "step": 15006
    },
    {
      "epoch": 0.3334888888888889,
      "grad_norm": 1.4484695196151733,
      "learning_rate": 0.00013333185152256057,
      "loss": 2.4963,
      "step": 15007
    },
    {
      "epoch": 0.3335111111111111,
      "grad_norm": 1.3275058269500732,
      "learning_rate": 0.00013332740609024228,
      "loss": 1.6531,
      "step": 15008
    },
    {
      "epoch": 0.33353333333333335,
      "grad_norm": 1.383843183517456,
      "learning_rate": 0.000133322960657924,
      "loss": 2.0709,
      "step": 15009
    },
    {
      "epoch": 0.33355555555555555,
      "grad_norm": 1.545027732849121,
      "learning_rate": 0.0001333185152256057,
      "loss": 1.8896,
      "step": 15010
    },
    {
      "epoch": 0.33357777777777775,
      "grad_norm": 1.3195322751998901,
      "learning_rate": 0.0001333140697932874,
      "loss": 2.0138,
      "step": 15011
    },
    {
      "epoch": 0.3336,
      "grad_norm": 1.3876655101776123,
      "learning_rate": 0.00013330962436096912,
      "loss": 2.1525,
      "step": 15012
    },
    {
      "epoch": 0.3336222222222222,
      "grad_norm": 1.5379118919372559,
      "learning_rate": 0.00013330517892865082,
      "loss": 2.3511,
      "step": 15013
    },
    {
      "epoch": 0.33364444444444447,
      "grad_norm": 1.4251807928085327,
      "learning_rate": 0.0001333007334963325,
      "loss": 0.9273,
      "step": 15014
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 1.407213807106018,
      "learning_rate": 0.00013329628806401424,
      "loss": 2.0031,
      "step": 15015
    },
    {
      "epoch": 0.33368888888888887,
      "grad_norm": 1.6268727779388428,
      "learning_rate": 0.00013329184263169593,
      "loss": 1.7797,
      "step": 15016
    },
    {
      "epoch": 0.3337111111111111,
      "grad_norm": 1.4548794031143188,
      "learning_rate": 0.00013328739719937764,
      "loss": 1.8356,
      "step": 15017
    },
    {
      "epoch": 0.3337333333333333,
      "grad_norm": 1.6792728900909424,
      "learning_rate": 0.00013328295176705937,
      "loss": 2.6724,
      "step": 15018
    },
    {
      "epoch": 0.3337555555555556,
      "grad_norm": 1.3677119016647339,
      "learning_rate": 0.00013327850633474106,
      "loss": 1.6247,
      "step": 15019
    },
    {
      "epoch": 0.3337777777777778,
      "grad_norm": 1.4974792003631592,
      "learning_rate": 0.00013327406090242277,
      "loss": 2.1966,
      "step": 15020
    },
    {
      "epoch": 0.3338,
      "grad_norm": 1.3682167530059814,
      "learning_rate": 0.00013326961547010447,
      "loss": 2.1295,
      "step": 15021
    },
    {
      "epoch": 0.33382222222222224,
      "grad_norm": 1.469918131828308,
      "learning_rate": 0.00013326517003778618,
      "loss": 1.7735,
      "step": 15022
    },
    {
      "epoch": 0.33384444444444444,
      "grad_norm": 1.6976078748703003,
      "learning_rate": 0.00013326072460546787,
      "loss": 1.9669,
      "step": 15023
    },
    {
      "epoch": 0.33386666666666664,
      "grad_norm": 1.8307934999465942,
      "learning_rate": 0.0001332562791731496,
      "loss": 1.9716,
      "step": 15024
    },
    {
      "epoch": 0.3338888888888889,
      "grad_norm": 1.5584684610366821,
      "learning_rate": 0.0001332518337408313,
      "loss": 1.9402,
      "step": 15025
    },
    {
      "epoch": 0.3339111111111111,
      "grad_norm": 1.7516663074493408,
      "learning_rate": 0.000133247388308513,
      "loss": 2.132,
      "step": 15026
    },
    {
      "epoch": 0.33393333333333336,
      "grad_norm": 1.4829975366592407,
      "learning_rate": 0.00013324294287619473,
      "loss": 1.8835,
      "step": 15027
    },
    {
      "epoch": 0.33395555555555556,
      "grad_norm": 1.4709501266479492,
      "learning_rate": 0.00013323849744387642,
      "loss": 1.7322,
      "step": 15028
    },
    {
      "epoch": 0.33397777777777776,
      "grad_norm": 1.6775614023208618,
      "learning_rate": 0.00013323405201155815,
      "loss": 2.1259,
      "step": 15029
    },
    {
      "epoch": 0.334,
      "grad_norm": 1.389628529548645,
      "learning_rate": 0.00013322960657923983,
      "loss": 1.7367,
      "step": 15030
    },
    {
      "epoch": 0.3340222222222222,
      "grad_norm": 1.3738020658493042,
      "learning_rate": 0.00013322516114692154,
      "loss": 1.3888,
      "step": 15031
    },
    {
      "epoch": 0.3340444444444444,
      "grad_norm": 1.8040090799331665,
      "learning_rate": 0.00013322071571460325,
      "loss": 1.7189,
      "step": 15032
    },
    {
      "epoch": 0.3340666666666667,
      "grad_norm": 1.6490641832351685,
      "learning_rate": 0.00013321627028228496,
      "loss": 1.6361,
      "step": 15033
    },
    {
      "epoch": 0.3340888888888889,
      "grad_norm": 1.6211726665496826,
      "learning_rate": 0.00013321182484996667,
      "loss": 2.2049,
      "step": 15034
    },
    {
      "epoch": 0.33411111111111114,
      "grad_norm": 1.3458573818206787,
      "learning_rate": 0.00013320737941764838,
      "loss": 1.7558,
      "step": 15035
    },
    {
      "epoch": 0.33413333333333334,
      "grad_norm": 1.3747467994689941,
      "learning_rate": 0.0001332029339853301,
      "loss": 1.6086,
      "step": 15036
    },
    {
      "epoch": 0.33415555555555554,
      "grad_norm": 1.2919235229492188,
      "learning_rate": 0.00013319848855301177,
      "loss": 1.4629,
      "step": 15037
    },
    {
      "epoch": 0.3341777777777778,
      "grad_norm": 1.6332967281341553,
      "learning_rate": 0.0001331940431206935,
      "loss": 2.3804,
      "step": 15038
    },
    {
      "epoch": 0.3342,
      "grad_norm": 1.4541313648223877,
      "learning_rate": 0.0001331895976883752,
      "loss": 1.6607,
      "step": 15039
    },
    {
      "epoch": 0.3342222222222222,
      "grad_norm": 1.7317070960998535,
      "learning_rate": 0.0001331851522560569,
      "loss": 2.1342,
      "step": 15040
    },
    {
      "epoch": 0.33424444444444446,
      "grad_norm": 1.6734440326690674,
      "learning_rate": 0.0001331807068237386,
      "loss": 1.9085,
      "step": 15041
    },
    {
      "epoch": 0.33426666666666666,
      "grad_norm": 1.686965823173523,
      "learning_rate": 0.00013317626139142032,
      "loss": 1.9808,
      "step": 15042
    },
    {
      "epoch": 0.3342888888888889,
      "grad_norm": 1.6797418594360352,
      "learning_rate": 0.00013317181595910203,
      "loss": 1.9009,
      "step": 15043
    },
    {
      "epoch": 0.3343111111111111,
      "grad_norm": 1.648086428642273,
      "learning_rate": 0.00013316737052678374,
      "loss": 1.7487,
      "step": 15044
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 1.744724988937378,
      "learning_rate": 0.00013316292509446545,
      "loss": 2.0055,
      "step": 15045
    },
    {
      "epoch": 0.3343555555555556,
      "grad_norm": 1.620653748512268,
      "learning_rate": 0.00013315847966214713,
      "loss": 1.4624,
      "step": 15046
    },
    {
      "epoch": 0.3343777777777778,
      "grad_norm": 1.8566702604293823,
      "learning_rate": 0.00013315403422982887,
      "loss": 1.8981,
      "step": 15047
    },
    {
      "epoch": 0.3344,
      "grad_norm": 1.8472691774368286,
      "learning_rate": 0.00013314958879751055,
      "loss": 2.2001,
      "step": 15048
    },
    {
      "epoch": 0.33442222222222223,
      "grad_norm": 1.6603542566299438,
      "learning_rate": 0.0001331451433651923,
      "loss": 1.7211,
      "step": 15049
    },
    {
      "epoch": 0.33444444444444443,
      "grad_norm": 2.2028934955596924,
      "learning_rate": 0.00013314069793287397,
      "loss": 1.6689,
      "step": 15050
    },
    {
      "epoch": 0.3344666666666667,
      "grad_norm": 1.2789490222930908,
      "learning_rate": 0.00013313625250055568,
      "loss": 2.119,
      "step": 15051
    },
    {
      "epoch": 0.3344888888888889,
      "grad_norm": 1.4541133642196655,
      "learning_rate": 0.0001331318070682374,
      "loss": 2.8067,
      "step": 15052
    },
    {
      "epoch": 0.3345111111111111,
      "grad_norm": 1.3856664896011353,
      "learning_rate": 0.0001331273616359191,
      "loss": 1.8834,
      "step": 15053
    },
    {
      "epoch": 0.33453333333333335,
      "grad_norm": 1.3276015520095825,
      "learning_rate": 0.0001331229162036008,
      "loss": 1.9445,
      "step": 15054
    },
    {
      "epoch": 0.33455555555555555,
      "grad_norm": 1.4124573469161987,
      "learning_rate": 0.00013311847077128252,
      "loss": 2.4675,
      "step": 15055
    },
    {
      "epoch": 0.33457777777777775,
      "grad_norm": 1.4646538496017456,
      "learning_rate": 0.00013311402533896423,
      "loss": 2.3583,
      "step": 15056
    },
    {
      "epoch": 0.3346,
      "grad_norm": 1.3999015092849731,
      "learning_rate": 0.0001331095799066459,
      "loss": 2.3119,
      "step": 15057
    },
    {
      "epoch": 0.3346222222222222,
      "grad_norm": 2.369202136993408,
      "learning_rate": 0.00013310513447432765,
      "loss": 0.9223,
      "step": 15058
    },
    {
      "epoch": 0.33464444444444447,
      "grad_norm": 1.2658023834228516,
      "learning_rate": 0.00013310068904200933,
      "loss": 1.9207,
      "step": 15059
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 1.447350025177002,
      "learning_rate": 0.00013309624360969104,
      "loss": 1.9942,
      "step": 15060
    },
    {
      "epoch": 0.33468888888888887,
      "grad_norm": 1.1996541023254395,
      "learning_rate": 0.00013309179817737275,
      "loss": 1.6453,
      "step": 15061
    },
    {
      "epoch": 0.3347111111111111,
      "grad_norm": 1.554333209991455,
      "learning_rate": 0.00013308735274505446,
      "loss": 2.217,
      "step": 15062
    },
    {
      "epoch": 0.3347333333333333,
      "grad_norm": 1.5611318349838257,
      "learning_rate": 0.00013308290731273617,
      "loss": 2.0543,
      "step": 15063
    },
    {
      "epoch": 0.33475555555555553,
      "grad_norm": 1.6129796504974365,
      "learning_rate": 0.00013307846188041788,
      "loss": 1.8614,
      "step": 15064
    },
    {
      "epoch": 0.3347777777777778,
      "grad_norm": 1.8521696329116821,
      "learning_rate": 0.0001330740164480996,
      "loss": 2.564,
      "step": 15065
    },
    {
      "epoch": 0.3348,
      "grad_norm": 1.447712779045105,
      "learning_rate": 0.00013306957101578127,
      "loss": 2.3733,
      "step": 15066
    },
    {
      "epoch": 0.33482222222222224,
      "grad_norm": 1.7838201522827148,
      "learning_rate": 0.000133065125583463,
      "loss": 2.0731,
      "step": 15067
    },
    {
      "epoch": 0.33484444444444444,
      "grad_norm": 1.3780996799468994,
      "learning_rate": 0.0001330606801511447,
      "loss": 2.2055,
      "step": 15068
    },
    {
      "epoch": 0.33486666666666665,
      "grad_norm": 1.6021348237991333,
      "learning_rate": 0.00013305623471882643,
      "loss": 2.0691,
      "step": 15069
    },
    {
      "epoch": 0.3348888888888889,
      "grad_norm": 1.5853602886199951,
      "learning_rate": 0.0001330517892865081,
      "loss": 2.0951,
      "step": 15070
    },
    {
      "epoch": 0.3349111111111111,
      "grad_norm": 1.5536985397338867,
      "learning_rate": 0.00013304734385418982,
      "loss": 2.0834,
      "step": 15071
    },
    {
      "epoch": 0.33493333333333336,
      "grad_norm": 1.7393897771835327,
      "learning_rate": 0.00013304289842187153,
      "loss": 2.272,
      "step": 15072
    },
    {
      "epoch": 0.33495555555555556,
      "grad_norm": 1.6703846454620361,
      "learning_rate": 0.00013303845298955324,
      "loss": 2.1689,
      "step": 15073
    },
    {
      "epoch": 0.33497777777777776,
      "grad_norm": 2.2464773654937744,
      "learning_rate": 0.00013303400755723495,
      "loss": 2.0484,
      "step": 15074
    },
    {
      "epoch": 0.335,
      "grad_norm": 1.666606068611145,
      "learning_rate": 0.00013302956212491666,
      "loss": 1.9393,
      "step": 15075
    },
    {
      "epoch": 0.3350222222222222,
      "grad_norm": 1.5330171585083008,
      "learning_rate": 0.00013302511669259837,
      "loss": 1.6327,
      "step": 15076
    },
    {
      "epoch": 0.3350444444444444,
      "grad_norm": 1.8700798749923706,
      "learning_rate": 0.00013302067126028005,
      "loss": 2.3368,
      "step": 15077
    },
    {
      "epoch": 0.3350666666666667,
      "grad_norm": 1.7655580043792725,
      "learning_rate": 0.0001330162258279618,
      "loss": 2.102,
      "step": 15078
    },
    {
      "epoch": 0.3350888888888889,
      "grad_norm": 2.14220929145813,
      "learning_rate": 0.00013301178039564347,
      "loss": 2.5462,
      "step": 15079
    },
    {
      "epoch": 0.33511111111111114,
      "grad_norm": 1.415756344795227,
      "learning_rate": 0.00013300733496332518,
      "loss": 1.5623,
      "step": 15080
    },
    {
      "epoch": 0.33513333333333334,
      "grad_norm": 1.5875784158706665,
      "learning_rate": 0.0001330028895310069,
      "loss": 1.8168,
      "step": 15081
    },
    {
      "epoch": 0.33515555555555554,
      "grad_norm": 1.3127175569534302,
      "learning_rate": 0.0001329984440986886,
      "loss": 1.3918,
      "step": 15082
    },
    {
      "epoch": 0.3351777777777778,
      "grad_norm": 1.4134591817855835,
      "learning_rate": 0.0001329939986663703,
      "loss": 2.1704,
      "step": 15083
    },
    {
      "epoch": 0.3352,
      "grad_norm": 1.6462849378585815,
      "learning_rate": 0.00013298955323405202,
      "loss": 1.8914,
      "step": 15084
    },
    {
      "epoch": 0.3352222222222222,
      "grad_norm": 1.4504677057266235,
      "learning_rate": 0.00013298510780173373,
      "loss": 1.8316,
      "step": 15085
    },
    {
      "epoch": 0.33524444444444446,
      "grad_norm": 1.2993839979171753,
      "learning_rate": 0.00013298066236941544,
      "loss": 1.2725,
      "step": 15086
    },
    {
      "epoch": 0.33526666666666666,
      "grad_norm": 1.2423875331878662,
      "learning_rate": 0.00013297621693709715,
      "loss": 0.8678,
      "step": 15087
    },
    {
      "epoch": 0.3352888888888889,
      "grad_norm": 1.5917986631393433,
      "learning_rate": 0.00013297177150477883,
      "loss": 2.0674,
      "step": 15088
    },
    {
      "epoch": 0.3353111111111111,
      "grad_norm": 1.5874100923538208,
      "learning_rate": 0.00013296732607246057,
      "loss": 2.0213,
      "step": 15089
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 1.6632747650146484,
      "learning_rate": 0.00013296288064014225,
      "loss": 1.7774,
      "step": 15090
    },
    {
      "epoch": 0.3353555555555556,
      "grad_norm": 1.496648907661438,
      "learning_rate": 0.00013295843520782396,
      "loss": 1.6118,
      "step": 15091
    },
    {
      "epoch": 0.3353777777777778,
      "grad_norm": 2.0139307975769043,
      "learning_rate": 0.0001329539897755057,
      "loss": 1.5155,
      "step": 15092
    },
    {
      "epoch": 0.3354,
      "grad_norm": 1.6429283618927002,
      "learning_rate": 0.00013294954434318738,
      "loss": 2.0617,
      "step": 15093
    },
    {
      "epoch": 0.33542222222222223,
      "grad_norm": 2.0803329944610596,
      "learning_rate": 0.0001329450989108691,
      "loss": 1.7618,
      "step": 15094
    },
    {
      "epoch": 0.33544444444444443,
      "grad_norm": 1.6148369312286377,
      "learning_rate": 0.0001329406534785508,
      "loss": 1.7546,
      "step": 15095
    },
    {
      "epoch": 0.3354666666666667,
      "grad_norm": 1.4710761308670044,
      "learning_rate": 0.0001329362080462325,
      "loss": 1.5178,
      "step": 15096
    },
    {
      "epoch": 0.3354888888888889,
      "grad_norm": 1.8906689882278442,
      "learning_rate": 0.0001329317626139142,
      "loss": 2.1529,
      "step": 15097
    },
    {
      "epoch": 0.3355111111111111,
      "grad_norm": 1.5432156324386597,
      "learning_rate": 0.00013292731718159593,
      "loss": 1.6857,
      "step": 15098
    },
    {
      "epoch": 0.33553333333333335,
      "grad_norm": 1.462958574295044,
      "learning_rate": 0.00013292287174927764,
      "loss": 1.4706,
      "step": 15099
    },
    {
      "epoch": 0.33555555555555555,
      "grad_norm": 1.6019595861434937,
      "learning_rate": 0.00013291842631695932,
      "loss": 1.9969,
      "step": 15100
    },
    {
      "epoch": 0.33557777777777775,
      "grad_norm": 1.550775408744812,
      "learning_rate": 0.00013291398088464105,
      "loss": 1.2003,
      "step": 15101
    },
    {
      "epoch": 0.3356,
      "grad_norm": 1.7757598161697388,
      "learning_rate": 0.00013290953545232274,
      "loss": 2.1533,
      "step": 15102
    },
    {
      "epoch": 0.3356222222222222,
      "grad_norm": 1.4307361841201782,
      "learning_rate": 0.00013290509002000445,
      "loss": 2.3204,
      "step": 15103
    },
    {
      "epoch": 0.33564444444444447,
      "grad_norm": 1.186395525932312,
      "learning_rate": 0.00013290064458768616,
      "loss": 1.8093,
      "step": 15104
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 1.3245453834533691,
      "learning_rate": 0.00013289619915536787,
      "loss": 1.3841,
      "step": 15105
    },
    {
      "epoch": 0.33568888888888887,
      "grad_norm": 1.7718174457550049,
      "learning_rate": 0.00013289175372304958,
      "loss": 1.7901,
      "step": 15106
    },
    {
      "epoch": 0.3357111111111111,
      "grad_norm": 1.4941359758377075,
      "learning_rate": 0.00013288730829073129,
      "loss": 2.4093,
      "step": 15107
    },
    {
      "epoch": 0.33573333333333333,
      "grad_norm": 1.5224601030349731,
      "learning_rate": 0.000132882862858413,
      "loss": 2.3569,
      "step": 15108
    },
    {
      "epoch": 0.33575555555555553,
      "grad_norm": 1.4696762561798096,
      "learning_rate": 0.0001328784174260947,
      "loss": 2.1206,
      "step": 15109
    },
    {
      "epoch": 0.3357777777777778,
      "grad_norm": 1.7491644620895386,
      "learning_rate": 0.00013287397199377641,
      "loss": 2.2834,
      "step": 15110
    },
    {
      "epoch": 0.3358,
      "grad_norm": 1.3375142812728882,
      "learning_rate": 0.0001328695265614581,
      "loss": 1.7072,
      "step": 15111
    },
    {
      "epoch": 0.33582222222222224,
      "grad_norm": 1.4046250581741333,
      "learning_rate": 0.00013286508112913983,
      "loss": 2.0614,
      "step": 15112
    },
    {
      "epoch": 0.33584444444444445,
      "grad_norm": 1.6273424625396729,
      "learning_rate": 0.00013286063569682152,
      "loss": 2.0598,
      "step": 15113
    },
    {
      "epoch": 0.33586666666666665,
      "grad_norm": 1.611846685409546,
      "learning_rate": 0.00013285619026450323,
      "loss": 2.184,
      "step": 15114
    },
    {
      "epoch": 0.3358888888888889,
      "grad_norm": 1.6501150131225586,
      "learning_rate": 0.00013285174483218494,
      "loss": 1.6428,
      "step": 15115
    },
    {
      "epoch": 0.3359111111111111,
      "grad_norm": 1.4010018110275269,
      "learning_rate": 0.00013284729939986664,
      "loss": 1.6077,
      "step": 15116
    },
    {
      "epoch": 0.3359333333333333,
      "grad_norm": 1.6662687063217163,
      "learning_rate": 0.00013284285396754835,
      "loss": 2.2687,
      "step": 15117
    },
    {
      "epoch": 0.33595555555555556,
      "grad_norm": 1.5623295307159424,
      "learning_rate": 0.00013283840853523006,
      "loss": 2.1911,
      "step": 15118
    },
    {
      "epoch": 0.33597777777777776,
      "grad_norm": 1.4298230409622192,
      "learning_rate": 0.00013283396310291177,
      "loss": 1.7445,
      "step": 15119
    },
    {
      "epoch": 0.336,
      "grad_norm": 1.434461236000061,
      "learning_rate": 0.00013282951767059346,
      "loss": 1.7397,
      "step": 15120
    },
    {
      "epoch": 0.3360222222222222,
      "grad_norm": 1.5878117084503174,
      "learning_rate": 0.0001328250722382752,
      "loss": 1.7756,
      "step": 15121
    },
    {
      "epoch": 0.3360444444444444,
      "grad_norm": 1.5659533739089966,
      "learning_rate": 0.00013282062680595688,
      "loss": 2.2745,
      "step": 15122
    },
    {
      "epoch": 0.3360666666666667,
      "grad_norm": 1.4254125356674194,
      "learning_rate": 0.00013281618137363858,
      "loss": 1.912,
      "step": 15123
    },
    {
      "epoch": 0.3360888888888889,
      "grad_norm": 1.438392996788025,
      "learning_rate": 0.0001328117359413203,
      "loss": 1.9036,
      "step": 15124
    },
    {
      "epoch": 0.33611111111111114,
      "grad_norm": 1.5971012115478516,
      "learning_rate": 0.000132807290509002,
      "loss": 1.8346,
      "step": 15125
    },
    {
      "epoch": 0.33613333333333334,
      "grad_norm": 2.1466565132141113,
      "learning_rate": 0.00013280284507668371,
      "loss": 1.9497,
      "step": 15126
    },
    {
      "epoch": 0.33615555555555554,
      "grad_norm": 1.752967357635498,
      "learning_rate": 0.00013279839964436542,
      "loss": 2.2604,
      "step": 15127
    },
    {
      "epoch": 0.3361777777777778,
      "grad_norm": 1.9236141443252563,
      "learning_rate": 0.00013279395421204713,
      "loss": 2.5156,
      "step": 15128
    },
    {
      "epoch": 0.3362,
      "grad_norm": 1.6768049001693726,
      "learning_rate": 0.00013278950877972884,
      "loss": 2.2841,
      "step": 15129
    },
    {
      "epoch": 0.3362222222222222,
      "grad_norm": 1.7214469909667969,
      "learning_rate": 0.00013278506334741055,
      "loss": 1.992,
      "step": 15130
    },
    {
      "epoch": 0.33624444444444446,
      "grad_norm": 1.4257354736328125,
      "learning_rate": 0.00013278061791509223,
      "loss": 2.0253,
      "step": 15131
    },
    {
      "epoch": 0.33626666666666666,
      "grad_norm": 1.6822454929351807,
      "learning_rate": 0.00013277617248277397,
      "loss": 2.0902,
      "step": 15132
    },
    {
      "epoch": 0.3362888888888889,
      "grad_norm": 1.4588580131530762,
      "learning_rate": 0.00013277172705045565,
      "loss": 1.9754,
      "step": 15133
    },
    {
      "epoch": 0.3363111111111111,
      "grad_norm": 1.9887233972549438,
      "learning_rate": 0.00013276728161813736,
      "loss": 2.2988,
      "step": 15134
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 1.8017204999923706,
      "learning_rate": 0.00013276283618581907,
      "loss": 1.9654,
      "step": 15135
    },
    {
      "epoch": 0.3363555555555556,
      "grad_norm": 1.4401133060455322,
      "learning_rate": 0.00013275839075350078,
      "loss": 1.5356,
      "step": 15136
    },
    {
      "epoch": 0.3363777777777778,
      "grad_norm": 1.7825487852096558,
      "learning_rate": 0.0001327539453211825,
      "loss": 2.1767,
      "step": 15137
    },
    {
      "epoch": 0.3364,
      "grad_norm": 1.5564565658569336,
      "learning_rate": 0.0001327494998888642,
      "loss": 1.9689,
      "step": 15138
    },
    {
      "epoch": 0.33642222222222223,
      "grad_norm": 1.7850106954574585,
      "learning_rate": 0.0001327450544565459,
      "loss": 2.2123,
      "step": 15139
    },
    {
      "epoch": 0.33644444444444443,
      "grad_norm": 1.4540055990219116,
      "learning_rate": 0.0001327406090242276,
      "loss": 1.7834,
      "step": 15140
    },
    {
      "epoch": 0.3364666666666667,
      "grad_norm": 1.6136772632598877,
      "learning_rate": 0.00013273616359190933,
      "loss": 2.0256,
      "step": 15141
    },
    {
      "epoch": 0.3364888888888889,
      "grad_norm": 1.4906102418899536,
      "learning_rate": 0.000132731718159591,
      "loss": 1.6163,
      "step": 15142
    },
    {
      "epoch": 0.3365111111111111,
      "grad_norm": 1.3768247365951538,
      "learning_rate": 0.00013272727272727275,
      "loss": 1.9476,
      "step": 15143
    },
    {
      "epoch": 0.33653333333333335,
      "grad_norm": 1.7815171480178833,
      "learning_rate": 0.00013272282729495443,
      "loss": 1.9314,
      "step": 15144
    },
    {
      "epoch": 0.33655555555555555,
      "grad_norm": 1.5187489986419678,
      "learning_rate": 0.00013271838186263614,
      "loss": 1.5763,
      "step": 15145
    },
    {
      "epoch": 0.33657777777777775,
      "grad_norm": 2.0382986068725586,
      "learning_rate": 0.00013271393643031785,
      "loss": 1.6789,
      "step": 15146
    },
    {
      "epoch": 0.3366,
      "grad_norm": 1.4657652378082275,
      "learning_rate": 0.00013270949099799956,
      "loss": 0.986,
      "step": 15147
    },
    {
      "epoch": 0.3366222222222222,
      "grad_norm": 1.7733216285705566,
      "learning_rate": 0.00013270504556568127,
      "loss": 2.0448,
      "step": 15148
    },
    {
      "epoch": 0.33664444444444447,
      "grad_norm": 1.6677014827728271,
      "learning_rate": 0.00013270060013336298,
      "loss": 2.0243,
      "step": 15149
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 1.6321057081222534,
      "learning_rate": 0.0001326961547010447,
      "loss": 1.5299,
      "step": 15150
    },
    {
      "epoch": 0.33668888888888887,
      "grad_norm": 0.9513698220252991,
      "learning_rate": 0.00013269170926872637,
      "loss": 1.1677,
      "step": 15151
    },
    {
      "epoch": 0.3367111111111111,
      "grad_norm": 1.5747287273406982,
      "learning_rate": 0.0001326872638364081,
      "loss": 2.129,
      "step": 15152
    },
    {
      "epoch": 0.33673333333333333,
      "grad_norm": 1.2354843616485596,
      "learning_rate": 0.0001326828184040898,
      "loss": 2.2706,
      "step": 15153
    },
    {
      "epoch": 0.33675555555555553,
      "grad_norm": 1.3562802076339722,
      "learning_rate": 0.0001326783729717715,
      "loss": 2.3208,
      "step": 15154
    },
    {
      "epoch": 0.3367777777777778,
      "grad_norm": 1.4755001068115234,
      "learning_rate": 0.0001326739275394532,
      "loss": 2.0399,
      "step": 15155
    },
    {
      "epoch": 0.3368,
      "grad_norm": 1.573021650314331,
      "learning_rate": 0.00013266948210713492,
      "loss": 1.8487,
      "step": 15156
    },
    {
      "epoch": 0.33682222222222225,
      "grad_norm": 1.6708158254623413,
      "learning_rate": 0.00013266503667481663,
      "loss": 2.0604,
      "step": 15157
    },
    {
      "epoch": 0.33684444444444445,
      "grad_norm": 1.7072670459747314,
      "learning_rate": 0.00013266059124249834,
      "loss": 2.4169,
      "step": 15158
    },
    {
      "epoch": 0.33686666666666665,
      "grad_norm": 1.4473925828933716,
      "learning_rate": 0.00013265614581018005,
      "loss": 2.1399,
      "step": 15159
    },
    {
      "epoch": 0.3368888888888889,
      "grad_norm": 1.7281241416931152,
      "learning_rate": 0.00013265170037786173,
      "loss": 2.7447,
      "step": 15160
    },
    {
      "epoch": 0.3369111111111111,
      "grad_norm": 1.268149971961975,
      "learning_rate": 0.00013264725494554347,
      "loss": 1.7427,
      "step": 15161
    },
    {
      "epoch": 0.3369333333333333,
      "grad_norm": 1.3033798933029175,
      "learning_rate": 0.00013264280951322515,
      "loss": 1.8624,
      "step": 15162
    },
    {
      "epoch": 0.33695555555555556,
      "grad_norm": 1.6423143148422241,
      "learning_rate": 0.0001326383640809069,
      "loss": 2.3894,
      "step": 15163
    },
    {
      "epoch": 0.33697777777777776,
      "grad_norm": 1.388289213180542,
      "learning_rate": 0.00013263391864858857,
      "loss": 2.0296,
      "step": 15164
    },
    {
      "epoch": 0.337,
      "grad_norm": 1.3045769929885864,
      "learning_rate": 0.00013262947321627028,
      "loss": 2.1116,
      "step": 15165
    },
    {
      "epoch": 0.3370222222222222,
      "grad_norm": 1.575266718864441,
      "learning_rate": 0.00013262502778395202,
      "loss": 2.2316,
      "step": 15166
    },
    {
      "epoch": 0.3370444444444444,
      "grad_norm": 1.3494811058044434,
      "learning_rate": 0.0001326205823516337,
      "loss": 1.7373,
      "step": 15167
    },
    {
      "epoch": 0.3370666666666667,
      "grad_norm": 1.2445412874221802,
      "learning_rate": 0.0001326161369193154,
      "loss": 2.0246,
      "step": 15168
    },
    {
      "epoch": 0.3370888888888889,
      "grad_norm": 0.9727996587753296,
      "learning_rate": 0.00013261169148699712,
      "loss": 0.7097,
      "step": 15169
    },
    {
      "epoch": 0.3371111111111111,
      "grad_norm": 1.941720962524414,
      "learning_rate": 0.00013260724605467883,
      "loss": 2.0137,
      "step": 15170
    },
    {
      "epoch": 0.33713333333333334,
      "grad_norm": 1.397221326828003,
      "learning_rate": 0.0001326028006223605,
      "loss": 1.4483,
      "step": 15171
    },
    {
      "epoch": 0.33715555555555554,
      "grad_norm": 1.6418713331222534,
      "learning_rate": 0.00013259835519004225,
      "loss": 2.2198,
      "step": 15172
    },
    {
      "epoch": 0.3371777777777778,
      "grad_norm": 1.2985154390335083,
      "learning_rate": 0.00013259390975772396,
      "loss": 1.9131,
      "step": 15173
    },
    {
      "epoch": 0.3372,
      "grad_norm": 1.3838268518447876,
      "learning_rate": 0.00013258946432540564,
      "loss": 1.7003,
      "step": 15174
    },
    {
      "epoch": 0.3372222222222222,
      "grad_norm": 1.7529698610305786,
      "learning_rate": 0.00013258501889308738,
      "loss": 2.7055,
      "step": 15175
    },
    {
      "epoch": 0.33724444444444446,
      "grad_norm": 1.6114076375961304,
      "learning_rate": 0.00013258057346076906,
      "loss": 1.9201,
      "step": 15176
    },
    {
      "epoch": 0.33726666666666666,
      "grad_norm": 1.465579867362976,
      "learning_rate": 0.00013257612802845077,
      "loss": 1.9838,
      "step": 15177
    },
    {
      "epoch": 0.3372888888888889,
      "grad_norm": 2.0848848819732666,
      "learning_rate": 0.00013257168259613248,
      "loss": 1.9804,
      "step": 15178
    },
    {
      "epoch": 0.3373111111111111,
      "grad_norm": 1.5592319965362549,
      "learning_rate": 0.0001325672371638142,
      "loss": 1.4116,
      "step": 15179
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 1.5336014032363892,
      "learning_rate": 0.00013256279173149587,
      "loss": 1.8046,
      "step": 15180
    },
    {
      "epoch": 0.3373555555555556,
      "grad_norm": 1.4552165269851685,
      "learning_rate": 0.0001325583462991776,
      "loss": 1.6329,
      "step": 15181
    },
    {
      "epoch": 0.3373777777777778,
      "grad_norm": 1.5149662494659424,
      "learning_rate": 0.00013255390086685932,
      "loss": 1.4567,
      "step": 15182
    },
    {
      "epoch": 0.3374,
      "grad_norm": 1.7671146392822266,
      "learning_rate": 0.00013254945543454103,
      "loss": 2.1018,
      "step": 15183
    },
    {
      "epoch": 0.33742222222222223,
      "grad_norm": 1.7473124265670776,
      "learning_rate": 0.00013254501000222274,
      "loss": 1.954,
      "step": 15184
    },
    {
      "epoch": 0.33744444444444444,
      "grad_norm": 1.5815470218658447,
      "learning_rate": 0.00013254056456990442,
      "loss": 1.9695,
      "step": 15185
    },
    {
      "epoch": 0.3374666666666667,
      "grad_norm": 1.449743628501892,
      "learning_rate": 0.00013253611913758616,
      "loss": 1.7872,
      "step": 15186
    },
    {
      "epoch": 0.3374888888888889,
      "grad_norm": 1.439217209815979,
      "learning_rate": 0.00013253167370526784,
      "loss": 1.9986,
      "step": 15187
    },
    {
      "epoch": 0.3375111111111111,
      "grad_norm": 1.9238001108169556,
      "learning_rate": 0.00013252722827294955,
      "loss": 2.1931,
      "step": 15188
    },
    {
      "epoch": 0.33753333333333335,
      "grad_norm": 2.1476316452026367,
      "learning_rate": 0.00013252278284063126,
      "loss": 2.0543,
      "step": 15189
    },
    {
      "epoch": 0.33755555555555555,
      "grad_norm": 1.7235420942306519,
      "learning_rate": 0.00013251833740831297,
      "loss": 2.0927,
      "step": 15190
    },
    {
      "epoch": 0.33757777777777775,
      "grad_norm": 1.8979532718658447,
      "learning_rate": 0.00013251389197599468,
      "loss": 1.741,
      "step": 15191
    },
    {
      "epoch": 0.3376,
      "grad_norm": 2.012241840362549,
      "learning_rate": 0.00013250944654367639,
      "loss": 2.001,
      "step": 15192
    },
    {
      "epoch": 0.3376222222222222,
      "grad_norm": 2.1317031383514404,
      "learning_rate": 0.0001325050011113581,
      "loss": 1.9307,
      "step": 15193
    },
    {
      "epoch": 0.33764444444444447,
      "grad_norm": 1.627769947052002,
      "learning_rate": 0.00013250055567903978,
      "loss": 1.3476,
      "step": 15194
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 1.791151523590088,
      "learning_rate": 0.00013249611024672151,
      "loss": 1.8423,
      "step": 15195
    },
    {
      "epoch": 0.33768888888888887,
      "grad_norm": 1.626409888267517,
      "learning_rate": 0.0001324916648144032,
      "loss": 1.5556,
      "step": 15196
    },
    {
      "epoch": 0.33771111111111113,
      "grad_norm": 1.7831133604049683,
      "learning_rate": 0.0001324872193820849,
      "loss": 1.8062,
      "step": 15197
    },
    {
      "epoch": 0.33773333333333333,
      "grad_norm": 1.738960862159729,
      "learning_rate": 0.00013248277394976662,
      "loss": 1.8148,
      "step": 15198
    },
    {
      "epoch": 0.33775555555555553,
      "grad_norm": 1.5704281330108643,
      "learning_rate": 0.00013247832851744833,
      "loss": 1.2874,
      "step": 15199
    },
    {
      "epoch": 0.3377777777777778,
      "grad_norm": 2.2715253829956055,
      "learning_rate": 0.00013247388308513004,
      "loss": 1.6792,
      "step": 15200
    },
    {
      "epoch": 0.3378,
      "grad_norm": 1.0280547142028809,
      "learning_rate": 0.00013246943765281175,
      "loss": 1.3341,
      "step": 15201
    },
    {
      "epoch": 0.33782222222222225,
      "grad_norm": 1.5300711393356323,
      "learning_rate": 0.00013246499222049346,
      "loss": 2.9068,
      "step": 15202
    },
    {
      "epoch": 0.33784444444444445,
      "grad_norm": 1.3711305856704712,
      "learning_rate": 0.00013246054678817516,
      "loss": 1.9767,
      "step": 15203
    },
    {
      "epoch": 0.33786666666666665,
      "grad_norm": 1.2058295011520386,
      "learning_rate": 0.00013245610135585687,
      "loss": 1.4001,
      "step": 15204
    },
    {
      "epoch": 0.3378888888888889,
      "grad_norm": 1.6630018949508667,
      "learning_rate": 0.00013245165592353856,
      "loss": 1.3015,
      "step": 15205
    },
    {
      "epoch": 0.3379111111111111,
      "grad_norm": 1.486588954925537,
      "learning_rate": 0.0001324472104912203,
      "loss": 2.1234,
      "step": 15206
    },
    {
      "epoch": 0.3379333333333333,
      "grad_norm": 1.337586760520935,
      "learning_rate": 0.00013244276505890198,
      "loss": 2.1478,
      "step": 15207
    },
    {
      "epoch": 0.33795555555555556,
      "grad_norm": 2.497072458267212,
      "learning_rate": 0.00013243831962658369,
      "loss": 2.0328,
      "step": 15208
    },
    {
      "epoch": 0.33797777777777777,
      "grad_norm": 1.4706460237503052,
      "learning_rate": 0.0001324338741942654,
      "loss": 2.589,
      "step": 15209
    },
    {
      "epoch": 0.338,
      "grad_norm": 1.4281245470046997,
      "learning_rate": 0.0001324294287619471,
      "loss": 2.4295,
      "step": 15210
    },
    {
      "epoch": 0.3380222222222222,
      "grad_norm": 1.2141965627670288,
      "learning_rate": 0.00013242498332962881,
      "loss": 1.8629,
      "step": 15211
    },
    {
      "epoch": 0.3380444444444444,
      "grad_norm": 1.426068902015686,
      "learning_rate": 0.00013242053789731052,
      "loss": 2.0033,
      "step": 15212
    },
    {
      "epoch": 0.3380666666666667,
      "grad_norm": 1.812225103378296,
      "learning_rate": 0.00013241609246499223,
      "loss": 2.5907,
      "step": 15213
    },
    {
      "epoch": 0.3380888888888889,
      "grad_norm": 1.2749919891357422,
      "learning_rate": 0.00013241164703267392,
      "loss": 1.5914,
      "step": 15214
    },
    {
      "epoch": 0.3381111111111111,
      "grad_norm": 1.3770530223846436,
      "learning_rate": 0.00013240720160035565,
      "loss": 2.0474,
      "step": 15215
    },
    {
      "epoch": 0.33813333333333334,
      "grad_norm": 1.5964806079864502,
      "learning_rate": 0.00013240275616803734,
      "loss": 2.0789,
      "step": 15216
    },
    {
      "epoch": 0.33815555555555554,
      "grad_norm": 1.5145128965377808,
      "learning_rate": 0.00013239831073571905,
      "loss": 1.8746,
      "step": 15217
    },
    {
      "epoch": 0.3381777777777778,
      "grad_norm": 1.9194107055664062,
      "learning_rate": 0.00013239386530340075,
      "loss": 2.7587,
      "step": 15218
    },
    {
      "epoch": 0.3382,
      "grad_norm": 1.5347776412963867,
      "learning_rate": 0.00013238941987108246,
      "loss": 1.9415,
      "step": 15219
    },
    {
      "epoch": 0.3382222222222222,
      "grad_norm": 1.4031156301498413,
      "learning_rate": 0.00013238497443876417,
      "loss": 1.8329,
      "step": 15220
    },
    {
      "epoch": 0.33824444444444446,
      "grad_norm": 1.7175343036651611,
      "learning_rate": 0.00013238052900644588,
      "loss": 2.4485,
      "step": 15221
    },
    {
      "epoch": 0.33826666666666666,
      "grad_norm": 1.473226547241211,
      "learning_rate": 0.0001323760835741276,
      "loss": 2.049,
      "step": 15222
    },
    {
      "epoch": 0.33828888888888886,
      "grad_norm": 1.4295278787612915,
      "learning_rate": 0.0001323716381418093,
      "loss": 2.2702,
      "step": 15223
    },
    {
      "epoch": 0.3383111111111111,
      "grad_norm": 1.431423544883728,
      "learning_rate": 0.000132367192709491,
      "loss": 1.8798,
      "step": 15224
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 1.369061827659607,
      "learning_rate": 0.0001323627472771727,
      "loss": 1.6327,
      "step": 15225
    },
    {
      "epoch": 0.3383555555555556,
      "grad_norm": 1.7710624933242798,
      "learning_rate": 0.00013235830184485443,
      "loss": 2.0203,
      "step": 15226
    },
    {
      "epoch": 0.3383777777777778,
      "grad_norm": 1.3480533361434937,
      "learning_rate": 0.00013235385641253611,
      "loss": 1.8061,
      "step": 15227
    },
    {
      "epoch": 0.3384,
      "grad_norm": 1.7164702415466309,
      "learning_rate": 0.00013234941098021782,
      "loss": 2.1223,
      "step": 15228
    },
    {
      "epoch": 0.33842222222222224,
      "grad_norm": 1.5437994003295898,
      "learning_rate": 0.00013234496554789953,
      "loss": 1.9699,
      "step": 15229
    },
    {
      "epoch": 0.33844444444444444,
      "grad_norm": 1.4919700622558594,
      "learning_rate": 0.00013234052011558124,
      "loss": 2.1678,
      "step": 15230
    },
    {
      "epoch": 0.3384666666666667,
      "grad_norm": 2.10892915725708,
      "learning_rate": 0.00013233607468326295,
      "loss": 1.9185,
      "step": 15231
    },
    {
      "epoch": 0.3384888888888889,
      "grad_norm": 1.6319493055343628,
      "learning_rate": 0.00013233162925094466,
      "loss": 1.5787,
      "step": 15232
    },
    {
      "epoch": 0.3385111111111111,
      "grad_norm": 1.7649563550949097,
      "learning_rate": 0.00013232718381862637,
      "loss": 2.1226,
      "step": 15233
    },
    {
      "epoch": 0.33853333333333335,
      "grad_norm": 1.3556628227233887,
      "learning_rate": 0.00013232273838630805,
      "loss": 1.8616,
      "step": 15234
    },
    {
      "epoch": 0.33855555555555555,
      "grad_norm": 1.9852805137634277,
      "learning_rate": 0.0001323182929539898,
      "loss": 2.0257,
      "step": 15235
    },
    {
      "epoch": 0.33857777777777776,
      "grad_norm": 1.585424780845642,
      "learning_rate": 0.00013231384752167147,
      "loss": 1.3816,
      "step": 15236
    },
    {
      "epoch": 0.3386,
      "grad_norm": 2.136178731918335,
      "learning_rate": 0.00013230940208935318,
      "loss": 1.9784,
      "step": 15237
    },
    {
      "epoch": 0.3386222222222222,
      "grad_norm": 1.6120177507400513,
      "learning_rate": 0.0001323049566570349,
      "loss": 1.9635,
      "step": 15238
    },
    {
      "epoch": 0.33864444444444447,
      "grad_norm": 1.7313178777694702,
      "learning_rate": 0.0001323005112247166,
      "loss": 2.1865,
      "step": 15239
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 1.3658101558685303,
      "learning_rate": 0.00013229606579239834,
      "loss": 1.2922,
      "step": 15240
    },
    {
      "epoch": 0.3386888888888889,
      "grad_norm": 1.5848734378814697,
      "learning_rate": 0.00013229162036008002,
      "loss": 1.4549,
      "step": 15241
    },
    {
      "epoch": 0.33871111111111113,
      "grad_norm": 1.5202751159667969,
      "learning_rate": 0.00013228717492776173,
      "loss": 1.9828,
      "step": 15242
    },
    {
      "epoch": 0.33873333333333333,
      "grad_norm": 1.6386849880218506,
      "learning_rate": 0.00013228272949544344,
      "loss": 1.83,
      "step": 15243
    },
    {
      "epoch": 0.33875555555555553,
      "grad_norm": 1.736233115196228,
      "learning_rate": 0.00013227828406312515,
      "loss": 1.9218,
      "step": 15244
    },
    {
      "epoch": 0.3387777777777778,
      "grad_norm": 1.2897546291351318,
      "learning_rate": 0.00013227383863080683,
      "loss": 1.4234,
      "step": 15245
    },
    {
      "epoch": 0.3388,
      "grad_norm": 1.774870753288269,
      "learning_rate": 0.00013226939319848857,
      "loss": 1.8813,
      "step": 15246
    },
    {
      "epoch": 0.33882222222222225,
      "grad_norm": 1.6558736562728882,
      "learning_rate": 0.00013226494776617028,
      "loss": 1.6563,
      "step": 15247
    },
    {
      "epoch": 0.33884444444444445,
      "grad_norm": 1.5887084007263184,
      "learning_rate": 0.00013226050233385196,
      "loss": 1.6571,
      "step": 15248
    },
    {
      "epoch": 0.33886666666666665,
      "grad_norm": 1.20029878616333,
      "learning_rate": 0.0001322560569015337,
      "loss": 1.1325,
      "step": 15249
    },
    {
      "epoch": 0.3388888888888889,
      "grad_norm": 1.858518362045288,
      "learning_rate": 0.00013225161146921538,
      "loss": 2.0167,
      "step": 15250
    },
    {
      "epoch": 0.3389111111111111,
      "grad_norm": 1.767843246459961,
      "learning_rate": 0.0001322471660368971,
      "loss": 3.2703,
      "step": 15251
    },
    {
      "epoch": 0.3389333333333333,
      "grad_norm": 1.3408712148666382,
      "learning_rate": 0.0001322427206045788,
      "loss": 1.2082,
      "step": 15252
    },
    {
      "epoch": 0.33895555555555557,
      "grad_norm": 1.3556112051010132,
      "learning_rate": 0.0001322382751722605,
      "loss": 2.4337,
      "step": 15253
    },
    {
      "epoch": 0.33897777777777777,
      "grad_norm": 1.417470932006836,
      "learning_rate": 0.0001322338297399422,
      "loss": 1.9989,
      "step": 15254
    },
    {
      "epoch": 0.339,
      "grad_norm": 1.5802509784698486,
      "learning_rate": 0.00013222938430762393,
      "loss": 2.376,
      "step": 15255
    },
    {
      "epoch": 0.3390222222222222,
      "grad_norm": 1.4842244386672974,
      "learning_rate": 0.00013222493887530564,
      "loss": 1.6094,
      "step": 15256
    },
    {
      "epoch": 0.3390444444444444,
      "grad_norm": 1.3129620552062988,
      "learning_rate": 0.00013222049344298735,
      "loss": 2.0351,
      "step": 15257
    },
    {
      "epoch": 0.3390666666666667,
      "grad_norm": 1.311220645904541,
      "learning_rate": 0.00013221604801066906,
      "loss": 2.4778,
      "step": 15258
    },
    {
      "epoch": 0.3390888888888889,
      "grad_norm": 1.76520836353302,
      "learning_rate": 0.00013221160257835074,
      "loss": 1.8057,
      "step": 15259
    },
    {
      "epoch": 0.3391111111111111,
      "grad_norm": 1.6291650533676147,
      "learning_rate": 0.00013220715714603248,
      "loss": 2.3117,
      "step": 15260
    },
    {
      "epoch": 0.33913333333333334,
      "grad_norm": 1.8140909671783447,
      "learning_rate": 0.00013220271171371416,
      "loss": 2.0331,
      "step": 15261
    },
    {
      "epoch": 0.33915555555555554,
      "grad_norm": 1.3930504322052002,
      "learning_rate": 0.00013219826628139587,
      "loss": 1.8892,
      "step": 15262
    },
    {
      "epoch": 0.3391777777777778,
      "grad_norm": 1.275838851928711,
      "learning_rate": 0.00013219382084907758,
      "loss": 1.9183,
      "step": 15263
    },
    {
      "epoch": 0.3392,
      "grad_norm": 1.5197654962539673,
      "learning_rate": 0.0001321893754167593,
      "loss": 2.0439,
      "step": 15264
    },
    {
      "epoch": 0.3392222222222222,
      "grad_norm": 1.4379639625549316,
      "learning_rate": 0.000132184929984441,
      "loss": 2.0445,
      "step": 15265
    },
    {
      "epoch": 0.33924444444444446,
      "grad_norm": 1.575247883796692,
      "learning_rate": 0.0001321804845521227,
      "loss": 2.0918,
      "step": 15266
    },
    {
      "epoch": 0.33926666666666666,
      "grad_norm": 1.5091058015823364,
      "learning_rate": 0.00013217603911980442,
      "loss": 2.3507,
      "step": 15267
    },
    {
      "epoch": 0.33928888888888886,
      "grad_norm": 1.2992438077926636,
      "learning_rate": 0.0001321715936874861,
      "loss": 1.8282,
      "step": 15268
    },
    {
      "epoch": 0.3393111111111111,
      "grad_norm": 1.4873199462890625,
      "learning_rate": 0.00013216714825516784,
      "loss": 2.1924,
      "step": 15269
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 1.5841574668884277,
      "learning_rate": 0.00013216270282284952,
      "loss": 1.9679,
      "step": 15270
    },
    {
      "epoch": 0.3393555555555556,
      "grad_norm": 1.4221501350402832,
      "learning_rate": 0.00013215825739053123,
      "loss": 1.9046,
      "step": 15271
    },
    {
      "epoch": 0.3393777777777778,
      "grad_norm": 1.5847328901290894,
      "learning_rate": 0.00013215381195821294,
      "loss": 2.2444,
      "step": 15272
    },
    {
      "epoch": 0.3394,
      "grad_norm": 1.562807321548462,
      "learning_rate": 0.00013214936652589465,
      "loss": 2.0858,
      "step": 15273
    },
    {
      "epoch": 0.33942222222222224,
      "grad_norm": 1.4782195091247559,
      "learning_rate": 0.00013214492109357636,
      "loss": 1.6709,
      "step": 15274
    },
    {
      "epoch": 0.33944444444444444,
      "grad_norm": 1.6263419389724731,
      "learning_rate": 0.00013214047566125807,
      "loss": 2.0195,
      "step": 15275
    },
    {
      "epoch": 0.3394666666666667,
      "grad_norm": 1.4118156433105469,
      "learning_rate": 0.00013213603022893978,
      "loss": 1.801,
      "step": 15276
    },
    {
      "epoch": 0.3394888888888889,
      "grad_norm": 1.5024335384368896,
      "learning_rate": 0.0001321315847966215,
      "loss": 2.2201,
      "step": 15277
    },
    {
      "epoch": 0.3395111111111111,
      "grad_norm": 1.5740039348602295,
      "learning_rate": 0.0001321271393643032,
      "loss": 2.1454,
      "step": 15278
    },
    {
      "epoch": 0.33953333333333335,
      "grad_norm": 1.519840121269226,
      "learning_rate": 0.00013212269393198488,
      "loss": 2.0431,
      "step": 15279
    },
    {
      "epoch": 0.33955555555555555,
      "grad_norm": 1.7177494764328003,
      "learning_rate": 0.00013211824849966662,
      "loss": 2.261,
      "step": 15280
    },
    {
      "epoch": 0.33957777777777776,
      "grad_norm": 1.6020569801330566,
      "learning_rate": 0.0001321138030673483,
      "loss": 1.9309,
      "step": 15281
    },
    {
      "epoch": 0.3396,
      "grad_norm": 1.5765682458877563,
      "learning_rate": 0.00013210935763503,
      "loss": 1.5296,
      "step": 15282
    },
    {
      "epoch": 0.3396222222222222,
      "grad_norm": 0.17754203081130981,
      "learning_rate": 0.00013210491220271172,
      "loss": 0.0296,
      "step": 15283
    },
    {
      "epoch": 0.33964444444444447,
      "grad_norm": 1.5017496347427368,
      "learning_rate": 0.00013210046677039343,
      "loss": 1.631,
      "step": 15284
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 1.9186724424362183,
      "learning_rate": 0.00013209602133807514,
      "loss": 2.7103,
      "step": 15285
    },
    {
      "epoch": 0.3396888888888889,
      "grad_norm": 1.4855504035949707,
      "learning_rate": 0.00013209157590575685,
      "loss": 1.9388,
      "step": 15286
    },
    {
      "epoch": 0.33971111111111113,
      "grad_norm": 1.625138521194458,
      "learning_rate": 0.00013208713047343856,
      "loss": 1.9042,
      "step": 15287
    },
    {
      "epoch": 0.33973333333333333,
      "grad_norm": 1.721384048461914,
      "learning_rate": 0.00013208268504112024,
      "loss": 1.7816,
      "step": 15288
    },
    {
      "epoch": 0.33975555555555553,
      "grad_norm": 1.7206629514694214,
      "learning_rate": 0.00013207823960880198,
      "loss": 2.1093,
      "step": 15289
    },
    {
      "epoch": 0.3397777777777778,
      "grad_norm": 1.6467366218566895,
      "learning_rate": 0.00013207379417648366,
      "loss": 1.9202,
      "step": 15290
    },
    {
      "epoch": 0.3398,
      "grad_norm": 1.421219825744629,
      "learning_rate": 0.00013206934874416537,
      "loss": 2.0759,
      "step": 15291
    },
    {
      "epoch": 0.33982222222222225,
      "grad_norm": 1.3849073648452759,
      "learning_rate": 0.00013206490331184708,
      "loss": 1.6969,
      "step": 15292
    },
    {
      "epoch": 0.33984444444444445,
      "grad_norm": 1.7084965705871582,
      "learning_rate": 0.00013206045787952879,
      "loss": 1.6567,
      "step": 15293
    },
    {
      "epoch": 0.33986666666666665,
      "grad_norm": 1.5711044073104858,
      "learning_rate": 0.0001320560124472105,
      "loss": 1.6693,
      "step": 15294
    },
    {
      "epoch": 0.3398888888888889,
      "grad_norm": 1.6277613639831543,
      "learning_rate": 0.0001320515670148922,
      "loss": 1.8723,
      "step": 15295
    },
    {
      "epoch": 0.3399111111111111,
      "grad_norm": 1.5859705209732056,
      "learning_rate": 0.00013204712158257392,
      "loss": 1.4519,
      "step": 15296
    },
    {
      "epoch": 0.3399333333333333,
      "grad_norm": 1.703056812286377,
      "learning_rate": 0.00013204267615025562,
      "loss": 1.8809,
      "step": 15297
    },
    {
      "epoch": 0.33995555555555557,
      "grad_norm": 1.5081448554992676,
      "learning_rate": 0.00013203823071793733,
      "loss": 1.522,
      "step": 15298
    },
    {
      "epoch": 0.33997777777777777,
      "grad_norm": 2.0533902645111084,
      "learning_rate": 0.00013203378528561902,
      "loss": 2.2328,
      "step": 15299
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5973997116088867,
      "learning_rate": 0.00013202933985330075,
      "loss": 1.8781,
      "step": 15300
    },
    {
      "epoch": 0.3400222222222222,
      "grad_norm": 1.2949060201644897,
      "learning_rate": 0.00013202489442098244,
      "loss": 2.358,
      "step": 15301
    },
    {
      "epoch": 0.3400444444444444,
      "grad_norm": 1.383827567100525,
      "learning_rate": 0.00013202044898866415,
      "loss": 2.5553,
      "step": 15302
    },
    {
      "epoch": 0.3400666666666667,
      "grad_norm": 1.5875767469406128,
      "learning_rate": 0.00013201600355634586,
      "loss": 2.2991,
      "step": 15303
    },
    {
      "epoch": 0.3400888888888889,
      "grad_norm": 1.5739449262619019,
      "learning_rate": 0.00013201155812402757,
      "loss": 2.1387,
      "step": 15304
    },
    {
      "epoch": 0.3401111111111111,
      "grad_norm": 1.3163732290267944,
      "learning_rate": 0.00013200711269170927,
      "loss": 1.6788,
      "step": 15305
    },
    {
      "epoch": 0.34013333333333334,
      "grad_norm": 1.679765224456787,
      "learning_rate": 0.00013200266725939098,
      "loss": 2.432,
      "step": 15306
    },
    {
      "epoch": 0.34015555555555554,
      "grad_norm": 1.677596092224121,
      "learning_rate": 0.0001319982218270727,
      "loss": 2.0625,
      "step": 15307
    },
    {
      "epoch": 0.3401777777777778,
      "grad_norm": 1.4849464893341064,
      "learning_rate": 0.00013199377639475438,
      "loss": 2.4347,
      "step": 15308
    },
    {
      "epoch": 0.3402,
      "grad_norm": 1.607324242591858,
      "learning_rate": 0.0001319893309624361,
      "loss": 2.1717,
      "step": 15309
    },
    {
      "epoch": 0.3402222222222222,
      "grad_norm": 1.3370181322097778,
      "learning_rate": 0.0001319848855301178,
      "loss": 1.9707,
      "step": 15310
    },
    {
      "epoch": 0.34024444444444446,
      "grad_norm": 1.6914407014846802,
      "learning_rate": 0.0001319804400977995,
      "loss": 2.3472,
      "step": 15311
    },
    {
      "epoch": 0.34026666666666666,
      "grad_norm": 1.4122859239578247,
      "learning_rate": 0.00013197599466548121,
      "loss": 1.7122,
      "step": 15312
    },
    {
      "epoch": 0.34028888888888886,
      "grad_norm": 1.6969982385635376,
      "learning_rate": 0.00013197154923316292,
      "loss": 2.1598,
      "step": 15313
    },
    {
      "epoch": 0.3403111111111111,
      "grad_norm": 1.6762315034866333,
      "learning_rate": 0.00013196710380084466,
      "loss": 1.9838,
      "step": 15314
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 1.5027923583984375,
      "learning_rate": 0.00013196265836852634,
      "loss": 2.1235,
      "step": 15315
    },
    {
      "epoch": 0.3403555555555556,
      "grad_norm": 1.5283032655715942,
      "learning_rate": 0.00013195821293620805,
      "loss": 2.2652,
      "step": 15316
    },
    {
      "epoch": 0.3403777777777778,
      "grad_norm": 1.4656224250793457,
      "learning_rate": 0.00013195376750388976,
      "loss": 2.493,
      "step": 15317
    },
    {
      "epoch": 0.3404,
      "grad_norm": 1.3428155183792114,
      "learning_rate": 0.00013194932207157147,
      "loss": 2.2414,
      "step": 15318
    },
    {
      "epoch": 0.34042222222222224,
      "grad_norm": 1.3519909381866455,
      "learning_rate": 0.00013194487663925316,
      "loss": 1.7129,
      "step": 15319
    },
    {
      "epoch": 0.34044444444444444,
      "grad_norm": 1.5736830234527588,
      "learning_rate": 0.0001319404312069349,
      "loss": 1.4044,
      "step": 15320
    },
    {
      "epoch": 0.34046666666666664,
      "grad_norm": 1.2547426223754883,
      "learning_rate": 0.0001319359857746166,
      "loss": 1.8066,
      "step": 15321
    },
    {
      "epoch": 0.3404888888888889,
      "grad_norm": 1.378847360610962,
      "learning_rate": 0.00013193154034229828,
      "loss": 1.994,
      "step": 15322
    },
    {
      "epoch": 0.3405111111111111,
      "grad_norm": 1.5512279272079468,
      "learning_rate": 0.00013192709490998002,
      "loss": 1.8993,
      "step": 15323
    },
    {
      "epoch": 0.34053333333333335,
      "grad_norm": 1.5519825220108032,
      "learning_rate": 0.0001319226494776617,
      "loss": 2.3376,
      "step": 15324
    },
    {
      "epoch": 0.34055555555555556,
      "grad_norm": 1.3772649765014648,
      "learning_rate": 0.0001319182040453434,
      "loss": 1.9737,
      "step": 15325
    },
    {
      "epoch": 0.34057777777777776,
      "grad_norm": 1.9135398864746094,
      "learning_rate": 0.00013191375861302512,
      "loss": 2.1651,
      "step": 15326
    },
    {
      "epoch": 0.3406,
      "grad_norm": 1.6337870359420776,
      "learning_rate": 0.00013190931318070683,
      "loss": 1.9452,
      "step": 15327
    },
    {
      "epoch": 0.3406222222222222,
      "grad_norm": 1.7176430225372314,
      "learning_rate": 0.00013190486774838851,
      "loss": 2.068,
      "step": 15328
    },
    {
      "epoch": 0.34064444444444447,
      "grad_norm": 1.4857590198516846,
      "learning_rate": 0.00013190042231607025,
      "loss": 1.5823,
      "step": 15329
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 1.74766206741333,
      "learning_rate": 0.00013189597688375196,
      "loss": 2.0368,
      "step": 15330
    },
    {
      "epoch": 0.3406888888888889,
      "grad_norm": 1.6416579484939575,
      "learning_rate": 0.00013189153145143364,
      "loss": 1.8786,
      "step": 15331
    },
    {
      "epoch": 0.34071111111111113,
      "grad_norm": 1.3962116241455078,
      "learning_rate": 0.00013188708601911538,
      "loss": 1.8446,
      "step": 15332
    },
    {
      "epoch": 0.34073333333333333,
      "grad_norm": 1.4837247133255005,
      "learning_rate": 0.00013188264058679706,
      "loss": 1.9323,
      "step": 15333
    },
    {
      "epoch": 0.34075555555555553,
      "grad_norm": 1.8710644245147705,
      "learning_rate": 0.0001318781951544788,
      "loss": 1.8771,
      "step": 15334
    },
    {
      "epoch": 0.3407777777777778,
      "grad_norm": 1.5275601148605347,
      "learning_rate": 0.00013187374972216048,
      "loss": 1.9955,
      "step": 15335
    },
    {
      "epoch": 0.3408,
      "grad_norm": 2.038431167602539,
      "learning_rate": 0.0001318693042898422,
      "loss": 2.1427,
      "step": 15336
    },
    {
      "epoch": 0.34082222222222225,
      "grad_norm": 1.4465928077697754,
      "learning_rate": 0.0001318648588575239,
      "loss": 1.9262,
      "step": 15337
    },
    {
      "epoch": 0.34084444444444445,
      "grad_norm": 1.7934036254882812,
      "learning_rate": 0.0001318604134252056,
      "loss": 1.993,
      "step": 15338
    },
    {
      "epoch": 0.34086666666666665,
      "grad_norm": 1.5605872869491577,
      "learning_rate": 0.00013185596799288732,
      "loss": 1.5796,
      "step": 15339
    },
    {
      "epoch": 0.3408888888888889,
      "grad_norm": 1.7129942178726196,
      "learning_rate": 0.00013185152256056903,
      "loss": 1.9582,
      "step": 15340
    },
    {
      "epoch": 0.3409111111111111,
      "grad_norm": 1.4201459884643555,
      "learning_rate": 0.00013184707712825074,
      "loss": 1.6606,
      "step": 15341
    },
    {
      "epoch": 0.3409333333333333,
      "grad_norm": 2.1652495861053467,
      "learning_rate": 0.00013184263169593242,
      "loss": 2.0367,
      "step": 15342
    },
    {
      "epoch": 0.34095555555555557,
      "grad_norm": 1.4738956689834595,
      "learning_rate": 0.00013183818626361416,
      "loss": 1.5317,
      "step": 15343
    },
    {
      "epoch": 0.34097777777777777,
      "grad_norm": 1.6825464963912964,
      "learning_rate": 0.00013183374083129584,
      "loss": 1.4726,
      "step": 15344
    },
    {
      "epoch": 0.341,
      "grad_norm": 1.551794171333313,
      "learning_rate": 0.00013182929539897755,
      "loss": 2.0524,
      "step": 15345
    },
    {
      "epoch": 0.3410222222222222,
      "grad_norm": 1.4399964809417725,
      "learning_rate": 0.00013182484996665926,
      "loss": 1.4741,
      "step": 15346
    },
    {
      "epoch": 0.34104444444444443,
      "grad_norm": 1.852110743522644,
      "learning_rate": 0.00013182040453434097,
      "loss": 2.0043,
      "step": 15347
    },
    {
      "epoch": 0.3410666666666667,
      "grad_norm": 1.6906787157058716,
      "learning_rate": 0.00013181595910202268,
      "loss": 1.8777,
      "step": 15348
    },
    {
      "epoch": 0.3410888888888889,
      "grad_norm": 1.7006709575653076,
      "learning_rate": 0.0001318115136697044,
      "loss": 1.7843,
      "step": 15349
    },
    {
      "epoch": 0.3411111111111111,
      "grad_norm": 1.2882765531539917,
      "learning_rate": 0.0001318070682373861,
      "loss": 1.0427,
      "step": 15350
    },
    {
      "epoch": 0.34113333333333334,
      "grad_norm": 0.7308459877967834,
      "learning_rate": 0.0001318026228050678,
      "loss": 0.0264,
      "step": 15351
    },
    {
      "epoch": 0.34115555555555555,
      "grad_norm": 1.7139360904693604,
      "learning_rate": 0.00013179817737274952,
      "loss": 2.0798,
      "step": 15352
    },
    {
      "epoch": 0.3411777777777778,
      "grad_norm": 1.4731985330581665,
      "learning_rate": 0.0001317937319404312,
      "loss": 2.4626,
      "step": 15353
    },
    {
      "epoch": 0.3412,
      "grad_norm": 1.8353626728057861,
      "learning_rate": 0.00013178928650811294,
      "loss": 2.7091,
      "step": 15354
    },
    {
      "epoch": 0.3412222222222222,
      "grad_norm": 1.3666003942489624,
      "learning_rate": 0.00013178484107579462,
      "loss": 2.2212,
      "step": 15355
    },
    {
      "epoch": 0.34124444444444446,
      "grad_norm": 1.5055522918701172,
      "learning_rate": 0.00013178039564347633,
      "loss": 2.2245,
      "step": 15356
    },
    {
      "epoch": 0.34126666666666666,
      "grad_norm": 1.5940269231796265,
      "learning_rate": 0.00013177595021115804,
      "loss": 2.2464,
      "step": 15357
    },
    {
      "epoch": 0.34128888888888886,
      "grad_norm": 2.0267844200134277,
      "learning_rate": 0.00013177150477883975,
      "loss": 2.3712,
      "step": 15358
    },
    {
      "epoch": 0.3413111111111111,
      "grad_norm": 1.4071998596191406,
      "learning_rate": 0.00013176705934652146,
      "loss": 1.9178,
      "step": 15359
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 1.3592394590377808,
      "learning_rate": 0.00013176261391420317,
      "loss": 2.1269,
      "step": 15360
    },
    {
      "epoch": 0.3413555555555556,
      "grad_norm": 1.4693269729614258,
      "learning_rate": 0.00013175816848188488,
      "loss": 2.1895,
      "step": 15361
    },
    {
      "epoch": 0.3413777777777778,
      "grad_norm": 1.8664559125900269,
      "learning_rate": 0.00013175372304956656,
      "loss": 2.6288,
      "step": 15362
    },
    {
      "epoch": 0.3414,
      "grad_norm": 1.6066806316375732,
      "learning_rate": 0.0001317492776172483,
      "loss": 2.5759,
      "step": 15363
    },
    {
      "epoch": 0.34142222222222224,
      "grad_norm": 1.5131701231002808,
      "learning_rate": 0.00013174483218492998,
      "loss": 2.0872,
      "step": 15364
    },
    {
      "epoch": 0.34144444444444444,
      "grad_norm": 1.7817866802215576,
      "learning_rate": 0.0001317403867526117,
      "loss": 2.0631,
      "step": 15365
    },
    {
      "epoch": 0.34146666666666664,
      "grad_norm": 1.6384929418563843,
      "learning_rate": 0.0001317359413202934,
      "loss": 2.2337,
      "step": 15366
    },
    {
      "epoch": 0.3414888888888889,
      "grad_norm": 1.4636049270629883,
      "learning_rate": 0.0001317314958879751,
      "loss": 2.1279,
      "step": 15367
    },
    {
      "epoch": 0.3415111111111111,
      "grad_norm": 1.4499205350875854,
      "learning_rate": 0.00013172705045565682,
      "loss": 1.9687,
      "step": 15368
    },
    {
      "epoch": 0.34153333333333336,
      "grad_norm": 1.491679072380066,
      "learning_rate": 0.00013172260502333853,
      "loss": 1.5008,
      "step": 15369
    },
    {
      "epoch": 0.34155555555555556,
      "grad_norm": 1.41560697555542,
      "learning_rate": 0.00013171815959102024,
      "loss": 2.0021,
      "step": 15370
    },
    {
      "epoch": 0.34157777777777776,
      "grad_norm": 1.253900408744812,
      "learning_rate": 0.00013171371415870195,
      "loss": 1.3174,
      "step": 15371
    },
    {
      "epoch": 0.3416,
      "grad_norm": 1.5095230340957642,
      "learning_rate": 0.00013170926872638366,
      "loss": 2.1288,
      "step": 15372
    },
    {
      "epoch": 0.3416222222222222,
      "grad_norm": 1.5980747938156128,
      "learning_rate": 0.00013170482329406534,
      "loss": 2.2674,
      "step": 15373
    },
    {
      "epoch": 0.3416444444444444,
      "grad_norm": 1.7909941673278809,
      "learning_rate": 0.00013170037786174708,
      "loss": 2.1644,
      "step": 15374
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 1.4992679357528687,
      "learning_rate": 0.00013169593242942876,
      "loss": 1.9638,
      "step": 15375
    },
    {
      "epoch": 0.3416888888888889,
      "grad_norm": 2.2920289039611816,
      "learning_rate": 0.00013169148699711047,
      "loss": 2.3957,
      "step": 15376
    },
    {
      "epoch": 0.34171111111111113,
      "grad_norm": 1.5685487985610962,
      "learning_rate": 0.00013168704156479218,
      "loss": 1.8598,
      "step": 15377
    },
    {
      "epoch": 0.34173333333333333,
      "grad_norm": 1.9738457202911377,
      "learning_rate": 0.0001316825961324739,
      "loss": 1.8335,
      "step": 15378
    },
    {
      "epoch": 0.34175555555555553,
      "grad_norm": 1.4747542142868042,
      "learning_rate": 0.0001316781507001556,
      "loss": 1.8641,
      "step": 15379
    },
    {
      "epoch": 0.3417777777777778,
      "grad_norm": 1.6432240009307861,
      "learning_rate": 0.0001316737052678373,
      "loss": 1.8849,
      "step": 15380
    },
    {
      "epoch": 0.3418,
      "grad_norm": 1.712729811668396,
      "learning_rate": 0.00013166925983551902,
      "loss": 1.2977,
      "step": 15381
    },
    {
      "epoch": 0.34182222222222225,
      "grad_norm": 1.7558878660202026,
      "learning_rate": 0.0001316648144032007,
      "loss": 2.2563,
      "step": 15382
    },
    {
      "epoch": 0.34184444444444445,
      "grad_norm": 1.5500226020812988,
      "learning_rate": 0.00013166036897088244,
      "loss": 1.9937,
      "step": 15383
    },
    {
      "epoch": 0.34186666666666665,
      "grad_norm": 1.6607033014297485,
      "learning_rate": 0.00013165592353856412,
      "loss": 1.9338,
      "step": 15384
    },
    {
      "epoch": 0.3418888888888889,
      "grad_norm": 1.3748431205749512,
      "learning_rate": 0.00013165147810624583,
      "loss": 1.7763,
      "step": 15385
    },
    {
      "epoch": 0.3419111111111111,
      "grad_norm": 1.277519702911377,
      "learning_rate": 0.00013164703267392754,
      "loss": 1.5583,
      "step": 15386
    },
    {
      "epoch": 0.3419333333333333,
      "grad_norm": 1.535611867904663,
      "learning_rate": 0.00013164258724160925,
      "loss": 1.9086,
      "step": 15387
    },
    {
      "epoch": 0.34195555555555557,
      "grad_norm": 1.4511334896087646,
      "learning_rate": 0.00013163814180929096,
      "loss": 1.3726,
      "step": 15388
    },
    {
      "epoch": 0.34197777777777777,
      "grad_norm": 2.0812366008758545,
      "learning_rate": 0.00013163369637697267,
      "loss": 1.1131,
      "step": 15389
    },
    {
      "epoch": 0.342,
      "grad_norm": 1.615866780281067,
      "learning_rate": 0.00013162925094465438,
      "loss": 2.0297,
      "step": 15390
    },
    {
      "epoch": 0.3420222222222222,
      "grad_norm": 1.4444690942764282,
      "learning_rate": 0.00013162480551233609,
      "loss": 1.7742,
      "step": 15391
    },
    {
      "epoch": 0.34204444444444443,
      "grad_norm": 1.3219972848892212,
      "learning_rate": 0.0001316203600800178,
      "loss": 1.4151,
      "step": 15392
    },
    {
      "epoch": 0.3420666666666667,
      "grad_norm": 2.036151885986328,
      "learning_rate": 0.00013161591464769948,
      "loss": 1.8426,
      "step": 15393
    },
    {
      "epoch": 0.3420888888888889,
      "grad_norm": 1.6268113851547241,
      "learning_rate": 0.00013161146921538121,
      "loss": 1.6699,
      "step": 15394
    },
    {
      "epoch": 0.3421111111111111,
      "grad_norm": 1.5333781242370605,
      "learning_rate": 0.00013160702378306292,
      "loss": 1.6829,
      "step": 15395
    },
    {
      "epoch": 0.34213333333333334,
      "grad_norm": 1.6564792394638062,
      "learning_rate": 0.0001316025783507446,
      "loss": 1.9524,
      "step": 15396
    },
    {
      "epoch": 0.34215555555555555,
      "grad_norm": 1.4691815376281738,
      "learning_rate": 0.00013159813291842634,
      "loss": 1.6756,
      "step": 15397
    },
    {
      "epoch": 0.3421777777777778,
      "grad_norm": 1.6531083583831787,
      "learning_rate": 0.00013159368748610803,
      "loss": 1.7103,
      "step": 15398
    },
    {
      "epoch": 0.3422,
      "grad_norm": 1.3352811336517334,
      "learning_rate": 0.00013158924205378973,
      "loss": 1.2966,
      "step": 15399
    },
    {
      "epoch": 0.3422222222222222,
      "grad_norm": 1.9844181537628174,
      "learning_rate": 0.00013158479662147144,
      "loss": 2.2286,
      "step": 15400
    },
    {
      "epoch": 0.34224444444444446,
      "grad_norm": 1.332173466682434,
      "learning_rate": 0.00013158035118915315,
      "loss": 2.2323,
      "step": 15401
    },
    {
      "epoch": 0.34226666666666666,
      "grad_norm": 1.430329442024231,
      "learning_rate": 0.00013157590575683484,
      "loss": 2.4778,
      "step": 15402
    },
    {
      "epoch": 0.34228888888888886,
      "grad_norm": 1.313468337059021,
      "learning_rate": 0.00013157146032451657,
      "loss": 2.3858,
      "step": 15403
    },
    {
      "epoch": 0.3423111111111111,
      "grad_norm": 1.5917177200317383,
      "learning_rate": 0.00013156701489219828,
      "loss": 2.0519,
      "step": 15404
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 1.5839613676071167,
      "learning_rate": 0.00013156256945987997,
      "loss": 1.8405,
      "step": 15405
    },
    {
      "epoch": 0.3423555555555556,
      "grad_norm": 1.4796936511993408,
      "learning_rate": 0.0001315581240275617,
      "loss": 2.6652,
      "step": 15406
    },
    {
      "epoch": 0.3423777777777778,
      "grad_norm": 1.4839463233947754,
      "learning_rate": 0.00013155367859524338,
      "loss": 2.4681,
      "step": 15407
    },
    {
      "epoch": 0.3424,
      "grad_norm": 1.347938060760498,
      "learning_rate": 0.00013154923316292512,
      "loss": 1.7716,
      "step": 15408
    },
    {
      "epoch": 0.34242222222222224,
      "grad_norm": 1.5408165454864502,
      "learning_rate": 0.0001315447877306068,
      "loss": 1.7549,
      "step": 15409
    },
    {
      "epoch": 0.34244444444444444,
      "grad_norm": 1.4510308504104614,
      "learning_rate": 0.00013154034229828851,
      "loss": 1.6217,
      "step": 15410
    },
    {
      "epoch": 0.34246666666666664,
      "grad_norm": 1.5546247959136963,
      "learning_rate": 0.00013153589686597022,
      "loss": 2.0012,
      "step": 15411
    },
    {
      "epoch": 0.3424888888888889,
      "grad_norm": 2.181145668029785,
      "learning_rate": 0.00013153145143365193,
      "loss": 1.8948,
      "step": 15412
    },
    {
      "epoch": 0.3425111111111111,
      "grad_norm": 1.476250410079956,
      "learning_rate": 0.00013152700600133364,
      "loss": 1.9585,
      "step": 15413
    },
    {
      "epoch": 0.34253333333333336,
      "grad_norm": 1.449324369430542,
      "learning_rate": 0.00013152256056901535,
      "loss": 2.031,
      "step": 15414
    },
    {
      "epoch": 0.34255555555555556,
      "grad_norm": 1.513582706451416,
      "learning_rate": 0.00013151811513669706,
      "loss": 1.9702,
      "step": 15415
    },
    {
      "epoch": 0.34257777777777776,
      "grad_norm": 1.585495114326477,
      "learning_rate": 0.00013151366970437874,
      "loss": 1.0487,
      "step": 15416
    },
    {
      "epoch": 0.3426,
      "grad_norm": 1.5570504665374756,
      "learning_rate": 0.00013150922427206048,
      "loss": 2.3485,
      "step": 15417
    },
    {
      "epoch": 0.3426222222222222,
      "grad_norm": 1.5449225902557373,
      "learning_rate": 0.00013150477883974216,
      "loss": 1.9322,
      "step": 15418
    },
    {
      "epoch": 0.3426444444444444,
      "grad_norm": 1.3562369346618652,
      "learning_rate": 0.00013150033340742387,
      "loss": 2.2034,
      "step": 15419
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 1.774054765701294,
      "learning_rate": 0.00013149588797510558,
      "loss": 2.2296,
      "step": 15420
    },
    {
      "epoch": 0.3426888888888889,
      "grad_norm": 2.099709987640381,
      "learning_rate": 0.0001314914425427873,
      "loss": 2.172,
      "step": 15421
    },
    {
      "epoch": 0.34271111111111113,
      "grad_norm": 1.5300066471099854,
      "learning_rate": 0.000131486997110469,
      "loss": 2.0359,
      "step": 15422
    },
    {
      "epoch": 0.34273333333333333,
      "grad_norm": 1.3731626272201538,
      "learning_rate": 0.0001314825516781507,
      "loss": 1.5292,
      "step": 15423
    },
    {
      "epoch": 0.34275555555555554,
      "grad_norm": 1.4971827268600464,
      "learning_rate": 0.00013147810624583242,
      "loss": 2.0794,
      "step": 15424
    },
    {
      "epoch": 0.3427777777777778,
      "grad_norm": 1.5329290628433228,
      "learning_rate": 0.0001314736608135141,
      "loss": 2.3058,
      "step": 15425
    },
    {
      "epoch": 0.3428,
      "grad_norm": 2.045499563217163,
      "learning_rate": 0.00013146921538119584,
      "loss": 1.8885,
      "step": 15426
    },
    {
      "epoch": 0.3428222222222222,
      "grad_norm": 1.5430314540863037,
      "learning_rate": 0.00013146476994887752,
      "loss": 1.972,
      "step": 15427
    },
    {
      "epoch": 0.34284444444444445,
      "grad_norm": 1.7552021741867065,
      "learning_rate": 0.00013146032451655926,
      "loss": 2.3235,
      "step": 15428
    },
    {
      "epoch": 0.34286666666666665,
      "grad_norm": 1.8680753707885742,
      "learning_rate": 0.00013145587908424094,
      "loss": 1.5316,
      "step": 15429
    },
    {
      "epoch": 0.3428888888888889,
      "grad_norm": 1.8360695838928223,
      "learning_rate": 0.00013145143365192265,
      "loss": 2.4436,
      "step": 15430
    },
    {
      "epoch": 0.3429111111111111,
      "grad_norm": 1.7083489894866943,
      "learning_rate": 0.00013144698821960436,
      "loss": 1.9841,
      "step": 15431
    },
    {
      "epoch": 0.3429333333333333,
      "grad_norm": 1.6491352319717407,
      "learning_rate": 0.00013144254278728607,
      "loss": 1.8271,
      "step": 15432
    },
    {
      "epoch": 0.34295555555555557,
      "grad_norm": 1.5046643018722534,
      "learning_rate": 0.00013143809735496778,
      "loss": 1.9891,
      "step": 15433
    },
    {
      "epoch": 0.34297777777777777,
      "grad_norm": 1.6880403757095337,
      "learning_rate": 0.0001314336519226495,
      "loss": 2.3031,
      "step": 15434
    },
    {
      "epoch": 0.343,
      "grad_norm": 1.7105096578598022,
      "learning_rate": 0.0001314292064903312,
      "loss": 1.9733,
      "step": 15435
    },
    {
      "epoch": 0.34302222222222223,
      "grad_norm": 1.6472283601760864,
      "learning_rate": 0.00013142476105801288,
      "loss": 2.0141,
      "step": 15436
    },
    {
      "epoch": 0.34304444444444443,
      "grad_norm": 1.7487874031066895,
      "learning_rate": 0.00013142031562569462,
      "loss": 1.9861,
      "step": 15437
    },
    {
      "epoch": 0.3430666666666667,
      "grad_norm": 1.7114099264144897,
      "learning_rate": 0.0001314158701933763,
      "loss": 2.0599,
      "step": 15438
    },
    {
      "epoch": 0.3430888888888889,
      "grad_norm": 1.670784831047058,
      "learning_rate": 0.000131411424761058,
      "loss": 1.6486,
      "step": 15439
    },
    {
      "epoch": 0.3431111111111111,
      "grad_norm": 1.6377472877502441,
      "learning_rate": 0.00013140697932873972,
      "loss": 1.7956,
      "step": 15440
    },
    {
      "epoch": 0.34313333333333335,
      "grad_norm": 1.75839364528656,
      "learning_rate": 0.00013140253389642143,
      "loss": 2.0667,
      "step": 15441
    },
    {
      "epoch": 0.34315555555555555,
      "grad_norm": 1.6765849590301514,
      "learning_rate": 0.00013139808846410314,
      "loss": 1.473,
      "step": 15442
    },
    {
      "epoch": 0.3431777777777778,
      "grad_norm": 1.267702341079712,
      "learning_rate": 0.00013139364303178485,
      "loss": 1.5063,
      "step": 15443
    },
    {
      "epoch": 0.3432,
      "grad_norm": 1.861387848854065,
      "learning_rate": 0.00013138919759946656,
      "loss": 1.779,
      "step": 15444
    },
    {
      "epoch": 0.3432222222222222,
      "grad_norm": 2.1009714603424072,
      "learning_rate": 0.00013138475216714824,
      "loss": 2.0289,
      "step": 15445
    },
    {
      "epoch": 0.34324444444444446,
      "grad_norm": 1.8084813356399536,
      "learning_rate": 0.00013138030673482998,
      "loss": 2.3068,
      "step": 15446
    },
    {
      "epoch": 0.34326666666666666,
      "grad_norm": 1.0925297737121582,
      "learning_rate": 0.00013137586130251166,
      "loss": 0.9658,
      "step": 15447
    },
    {
      "epoch": 0.34328888888888887,
      "grad_norm": 1.8314461708068848,
      "learning_rate": 0.0001313714158701934,
      "loss": 1.776,
      "step": 15448
    },
    {
      "epoch": 0.3433111111111111,
      "grad_norm": 1.620466709136963,
      "learning_rate": 0.00013136697043787508,
      "loss": 1.2508,
      "step": 15449
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 1.5282597541809082,
      "learning_rate": 0.0001313625250055568,
      "loss": 1.2051,
      "step": 15450
    },
    {
      "epoch": 0.3433555555555556,
      "grad_norm": 1.102992296218872,
      "learning_rate": 0.0001313580795732385,
      "loss": 0.025,
      "step": 15451
    },
    {
      "epoch": 0.3433777777777778,
      "grad_norm": 1.533855676651001,
      "learning_rate": 0.0001313536341409202,
      "loss": 2.6226,
      "step": 15452
    },
    {
      "epoch": 0.3434,
      "grad_norm": 1.3541799783706665,
      "learning_rate": 0.00013134918870860192,
      "loss": 2.4259,
      "step": 15453
    },
    {
      "epoch": 0.34342222222222224,
      "grad_norm": 1.9563586711883545,
      "learning_rate": 0.00013134474327628363,
      "loss": 2.7014,
      "step": 15454
    },
    {
      "epoch": 0.34344444444444444,
      "grad_norm": 1.605431318283081,
      "learning_rate": 0.00013134029784396534,
      "loss": 2.3304,
      "step": 15455
    },
    {
      "epoch": 0.34346666666666664,
      "grad_norm": 1.5095853805541992,
      "learning_rate": 0.00013133585241164702,
      "loss": 2.5244,
      "step": 15456
    },
    {
      "epoch": 0.3434888888888889,
      "grad_norm": 1.4592374563217163,
      "learning_rate": 0.00013133140697932876,
      "loss": 2.1788,
      "step": 15457
    },
    {
      "epoch": 0.3435111111111111,
      "grad_norm": 1.4370172023773193,
      "learning_rate": 0.00013132696154701044,
      "loss": 2.5125,
      "step": 15458
    },
    {
      "epoch": 0.34353333333333336,
      "grad_norm": 1.2931523323059082,
      "learning_rate": 0.00013132251611469215,
      "loss": 2.0023,
      "step": 15459
    },
    {
      "epoch": 0.34355555555555556,
      "grad_norm": 1.779573678970337,
      "learning_rate": 0.00013131807068237389,
      "loss": 1.4862,
      "step": 15460
    },
    {
      "epoch": 0.34357777777777776,
      "grad_norm": 2.0785226821899414,
      "learning_rate": 0.00013131362525005557,
      "loss": 2.3819,
      "step": 15461
    },
    {
      "epoch": 0.3436,
      "grad_norm": 1.4330016374588013,
      "learning_rate": 0.00013130917981773728,
      "loss": 2.266,
      "step": 15462
    },
    {
      "epoch": 0.3436222222222222,
      "grad_norm": 1.8207906484603882,
      "learning_rate": 0.000131304734385419,
      "loss": 2.1937,
      "step": 15463
    },
    {
      "epoch": 0.3436444444444444,
      "grad_norm": 1.536752462387085,
      "learning_rate": 0.0001313002889531007,
      "loss": 1.8656,
      "step": 15464
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 1.4940634965896606,
      "learning_rate": 0.0001312958435207824,
      "loss": 2.1724,
      "step": 15465
    },
    {
      "epoch": 0.3436888888888889,
      "grad_norm": 1.8100409507751465,
      "learning_rate": 0.00013129139808846412,
      "loss": 2.3697,
      "step": 15466
    },
    {
      "epoch": 0.34371111111111113,
      "grad_norm": 1.4761558771133423,
      "learning_rate": 0.0001312869526561458,
      "loss": 2.1686,
      "step": 15467
    },
    {
      "epoch": 0.34373333333333334,
      "grad_norm": 1.4768685102462769,
      "learning_rate": 0.00013128250722382754,
      "loss": 1.0546,
      "step": 15468
    },
    {
      "epoch": 0.34375555555555554,
      "grad_norm": 1.4903013706207275,
      "learning_rate": 0.00013127806179150925,
      "loss": 1.9989,
      "step": 15469
    },
    {
      "epoch": 0.3437777777777778,
      "grad_norm": 1.4599354267120361,
      "learning_rate": 0.00013127361635919093,
      "loss": 1.8244,
      "step": 15470
    },
    {
      "epoch": 0.3438,
      "grad_norm": 0.9788576364517212,
      "learning_rate": 0.00013126917092687266,
      "loss": 0.8799,
      "step": 15471
    },
    {
      "epoch": 0.3438222222222222,
      "grad_norm": 1.3186922073364258,
      "learning_rate": 0.00013126472549455435,
      "loss": 1.8947,
      "step": 15472
    },
    {
      "epoch": 0.34384444444444445,
      "grad_norm": 1.304438591003418,
      "learning_rate": 0.00013126028006223606,
      "loss": 1.6898,
      "step": 15473
    },
    {
      "epoch": 0.34386666666666665,
      "grad_norm": 1.5781694650650024,
      "learning_rate": 0.00013125583462991777,
      "loss": 1.7408,
      "step": 15474
    },
    {
      "epoch": 0.3438888888888889,
      "grad_norm": 1.6826629638671875,
      "learning_rate": 0.00013125138919759948,
      "loss": 2.1534,
      "step": 15475
    },
    {
      "epoch": 0.3439111111111111,
      "grad_norm": 1.4622712135314941,
      "learning_rate": 0.00013124694376528116,
      "loss": 1.9378,
      "step": 15476
    },
    {
      "epoch": 0.3439333333333333,
      "grad_norm": 1.636283278465271,
      "learning_rate": 0.0001312424983329629,
      "loss": 2.1591,
      "step": 15477
    },
    {
      "epoch": 0.34395555555555557,
      "grad_norm": 1.5326634645462036,
      "learning_rate": 0.0001312380529006446,
      "loss": 1.9683,
      "step": 15478
    },
    {
      "epoch": 0.34397777777777777,
      "grad_norm": 1.6478455066680908,
      "learning_rate": 0.0001312336074683263,
      "loss": 2.3349,
      "step": 15479
    },
    {
      "epoch": 0.344,
      "grad_norm": 1.4755604267120361,
      "learning_rate": 0.00013122916203600802,
      "loss": 1.7972,
      "step": 15480
    },
    {
      "epoch": 0.34402222222222223,
      "grad_norm": 1.545055627822876,
      "learning_rate": 0.0001312247166036897,
      "loss": 1.9808,
      "step": 15481
    },
    {
      "epoch": 0.34404444444444443,
      "grad_norm": 1.5384330749511719,
      "learning_rate": 0.00013122027117137142,
      "loss": 1.8884,
      "step": 15482
    },
    {
      "epoch": 0.3440666666666667,
      "grad_norm": 1.3827797174453735,
      "learning_rate": 0.00013121582573905313,
      "loss": 1.782,
      "step": 15483
    },
    {
      "epoch": 0.3440888888888889,
      "grad_norm": 1.5186738967895508,
      "learning_rate": 0.00013121138030673484,
      "loss": 1.6803,
      "step": 15484
    },
    {
      "epoch": 0.3441111111111111,
      "grad_norm": 1.8351179361343384,
      "learning_rate": 0.00013120693487441655,
      "loss": 2.5394,
      "step": 15485
    },
    {
      "epoch": 0.34413333333333335,
      "grad_norm": 1.4260729551315308,
      "learning_rate": 0.00013120248944209825,
      "loss": 1.8439,
      "step": 15486
    },
    {
      "epoch": 0.34415555555555555,
      "grad_norm": 1.4184753894805908,
      "learning_rate": 0.00013119804400977996,
      "loss": 1.7595,
      "step": 15487
    },
    {
      "epoch": 0.3441777777777778,
      "grad_norm": 1.6154930591583252,
      "learning_rate": 0.00013119359857746167,
      "loss": 1.7585,
      "step": 15488
    },
    {
      "epoch": 0.3442,
      "grad_norm": 1.5856529474258423,
      "learning_rate": 0.00013118915314514338,
      "loss": 1.9409,
      "step": 15489
    },
    {
      "epoch": 0.3442222222222222,
      "grad_norm": 1.7374504804611206,
      "learning_rate": 0.00013118470771282507,
      "loss": 2.2144,
      "step": 15490
    },
    {
      "epoch": 0.34424444444444446,
      "grad_norm": 1.5757579803466797,
      "learning_rate": 0.0001311802622805068,
      "loss": 2.4272,
      "step": 15491
    },
    {
      "epoch": 0.34426666666666667,
      "grad_norm": 1.6619315147399902,
      "learning_rate": 0.00013117581684818849,
      "loss": 2.2457,
      "step": 15492
    },
    {
      "epoch": 0.34428888888888887,
      "grad_norm": 1.3900072574615479,
      "learning_rate": 0.0001311713714158702,
      "loss": 1.4898,
      "step": 15493
    },
    {
      "epoch": 0.3443111111111111,
      "grad_norm": 1.6834967136383057,
      "learning_rate": 0.0001311669259835519,
      "loss": 2.0766,
      "step": 15494
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 1.8131998777389526,
      "learning_rate": 0.00013116248055123361,
      "loss": 1.8233,
      "step": 15495
    },
    {
      "epoch": 0.3443555555555556,
      "grad_norm": 1.4665039777755737,
      "learning_rate": 0.00013115803511891532,
      "loss": 1.6973,
      "step": 15496
    },
    {
      "epoch": 0.3443777777777778,
      "grad_norm": 1.5578781366348267,
      "learning_rate": 0.00013115358968659703,
      "loss": 1.8949,
      "step": 15497
    },
    {
      "epoch": 0.3444,
      "grad_norm": 1.5206371545791626,
      "learning_rate": 0.00013114914425427874,
      "loss": 1.2717,
      "step": 15498
    },
    {
      "epoch": 0.34442222222222224,
      "grad_norm": 1.425258755683899,
      "learning_rate": 0.00013114469882196043,
      "loss": 1.4687,
      "step": 15499
    },
    {
      "epoch": 0.34444444444444444,
      "grad_norm": 2.133579969406128,
      "learning_rate": 0.00013114025338964216,
      "loss": 1.8793,
      "step": 15500
    },
    {
      "epoch": 0.34446666666666664,
      "grad_norm": 1.4684723615646362,
      "learning_rate": 0.00013113580795732385,
      "loss": 2.7337,
      "step": 15501
    },
    {
      "epoch": 0.3444888888888889,
      "grad_norm": 1.3955961465835571,
      "learning_rate": 0.00013113136252500555,
      "loss": 2.342,
      "step": 15502
    },
    {
      "epoch": 0.3445111111111111,
      "grad_norm": 1.3962091207504272,
      "learning_rate": 0.00013112691709268726,
      "loss": 2.4238,
      "step": 15503
    },
    {
      "epoch": 0.34453333333333336,
      "grad_norm": 1.099249243736267,
      "learning_rate": 0.00013112247166036897,
      "loss": 1.3556,
      "step": 15504
    },
    {
      "epoch": 0.34455555555555556,
      "grad_norm": 1.4123704433441162,
      "learning_rate": 0.00013111802622805068,
      "loss": 2.536,
      "step": 15505
    },
    {
      "epoch": 0.34457777777777776,
      "grad_norm": 1.505919098854065,
      "learning_rate": 0.0001311135807957324,
      "loss": 2.5057,
      "step": 15506
    },
    {
      "epoch": 0.3446,
      "grad_norm": 1.2140733003616333,
      "learning_rate": 0.0001311091353634141,
      "loss": 2.1121,
      "step": 15507
    },
    {
      "epoch": 0.3446222222222222,
      "grad_norm": 1.5696321725845337,
      "learning_rate": 0.0001311046899310958,
      "loss": 2.1267,
      "step": 15508
    },
    {
      "epoch": 0.3446444444444444,
      "grad_norm": 0.9613518714904785,
      "learning_rate": 0.00013110024449877752,
      "loss": 1.0867,
      "step": 15509
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 1.491456389427185,
      "learning_rate": 0.0001310957990664592,
      "loss": 2.2149,
      "step": 15510
    },
    {
      "epoch": 0.3446888888888889,
      "grad_norm": 1.541148066520691,
      "learning_rate": 0.00013109135363414094,
      "loss": 2.1307,
      "step": 15511
    },
    {
      "epoch": 0.34471111111111113,
      "grad_norm": 1.366553544998169,
      "learning_rate": 0.00013108690820182262,
      "loss": 2.0248,
      "step": 15512
    },
    {
      "epoch": 0.34473333333333334,
      "grad_norm": 1.5568513870239258,
      "learning_rate": 0.00013108246276950433,
      "loss": 2.1935,
      "step": 15513
    },
    {
      "epoch": 0.34475555555555554,
      "grad_norm": 1.776608943939209,
      "learning_rate": 0.00013107801733718604,
      "loss": 2.5123,
      "step": 15514
    },
    {
      "epoch": 0.3447777777777778,
      "grad_norm": 1.4496127367019653,
      "learning_rate": 0.00013107357190486775,
      "loss": 2.0454,
      "step": 15515
    },
    {
      "epoch": 0.3448,
      "grad_norm": 1.3929970264434814,
      "learning_rate": 0.00013106912647254946,
      "loss": 1.8464,
      "step": 15516
    },
    {
      "epoch": 0.3448222222222222,
      "grad_norm": 1.4771687984466553,
      "learning_rate": 0.00013106468104023117,
      "loss": 2.335,
      "step": 15517
    },
    {
      "epoch": 0.34484444444444445,
      "grad_norm": 1.5384249687194824,
      "learning_rate": 0.00013106023560791288,
      "loss": 1.6943,
      "step": 15518
    },
    {
      "epoch": 0.34486666666666665,
      "grad_norm": 1.496944546699524,
      "learning_rate": 0.00013105579017559456,
      "loss": 2.1839,
      "step": 15519
    },
    {
      "epoch": 0.3448888888888889,
      "grad_norm": 1.289777398109436,
      "learning_rate": 0.0001310513447432763,
      "loss": 1.2117,
      "step": 15520
    },
    {
      "epoch": 0.3449111111111111,
      "grad_norm": 1.0469313859939575,
      "learning_rate": 0.00013104689931095798,
      "loss": 1.1368,
      "step": 15521
    },
    {
      "epoch": 0.3449333333333333,
      "grad_norm": 2.2518703937530518,
      "learning_rate": 0.00013104245387863972,
      "loss": 2.748,
      "step": 15522
    },
    {
      "epoch": 0.34495555555555557,
      "grad_norm": 1.459429144859314,
      "learning_rate": 0.0001310380084463214,
      "loss": 2.0836,
      "step": 15523
    },
    {
      "epoch": 0.34497777777777777,
      "grad_norm": 1.4844791889190674,
      "learning_rate": 0.0001310335630140031,
      "loss": 2.0298,
      "step": 15524
    },
    {
      "epoch": 0.345,
      "grad_norm": 1.5836639404296875,
      "learning_rate": 0.00013102911758168482,
      "loss": 2.2761,
      "step": 15525
    },
    {
      "epoch": 0.34502222222222223,
      "grad_norm": 1.7864079475402832,
      "learning_rate": 0.00013102467214936653,
      "loss": 1.954,
      "step": 15526
    },
    {
      "epoch": 0.34504444444444443,
      "grad_norm": 1.4368115663528442,
      "learning_rate": 0.00013102022671704824,
      "loss": 1.8284,
      "step": 15527
    },
    {
      "epoch": 0.3450666666666667,
      "grad_norm": 1.7450485229492188,
      "learning_rate": 0.00013101578128472995,
      "loss": 1.9855,
      "step": 15528
    },
    {
      "epoch": 0.3450888888888889,
      "grad_norm": 1.2831090688705444,
      "learning_rate": 0.00013101133585241166,
      "loss": 1.7898,
      "step": 15529
    },
    {
      "epoch": 0.3451111111111111,
      "grad_norm": 1.5691466331481934,
      "learning_rate": 0.00013100689042009334,
      "loss": 2.1824,
      "step": 15530
    },
    {
      "epoch": 0.34513333333333335,
      "grad_norm": 1.3020622730255127,
      "learning_rate": 0.00013100244498777508,
      "loss": 1.4962,
      "step": 15531
    },
    {
      "epoch": 0.34515555555555555,
      "grad_norm": 1.8522496223449707,
      "learning_rate": 0.00013099799955545676,
      "loss": 2.3541,
      "step": 15532
    },
    {
      "epoch": 0.34517777777777775,
      "grad_norm": 1.5425467491149902,
      "learning_rate": 0.00013099355412313847,
      "loss": 1.9425,
      "step": 15533
    },
    {
      "epoch": 0.3452,
      "grad_norm": 1.9298373460769653,
      "learning_rate": 0.0001309891086908202,
      "loss": 2.4648,
      "step": 15534
    },
    {
      "epoch": 0.3452222222222222,
      "grad_norm": 2.172076940536499,
      "learning_rate": 0.0001309846632585019,
      "loss": 1.9105,
      "step": 15535
    },
    {
      "epoch": 0.34524444444444446,
      "grad_norm": 1.4460351467132568,
      "learning_rate": 0.0001309802178261836,
      "loss": 2.0035,
      "step": 15536
    },
    {
      "epoch": 0.34526666666666667,
      "grad_norm": 1.3797789812088013,
      "learning_rate": 0.0001309757723938653,
      "loss": 1.7145,
      "step": 15537
    },
    {
      "epoch": 0.34528888888888887,
      "grad_norm": 1.942301869392395,
      "learning_rate": 0.00013097132696154702,
      "loss": 2.6077,
      "step": 15538
    },
    {
      "epoch": 0.3453111111111111,
      "grad_norm": 1.7772940397262573,
      "learning_rate": 0.0001309668815292287,
      "loss": 1.781,
      "step": 15539
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 1.243326187133789,
      "learning_rate": 0.00013096243609691044,
      "loss": 1.4291,
      "step": 15540
    },
    {
      "epoch": 0.3453555555555556,
      "grad_norm": 1.0921070575714111,
      "learning_rate": 0.00013095799066459212,
      "loss": 0.6894,
      "step": 15541
    },
    {
      "epoch": 0.3453777777777778,
      "grad_norm": 2.0074424743652344,
      "learning_rate": 0.00013095354523227386,
      "loss": 2.1117,
      "step": 15542
    },
    {
      "epoch": 0.3454,
      "grad_norm": 1.8341749906539917,
      "learning_rate": 0.00013094909979995557,
      "loss": 1.7155,
      "step": 15543
    },
    {
      "epoch": 0.34542222222222224,
      "grad_norm": 1.6283739805221558,
      "learning_rate": 0.00013094465436763725,
      "loss": 1.9619,
      "step": 15544
    },
    {
      "epoch": 0.34544444444444444,
      "grad_norm": 1.8291270732879639,
      "learning_rate": 0.000130940208935319,
      "loss": 1.7583,
      "step": 15545
    },
    {
      "epoch": 0.34546666666666664,
      "grad_norm": 1.6396746635437012,
      "learning_rate": 0.00013093576350300067,
      "loss": 1.4947,
      "step": 15546
    },
    {
      "epoch": 0.3454888888888889,
      "grad_norm": 1.5529613494873047,
      "learning_rate": 0.00013093131807068238,
      "loss": 1.5929,
      "step": 15547
    },
    {
      "epoch": 0.3455111111111111,
      "grad_norm": 2.319533109664917,
      "learning_rate": 0.0001309268726383641,
      "loss": 2.1045,
      "step": 15548
    },
    {
      "epoch": 0.34553333333333336,
      "grad_norm": 1.1868666410446167,
      "learning_rate": 0.0001309224272060458,
      "loss": 0.864,
      "step": 15549
    },
    {
      "epoch": 0.34555555555555556,
      "grad_norm": 1.3662527799606323,
      "learning_rate": 0.00013091798177372748,
      "loss": 1.015,
      "step": 15550
    },
    {
      "epoch": 0.34557777777777776,
      "grad_norm": 1.3464909791946411,
      "learning_rate": 0.00013091353634140922,
      "loss": 1.0793,
      "step": 15551
    },
    {
      "epoch": 0.3456,
      "grad_norm": 1.3402878046035767,
      "learning_rate": 0.00013090909090909093,
      "loss": 3.0277,
      "step": 15552
    },
    {
      "epoch": 0.3456222222222222,
      "grad_norm": 1.5226340293884277,
      "learning_rate": 0.0001309046454767726,
      "loss": 2.8892,
      "step": 15553
    },
    {
      "epoch": 0.3456444444444444,
      "grad_norm": 1.3608390092849731,
      "learning_rate": 0.00013090020004445435,
      "loss": 2.1505,
      "step": 15554
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 1.4643751382827759,
      "learning_rate": 0.00013089575461213603,
      "loss": 2.0279,
      "step": 15555
    },
    {
      "epoch": 0.3456888888888889,
      "grad_norm": 1.5015591382980347,
      "learning_rate": 0.00013089130917981774,
      "loss": 2.1598,
      "step": 15556
    },
    {
      "epoch": 0.34571111111111114,
      "grad_norm": 1.5365673303604126,
      "learning_rate": 0.00013088686374749945,
      "loss": 2.0267,
      "step": 15557
    },
    {
      "epoch": 0.34573333333333334,
      "grad_norm": 1.3640414476394653,
      "learning_rate": 0.00013088241831518116,
      "loss": 2.0112,
      "step": 15558
    },
    {
      "epoch": 0.34575555555555554,
      "grad_norm": 1.8714418411254883,
      "learning_rate": 0.00013087797288286284,
      "loss": 2.0549,
      "step": 15559
    },
    {
      "epoch": 0.3457777777777778,
      "grad_norm": 1.4055160284042358,
      "learning_rate": 0.00013087352745054458,
      "loss": 2.1041,
      "step": 15560
    },
    {
      "epoch": 0.3458,
      "grad_norm": 1.6454756259918213,
      "learning_rate": 0.0001308690820182263,
      "loss": 2.3669,
      "step": 15561
    },
    {
      "epoch": 0.3458222222222222,
      "grad_norm": 1.2339116334915161,
      "learning_rate": 0.000130864636585908,
      "loss": 2.1211,
      "step": 15562
    },
    {
      "epoch": 0.34584444444444445,
      "grad_norm": 1.4544520378112793,
      "learning_rate": 0.0001308601911535897,
      "loss": 1.7775,
      "step": 15563
    },
    {
      "epoch": 0.34586666666666666,
      "grad_norm": 1.5921121835708618,
      "learning_rate": 0.0001308557457212714,
      "loss": 2.6787,
      "step": 15564
    },
    {
      "epoch": 0.3458888888888889,
      "grad_norm": 1.535962462425232,
      "learning_rate": 0.00013085130028895313,
      "loss": 2.0834,
      "step": 15565
    },
    {
      "epoch": 0.3459111111111111,
      "grad_norm": 1.3878092765808105,
      "learning_rate": 0.0001308468548566348,
      "loss": 1.6505,
      "step": 15566
    },
    {
      "epoch": 0.3459333333333333,
      "grad_norm": 1.5109409093856812,
      "learning_rate": 0.00013084240942431652,
      "loss": 2.1927,
      "step": 15567
    },
    {
      "epoch": 0.34595555555555557,
      "grad_norm": 1.6032689809799194,
      "learning_rate": 0.00013083796399199823,
      "loss": 2.0683,
      "step": 15568
    },
    {
      "epoch": 0.3459777777777778,
      "grad_norm": 1.5911418199539185,
      "learning_rate": 0.00013083351855967994,
      "loss": 2.2649,
      "step": 15569
    },
    {
      "epoch": 0.346,
      "grad_norm": 1.48970627784729,
      "learning_rate": 0.00013082907312736165,
      "loss": 1.9544,
      "step": 15570
    },
    {
      "epoch": 0.34602222222222223,
      "grad_norm": 2.0360734462738037,
      "learning_rate": 0.00013082462769504336,
      "loss": 2.4704,
      "step": 15571
    },
    {
      "epoch": 0.34604444444444443,
      "grad_norm": 1.096136450767517,
      "learning_rate": 0.00013082018226272507,
      "loss": 1.3616,
      "step": 15572
    },
    {
      "epoch": 0.3460666666666667,
      "grad_norm": 1.4329349994659424,
      "learning_rate": 0.00013081573683040675,
      "loss": 2.4092,
      "step": 15573
    },
    {
      "epoch": 0.3460888888888889,
      "grad_norm": 1.2922219038009644,
      "learning_rate": 0.00013081129139808848,
      "loss": 1.7371,
      "step": 15574
    },
    {
      "epoch": 0.3461111111111111,
      "grad_norm": 1.3833361864089966,
      "learning_rate": 0.00013080684596577017,
      "loss": 1.9129,
      "step": 15575
    },
    {
      "epoch": 0.34613333333333335,
      "grad_norm": 1.334918737411499,
      "learning_rate": 0.00013080240053345188,
      "loss": 1.8805,
      "step": 15576
    },
    {
      "epoch": 0.34615555555555555,
      "grad_norm": 1.4244855642318726,
      "learning_rate": 0.00013079795510113359,
      "loss": 2.0629,
      "step": 15577
    },
    {
      "epoch": 0.34617777777777775,
      "grad_norm": 1.5104286670684814,
      "learning_rate": 0.0001307935096688153,
      "loss": 2.0836,
      "step": 15578
    },
    {
      "epoch": 0.3462,
      "grad_norm": 1.5046048164367676,
      "learning_rate": 0.000130789064236497,
      "loss": 2.0314,
      "step": 15579
    },
    {
      "epoch": 0.3462222222222222,
      "grad_norm": 1.9361858367919922,
      "learning_rate": 0.00013078461880417872,
      "loss": 2.7293,
      "step": 15580
    },
    {
      "epoch": 0.34624444444444447,
      "grad_norm": 1.530609369277954,
      "learning_rate": 0.00013078017337186042,
      "loss": 1.9703,
      "step": 15581
    },
    {
      "epoch": 0.34626666666666667,
      "grad_norm": 2.492852210998535,
      "learning_rate": 0.00013077572793954213,
      "loss": 2.6177,
      "step": 15582
    },
    {
      "epoch": 0.34628888888888887,
      "grad_norm": 1.6301599740982056,
      "learning_rate": 0.00013077128250722384,
      "loss": 1.5512,
      "step": 15583
    },
    {
      "epoch": 0.3463111111111111,
      "grad_norm": 1.74094820022583,
      "learning_rate": 0.00013076683707490553,
      "loss": 2.3181,
      "step": 15584
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 1.544996976852417,
      "learning_rate": 0.00013076239164258726,
      "loss": 1.5473,
      "step": 15585
    },
    {
      "epoch": 0.3463555555555556,
      "grad_norm": 1.499658465385437,
      "learning_rate": 0.00013075794621026895,
      "loss": 1.7191,
      "step": 15586
    },
    {
      "epoch": 0.3463777777777778,
      "grad_norm": 1.6966266632080078,
      "learning_rate": 0.00013075350077795066,
      "loss": 1.8322,
      "step": 15587
    },
    {
      "epoch": 0.3464,
      "grad_norm": 1.4492298364639282,
      "learning_rate": 0.00013074905534563237,
      "loss": 2.0359,
      "step": 15588
    },
    {
      "epoch": 0.34642222222222224,
      "grad_norm": 1.7011735439300537,
      "learning_rate": 0.00013074460991331407,
      "loss": 1.9485,
      "step": 15589
    },
    {
      "epoch": 0.34644444444444444,
      "grad_norm": 1.3476471900939941,
      "learning_rate": 0.00013074016448099578,
      "loss": 1.5277,
      "step": 15590
    },
    {
      "epoch": 0.34646666666666665,
      "grad_norm": 1.1711914539337158,
      "learning_rate": 0.0001307357190486775,
      "loss": 0.8685,
      "step": 15591
    },
    {
      "epoch": 0.3464888888888889,
      "grad_norm": 1.8946986198425293,
      "learning_rate": 0.0001307312736163592,
      "loss": 2.1315,
      "step": 15592
    },
    {
      "epoch": 0.3465111111111111,
      "grad_norm": 2.0652472972869873,
      "learning_rate": 0.00013072682818404089,
      "loss": 2.211,
      "step": 15593
    },
    {
      "epoch": 0.34653333333333336,
      "grad_norm": 1.6895626783370972,
      "learning_rate": 0.00013072238275172262,
      "loss": 2.2172,
      "step": 15594
    },
    {
      "epoch": 0.34655555555555556,
      "grad_norm": 1.723397135734558,
      "learning_rate": 0.0001307179373194043,
      "loss": 1.9512,
      "step": 15595
    },
    {
      "epoch": 0.34657777777777776,
      "grad_norm": 1.4570341110229492,
      "learning_rate": 0.00013071349188708601,
      "loss": 1.6259,
      "step": 15596
    },
    {
      "epoch": 0.3466,
      "grad_norm": 1.912484884262085,
      "learning_rate": 0.00013070904645476772,
      "loss": 1.4686,
      "step": 15597
    },
    {
      "epoch": 0.3466222222222222,
      "grad_norm": 1.7898732423782349,
      "learning_rate": 0.00013070460102244943,
      "loss": 1.6903,
      "step": 15598
    },
    {
      "epoch": 0.3466444444444444,
      "grad_norm": 1.4572649002075195,
      "learning_rate": 0.00013070015559013114,
      "loss": 1.4262,
      "step": 15599
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 1.8700722455978394,
      "learning_rate": 0.00013069571015781285,
      "loss": 1.8011,
      "step": 15600
    },
    {
      "epoch": 0.3466888888888889,
      "grad_norm": 0.8656306862831116,
      "learning_rate": 0.00013069126472549456,
      "loss": 1.2319,
      "step": 15601
    },
    {
      "epoch": 0.34671111111111114,
      "grad_norm": 1.4807312488555908,
      "learning_rate": 0.00013068681929317627,
      "loss": 2.3545,
      "step": 15602
    },
    {
      "epoch": 0.34673333333333334,
      "grad_norm": 1.1805191040039062,
      "learning_rate": 0.00013068237386085798,
      "loss": 2.6737,
      "step": 15603
    },
    {
      "epoch": 0.34675555555555554,
      "grad_norm": 1.007204532623291,
      "learning_rate": 0.00013067792842853966,
      "loss": 1.3538,
      "step": 15604
    },
    {
      "epoch": 0.3467777777777778,
      "grad_norm": 1.2619848251342773,
      "learning_rate": 0.0001306734829962214,
      "loss": 1.7872,
      "step": 15605
    },
    {
      "epoch": 0.3468,
      "grad_norm": 1.4510668516159058,
      "learning_rate": 0.00013066903756390308,
      "loss": 2.2621,
      "step": 15606
    },
    {
      "epoch": 0.3468222222222222,
      "grad_norm": 1.4522076845169067,
      "learning_rate": 0.0001306645921315848,
      "loss": 2.1434,
      "step": 15607
    },
    {
      "epoch": 0.34684444444444446,
      "grad_norm": 1.5417094230651855,
      "learning_rate": 0.00013066014669926653,
      "loss": 2.2064,
      "step": 15608
    },
    {
      "epoch": 0.34686666666666666,
      "grad_norm": 1.757676124572754,
      "learning_rate": 0.0001306557012669482,
      "loss": 2.574,
      "step": 15609
    },
    {
      "epoch": 0.3468888888888889,
      "grad_norm": 1.3113802671432495,
      "learning_rate": 0.00013065125583462992,
      "loss": 2.2133,
      "step": 15610
    },
    {
      "epoch": 0.3469111111111111,
      "grad_norm": 1.3638389110565186,
      "learning_rate": 0.00013064681040231163,
      "loss": 2.3621,
      "step": 15611
    },
    {
      "epoch": 0.3469333333333333,
      "grad_norm": 1.1998589038848877,
      "learning_rate": 0.00013064236496999334,
      "loss": 1.4868,
      "step": 15612
    },
    {
      "epoch": 0.3469555555555556,
      "grad_norm": 1.4681278467178345,
      "learning_rate": 0.00013063791953767502,
      "loss": 1.7049,
      "step": 15613
    },
    {
      "epoch": 0.3469777777777778,
      "grad_norm": 1.3825820684432983,
      "learning_rate": 0.00013063347410535676,
      "loss": 1.8264,
      "step": 15614
    },
    {
      "epoch": 0.347,
      "grad_norm": 1.6990041732788086,
      "learning_rate": 0.00013062902867303844,
      "loss": 1.8793,
      "step": 15615
    },
    {
      "epoch": 0.34702222222222223,
      "grad_norm": 1.5710238218307495,
      "learning_rate": 0.00013062458324072015,
      "loss": 2.3841,
      "step": 15616
    },
    {
      "epoch": 0.34704444444444443,
      "grad_norm": 1.424896240234375,
      "learning_rate": 0.0001306201378084019,
      "loss": 2.0264,
      "step": 15617
    },
    {
      "epoch": 0.3470666666666667,
      "grad_norm": 1.9082458019256592,
      "learning_rate": 0.00013061569237608357,
      "loss": 1.9639,
      "step": 15618
    },
    {
      "epoch": 0.3470888888888889,
      "grad_norm": 1.4163426160812378,
      "learning_rate": 0.0001306112469437653,
      "loss": 1.6561,
      "step": 15619
    },
    {
      "epoch": 0.3471111111111111,
      "grad_norm": 1.4898256063461304,
      "learning_rate": 0.000130606801511447,
      "loss": 1.7173,
      "step": 15620
    },
    {
      "epoch": 0.34713333333333335,
      "grad_norm": 1.6582248210906982,
      "learning_rate": 0.0001306023560791287,
      "loss": 1.5454,
      "step": 15621
    },
    {
      "epoch": 0.34715555555555555,
      "grad_norm": 1.6487046480178833,
      "learning_rate": 0.0001305979106468104,
      "loss": 2.1247,
      "step": 15622
    },
    {
      "epoch": 0.34717777777777775,
      "grad_norm": 1.4563626050949097,
      "learning_rate": 0.00013059346521449212,
      "loss": 1.8515,
      "step": 15623
    },
    {
      "epoch": 0.3472,
      "grad_norm": 1.4904628992080688,
      "learning_rate": 0.0001305890197821738,
      "loss": 2.3908,
      "step": 15624
    },
    {
      "epoch": 0.3472222222222222,
      "grad_norm": 1.5586483478546143,
      "learning_rate": 0.00013058457434985554,
      "loss": 2.3593,
      "step": 15625
    },
    {
      "epoch": 0.34724444444444447,
      "grad_norm": 1.4789046049118042,
      "learning_rate": 0.00013058012891753725,
      "loss": 1.6082,
      "step": 15626
    },
    {
      "epoch": 0.34726666666666667,
      "grad_norm": 1.705091118812561,
      "learning_rate": 0.00013057568348521893,
      "loss": 2.202,
      "step": 15627
    },
    {
      "epoch": 0.34728888888888887,
      "grad_norm": 1.62541663646698,
      "learning_rate": 0.00013057123805290067,
      "loss": 1.8182,
      "step": 15628
    },
    {
      "epoch": 0.3473111111111111,
      "grad_norm": 2.2038819789886475,
      "learning_rate": 0.00013056679262058235,
      "loss": 1.9459,
      "step": 15629
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 1.5667314529418945,
      "learning_rate": 0.00013056234718826406,
      "loss": 2.3892,
      "step": 15630
    },
    {
      "epoch": 0.34735555555555553,
      "grad_norm": 1.8409130573272705,
      "learning_rate": 0.00013055790175594577,
      "loss": 1.8323,
      "step": 15631
    },
    {
      "epoch": 0.3473777777777778,
      "grad_norm": 1.8006012439727783,
      "learning_rate": 0.00013055345632362748,
      "loss": 2.2109,
      "step": 15632
    },
    {
      "epoch": 0.3474,
      "grad_norm": 1.1261177062988281,
      "learning_rate": 0.00013054901089130916,
      "loss": 1.2895,
      "step": 15633
    },
    {
      "epoch": 0.34742222222222224,
      "grad_norm": 1.4305355548858643,
      "learning_rate": 0.0001305445654589909,
      "loss": 1.3902,
      "step": 15634
    },
    {
      "epoch": 0.34744444444444444,
      "grad_norm": 1.449440836906433,
      "learning_rate": 0.0001305401200266726,
      "loss": 1.8922,
      "step": 15635
    },
    {
      "epoch": 0.34746666666666665,
      "grad_norm": 1.540305733680725,
      "learning_rate": 0.00013053567459435432,
      "loss": 1.8195,
      "step": 15636
    },
    {
      "epoch": 0.3474888888888889,
      "grad_norm": 1.3052072525024414,
      "learning_rate": 0.00013053122916203603,
      "loss": 0.9213,
      "step": 15637
    },
    {
      "epoch": 0.3475111111111111,
      "grad_norm": 1.459110140800476,
      "learning_rate": 0.0001305267837297177,
      "loss": 1.5727,
      "step": 15638
    },
    {
      "epoch": 0.34753333333333336,
      "grad_norm": 1.7413560152053833,
      "learning_rate": 0.00013052233829739945,
      "loss": 1.7262,
      "step": 15639
    },
    {
      "epoch": 0.34755555555555556,
      "grad_norm": 1.52206552028656,
      "learning_rate": 0.00013051789286508113,
      "loss": 1.866,
      "step": 15640
    },
    {
      "epoch": 0.34757777777777776,
      "grad_norm": 1.345310926437378,
      "learning_rate": 0.00013051344743276284,
      "loss": 1.5148,
      "step": 15641
    },
    {
      "epoch": 0.3476,
      "grad_norm": 1.4517594575881958,
      "learning_rate": 0.00013050900200044455,
      "loss": 1.4895,
      "step": 15642
    },
    {
      "epoch": 0.3476222222222222,
      "grad_norm": 1.3000577688217163,
      "learning_rate": 0.00013050455656812626,
      "loss": 1.4603,
      "step": 15643
    },
    {
      "epoch": 0.3476444444444444,
      "grad_norm": 1.8963592052459717,
      "learning_rate": 0.00013050011113580797,
      "loss": 2.1085,
      "step": 15644
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 1.610884189605713,
      "learning_rate": 0.00013049566570348968,
      "loss": 1.6714,
      "step": 15645
    },
    {
      "epoch": 0.3476888888888889,
      "grad_norm": 1.9449964761734009,
      "learning_rate": 0.0001304912202711714,
      "loss": 1.8426,
      "step": 15646
    },
    {
      "epoch": 0.34771111111111114,
      "grad_norm": 1.498478651046753,
      "learning_rate": 0.00013048677483885307,
      "loss": 1.7539,
      "step": 15647
    },
    {
      "epoch": 0.34773333333333334,
      "grad_norm": 0.239447221159935,
      "learning_rate": 0.0001304823294065348,
      "loss": 0.0395,
      "step": 15648
    },
    {
      "epoch": 0.34775555555555554,
      "grad_norm": 1.99321448802948,
      "learning_rate": 0.0001304778839742165,
      "loss": 1.7649,
      "step": 15649
    },
    {
      "epoch": 0.3477777777777778,
      "grad_norm": 2.2507808208465576,
      "learning_rate": 0.0001304734385418982,
      "loss": 2.2116,
      "step": 15650
    },
    {
      "epoch": 0.3478,
      "grad_norm": 1.610083818435669,
      "learning_rate": 0.0001304689931095799,
      "loss": 1.9721,
      "step": 15651
    },
    {
      "epoch": 0.3478222222222222,
      "grad_norm": 1.0235905647277832,
      "learning_rate": 0.00013046454767726162,
      "loss": 1.4053,
      "step": 15652
    },
    {
      "epoch": 0.34784444444444446,
      "grad_norm": 0.9092604517936707,
      "learning_rate": 0.00013046010224494333,
      "loss": 1.205,
      "step": 15653
    },
    {
      "epoch": 0.34786666666666666,
      "grad_norm": 1.4614067077636719,
      "learning_rate": 0.00013045565681262504,
      "loss": 2.0763,
      "step": 15654
    },
    {
      "epoch": 0.3478888888888889,
      "grad_norm": 1.4477307796478271,
      "learning_rate": 0.00013045121138030675,
      "loss": 2.5604,
      "step": 15655
    },
    {
      "epoch": 0.3479111111111111,
      "grad_norm": 1.3873779773712158,
      "learning_rate": 0.00013044676594798846,
      "loss": 2.1331,
      "step": 15656
    },
    {
      "epoch": 0.3479333333333333,
      "grad_norm": 1.6536028385162354,
      "learning_rate": 0.00013044232051567017,
      "loss": 2.3285,
      "step": 15657
    },
    {
      "epoch": 0.3479555555555556,
      "grad_norm": 1.5419470071792603,
      "learning_rate": 0.00013043787508335185,
      "loss": 1.4802,
      "step": 15658
    },
    {
      "epoch": 0.3479777777777778,
      "grad_norm": 1.276328206062317,
      "learning_rate": 0.00013043342965103359,
      "loss": 1.9771,
      "step": 15659
    },
    {
      "epoch": 0.348,
      "grad_norm": 1.360701560974121,
      "learning_rate": 0.00013042898421871527,
      "loss": 1.854,
      "step": 15660
    },
    {
      "epoch": 0.34802222222222223,
      "grad_norm": 1.5164897441864014,
      "learning_rate": 0.00013042453878639698,
      "loss": 2.3973,
      "step": 15661
    },
    {
      "epoch": 0.34804444444444443,
      "grad_norm": 1.610374927520752,
      "learning_rate": 0.0001304200933540787,
      "loss": 2.0832,
      "step": 15662
    },
    {
      "epoch": 0.3480666666666667,
      "grad_norm": 1.472710132598877,
      "learning_rate": 0.0001304156479217604,
      "loss": 1.9243,
      "step": 15663
    },
    {
      "epoch": 0.3480888888888889,
      "grad_norm": 1.6692851781845093,
      "learning_rate": 0.0001304112024894421,
      "loss": 2.2065,
      "step": 15664
    },
    {
      "epoch": 0.3481111111111111,
      "grad_norm": 1.5561832189559937,
      "learning_rate": 0.00013040675705712382,
      "loss": 1.9338,
      "step": 15665
    },
    {
      "epoch": 0.34813333333333335,
      "grad_norm": 1.3481934070587158,
      "learning_rate": 0.00013040231162480553,
      "loss": 1.5682,
      "step": 15666
    },
    {
      "epoch": 0.34815555555555555,
      "grad_norm": 1.4005162715911865,
      "learning_rate": 0.0001303978661924872,
      "loss": 1.5017,
      "step": 15667
    },
    {
      "epoch": 0.34817777777777775,
      "grad_norm": 1.632751703262329,
      "learning_rate": 0.00013039342076016894,
      "loss": 2.4001,
      "step": 15668
    },
    {
      "epoch": 0.3482,
      "grad_norm": 1.6741374731063843,
      "learning_rate": 0.00013038897532785063,
      "loss": 2.2141,
      "step": 15669
    },
    {
      "epoch": 0.3482222222222222,
      "grad_norm": 1.6286916732788086,
      "learning_rate": 0.00013038452989553234,
      "loss": 1.924,
      "step": 15670
    },
    {
      "epoch": 0.34824444444444447,
      "grad_norm": 1.5523234605789185,
      "learning_rate": 0.00013038008446321405,
      "loss": 2.1384,
      "step": 15671
    },
    {
      "epoch": 0.34826666666666667,
      "grad_norm": 1.813240885734558,
      "learning_rate": 0.00013037563903089576,
      "loss": 2.2356,
      "step": 15672
    },
    {
      "epoch": 0.34828888888888887,
      "grad_norm": 1.5010334253311157,
      "learning_rate": 0.00013037119359857747,
      "loss": 1.9152,
      "step": 15673
    },
    {
      "epoch": 0.3483111111111111,
      "grad_norm": 2.059218406677246,
      "learning_rate": 0.00013036674816625918,
      "loss": 1.8947,
      "step": 15674
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 1.4828346967697144,
      "learning_rate": 0.00013036230273394089,
      "loss": 2.0634,
      "step": 15675
    },
    {
      "epoch": 0.34835555555555553,
      "grad_norm": 1.8126929998397827,
      "learning_rate": 0.0001303578573016226,
      "loss": 1.8338,
      "step": 15676
    },
    {
      "epoch": 0.3483777777777778,
      "grad_norm": 1.7933223247528076,
      "learning_rate": 0.0001303534118693043,
      "loss": 2.1548,
      "step": 15677
    },
    {
      "epoch": 0.3484,
      "grad_norm": 1.4202806949615479,
      "learning_rate": 0.000130348966436986,
      "loss": 1.8257,
      "step": 15678
    },
    {
      "epoch": 0.34842222222222224,
      "grad_norm": 1.6606395244598389,
      "learning_rate": 0.00013034452100466772,
      "loss": 1.9018,
      "step": 15679
    },
    {
      "epoch": 0.34844444444444445,
      "grad_norm": 1.6207901239395142,
      "learning_rate": 0.0001303400755723494,
      "loss": 2.0086,
      "step": 15680
    },
    {
      "epoch": 0.34846666666666665,
      "grad_norm": 1.7166138887405396,
      "learning_rate": 0.00013033563014003112,
      "loss": 2.1369,
      "step": 15681
    },
    {
      "epoch": 0.3484888888888889,
      "grad_norm": 1.5710690021514893,
      "learning_rate": 0.00013033118470771285,
      "loss": 1.7121,
      "step": 15682
    },
    {
      "epoch": 0.3485111111111111,
      "grad_norm": 1.937644124031067,
      "learning_rate": 0.00013032673927539453,
      "loss": 1.8585,
      "step": 15683
    },
    {
      "epoch": 0.3485333333333333,
      "grad_norm": 1.2768057584762573,
      "learning_rate": 0.00013032229384307624,
      "loss": 1.3124,
      "step": 15684
    },
    {
      "epoch": 0.34855555555555556,
      "grad_norm": 1.7628569602966309,
      "learning_rate": 0.00013031784841075795,
      "loss": 2.1125,
      "step": 15685
    },
    {
      "epoch": 0.34857777777777776,
      "grad_norm": 1.328129768371582,
      "learning_rate": 0.00013031340297843966,
      "loss": 1.7385,
      "step": 15686
    },
    {
      "epoch": 0.3486,
      "grad_norm": 1.843656063079834,
      "learning_rate": 0.00013030895754612135,
      "loss": 1.8906,
      "step": 15687
    },
    {
      "epoch": 0.3486222222222222,
      "grad_norm": 1.6289448738098145,
      "learning_rate": 0.00013030451211380308,
      "loss": 1.4937,
      "step": 15688
    },
    {
      "epoch": 0.3486444444444444,
      "grad_norm": 1.7689025402069092,
      "learning_rate": 0.00013030006668148477,
      "loss": 2.0791,
      "step": 15689
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 1.6849637031555176,
      "learning_rate": 0.00013029562124916648,
      "loss": 2.4837,
      "step": 15690
    },
    {
      "epoch": 0.3486888888888889,
      "grad_norm": 1.9779471158981323,
      "learning_rate": 0.0001302911758168482,
      "loss": 1.9673,
      "step": 15691
    },
    {
      "epoch": 0.34871111111111114,
      "grad_norm": 1.8004342317581177,
      "learning_rate": 0.0001302867303845299,
      "loss": 2.0546,
      "step": 15692
    },
    {
      "epoch": 0.34873333333333334,
      "grad_norm": 1.9621020555496216,
      "learning_rate": 0.00013028228495221163,
      "loss": 1.5375,
      "step": 15693
    },
    {
      "epoch": 0.34875555555555554,
      "grad_norm": 1.822405457496643,
      "learning_rate": 0.00013027783951989331,
      "loss": 2.0811,
      "step": 15694
    },
    {
      "epoch": 0.3487777777777778,
      "grad_norm": 1.4619463682174683,
      "learning_rate": 0.00013027339408757502,
      "loss": 1.4026,
      "step": 15695
    },
    {
      "epoch": 0.3488,
      "grad_norm": 1.613123893737793,
      "learning_rate": 0.00013026894865525673,
      "loss": 1.8862,
      "step": 15696
    },
    {
      "epoch": 0.3488222222222222,
      "grad_norm": 1.6743910312652588,
      "learning_rate": 0.00013026450322293844,
      "loss": 1.9011,
      "step": 15697
    },
    {
      "epoch": 0.34884444444444446,
      "grad_norm": 1.5194824934005737,
      "learning_rate": 0.00013026005779062012,
      "loss": 1.4151,
      "step": 15698
    },
    {
      "epoch": 0.34886666666666666,
      "grad_norm": 2.593392848968506,
      "learning_rate": 0.00013025561235830186,
      "loss": 1.736,
      "step": 15699
    },
    {
      "epoch": 0.3488888888888889,
      "grad_norm": 1.535241961479187,
      "learning_rate": 0.00013025116692598357,
      "loss": 1.0047,
      "step": 15700
    },
    {
      "epoch": 0.3489111111111111,
      "grad_norm": 1.4586848020553589,
      "learning_rate": 0.00013024672149366525,
      "loss": 2.0507,
      "step": 15701
    },
    {
      "epoch": 0.3489333333333333,
      "grad_norm": 0.990474283695221,
      "learning_rate": 0.000130242276061347,
      "loss": 1.1779,
      "step": 15702
    },
    {
      "epoch": 0.3489555555555556,
      "grad_norm": 0.9068630337715149,
      "learning_rate": 0.00013023783062902867,
      "loss": 1.2071,
      "step": 15703
    },
    {
      "epoch": 0.3489777777777778,
      "grad_norm": 1.5112396478652954,
      "learning_rate": 0.00013023338519671038,
      "loss": 2.628,
      "step": 15704
    },
    {
      "epoch": 0.349,
      "grad_norm": 1.6843242645263672,
      "learning_rate": 0.0001302289397643921,
      "loss": 3.1346,
      "step": 15705
    },
    {
      "epoch": 0.34902222222222223,
      "grad_norm": 1.4984104633331299,
      "learning_rate": 0.0001302244943320738,
      "loss": 2.326,
      "step": 15706
    },
    {
      "epoch": 0.34904444444444443,
      "grad_norm": 1.441857099533081,
      "learning_rate": 0.00013022004889975548,
      "loss": 2.0519,
      "step": 15707
    },
    {
      "epoch": 0.3490666666666667,
      "grad_norm": 1.3856818675994873,
      "learning_rate": 0.00013021560346743722,
      "loss": 1.8757,
      "step": 15708
    },
    {
      "epoch": 0.3490888888888889,
      "grad_norm": 1.4115185737609863,
      "learning_rate": 0.00013021115803511893,
      "loss": 2.0519,
      "step": 15709
    },
    {
      "epoch": 0.3491111111111111,
      "grad_norm": 1.4723361730575562,
      "learning_rate": 0.0001302067126028006,
      "loss": 1.9529,
      "step": 15710
    },
    {
      "epoch": 0.34913333333333335,
      "grad_norm": 1.2995145320892334,
      "learning_rate": 0.00013020226717048235,
      "loss": 2.1985,
      "step": 15711
    },
    {
      "epoch": 0.34915555555555555,
      "grad_norm": 1.4347037076950073,
      "learning_rate": 0.00013019782173816403,
      "loss": 2.5387,
      "step": 15712
    },
    {
      "epoch": 0.34917777777777775,
      "grad_norm": 1.4077624082565308,
      "learning_rate": 0.00013019337630584577,
      "loss": 1.5715,
      "step": 15713
    },
    {
      "epoch": 0.3492,
      "grad_norm": 1.5878829956054688,
      "learning_rate": 0.00013018893087352745,
      "loss": 1.7207,
      "step": 15714
    },
    {
      "epoch": 0.3492222222222222,
      "grad_norm": 1.6135375499725342,
      "learning_rate": 0.00013018448544120916,
      "loss": 1.6737,
      "step": 15715
    },
    {
      "epoch": 0.34924444444444447,
      "grad_norm": 1.3603358268737793,
      "learning_rate": 0.00013018004000889087,
      "loss": 1.4281,
      "step": 15716
    },
    {
      "epoch": 0.34926666666666667,
      "grad_norm": 1.5495797395706177,
      "learning_rate": 0.00013017559457657258,
      "loss": 2.3127,
      "step": 15717
    },
    {
      "epoch": 0.34928888888888887,
      "grad_norm": 1.5051943063735962,
      "learning_rate": 0.0001301711491442543,
      "loss": 1.8405,
      "step": 15718
    },
    {
      "epoch": 0.34931111111111113,
      "grad_norm": 1.0874313116073608,
      "learning_rate": 0.000130166703711936,
      "loss": 1.0274,
      "step": 15719
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 1.4050520658493042,
      "learning_rate": 0.0001301622582796177,
      "loss": 2.1215,
      "step": 15720
    },
    {
      "epoch": 0.34935555555555553,
      "grad_norm": 1.029813289642334,
      "learning_rate": 0.0001301578128472994,
      "loss": 1.049,
      "step": 15721
    },
    {
      "epoch": 0.3493777777777778,
      "grad_norm": 1.586372971534729,
      "learning_rate": 0.00013015336741498113,
      "loss": 1.9184,
      "step": 15722
    },
    {
      "epoch": 0.3494,
      "grad_norm": 1.620758295059204,
      "learning_rate": 0.0001301489219826628,
      "loss": 1.8188,
      "step": 15723
    },
    {
      "epoch": 0.34942222222222225,
      "grad_norm": 1.6894617080688477,
      "learning_rate": 0.00013014447655034452,
      "loss": 2.2945,
      "step": 15724
    },
    {
      "epoch": 0.34944444444444445,
      "grad_norm": 1.499011516571045,
      "learning_rate": 0.00013014003111802623,
      "loss": 2.0652,
      "step": 15725
    },
    {
      "epoch": 0.34946666666666665,
      "grad_norm": 1.1324806213378906,
      "learning_rate": 0.00013013558568570794,
      "loss": 1.461,
      "step": 15726
    },
    {
      "epoch": 0.3494888888888889,
      "grad_norm": 1.7545541524887085,
      "learning_rate": 0.00013013114025338965,
      "loss": 2.4139,
      "step": 15727
    },
    {
      "epoch": 0.3495111111111111,
      "grad_norm": 1.2777897119522095,
      "learning_rate": 0.00013012669482107136,
      "loss": 1.4951,
      "step": 15728
    },
    {
      "epoch": 0.3495333333333333,
      "grad_norm": 1.5960325002670288,
      "learning_rate": 0.00013012224938875307,
      "loss": 2.0015,
      "step": 15729
    },
    {
      "epoch": 0.34955555555555556,
      "grad_norm": 1.8255404233932495,
      "learning_rate": 0.00013011780395643478,
      "loss": 2.2979,
      "step": 15730
    },
    {
      "epoch": 0.34957777777777777,
      "grad_norm": 1.6241540908813477,
      "learning_rate": 0.0001301133585241165,
      "loss": 2.0766,
      "step": 15731
    },
    {
      "epoch": 0.3496,
      "grad_norm": 1.4038972854614258,
      "learning_rate": 0.00013010891309179817,
      "loss": 2.0446,
      "step": 15732
    },
    {
      "epoch": 0.3496222222222222,
      "grad_norm": 1.7271380424499512,
      "learning_rate": 0.0001301044676594799,
      "loss": 2.4816,
      "step": 15733
    },
    {
      "epoch": 0.3496444444444444,
      "grad_norm": 1.1570179462432861,
      "learning_rate": 0.0001301000222271616,
      "loss": 1.03,
      "step": 15734
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 1.342219352722168,
      "learning_rate": 0.0001300955767948433,
      "loss": 1.6418,
      "step": 15735
    },
    {
      "epoch": 0.3496888888888889,
      "grad_norm": 1.4979268312454224,
      "learning_rate": 0.000130091131362525,
      "loss": 2.0515,
      "step": 15736
    },
    {
      "epoch": 0.3497111111111111,
      "grad_norm": 1.9072250127792358,
      "learning_rate": 0.00013008668593020672,
      "loss": 2.1123,
      "step": 15737
    },
    {
      "epoch": 0.34973333333333334,
      "grad_norm": 1.1580511331558228,
      "learning_rate": 0.00013008224049788843,
      "loss": 0.7758,
      "step": 15738
    },
    {
      "epoch": 0.34975555555555554,
      "grad_norm": 1.6836531162261963,
      "learning_rate": 0.00013007779506557014,
      "loss": 1.8781,
      "step": 15739
    },
    {
      "epoch": 0.3497777777777778,
      "grad_norm": 1.3739783763885498,
      "learning_rate": 0.00013007334963325185,
      "loss": 1.41,
      "step": 15740
    },
    {
      "epoch": 0.3498,
      "grad_norm": 1.6597939729690552,
      "learning_rate": 0.00013006890420093353,
      "loss": 1.9324,
      "step": 15741
    },
    {
      "epoch": 0.3498222222222222,
      "grad_norm": 1.8597972393035889,
      "learning_rate": 0.00013006445876861527,
      "loss": 2.0129,
      "step": 15742
    },
    {
      "epoch": 0.34984444444444446,
      "grad_norm": 1.9036771059036255,
      "learning_rate": 0.00013006001333629695,
      "loss": 1.5136,
      "step": 15743
    },
    {
      "epoch": 0.34986666666666666,
      "grad_norm": 1.6731504201889038,
      "learning_rate": 0.00013005556790397866,
      "loss": 1.89,
      "step": 15744
    },
    {
      "epoch": 0.3498888888888889,
      "grad_norm": 1.6564337015151978,
      "learning_rate": 0.00013005112247166037,
      "loss": 2.1832,
      "step": 15745
    },
    {
      "epoch": 0.3499111111111111,
      "grad_norm": 1.4136261940002441,
      "learning_rate": 0.00013004667703934208,
      "loss": 1.6238,
      "step": 15746
    },
    {
      "epoch": 0.3499333333333333,
      "grad_norm": 1.5495491027832031,
      "learning_rate": 0.0001300422316070238,
      "loss": 1.7333,
      "step": 15747
    },
    {
      "epoch": 0.3499555555555556,
      "grad_norm": 1.771929383277893,
      "learning_rate": 0.0001300377861747055,
      "loss": 1.7553,
      "step": 15748
    },
    {
      "epoch": 0.3499777777777778,
      "grad_norm": 1.9293848276138306,
      "learning_rate": 0.0001300333407423872,
      "loss": 1.7812,
      "step": 15749
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.085475206375122,
      "learning_rate": 0.00013002889531006892,
      "loss": 0.7223,
      "step": 15750
    },
    {
      "epoch": 0.35002222222222223,
      "grad_norm": 1.353654146194458,
      "learning_rate": 0.00013002444987775063,
      "loss": 1.3895,
      "step": 15751
    },
    {
      "epoch": 0.35004444444444444,
      "grad_norm": 1.4633636474609375,
      "learning_rate": 0.0001300200044454323,
      "loss": 2.3199,
      "step": 15752
    },
    {
      "epoch": 0.3500666666666667,
      "grad_norm": 1.8378071784973145,
      "learning_rate": 0.00013001555901311405,
      "loss": 1.4662,
      "step": 15753
    },
    {
      "epoch": 0.3500888888888889,
      "grad_norm": 1.3315999507904053,
      "learning_rate": 0.00013001111358079573,
      "loss": 2.3064,
      "step": 15754
    },
    {
      "epoch": 0.3501111111111111,
      "grad_norm": 1.4715957641601562,
      "learning_rate": 0.00013000666814847744,
      "loss": 2.0001,
      "step": 15755
    },
    {
      "epoch": 0.35013333333333335,
      "grad_norm": 1.6135505437850952,
      "learning_rate": 0.00013000222271615917,
      "loss": 2.1127,
      "step": 15756
    },
    {
      "epoch": 0.35015555555555555,
      "grad_norm": 1.4969409704208374,
      "learning_rate": 0.00012999777728384086,
      "loss": 2.384,
      "step": 15757
    },
    {
      "epoch": 0.35017777777777775,
      "grad_norm": 1.5133980512619019,
      "learning_rate": 0.00012999333185152257,
      "loss": 2.3608,
      "step": 15758
    },
    {
      "epoch": 0.3502,
      "grad_norm": 1.6845709085464478,
      "learning_rate": 0.00012998888641920428,
      "loss": 2.8243,
      "step": 15759
    },
    {
      "epoch": 0.3502222222222222,
      "grad_norm": 1.265735387802124,
      "learning_rate": 0.00012998444098688599,
      "loss": 2.4304,
      "step": 15760
    },
    {
      "epoch": 0.35024444444444447,
      "grad_norm": 1.3283993005752563,
      "learning_rate": 0.00012997999555456767,
      "loss": 1.9869,
      "step": 15761
    },
    {
      "epoch": 0.35026666666666667,
      "grad_norm": 1.378953218460083,
      "learning_rate": 0.0001299755501222494,
      "loss": 2.1093,
      "step": 15762
    },
    {
      "epoch": 0.35028888888888887,
      "grad_norm": 1.7548801898956299,
      "learning_rate": 0.0001299711046899311,
      "loss": 2.3074,
      "step": 15763
    },
    {
      "epoch": 0.35031111111111113,
      "grad_norm": 1.3822048902511597,
      "learning_rate": 0.0001299666592576128,
      "loss": 2.1811,
      "step": 15764
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 1.5627809762954712,
      "learning_rate": 0.00012996221382529453,
      "loss": 1.9534,
      "step": 15765
    },
    {
      "epoch": 0.35035555555555553,
      "grad_norm": 1.6937979459762573,
      "learning_rate": 0.00012995776839297622,
      "loss": 1.9407,
      "step": 15766
    },
    {
      "epoch": 0.3503777777777778,
      "grad_norm": 1.4897327423095703,
      "learning_rate": 0.00012995332296065793,
      "loss": 2.0126,
      "step": 15767
    },
    {
      "epoch": 0.3504,
      "grad_norm": 1.4862473011016846,
      "learning_rate": 0.00012994887752833964,
      "loss": 2.3267,
      "step": 15768
    },
    {
      "epoch": 0.35042222222222225,
      "grad_norm": 2.033482789993286,
      "learning_rate": 0.00012994443209602135,
      "loss": 2.3308,
      "step": 15769
    },
    {
      "epoch": 0.35044444444444445,
      "grad_norm": 1.5665234327316284,
      "learning_rate": 0.00012993998666370305,
      "loss": 1.7244,
      "step": 15770
    },
    {
      "epoch": 0.35046666666666665,
      "grad_norm": 1.5059244632720947,
      "learning_rate": 0.00012993554123138476,
      "loss": 1.9254,
      "step": 15771
    },
    {
      "epoch": 0.3504888888888889,
      "grad_norm": 1.4313081502914429,
      "learning_rate": 0.00012993109579906645,
      "loss": 1.877,
      "step": 15772
    },
    {
      "epoch": 0.3505111111111111,
      "grad_norm": 1.6871446371078491,
      "learning_rate": 0.00012992665036674818,
      "loss": 2.1086,
      "step": 15773
    },
    {
      "epoch": 0.3505333333333333,
      "grad_norm": 1.7917953729629517,
      "learning_rate": 0.0001299222049344299,
      "loss": 1.589,
      "step": 15774
    },
    {
      "epoch": 0.35055555555555556,
      "grad_norm": 2.0079870223999023,
      "learning_rate": 0.00012991775950211158,
      "loss": 1.913,
      "step": 15775
    },
    {
      "epoch": 0.35057777777777777,
      "grad_norm": 1.8418670892715454,
      "learning_rate": 0.0001299133140697933,
      "loss": 2.1993,
      "step": 15776
    },
    {
      "epoch": 0.3506,
      "grad_norm": 1.3698763847351074,
      "learning_rate": 0.000129908868637475,
      "loss": 1.5288,
      "step": 15777
    },
    {
      "epoch": 0.3506222222222222,
      "grad_norm": 1.4642049074172974,
      "learning_rate": 0.0001299044232051567,
      "loss": 1.712,
      "step": 15778
    },
    {
      "epoch": 0.3506444444444444,
      "grad_norm": 1.7172178030014038,
      "learning_rate": 0.00012989997777283841,
      "loss": 2.1174,
      "step": 15779
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 1.5045132637023926,
      "learning_rate": 0.00012989553234052012,
      "loss": 2.0164,
      "step": 15780
    },
    {
      "epoch": 0.3506888888888889,
      "grad_norm": 1.8710516691207886,
      "learning_rate": 0.0001298910869082018,
      "loss": 2.2229,
      "step": 15781
    },
    {
      "epoch": 0.3507111111111111,
      "grad_norm": 1.5124752521514893,
      "learning_rate": 0.00012988664147588354,
      "loss": 1.7451,
      "step": 15782
    },
    {
      "epoch": 0.35073333333333334,
      "grad_norm": 1.3124988079071045,
      "learning_rate": 0.00012988219604356525,
      "loss": 0.7332,
      "step": 15783
    },
    {
      "epoch": 0.35075555555555554,
      "grad_norm": 1.5939441919326782,
      "learning_rate": 0.00012987775061124694,
      "loss": 1.9213,
      "step": 15784
    },
    {
      "epoch": 0.3507777777777778,
      "grad_norm": 2.2086539268493652,
      "learning_rate": 0.00012987330517892867,
      "loss": 1.8204,
      "step": 15785
    },
    {
      "epoch": 0.3508,
      "grad_norm": 1.8111728429794312,
      "learning_rate": 0.00012986885974661035,
      "loss": 2.0068,
      "step": 15786
    },
    {
      "epoch": 0.3508222222222222,
      "grad_norm": 1.6984258890151978,
      "learning_rate": 0.0001298644143142921,
      "loss": 2.0556,
      "step": 15787
    },
    {
      "epoch": 0.35084444444444446,
      "grad_norm": 1.6411325931549072,
      "learning_rate": 0.00012985996888197377,
      "loss": 1.8763,
      "step": 15788
    },
    {
      "epoch": 0.35086666666666666,
      "grad_norm": 1.4494863748550415,
      "learning_rate": 0.00012985552344965548,
      "loss": 1.2511,
      "step": 15789
    },
    {
      "epoch": 0.35088888888888886,
      "grad_norm": 1.5939737558364868,
      "learning_rate": 0.0001298510780173372,
      "loss": 1.9473,
      "step": 15790
    },
    {
      "epoch": 0.3509111111111111,
      "grad_norm": 1.6859335899353027,
      "learning_rate": 0.0001298466325850189,
      "loss": 1.4643,
      "step": 15791
    },
    {
      "epoch": 0.3509333333333333,
      "grad_norm": 1.859529972076416,
      "learning_rate": 0.0001298421871527006,
      "loss": 2.2152,
      "step": 15792
    },
    {
      "epoch": 0.3509555555555556,
      "grad_norm": 2.0366554260253906,
      "learning_rate": 0.00012983774172038232,
      "loss": 2.109,
      "step": 15793
    },
    {
      "epoch": 0.3509777777777778,
      "grad_norm": 1.8233487606048584,
      "learning_rate": 0.00012983329628806403,
      "loss": 1.8549,
      "step": 15794
    },
    {
      "epoch": 0.351,
      "grad_norm": 1.5148320198059082,
      "learning_rate": 0.00012982885085574571,
      "loss": 1.5132,
      "step": 15795
    },
    {
      "epoch": 0.35102222222222224,
      "grad_norm": 1.7337381839752197,
      "learning_rate": 0.00012982440542342745,
      "loss": 2.0193,
      "step": 15796
    },
    {
      "epoch": 0.35104444444444444,
      "grad_norm": 1.82491135597229,
      "learning_rate": 0.00012981995999110913,
      "loss": 2.0733,
      "step": 15797
    },
    {
      "epoch": 0.3510666666666667,
      "grad_norm": 2.112734079360962,
      "learning_rate": 0.00012981551455879084,
      "loss": 1.972,
      "step": 15798
    },
    {
      "epoch": 0.3510888888888889,
      "grad_norm": 1.5973522663116455,
      "learning_rate": 0.00012981106912647255,
      "loss": 1.7991,
      "step": 15799
    },
    {
      "epoch": 0.3511111111111111,
      "grad_norm": 1.421222448348999,
      "learning_rate": 0.00012980662369415426,
      "loss": 1.283,
      "step": 15800
    },
    {
      "epoch": 0.35113333333333335,
      "grad_norm": 1.27890944480896,
      "learning_rate": 0.00012980217826183597,
      "loss": 2.8421,
      "step": 15801
    },
    {
      "epoch": 0.35115555555555555,
      "grad_norm": 1.8126790523529053,
      "learning_rate": 0.00012979773282951768,
      "loss": 3.0343,
      "step": 15802
    },
    {
      "epoch": 0.35117777777777776,
      "grad_norm": 1.527708888053894,
      "learning_rate": 0.0001297932873971994,
      "loss": 2.538,
      "step": 15803
    },
    {
      "epoch": 0.3512,
      "grad_norm": 1.372914433479309,
      "learning_rate": 0.00012978884196488107,
      "loss": 2.019,
      "step": 15804
    },
    {
      "epoch": 0.3512222222222222,
      "grad_norm": 2.080749988555908,
      "learning_rate": 0.0001297843965325628,
      "loss": 1.0926,
      "step": 15805
    },
    {
      "epoch": 0.35124444444444447,
      "grad_norm": 1.6690540313720703,
      "learning_rate": 0.0001297799511002445,
      "loss": 2.6308,
      "step": 15806
    },
    {
      "epoch": 0.35126666666666667,
      "grad_norm": 1.4901655912399292,
      "learning_rate": 0.00012977550566792623,
      "loss": 1.914,
      "step": 15807
    },
    {
      "epoch": 0.3512888888888889,
      "grad_norm": 1.5204447507858276,
      "learning_rate": 0.0001297710602356079,
      "loss": 2.2093,
      "step": 15808
    },
    {
      "epoch": 0.35131111111111113,
      "grad_norm": 1.725154161453247,
      "learning_rate": 0.00012976661480328962,
      "loss": 2.1443,
      "step": 15809
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 1.3254667520523071,
      "learning_rate": 0.00012976216937097133,
      "loss": 1.7333,
      "step": 15810
    },
    {
      "epoch": 0.35135555555555553,
      "grad_norm": 1.5410435199737549,
      "learning_rate": 0.00012975772393865304,
      "loss": 2.7132,
      "step": 15811
    },
    {
      "epoch": 0.3513777777777778,
      "grad_norm": 1.47257661819458,
      "learning_rate": 0.00012975327850633475,
      "loss": 2.148,
      "step": 15812
    },
    {
      "epoch": 0.3514,
      "grad_norm": 1.4383941888809204,
      "learning_rate": 0.00012974883307401646,
      "loss": 2.1376,
      "step": 15813
    },
    {
      "epoch": 0.35142222222222225,
      "grad_norm": 1.4579282999038696,
      "learning_rate": 0.00012974438764169817,
      "loss": 2.1441,
      "step": 15814
    },
    {
      "epoch": 0.35144444444444445,
      "grad_norm": 1.7013005018234253,
      "learning_rate": 0.00012973994220937985,
      "loss": 2.35,
      "step": 15815
    },
    {
      "epoch": 0.35146666666666665,
      "grad_norm": 1.2868129014968872,
      "learning_rate": 0.0001297354967770616,
      "loss": 2.2078,
      "step": 15816
    },
    {
      "epoch": 0.3514888888888889,
      "grad_norm": 1.3293461799621582,
      "learning_rate": 0.00012973105134474327,
      "loss": 1.8025,
      "step": 15817
    },
    {
      "epoch": 0.3515111111111111,
      "grad_norm": 1.4315248727798462,
      "learning_rate": 0.00012972660591242498,
      "loss": 1.4104,
      "step": 15818
    },
    {
      "epoch": 0.3515333333333333,
      "grad_norm": 1.1681357622146606,
      "learning_rate": 0.0001297221604801067,
      "loss": 1.1204,
      "step": 15819
    },
    {
      "epoch": 0.35155555555555557,
      "grad_norm": 1.5455529689788818,
      "learning_rate": 0.0001297177150477884,
      "loss": 2.211,
      "step": 15820
    },
    {
      "epoch": 0.35157777777777777,
      "grad_norm": 1.679013729095459,
      "learning_rate": 0.0001297132696154701,
      "loss": 2.1213,
      "step": 15821
    },
    {
      "epoch": 0.3516,
      "grad_norm": 1.376461386680603,
      "learning_rate": 0.00012970882418315182,
      "loss": 1.642,
      "step": 15822
    },
    {
      "epoch": 0.3516222222222222,
      "grad_norm": 1.5306185483932495,
      "learning_rate": 0.00012970437875083353,
      "loss": 2.1493,
      "step": 15823
    },
    {
      "epoch": 0.3516444444444444,
      "grad_norm": 1.6871116161346436,
      "learning_rate": 0.0001296999333185152,
      "loss": 2.2779,
      "step": 15824
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 1.5281225442886353,
      "learning_rate": 0.00012969548788619695,
      "loss": 1.956,
      "step": 15825
    },
    {
      "epoch": 0.3516888888888889,
      "grad_norm": 1.7111860513687134,
      "learning_rate": 0.00012969104245387863,
      "loss": 1.9616,
      "step": 15826
    },
    {
      "epoch": 0.3517111111111111,
      "grad_norm": 1.6810826063156128,
      "learning_rate": 0.00012968659702156037,
      "loss": 2.2665,
      "step": 15827
    },
    {
      "epoch": 0.35173333333333334,
      "grad_norm": 1.4312704801559448,
      "learning_rate": 0.00012968215158924205,
      "loss": 2.1103,
      "step": 15828
    },
    {
      "epoch": 0.35175555555555554,
      "grad_norm": 1.4904052019119263,
      "learning_rate": 0.00012967770615692376,
      "loss": 2.116,
      "step": 15829
    },
    {
      "epoch": 0.3517777777777778,
      "grad_norm": 1.8433014154434204,
      "learning_rate": 0.0001296732607246055,
      "loss": 2.869,
      "step": 15830
    },
    {
      "epoch": 0.3518,
      "grad_norm": 1.687729835510254,
      "learning_rate": 0.00012966881529228718,
      "loss": 2.0739,
      "step": 15831
    },
    {
      "epoch": 0.3518222222222222,
      "grad_norm": 1.6644845008850098,
      "learning_rate": 0.0001296643698599689,
      "loss": 2.2108,
      "step": 15832
    },
    {
      "epoch": 0.35184444444444446,
      "grad_norm": 1.6591076850891113,
      "learning_rate": 0.0001296599244276506,
      "loss": 2.2464,
      "step": 15833
    },
    {
      "epoch": 0.35186666666666666,
      "grad_norm": 1.6416209936141968,
      "learning_rate": 0.0001296554789953323,
      "loss": 1.8332,
      "step": 15834
    },
    {
      "epoch": 0.35188888888888886,
      "grad_norm": 1.5689793825149536,
      "learning_rate": 0.000129651033563014,
      "loss": 1.7349,
      "step": 15835
    },
    {
      "epoch": 0.3519111111111111,
      "grad_norm": 2.8968381881713867,
      "learning_rate": 0.00012964658813069573,
      "loss": 1.8512,
      "step": 15836
    },
    {
      "epoch": 0.3519333333333333,
      "grad_norm": 1.7806127071380615,
      "learning_rate": 0.0001296421426983774,
      "loss": 1.6385,
      "step": 15837
    },
    {
      "epoch": 0.3519555555555556,
      "grad_norm": 1.5394682884216309,
      "learning_rate": 0.00012963769726605912,
      "loss": 1.7487,
      "step": 15838
    },
    {
      "epoch": 0.3519777777777778,
      "grad_norm": 1.4730403423309326,
      "learning_rate": 0.00012963325183374086,
      "loss": 1.8953,
      "step": 15839
    },
    {
      "epoch": 0.352,
      "grad_norm": 1.6410130262374878,
      "learning_rate": 0.00012962880640142254,
      "loss": 2.0277,
      "step": 15840
    },
    {
      "epoch": 0.35202222222222224,
      "grad_norm": 1.661073923110962,
      "learning_rate": 0.00012962436096910425,
      "loss": 2.0738,
      "step": 15841
    },
    {
      "epoch": 0.35204444444444444,
      "grad_norm": 1.4856235980987549,
      "learning_rate": 0.00012961991553678596,
      "loss": 1.8779,
      "step": 15842
    },
    {
      "epoch": 0.3520666666666667,
      "grad_norm": 1.5691335201263428,
      "learning_rate": 0.00012961547010446767,
      "loss": 1.7933,
      "step": 15843
    },
    {
      "epoch": 0.3520888888888889,
      "grad_norm": 1.7967249155044556,
      "learning_rate": 0.00012961102467214938,
      "loss": 2.4152,
      "step": 15844
    },
    {
      "epoch": 0.3521111111111111,
      "grad_norm": 1.6999351978302002,
      "learning_rate": 0.0001296065792398311,
      "loss": 2.0721,
      "step": 15845
    },
    {
      "epoch": 0.35213333333333335,
      "grad_norm": 1.7353683710098267,
      "learning_rate": 0.00012960213380751277,
      "loss": 1.8449,
      "step": 15846
    },
    {
      "epoch": 0.35215555555555556,
      "grad_norm": 1.4191582202911377,
      "learning_rate": 0.0001295976883751945,
      "loss": 1.6729,
      "step": 15847
    },
    {
      "epoch": 0.35217777777777776,
      "grad_norm": 1.6454112529754639,
      "learning_rate": 0.00012959324294287622,
      "loss": 1.8084,
      "step": 15848
    },
    {
      "epoch": 0.3522,
      "grad_norm": 1.8841575384140015,
      "learning_rate": 0.0001295887975105579,
      "loss": 2.2173,
      "step": 15849
    },
    {
      "epoch": 0.3522222222222222,
      "grad_norm": 1.8549103736877441,
      "learning_rate": 0.00012958435207823963,
      "loss": 1.511,
      "step": 15850
    },
    {
      "epoch": 0.35224444444444447,
      "grad_norm": 1.2404478788375854,
      "learning_rate": 0.00012957990664592132,
      "loss": 2.2918,
      "step": 15851
    },
    {
      "epoch": 0.3522666666666667,
      "grad_norm": 1.395957350730896,
      "learning_rate": 0.00012957546121360303,
      "loss": 2.545,
      "step": 15852
    },
    {
      "epoch": 0.3522888888888889,
      "grad_norm": 1.1742273569107056,
      "learning_rate": 0.00012957101578128474,
      "loss": 1.3774,
      "step": 15853
    },
    {
      "epoch": 0.35231111111111113,
      "grad_norm": 1.1647369861602783,
      "learning_rate": 0.00012956657034896645,
      "loss": 2.1517,
      "step": 15854
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 1.3121305704116821,
      "learning_rate": 0.00012956212491664813,
      "loss": 2.5362,
      "step": 15855
    },
    {
      "epoch": 0.35235555555555553,
      "grad_norm": 0.8017180562019348,
      "learning_rate": 0.00012955767948432987,
      "loss": 0.031,
      "step": 15856
    },
    {
      "epoch": 0.3523777777777778,
      "grad_norm": 1.2224584817886353,
      "learning_rate": 0.00012955323405201157,
      "loss": 2.0482,
      "step": 15857
    },
    {
      "epoch": 0.3524,
      "grad_norm": 1.4472233057022095,
      "learning_rate": 0.00012954878861969326,
      "loss": 2.1408,
      "step": 15858
    },
    {
      "epoch": 0.35242222222222225,
      "grad_norm": 1.3029320240020752,
      "learning_rate": 0.000129544343187375,
      "loss": 1.9389,
      "step": 15859
    },
    {
      "epoch": 0.35244444444444445,
      "grad_norm": 1.7428479194641113,
      "learning_rate": 0.00012953989775505668,
      "loss": 2.4507,
      "step": 15860
    },
    {
      "epoch": 0.35246666666666665,
      "grad_norm": 1.6159664392471313,
      "learning_rate": 0.00012953545232273839,
      "loss": 2.4807,
      "step": 15861
    },
    {
      "epoch": 0.3524888888888889,
      "grad_norm": 1.6003882884979248,
      "learning_rate": 0.0001295310068904201,
      "loss": 2.1142,
      "step": 15862
    },
    {
      "epoch": 0.3525111111111111,
      "grad_norm": 1.3806068897247314,
      "learning_rate": 0.0001295265614581018,
      "loss": 2.1906,
      "step": 15863
    },
    {
      "epoch": 0.3525333333333333,
      "grad_norm": 1.4245903491973877,
      "learning_rate": 0.00012952211602578352,
      "loss": 2.473,
      "step": 15864
    },
    {
      "epoch": 0.35255555555555557,
      "grad_norm": 1.8349326848983765,
      "learning_rate": 0.00012951767059346522,
      "loss": 2.3825,
      "step": 15865
    },
    {
      "epoch": 0.35257777777777777,
      "grad_norm": 1.5057008266448975,
      "learning_rate": 0.00012951322516114693,
      "loss": 2.078,
      "step": 15866
    },
    {
      "epoch": 0.3526,
      "grad_norm": 1.8363494873046875,
      "learning_rate": 0.00012950877972882864,
      "loss": 2.2313,
      "step": 15867
    },
    {
      "epoch": 0.3526222222222222,
      "grad_norm": 1.638054370880127,
      "learning_rate": 0.00012950433429651035,
      "loss": 1.9564,
      "step": 15868
    },
    {
      "epoch": 0.3526444444444444,
      "grad_norm": 1.3134632110595703,
      "learning_rate": 0.00012949988886419204,
      "loss": 1.7851,
      "step": 15869
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 1.3127210140228271,
      "learning_rate": 0.00012949544343187377,
      "loss": 1.8898,
      "step": 15870
    },
    {
      "epoch": 0.3526888888888889,
      "grad_norm": 1.4402419328689575,
      "learning_rate": 0.00012949099799955546,
      "loss": 1.8387,
      "step": 15871
    },
    {
      "epoch": 0.3527111111111111,
      "grad_norm": 1.6112967729568481,
      "learning_rate": 0.00012948655256723716,
      "loss": 1.9674,
      "step": 15872
    },
    {
      "epoch": 0.35273333333333334,
      "grad_norm": 1.793717384338379,
      "learning_rate": 0.00012948210713491887,
      "loss": 1.9356,
      "step": 15873
    },
    {
      "epoch": 0.35275555555555554,
      "grad_norm": 1.7136808633804321,
      "learning_rate": 0.00012947766170260058,
      "loss": 2.1105,
      "step": 15874
    },
    {
      "epoch": 0.3527777777777778,
      "grad_norm": 1.5344034433364868,
      "learning_rate": 0.0001294732162702823,
      "loss": 1.9819,
      "step": 15875
    },
    {
      "epoch": 0.3528,
      "grad_norm": 1.4565125703811646,
      "learning_rate": 0.000129468770837964,
      "loss": 1.9362,
      "step": 15876
    },
    {
      "epoch": 0.3528222222222222,
      "grad_norm": 1.6614172458648682,
      "learning_rate": 0.0001294643254056457,
      "loss": 2.1427,
      "step": 15877
    },
    {
      "epoch": 0.35284444444444446,
      "grad_norm": 1.6671608686447144,
      "learning_rate": 0.0001294598799733274,
      "loss": 1.9707,
      "step": 15878
    },
    {
      "epoch": 0.35286666666666666,
      "grad_norm": 1.587341547012329,
      "learning_rate": 0.00012945543454100913,
      "loss": 1.4239,
      "step": 15879
    },
    {
      "epoch": 0.35288888888888886,
      "grad_norm": 1.6595364809036255,
      "learning_rate": 0.00012945098910869081,
      "loss": 2.2011,
      "step": 15880
    },
    {
      "epoch": 0.3529111111111111,
      "grad_norm": 1.5708820819854736,
      "learning_rate": 0.00012944654367637252,
      "loss": 1.5724,
      "step": 15881
    },
    {
      "epoch": 0.3529333333333333,
      "grad_norm": 1.5443360805511475,
      "learning_rate": 0.00012944209824405423,
      "loss": 1.6251,
      "step": 15882
    },
    {
      "epoch": 0.3529555555555556,
      "grad_norm": 1.6352601051330566,
      "learning_rate": 0.00012943765281173594,
      "loss": 2.2111,
      "step": 15883
    },
    {
      "epoch": 0.3529777777777778,
      "grad_norm": 0.9002096056938171,
      "learning_rate": 0.00012943320737941765,
      "loss": 0.0327,
      "step": 15884
    },
    {
      "epoch": 0.353,
      "grad_norm": 1.414380669593811,
      "learning_rate": 0.00012942876194709936,
      "loss": 1.6287,
      "step": 15885
    },
    {
      "epoch": 0.35302222222222224,
      "grad_norm": 1.2653436660766602,
      "learning_rate": 0.00012942431651478107,
      "loss": 1.5957,
      "step": 15886
    },
    {
      "epoch": 0.35304444444444444,
      "grad_norm": 1.821101188659668,
      "learning_rate": 0.00012941987108246278,
      "loss": 1.7728,
      "step": 15887
    },
    {
      "epoch": 0.35306666666666664,
      "grad_norm": 1.695358395576477,
      "learning_rate": 0.0001294154256501445,
      "loss": 1.9711,
      "step": 15888
    },
    {
      "epoch": 0.3530888888888889,
      "grad_norm": 1.4997986555099487,
      "learning_rate": 0.00012941098021782617,
      "loss": 1.7784,
      "step": 15889
    },
    {
      "epoch": 0.3531111111111111,
      "grad_norm": 1.8755391836166382,
      "learning_rate": 0.0001294065347855079,
      "loss": 2.0047,
      "step": 15890
    },
    {
      "epoch": 0.35313333333333335,
      "grad_norm": 1.6527979373931885,
      "learning_rate": 0.0001294020893531896,
      "loss": 1.7777,
      "step": 15891
    },
    {
      "epoch": 0.35315555555555556,
      "grad_norm": 1.4993101358413696,
      "learning_rate": 0.0001293976439208713,
      "loss": 1.6449,
      "step": 15892
    },
    {
      "epoch": 0.35317777777777776,
      "grad_norm": 1.5658104419708252,
      "learning_rate": 0.000129393198488553,
      "loss": 1.6335,
      "step": 15893
    },
    {
      "epoch": 0.3532,
      "grad_norm": 2.7577130794525146,
      "learning_rate": 0.00012938875305623472,
      "loss": 2.2508,
      "step": 15894
    },
    {
      "epoch": 0.3532222222222222,
      "grad_norm": 2.061208724975586,
      "learning_rate": 0.00012938430762391643,
      "loss": 2.4341,
      "step": 15895
    },
    {
      "epoch": 0.35324444444444447,
      "grad_norm": 1.2714266777038574,
      "learning_rate": 0.00012937986219159814,
      "loss": 1.0316,
      "step": 15896
    },
    {
      "epoch": 0.3532666666666667,
      "grad_norm": 1.6827757358551025,
      "learning_rate": 0.00012937541675927985,
      "loss": 1.7957,
      "step": 15897
    },
    {
      "epoch": 0.3532888888888889,
      "grad_norm": 2.027907133102417,
      "learning_rate": 0.00012937097132696153,
      "loss": 1.969,
      "step": 15898
    },
    {
      "epoch": 0.35331111111111113,
      "grad_norm": 1.4479124546051025,
      "learning_rate": 0.00012936652589464327,
      "loss": 1.1486,
      "step": 15899
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 1.7088017463684082,
      "learning_rate": 0.00012936208046232495,
      "loss": 1.2402,
      "step": 15900
    },
    {
      "epoch": 0.35335555555555553,
      "grad_norm": 1.0965605974197388,
      "learning_rate": 0.0001293576350300067,
      "loss": 1.1948,
      "step": 15901
    },
    {
      "epoch": 0.3533777777777778,
      "grad_norm": 1.2665575742721558,
      "learning_rate": 0.00012935318959768837,
      "loss": 2.5549,
      "step": 15902
    },
    {
      "epoch": 0.3534,
      "grad_norm": 1.9126759767532349,
      "learning_rate": 0.00012934874416537008,
      "loss": 1.8357,
      "step": 15903
    },
    {
      "epoch": 0.35342222222222225,
      "grad_norm": 1.504148006439209,
      "learning_rate": 0.00012934429873305182,
      "loss": 2.4622,
      "step": 15904
    },
    {
      "epoch": 0.35344444444444445,
      "grad_norm": 1.640692949295044,
      "learning_rate": 0.0001293398533007335,
      "loss": 2.4574,
      "step": 15905
    },
    {
      "epoch": 0.35346666666666665,
      "grad_norm": 1.5180883407592773,
      "learning_rate": 0.0001293354078684152,
      "loss": 2.6798,
      "step": 15906
    },
    {
      "epoch": 0.3534888888888889,
      "grad_norm": 1.5381653308868408,
      "learning_rate": 0.00012933096243609692,
      "loss": 2.3722,
      "step": 15907
    },
    {
      "epoch": 0.3535111111111111,
      "grad_norm": 1.2707713842391968,
      "learning_rate": 0.00012932651700377863,
      "loss": 2.0109,
      "step": 15908
    },
    {
      "epoch": 0.3535333333333333,
      "grad_norm": 1.3589035272598267,
      "learning_rate": 0.0001293220715714603,
      "loss": 2.394,
      "step": 15909
    },
    {
      "epoch": 0.35355555555555557,
      "grad_norm": 1.5696392059326172,
      "learning_rate": 0.00012931762613914205,
      "loss": 2.2555,
      "step": 15910
    },
    {
      "epoch": 0.35357777777777777,
      "grad_norm": 1.5992885828018188,
      "learning_rate": 0.00012931318070682373,
      "loss": 2.7035,
      "step": 15911
    },
    {
      "epoch": 0.3536,
      "grad_norm": 1.9312810897827148,
      "learning_rate": 0.00012930873527450544,
      "loss": 2.3539,
      "step": 15912
    },
    {
      "epoch": 0.3536222222222222,
      "grad_norm": 1.6293381452560425,
      "learning_rate": 0.00012930428984218718,
      "loss": 1.9833,
      "step": 15913
    },
    {
      "epoch": 0.35364444444444443,
      "grad_norm": 1.503893256187439,
      "learning_rate": 0.00012929984440986886,
      "loss": 2.276,
      "step": 15914
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 1.313622236251831,
      "learning_rate": 0.00012929539897755057,
      "loss": 1.4758,
      "step": 15915
    },
    {
      "epoch": 0.3536888888888889,
      "grad_norm": 1.745627760887146,
      "learning_rate": 0.00012929095354523228,
      "loss": 2.4267,
      "step": 15916
    },
    {
      "epoch": 0.3537111111111111,
      "grad_norm": 1.4300099611282349,
      "learning_rate": 0.000129286508112914,
      "loss": 1.8182,
      "step": 15917
    },
    {
      "epoch": 0.35373333333333334,
      "grad_norm": 1.9311641454696655,
      "learning_rate": 0.00012928206268059567,
      "loss": 2.1988,
      "step": 15918
    },
    {
      "epoch": 0.35375555555555555,
      "grad_norm": 1.447291612625122,
      "learning_rate": 0.0001292776172482774,
      "loss": 1.6622,
      "step": 15919
    },
    {
      "epoch": 0.3537777777777778,
      "grad_norm": 1.8891797065734863,
      "learning_rate": 0.0001292731718159591,
      "loss": 2.4011,
      "step": 15920
    },
    {
      "epoch": 0.3538,
      "grad_norm": 1.6255531311035156,
      "learning_rate": 0.00012926872638364083,
      "loss": 2.4308,
      "step": 15921
    },
    {
      "epoch": 0.3538222222222222,
      "grad_norm": 1.4213393926620483,
      "learning_rate": 0.00012926428095132254,
      "loss": 2.1053,
      "step": 15922
    },
    {
      "epoch": 0.35384444444444446,
      "grad_norm": 2.207667112350464,
      "learning_rate": 0.00012925983551900422,
      "loss": 2.3152,
      "step": 15923
    },
    {
      "epoch": 0.35386666666666666,
      "grad_norm": 1.4211262464523315,
      "learning_rate": 0.00012925539008668596,
      "loss": 1.1648,
      "step": 15924
    },
    {
      "epoch": 0.35388888888888886,
      "grad_norm": 1.4080066680908203,
      "learning_rate": 0.00012925094465436764,
      "loss": 2.2133,
      "step": 15925
    },
    {
      "epoch": 0.3539111111111111,
      "grad_norm": 1.714530348777771,
      "learning_rate": 0.00012924649922204935,
      "loss": 1.9307,
      "step": 15926
    },
    {
      "epoch": 0.3539333333333333,
      "grad_norm": 1.4020521640777588,
      "learning_rate": 0.00012924205378973106,
      "loss": 1.734,
      "step": 15927
    },
    {
      "epoch": 0.3539555555555556,
      "grad_norm": 1.7830885648727417,
      "learning_rate": 0.00012923760835741277,
      "loss": 2.0335,
      "step": 15928
    },
    {
      "epoch": 0.3539777777777778,
      "grad_norm": 2.0684187412261963,
      "learning_rate": 0.00012923316292509448,
      "loss": 1.8579,
      "step": 15929
    },
    {
      "epoch": 0.354,
      "grad_norm": 1.3199620246887207,
      "learning_rate": 0.0001292287174927762,
      "loss": 1.5346,
      "step": 15930
    },
    {
      "epoch": 0.35402222222222224,
      "grad_norm": 1.7507829666137695,
      "learning_rate": 0.0001292242720604579,
      "loss": 2.0526,
      "step": 15931
    },
    {
      "epoch": 0.35404444444444444,
      "grad_norm": 1.6132732629776,
      "learning_rate": 0.00012921982662813958,
      "loss": 1.9969,
      "step": 15932
    },
    {
      "epoch": 0.35406666666666664,
      "grad_norm": 1.553381323814392,
      "learning_rate": 0.00012921538119582132,
      "loss": 2.1092,
      "step": 15933
    },
    {
      "epoch": 0.3540888888888889,
      "grad_norm": 1.6859796047210693,
      "learning_rate": 0.000129210935763503,
      "loss": 1.6137,
      "step": 15934
    },
    {
      "epoch": 0.3541111111111111,
      "grad_norm": 1.7053887844085693,
      "learning_rate": 0.0001292064903311847,
      "loss": 2.1828,
      "step": 15935
    },
    {
      "epoch": 0.35413333333333336,
      "grad_norm": 2.016735076904297,
      "learning_rate": 0.00012920204489886642,
      "loss": 1.9395,
      "step": 15936
    },
    {
      "epoch": 0.35415555555555556,
      "grad_norm": 1.8644700050354004,
      "learning_rate": 0.00012919759946654813,
      "loss": 1.6935,
      "step": 15937
    },
    {
      "epoch": 0.35417777777777776,
      "grad_norm": 1.6087467670440674,
      "learning_rate": 0.00012919315403422984,
      "loss": 1.9935,
      "step": 15938
    },
    {
      "epoch": 0.3542,
      "grad_norm": 1.725311279296875,
      "learning_rate": 0.00012918870860191155,
      "loss": 2.0255,
      "step": 15939
    },
    {
      "epoch": 0.3542222222222222,
      "grad_norm": 1.6500892639160156,
      "learning_rate": 0.00012918426316959326,
      "loss": 1.7228,
      "step": 15940
    },
    {
      "epoch": 0.3542444444444444,
      "grad_norm": 1.5823471546173096,
      "learning_rate": 0.00012917981773727497,
      "loss": 1.7434,
      "step": 15941
    },
    {
      "epoch": 0.3542666666666667,
      "grad_norm": 1.4502562284469604,
      "learning_rate": 0.00012917537230495668,
      "loss": 1.6261,
      "step": 15942
    },
    {
      "epoch": 0.3542888888888889,
      "grad_norm": 1.7080519199371338,
      "learning_rate": 0.00012917092687263836,
      "loss": 2.4682,
      "step": 15943
    },
    {
      "epoch": 0.35431111111111113,
      "grad_norm": 1.5734511613845825,
      "learning_rate": 0.0001291664814403201,
      "loss": 1.8504,
      "step": 15944
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 1.8092937469482422,
      "learning_rate": 0.00012916203600800178,
      "loss": 2.321,
      "step": 15945
    },
    {
      "epoch": 0.35435555555555553,
      "grad_norm": 1.6274093389511108,
      "learning_rate": 0.0001291575905756835,
      "loss": 1.9121,
      "step": 15946
    },
    {
      "epoch": 0.3543777777777778,
      "grad_norm": 1.647938847541809,
      "learning_rate": 0.0001291531451433652,
      "loss": 1.5934,
      "step": 15947
    },
    {
      "epoch": 0.3544,
      "grad_norm": 1.9166406393051147,
      "learning_rate": 0.0001291486997110469,
      "loss": 1.7885,
      "step": 15948
    },
    {
      "epoch": 0.35442222222222225,
      "grad_norm": 1.739739179611206,
      "learning_rate": 0.00012914425427872862,
      "loss": 1.962,
      "step": 15949
    },
    {
      "epoch": 0.35444444444444445,
      "grad_norm": 1.7331982851028442,
      "learning_rate": 0.00012913980884641033,
      "loss": 2.2034,
      "step": 15950
    },
    {
      "epoch": 0.35446666666666665,
      "grad_norm": 0.9982316493988037,
      "learning_rate": 0.00012913536341409204,
      "loss": 1.0895,
      "step": 15951
    },
    {
      "epoch": 0.3544888888888889,
      "grad_norm": 1.3270100355148315,
      "learning_rate": 0.00012913091798177372,
      "loss": 2.4643,
      "step": 15952
    },
    {
      "epoch": 0.3545111111111111,
      "grad_norm": 1.6910772323608398,
      "learning_rate": 0.00012912647254945545,
      "loss": 2.2812,
      "step": 15953
    },
    {
      "epoch": 0.3545333333333333,
      "grad_norm": 1.4221903085708618,
      "learning_rate": 0.00012912202711713714,
      "loss": 1.9265,
      "step": 15954
    },
    {
      "epoch": 0.35455555555555557,
      "grad_norm": 1.926356554031372,
      "learning_rate": 0.00012911758168481885,
      "loss": 2.6952,
      "step": 15955
    },
    {
      "epoch": 0.35457777777777777,
      "grad_norm": 1.871347188949585,
      "learning_rate": 0.00012911313625250056,
      "loss": 1.876,
      "step": 15956
    },
    {
      "epoch": 0.3546,
      "grad_norm": 1.7641314268112183,
      "learning_rate": 0.00012910869082018227,
      "loss": 2.8818,
      "step": 15957
    },
    {
      "epoch": 0.3546222222222222,
      "grad_norm": 1.3731658458709717,
      "learning_rate": 0.00012910424538786398,
      "loss": 2.2659,
      "step": 15958
    },
    {
      "epoch": 0.35464444444444443,
      "grad_norm": 1.4920953512191772,
      "learning_rate": 0.00012909979995554569,
      "loss": 1.8639,
      "step": 15959
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 1.52019464969635,
      "learning_rate": 0.0001290953545232274,
      "loss": 2.5657,
      "step": 15960
    },
    {
      "epoch": 0.3546888888888889,
      "grad_norm": 1.4417660236358643,
      "learning_rate": 0.0001290909090909091,
      "loss": 2.2448,
      "step": 15961
    },
    {
      "epoch": 0.3547111111111111,
      "grad_norm": 1.2991321086883545,
      "learning_rate": 0.00012908646365859081,
      "loss": 2.0488,
      "step": 15962
    },
    {
      "epoch": 0.35473333333333334,
      "grad_norm": 1.4297058582305908,
      "learning_rate": 0.0001290820182262725,
      "loss": 2.2132,
      "step": 15963
    },
    {
      "epoch": 0.35475555555555555,
      "grad_norm": 1.3205987215042114,
      "learning_rate": 0.00012907757279395423,
      "loss": 1.4706,
      "step": 15964
    },
    {
      "epoch": 0.3547777777777778,
      "grad_norm": 1.5083975791931152,
      "learning_rate": 0.00012907312736163592,
      "loss": 0.0312,
      "step": 15965
    },
    {
      "epoch": 0.3548,
      "grad_norm": 1.9845904111862183,
      "learning_rate": 0.00012906868192931763,
      "loss": 2.6448,
      "step": 15966
    },
    {
      "epoch": 0.3548222222222222,
      "grad_norm": 1.5351587533950806,
      "learning_rate": 0.00012906423649699933,
      "loss": 1.8608,
      "step": 15967
    },
    {
      "epoch": 0.35484444444444446,
      "grad_norm": 1.6517736911773682,
      "learning_rate": 0.00012905979106468104,
      "loss": 2.3482,
      "step": 15968
    },
    {
      "epoch": 0.35486666666666666,
      "grad_norm": 1.4156769514083862,
      "learning_rate": 0.00012905534563236275,
      "loss": 2.1526,
      "step": 15969
    },
    {
      "epoch": 0.35488888888888886,
      "grad_norm": 1.7743618488311768,
      "learning_rate": 0.00012905090020004446,
      "loss": 1.9721,
      "step": 15970
    },
    {
      "epoch": 0.3549111111111111,
      "grad_norm": 1.83076810836792,
      "learning_rate": 0.00012904645476772617,
      "loss": 2.374,
      "step": 15971
    },
    {
      "epoch": 0.3549333333333333,
      "grad_norm": 1.7191815376281738,
      "learning_rate": 0.00012904200933540786,
      "loss": 2.423,
      "step": 15972
    },
    {
      "epoch": 0.3549555555555556,
      "grad_norm": 1.2107839584350586,
      "learning_rate": 0.0001290375639030896,
      "loss": 1.7644,
      "step": 15973
    },
    {
      "epoch": 0.3549777777777778,
      "grad_norm": 1.281545639038086,
      "learning_rate": 0.00012903311847077128,
      "loss": 1.7625,
      "step": 15974
    },
    {
      "epoch": 0.355,
      "grad_norm": 1.8889614343643188,
      "learning_rate": 0.00012902867303845298,
      "loss": 1.9271,
      "step": 15975
    },
    {
      "epoch": 0.35502222222222224,
      "grad_norm": 1.5225929021835327,
      "learning_rate": 0.0001290242276061347,
      "loss": 1.3427,
      "step": 15976
    },
    {
      "epoch": 0.35504444444444444,
      "grad_norm": 1.2439625263214111,
      "learning_rate": 0.0001290197821738164,
      "loss": 1.3526,
      "step": 15977
    },
    {
      "epoch": 0.35506666666666664,
      "grad_norm": 1.5450868606567383,
      "learning_rate": 0.00012901533674149814,
      "loss": 1.0839,
      "step": 15978
    },
    {
      "epoch": 0.3550888888888889,
      "grad_norm": 1.6044055223464966,
      "learning_rate": 0.00012901089130917982,
      "loss": 1.8854,
      "step": 15979
    },
    {
      "epoch": 0.3551111111111111,
      "grad_norm": 1.3692121505737305,
      "learning_rate": 0.00012900644587686153,
      "loss": 1.5111,
      "step": 15980
    },
    {
      "epoch": 0.35513333333333336,
      "grad_norm": 1.5159435272216797,
      "learning_rate": 0.00012900200044454324,
      "loss": 1.87,
      "step": 15981
    },
    {
      "epoch": 0.35515555555555556,
      "grad_norm": 1.6865440607070923,
      "learning_rate": 0.00012899755501222495,
      "loss": 1.9142,
      "step": 15982
    },
    {
      "epoch": 0.35517777777777776,
      "grad_norm": 1.695939064025879,
      "learning_rate": 0.00012899310957990663,
      "loss": 2.0031,
      "step": 15983
    },
    {
      "epoch": 0.3552,
      "grad_norm": 1.7438145875930786,
      "learning_rate": 0.00012898866414758837,
      "loss": 2.6313,
      "step": 15984
    },
    {
      "epoch": 0.3552222222222222,
      "grad_norm": 1.7264291048049927,
      "learning_rate": 0.00012898421871527005,
      "loss": 1.9805,
      "step": 15985
    },
    {
      "epoch": 0.3552444444444444,
      "grad_norm": 1.636418342590332,
      "learning_rate": 0.00012897977328295176,
      "loss": 2.0558,
      "step": 15986
    },
    {
      "epoch": 0.3552666666666667,
      "grad_norm": 1.5236632823944092,
      "learning_rate": 0.0001289753278506335,
      "loss": 1.475,
      "step": 15987
    },
    {
      "epoch": 0.3552888888888889,
      "grad_norm": 2.2898590564727783,
      "learning_rate": 0.00012897088241831518,
      "loss": 2.4967,
      "step": 15988
    },
    {
      "epoch": 0.35531111111111113,
      "grad_norm": 1.7066552639007568,
      "learning_rate": 0.0001289664369859969,
      "loss": 2.1172,
      "step": 15989
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 1.4948208332061768,
      "learning_rate": 0.0001289619915536786,
      "loss": 1.495,
      "step": 15990
    },
    {
      "epoch": 0.35535555555555554,
      "grad_norm": 1.6147264242172241,
      "learning_rate": 0.0001289575461213603,
      "loss": 1.8461,
      "step": 15991
    },
    {
      "epoch": 0.3553777777777778,
      "grad_norm": 1.5350276231765747,
      "learning_rate": 0.000128953100689042,
      "loss": 1.6785,
      "step": 15992
    },
    {
      "epoch": 0.3554,
      "grad_norm": 1.6741725206375122,
      "learning_rate": 0.00012894865525672373,
      "loss": 1.8493,
      "step": 15993
    },
    {
      "epoch": 0.3554222222222222,
      "grad_norm": 1.7095906734466553,
      "learning_rate": 0.0001289442098244054,
      "loss": 1.8684,
      "step": 15994
    },
    {
      "epoch": 0.35544444444444445,
      "grad_norm": 1.750629186630249,
      "learning_rate": 0.00012893976439208712,
      "loss": 2.008,
      "step": 15995
    },
    {
      "epoch": 0.35546666666666665,
      "grad_norm": 1.4537309408187866,
      "learning_rate": 0.00012893531895976886,
      "loss": 1.4912,
      "step": 15996
    },
    {
      "epoch": 0.3554888888888889,
      "grad_norm": 2.0783612728118896,
      "learning_rate": 0.00012893087352745054,
      "loss": 2.5439,
      "step": 15997
    },
    {
      "epoch": 0.3555111111111111,
      "grad_norm": 1.4926059246063232,
      "learning_rate": 0.00012892642809513228,
      "loss": 1.714,
      "step": 15998
    },
    {
      "epoch": 0.3555333333333333,
      "grad_norm": 2.041563034057617,
      "learning_rate": 0.00012892198266281396,
      "loss": 2.1819,
      "step": 15999
    },
    {
      "epoch": 0.35555555555555557,
      "grad_norm": 2.772066593170166,
      "learning_rate": 0.00012891753723049567,
      "loss": 1.4049,
      "step": 16000
    },
    {
      "epoch": 0.35557777777777777,
      "grad_norm": 1.1712478399276733,
      "learning_rate": 0.00012891309179817738,
      "loss": 1.3832,
      "step": 16001
    },
    {
      "epoch": 0.3556,
      "grad_norm": 1.690151572227478,
      "learning_rate": 0.0001289086463658591,
      "loss": 1.2434,
      "step": 16002
    },
    {
      "epoch": 0.35562222222222223,
      "grad_norm": 1.5292598009109497,
      "learning_rate": 0.0001289042009335408,
      "loss": 2.2196,
      "step": 16003
    },
    {
      "epoch": 0.35564444444444443,
      "grad_norm": 1.4543530941009521,
      "learning_rate": 0.0001288997555012225,
      "loss": 2.2892,
      "step": 16004
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 1.6548538208007812,
      "learning_rate": 0.00012889531006890422,
      "loss": 1.7289,
      "step": 16005
    },
    {
      "epoch": 0.3556888888888889,
      "grad_norm": 1.6490848064422607,
      "learning_rate": 0.0001288908646365859,
      "loss": 2.0505,
      "step": 16006
    },
    {
      "epoch": 0.3557111111111111,
      "grad_norm": 1.5528420209884644,
      "learning_rate": 0.00012888641920426764,
      "loss": 2.2694,
      "step": 16007
    },
    {
      "epoch": 0.35573333333333335,
      "grad_norm": 1.623576283454895,
      "learning_rate": 0.00012888197377194932,
      "loss": 2.4416,
      "step": 16008
    },
    {
      "epoch": 0.35575555555555555,
      "grad_norm": 1.127543568611145,
      "learning_rate": 0.00012887752833963103,
      "loss": 1.0043,
      "step": 16009
    },
    {
      "epoch": 0.3557777777777778,
      "grad_norm": 1.603464961051941,
      "learning_rate": 0.00012887308290731274,
      "loss": 2.2134,
      "step": 16010
    },
    {
      "epoch": 0.3558,
      "grad_norm": 1.2606074810028076,
      "learning_rate": 0.00012886863747499445,
      "loss": 1.8614,
      "step": 16011
    },
    {
      "epoch": 0.3558222222222222,
      "grad_norm": 1.7817267179489136,
      "learning_rate": 0.00012886419204267616,
      "loss": 1.9856,
      "step": 16012
    },
    {
      "epoch": 0.35584444444444446,
      "grad_norm": 1.4862033128738403,
      "learning_rate": 0.00012885974661035787,
      "loss": 2.2475,
      "step": 16013
    },
    {
      "epoch": 0.35586666666666666,
      "grad_norm": 1.5004985332489014,
      "learning_rate": 0.00012885530117803958,
      "loss": 1.7935,
      "step": 16014
    },
    {
      "epoch": 0.35588888888888887,
      "grad_norm": 1.4264566898345947,
      "learning_rate": 0.0001288508557457213,
      "loss": 2.1718,
      "step": 16015
    },
    {
      "epoch": 0.3559111111111111,
      "grad_norm": 1.309856653213501,
      "learning_rate": 0.000128846410313403,
      "loss": 1.6746,
      "step": 16016
    },
    {
      "epoch": 0.3559333333333333,
      "grad_norm": 1.599482774734497,
      "learning_rate": 0.00012884196488108468,
      "loss": 2.1018,
      "step": 16017
    },
    {
      "epoch": 0.3559555555555556,
      "grad_norm": 1.5578042268753052,
      "learning_rate": 0.00012883751944876642,
      "loss": 2.1538,
      "step": 16018
    },
    {
      "epoch": 0.3559777777777778,
      "grad_norm": 1.673215627670288,
      "learning_rate": 0.0001288330740164481,
      "loss": 2.0173,
      "step": 16019
    },
    {
      "epoch": 0.356,
      "grad_norm": 1.69471275806427,
      "learning_rate": 0.0001288286285841298,
      "loss": 1.9392,
      "step": 16020
    },
    {
      "epoch": 0.35602222222222224,
      "grad_norm": 1.5311089754104614,
      "learning_rate": 0.00012882418315181152,
      "loss": 2.1078,
      "step": 16021
    },
    {
      "epoch": 0.35604444444444444,
      "grad_norm": 2.062217950820923,
      "learning_rate": 0.00012881973771949323,
      "loss": 2.1199,
      "step": 16022
    },
    {
      "epoch": 0.35606666666666664,
      "grad_norm": 1.7006973028182983,
      "learning_rate": 0.00012881529228717494,
      "loss": 2.2949,
      "step": 16023
    },
    {
      "epoch": 0.3560888888888889,
      "grad_norm": 1.3517268896102905,
      "learning_rate": 0.00012881084685485665,
      "loss": 1.7618,
      "step": 16024
    },
    {
      "epoch": 0.3561111111111111,
      "grad_norm": 1.6128238439559937,
      "learning_rate": 0.00012880640142253836,
      "loss": 2.389,
      "step": 16025
    },
    {
      "epoch": 0.35613333333333336,
      "grad_norm": 1.505212664604187,
      "learning_rate": 0.00012880195599022004,
      "loss": 2.0488,
      "step": 16026
    },
    {
      "epoch": 0.35615555555555556,
      "grad_norm": 1.5775811672210693,
      "learning_rate": 0.00012879751055790178,
      "loss": 1.7678,
      "step": 16027
    },
    {
      "epoch": 0.35617777777777776,
      "grad_norm": 2.4071028232574463,
      "learning_rate": 0.00012879306512558346,
      "loss": 1.4588,
      "step": 16028
    },
    {
      "epoch": 0.3562,
      "grad_norm": 1.3747578859329224,
      "learning_rate": 0.00012878861969326517,
      "loss": 1.6361,
      "step": 16029
    },
    {
      "epoch": 0.3562222222222222,
      "grad_norm": 1.6241129636764526,
      "learning_rate": 0.00012878417426094688,
      "loss": 1.9913,
      "step": 16030
    },
    {
      "epoch": 0.3562444444444444,
      "grad_norm": 1.6367710828781128,
      "learning_rate": 0.0001287797288286286,
      "loss": 1.8357,
      "step": 16031
    },
    {
      "epoch": 0.3562666666666667,
      "grad_norm": 1.2789357900619507,
      "learning_rate": 0.0001287752833963103,
      "loss": 0.8744,
      "step": 16032
    },
    {
      "epoch": 0.3562888888888889,
      "grad_norm": 1.7559161186218262,
      "learning_rate": 0.000128770837963992,
      "loss": 1.9279,
      "step": 16033
    },
    {
      "epoch": 0.35631111111111113,
      "grad_norm": 1.5582449436187744,
      "learning_rate": 0.00012876639253167372,
      "loss": 1.5512,
      "step": 16034
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 1.6307865381240845,
      "learning_rate": 0.00012876194709935543,
      "loss": 1.9018,
      "step": 16035
    },
    {
      "epoch": 0.35635555555555554,
      "grad_norm": 1.9539403915405273,
      "learning_rate": 0.00012875750166703714,
      "loss": 2.2433,
      "step": 16036
    },
    {
      "epoch": 0.3563777777777778,
      "grad_norm": 1.8838928937911987,
      "learning_rate": 0.00012875305623471882,
      "loss": 2.3535,
      "step": 16037
    },
    {
      "epoch": 0.3564,
      "grad_norm": 1.5329389572143555,
      "learning_rate": 0.00012874861080240056,
      "loss": 1.6404,
      "step": 16038
    },
    {
      "epoch": 0.3564222222222222,
      "grad_norm": 1.6386600732803345,
      "learning_rate": 0.00012874416537008224,
      "loss": 1.8806,
      "step": 16039
    },
    {
      "epoch": 0.35644444444444445,
      "grad_norm": 1.5338160991668701,
      "learning_rate": 0.00012873971993776395,
      "loss": 1.6242,
      "step": 16040
    },
    {
      "epoch": 0.35646666666666665,
      "grad_norm": 1.7050096988677979,
      "learning_rate": 0.00012873527450544566,
      "loss": 2.1438,
      "step": 16041
    },
    {
      "epoch": 0.3564888888888889,
      "grad_norm": 1.5931525230407715,
      "learning_rate": 0.00012873082907312737,
      "loss": 1.8883,
      "step": 16042
    },
    {
      "epoch": 0.3565111111111111,
      "grad_norm": 1.5163459777832031,
      "learning_rate": 0.00012872638364080908,
      "loss": 1.6974,
      "step": 16043
    },
    {
      "epoch": 0.3565333333333333,
      "grad_norm": 1.7605549097061157,
      "learning_rate": 0.00012872193820849079,
      "loss": 1.5707,
      "step": 16044
    },
    {
      "epoch": 0.35655555555555557,
      "grad_norm": 1.546602487564087,
      "learning_rate": 0.0001287174927761725,
      "loss": 1.9212,
      "step": 16045
    },
    {
      "epoch": 0.35657777777777777,
      "grad_norm": 1.5540673732757568,
      "learning_rate": 0.00012871304734385418,
      "loss": 1.424,
      "step": 16046
    },
    {
      "epoch": 0.3566,
      "grad_norm": 1.5141528844833374,
      "learning_rate": 0.00012870860191153591,
      "loss": 1.702,
      "step": 16047
    },
    {
      "epoch": 0.35662222222222223,
      "grad_norm": 2.0216763019561768,
      "learning_rate": 0.0001287041564792176,
      "loss": 2.1697,
      "step": 16048
    },
    {
      "epoch": 0.35664444444444443,
      "grad_norm": 1.2457696199417114,
      "learning_rate": 0.0001286997110468993,
      "loss": 1.1258,
      "step": 16049
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 1.57428777217865,
      "learning_rate": 0.00012869526561458102,
      "loss": 0.6666,
      "step": 16050
    },
    {
      "epoch": 0.3566888888888889,
      "grad_norm": 1.1965703964233398,
      "learning_rate": 0.00012869082018226273,
      "loss": 2.2171,
      "step": 16051
    },
    {
      "epoch": 0.3567111111111111,
      "grad_norm": 1.1213582754135132,
      "learning_rate": 0.00012868637474994444,
      "loss": 1.2692,
      "step": 16052
    },
    {
      "epoch": 0.35673333333333335,
      "grad_norm": 1.315505027770996,
      "learning_rate": 0.00012868192931762615,
      "loss": 2.3732,
      "step": 16053
    },
    {
      "epoch": 0.35675555555555555,
      "grad_norm": 1.3056726455688477,
      "learning_rate": 0.00012867748388530785,
      "loss": 2.1122,
      "step": 16054
    },
    {
      "epoch": 0.3567777777777778,
      "grad_norm": 1.4685273170471191,
      "learning_rate": 0.00012867303845298956,
      "loss": 2.3932,
      "step": 16055
    },
    {
      "epoch": 0.3568,
      "grad_norm": 1.2259775400161743,
      "learning_rate": 0.00012866859302067127,
      "loss": 2.1774,
      "step": 16056
    },
    {
      "epoch": 0.3568222222222222,
      "grad_norm": 1.4186789989471436,
      "learning_rate": 0.00012866414758835296,
      "loss": 1.9601,
      "step": 16057
    },
    {
      "epoch": 0.35684444444444446,
      "grad_norm": 1.2399336099624634,
      "learning_rate": 0.0001286597021560347,
      "loss": 1.0912,
      "step": 16058
    },
    {
      "epoch": 0.35686666666666667,
      "grad_norm": 1.565881609916687,
      "learning_rate": 0.00012865525672371638,
      "loss": 1.8225,
      "step": 16059
    },
    {
      "epoch": 0.35688888888888887,
      "grad_norm": 1.5045195817947388,
      "learning_rate": 0.00012865081129139809,
      "loss": 2.2036,
      "step": 16060
    },
    {
      "epoch": 0.3569111111111111,
      "grad_norm": 1.3837794065475464,
      "learning_rate": 0.00012864636585907982,
      "loss": 2.1353,
      "step": 16061
    },
    {
      "epoch": 0.3569333333333333,
      "grad_norm": 1.4261385202407837,
      "learning_rate": 0.0001286419204267615,
      "loss": 2.2183,
      "step": 16062
    },
    {
      "epoch": 0.3569555555555556,
      "grad_norm": 1.1417936086654663,
      "learning_rate": 0.00012863747499444321,
      "loss": 1.2652,
      "step": 16063
    },
    {
      "epoch": 0.3569777777777778,
      "grad_norm": 1.6060168743133545,
      "learning_rate": 0.00012863302956212492,
      "loss": 2.2221,
      "step": 16064
    },
    {
      "epoch": 0.357,
      "grad_norm": 1.6874890327453613,
      "learning_rate": 0.00012862858412980663,
      "loss": 2.3838,
      "step": 16065
    },
    {
      "epoch": 0.35702222222222224,
      "grad_norm": 1.5805974006652832,
      "learning_rate": 0.00012862413869748832,
      "loss": 2.3816,
      "step": 16066
    },
    {
      "epoch": 0.35704444444444444,
      "grad_norm": 1.4781314134597778,
      "learning_rate": 0.00012861969326517005,
      "loss": 2.0949,
      "step": 16067
    },
    {
      "epoch": 0.35706666666666664,
      "grad_norm": 1.5220383405685425,
      "learning_rate": 0.00012861524783285174,
      "loss": 1.7619,
      "step": 16068
    },
    {
      "epoch": 0.3570888888888889,
      "grad_norm": 1.4702632427215576,
      "learning_rate": 0.00012861080240053344,
      "loss": 1.7228,
      "step": 16069
    },
    {
      "epoch": 0.3571111111111111,
      "grad_norm": 1.4873007535934448,
      "learning_rate": 0.00012860635696821518,
      "loss": 1.9929,
      "step": 16070
    },
    {
      "epoch": 0.35713333333333336,
      "grad_norm": 2.0158069133758545,
      "learning_rate": 0.00012860191153589686,
      "loss": 1.877,
      "step": 16071
    },
    {
      "epoch": 0.35715555555555556,
      "grad_norm": 1.8320837020874023,
      "learning_rate": 0.0001285974661035786,
      "loss": 1.9116,
      "step": 16072
    },
    {
      "epoch": 0.35717777777777776,
      "grad_norm": 1.650856614112854,
      "learning_rate": 0.00012859302067126028,
      "loss": 2.1818,
      "step": 16073
    },
    {
      "epoch": 0.3572,
      "grad_norm": 1.6485381126403809,
      "learning_rate": 0.000128588575238942,
      "loss": 2.0713,
      "step": 16074
    },
    {
      "epoch": 0.3572222222222222,
      "grad_norm": 1.2803645133972168,
      "learning_rate": 0.0001285841298066237,
      "loss": 0.0371,
      "step": 16075
    },
    {
      "epoch": 0.3572444444444444,
      "grad_norm": 2.3914740085601807,
      "learning_rate": 0.0001285796843743054,
      "loss": 2.291,
      "step": 16076
    },
    {
      "epoch": 0.3572666666666667,
      "grad_norm": 1.6089112758636475,
      "learning_rate": 0.00012857523894198712,
      "loss": 2.3808,
      "step": 16077
    },
    {
      "epoch": 0.3572888888888889,
      "grad_norm": 1.8254855871200562,
      "learning_rate": 0.00012857079350966883,
      "loss": 2.4631,
      "step": 16078
    },
    {
      "epoch": 0.35731111111111113,
      "grad_norm": 1.4140448570251465,
      "learning_rate": 0.00012856634807735054,
      "loss": 1.5621,
      "step": 16079
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 1.2584238052368164,
      "learning_rate": 0.00012856190264503222,
      "loss": 1.0462,
      "step": 16080
    },
    {
      "epoch": 0.35735555555555554,
      "grad_norm": 1.5187252759933472,
      "learning_rate": 0.00012855745721271396,
      "loss": 1.9948,
      "step": 16081
    },
    {
      "epoch": 0.3573777777777778,
      "grad_norm": 1.5038268566131592,
      "learning_rate": 0.00012855301178039564,
      "loss": 1.6385,
      "step": 16082
    },
    {
      "epoch": 0.3574,
      "grad_norm": 1.740648865699768,
      "learning_rate": 0.00012854856634807735,
      "loss": 2.5572,
      "step": 16083
    },
    {
      "epoch": 0.3574222222222222,
      "grad_norm": 1.440118670463562,
      "learning_rate": 0.00012854412091575906,
      "loss": 2.2137,
      "step": 16084
    },
    {
      "epoch": 0.35744444444444445,
      "grad_norm": 1.783440351486206,
      "learning_rate": 0.00012853967548344077,
      "loss": 1.9586,
      "step": 16085
    },
    {
      "epoch": 0.35746666666666665,
      "grad_norm": 1.328431487083435,
      "learning_rate": 0.00012853523005112248,
      "loss": 1.5212,
      "step": 16086
    },
    {
      "epoch": 0.3574888888888889,
      "grad_norm": 1.5246130228042603,
      "learning_rate": 0.0001285307846188042,
      "loss": 1.6121,
      "step": 16087
    },
    {
      "epoch": 0.3575111111111111,
      "grad_norm": 1.6721965074539185,
      "learning_rate": 0.0001285263391864859,
      "loss": 1.8945,
      "step": 16088
    },
    {
      "epoch": 0.3575333333333333,
      "grad_norm": 1.8619099855422974,
      "learning_rate": 0.00012852189375416758,
      "loss": 1.9142,
      "step": 16089
    },
    {
      "epoch": 0.35755555555555557,
      "grad_norm": 1.1995407342910767,
      "learning_rate": 0.00012851744832184932,
      "loss": 1.2623,
      "step": 16090
    },
    {
      "epoch": 0.35757777777777777,
      "grad_norm": 1.3985686302185059,
      "learning_rate": 0.000128513002889531,
      "loss": 1.6937,
      "step": 16091
    },
    {
      "epoch": 0.3576,
      "grad_norm": 1.809599757194519,
      "learning_rate": 0.00012850855745721274,
      "loss": 2.347,
      "step": 16092
    },
    {
      "epoch": 0.35762222222222223,
      "grad_norm": 1.4673418998718262,
      "learning_rate": 0.00012850411202489442,
      "loss": 1.4158,
      "step": 16093
    },
    {
      "epoch": 0.35764444444444443,
      "grad_norm": 2.0192458629608154,
      "learning_rate": 0.00012849966659257613,
      "loss": 2.0458,
      "step": 16094
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 1.7319825887680054,
      "learning_rate": 0.00012849522116025784,
      "loss": 1.6306,
      "step": 16095
    },
    {
      "epoch": 0.3576888888888889,
      "grad_norm": 1.7749360799789429,
      "learning_rate": 0.00012849077572793955,
      "loss": 1.8682,
      "step": 16096
    },
    {
      "epoch": 0.3577111111111111,
      "grad_norm": 1.0682138204574585,
      "learning_rate": 0.00012848633029562126,
      "loss": 0.6185,
      "step": 16097
    },
    {
      "epoch": 0.35773333333333335,
      "grad_norm": 1.7127766609191895,
      "learning_rate": 0.00012848188486330297,
      "loss": 2.0934,
      "step": 16098
    },
    {
      "epoch": 0.35775555555555555,
      "grad_norm": 1.5190706253051758,
      "learning_rate": 0.00012847743943098468,
      "loss": 1.9147,
      "step": 16099
    },
    {
      "epoch": 0.35777777777777775,
      "grad_norm": 1.7919262647628784,
      "learning_rate": 0.00012847299399866636,
      "loss": 1.6987,
      "step": 16100
    },
    {
      "epoch": 0.3578,
      "grad_norm": 1.3976500034332275,
      "learning_rate": 0.0001284685485663481,
      "loss": 2.3874,
      "step": 16101
    },
    {
      "epoch": 0.3578222222222222,
      "grad_norm": 0.9345803260803223,
      "learning_rate": 0.00012846410313402978,
      "loss": 1.1401,
      "step": 16102
    },
    {
      "epoch": 0.35784444444444446,
      "grad_norm": 1.4272254705429077,
      "learning_rate": 0.0001284596577017115,
      "loss": 2.2617,
      "step": 16103
    },
    {
      "epoch": 0.35786666666666667,
      "grad_norm": 1.3260711431503296,
      "learning_rate": 0.0001284552122693932,
      "loss": 2.1993,
      "step": 16104
    },
    {
      "epoch": 0.35788888888888887,
      "grad_norm": 1.5057932138442993,
      "learning_rate": 0.0001284507668370749,
      "loss": 1.846,
      "step": 16105
    },
    {
      "epoch": 0.3579111111111111,
      "grad_norm": 1.3204888105392456,
      "learning_rate": 0.00012844632140475662,
      "loss": 1.6152,
      "step": 16106
    },
    {
      "epoch": 0.3579333333333333,
      "grad_norm": 1.6761401891708374,
      "learning_rate": 0.00012844187597243833,
      "loss": 2.352,
      "step": 16107
    },
    {
      "epoch": 0.3579555555555556,
      "grad_norm": 1.3775871992111206,
      "learning_rate": 0.00012843743054012004,
      "loss": 2.2389,
      "step": 16108
    },
    {
      "epoch": 0.3579777777777778,
      "grad_norm": 1.3911482095718384,
      "learning_rate": 0.00012843298510780175,
      "loss": 2.1233,
      "step": 16109
    },
    {
      "epoch": 0.358,
      "grad_norm": 1.4895803928375244,
      "learning_rate": 0.00012842853967548346,
      "loss": 1.9682,
      "step": 16110
    },
    {
      "epoch": 0.35802222222222224,
      "grad_norm": 1.5689774751663208,
      "learning_rate": 0.00012842409424316514,
      "loss": 2.407,
      "step": 16111
    },
    {
      "epoch": 0.35804444444444444,
      "grad_norm": 1.3255939483642578,
      "learning_rate": 0.00012841964881084688,
      "loss": 2.1616,
      "step": 16112
    },
    {
      "epoch": 0.35806666666666664,
      "grad_norm": 2.2396302223205566,
      "learning_rate": 0.00012841520337852856,
      "loss": 1.1828,
      "step": 16113
    },
    {
      "epoch": 0.3580888888888889,
      "grad_norm": 1.3587406873703003,
      "learning_rate": 0.00012841075794621027,
      "loss": 2.033,
      "step": 16114
    },
    {
      "epoch": 0.3581111111111111,
      "grad_norm": 1.7285966873168945,
      "learning_rate": 0.00012840631251389198,
      "loss": 2.2378,
      "step": 16115
    },
    {
      "epoch": 0.35813333333333336,
      "grad_norm": 1.0394715070724487,
      "learning_rate": 0.0001284018670815737,
      "loss": 1.281,
      "step": 16116
    },
    {
      "epoch": 0.35815555555555556,
      "grad_norm": 1.4716827869415283,
      "learning_rate": 0.0001283974216492554,
      "loss": 1.9937,
      "step": 16117
    },
    {
      "epoch": 0.35817777777777776,
      "grad_norm": 1.8338425159454346,
      "learning_rate": 0.0001283929762169371,
      "loss": 2.1016,
      "step": 16118
    },
    {
      "epoch": 0.3582,
      "grad_norm": 1.8771774768829346,
      "learning_rate": 0.00012838853078461882,
      "loss": 2.4362,
      "step": 16119
    },
    {
      "epoch": 0.3582222222222222,
      "grad_norm": 1.9322080612182617,
      "learning_rate": 0.0001283840853523005,
      "loss": 2.1271,
      "step": 16120
    },
    {
      "epoch": 0.3582444444444444,
      "grad_norm": 1.2431100606918335,
      "learning_rate": 0.00012837963991998224,
      "loss": 1.837,
      "step": 16121
    },
    {
      "epoch": 0.3582666666666667,
      "grad_norm": 1.6456940174102783,
      "learning_rate": 0.00012837519448766392,
      "loss": 2.2752,
      "step": 16122
    },
    {
      "epoch": 0.3582888888888889,
      "grad_norm": 1.504149317741394,
      "learning_rate": 0.00012837074905534563,
      "loss": 1.9049,
      "step": 16123
    },
    {
      "epoch": 0.35831111111111114,
      "grad_norm": 1.8073809146881104,
      "learning_rate": 0.00012836630362302734,
      "loss": 2.1839,
      "step": 16124
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 1.649446725845337,
      "learning_rate": 0.00012836185819070905,
      "loss": 1.9692,
      "step": 16125
    },
    {
      "epoch": 0.35835555555555554,
      "grad_norm": 1.8802913427352905,
      "learning_rate": 0.00012835741275839076,
      "loss": 1.989,
      "step": 16126
    },
    {
      "epoch": 0.3583777777777778,
      "grad_norm": 1.5027430057525635,
      "learning_rate": 0.00012835296732607247,
      "loss": 1.9619,
      "step": 16127
    },
    {
      "epoch": 0.3584,
      "grad_norm": 1.5534614324569702,
      "learning_rate": 0.00012834852189375418,
      "loss": 2.1792,
      "step": 16128
    },
    {
      "epoch": 0.3584222222222222,
      "grad_norm": 1.5068247318267822,
      "learning_rate": 0.0001283440764614359,
      "loss": 1.9632,
      "step": 16129
    },
    {
      "epoch": 0.35844444444444445,
      "grad_norm": 1.5125006437301636,
      "learning_rate": 0.0001283396310291176,
      "loss": 1.9102,
      "step": 16130
    },
    {
      "epoch": 0.35846666666666666,
      "grad_norm": 1.509091854095459,
      "learning_rate": 0.00012833518559679928,
      "loss": 1.8965,
      "step": 16131
    },
    {
      "epoch": 0.3584888888888889,
      "grad_norm": 1.577343463897705,
      "learning_rate": 0.00012833074016448102,
      "loss": 1.5691,
      "step": 16132
    },
    {
      "epoch": 0.3585111111111111,
      "grad_norm": 1.0767698287963867,
      "learning_rate": 0.0001283262947321627,
      "loss": 0.812,
      "step": 16133
    },
    {
      "epoch": 0.3585333333333333,
      "grad_norm": 1.5637933015823364,
      "learning_rate": 0.0001283218492998444,
      "loss": 2.1209,
      "step": 16134
    },
    {
      "epoch": 0.35855555555555557,
      "grad_norm": 1.8981574773788452,
      "learning_rate": 0.00012831740386752614,
      "loss": 2.3902,
      "step": 16135
    },
    {
      "epoch": 0.3585777777777778,
      "grad_norm": 1.9684940576553345,
      "learning_rate": 0.00012831295843520783,
      "loss": 2.303,
      "step": 16136
    },
    {
      "epoch": 0.3586,
      "grad_norm": 1.6304106712341309,
      "learning_rate": 0.00012830851300288954,
      "loss": 1.9656,
      "step": 16137
    },
    {
      "epoch": 0.35862222222222223,
      "grad_norm": 2.1798441410064697,
      "learning_rate": 0.00012830406757057125,
      "loss": 2.1643,
      "step": 16138
    },
    {
      "epoch": 0.35864444444444443,
      "grad_norm": 1.6858011484146118,
      "learning_rate": 0.00012829962213825296,
      "loss": 1.9415,
      "step": 16139
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 1.6864039897918701,
      "learning_rate": 0.00012829517670593464,
      "loss": 1.9391,
      "step": 16140
    },
    {
      "epoch": 0.3586888888888889,
      "grad_norm": 1.3203377723693848,
      "learning_rate": 0.00012829073127361637,
      "loss": 0.9762,
      "step": 16141
    },
    {
      "epoch": 0.3587111111111111,
      "grad_norm": 1.6654516458511353,
      "learning_rate": 0.00012828628584129806,
      "loss": 1.9708,
      "step": 16142
    },
    {
      "epoch": 0.35873333333333335,
      "grad_norm": 2.129044771194458,
      "learning_rate": 0.00012828184040897977,
      "loss": 2.1169,
      "step": 16143
    },
    {
      "epoch": 0.35875555555555555,
      "grad_norm": 2.068028688430786,
      "learning_rate": 0.0001282773949766615,
      "loss": 1.6069,
      "step": 16144
    },
    {
      "epoch": 0.35877777777777775,
      "grad_norm": 1.4291512966156006,
      "learning_rate": 0.00012827294954434319,
      "loss": 1.7191,
      "step": 16145
    },
    {
      "epoch": 0.3588,
      "grad_norm": 1.642006516456604,
      "learning_rate": 0.0001282685041120249,
      "loss": 1.8921,
      "step": 16146
    },
    {
      "epoch": 0.3588222222222222,
      "grad_norm": 1.4788450002670288,
      "learning_rate": 0.0001282640586797066,
      "loss": 1.4959,
      "step": 16147
    },
    {
      "epoch": 0.35884444444444447,
      "grad_norm": 1.9421476125717163,
      "learning_rate": 0.00012825961324738832,
      "loss": 1.6505,
      "step": 16148
    },
    {
      "epoch": 0.35886666666666667,
      "grad_norm": 1.7747611999511719,
      "learning_rate": 0.00012825516781507002,
      "loss": 2.2797,
      "step": 16149
    },
    {
      "epoch": 0.35888888888888887,
      "grad_norm": 1.9022399187088013,
      "learning_rate": 0.00012825072238275173,
      "loss": 1.5364,
      "step": 16150
    },
    {
      "epoch": 0.3589111111111111,
      "grad_norm": 1.4626731872558594,
      "learning_rate": 0.00012824627695043344,
      "loss": 1.346,
      "step": 16151
    },
    {
      "epoch": 0.3589333333333333,
      "grad_norm": 1.490753412246704,
      "learning_rate": 0.00012824183151811515,
      "loss": 1.3789,
      "step": 16152
    },
    {
      "epoch": 0.3589555555555556,
      "grad_norm": 1.6429723501205444,
      "learning_rate": 0.00012823738608579686,
      "loss": 2.9063,
      "step": 16153
    },
    {
      "epoch": 0.3589777777777778,
      "grad_norm": 1.1316401958465576,
      "learning_rate": 0.00012823294065347855,
      "loss": 1.4458,
      "step": 16154
    },
    {
      "epoch": 0.359,
      "grad_norm": 1.431683897972107,
      "learning_rate": 0.00012822849522116028,
      "loss": 2.5746,
      "step": 16155
    },
    {
      "epoch": 0.35902222222222224,
      "grad_norm": 1.238553524017334,
      "learning_rate": 0.00012822404978884196,
      "loss": 1.9348,
      "step": 16156
    },
    {
      "epoch": 0.35904444444444444,
      "grad_norm": 1.3238277435302734,
      "learning_rate": 0.00012821960435652367,
      "loss": 2.2868,
      "step": 16157
    },
    {
      "epoch": 0.35906666666666665,
      "grad_norm": 1.7387362718582153,
      "learning_rate": 0.00012821515892420538,
      "loss": 2.2654,
      "step": 16158
    },
    {
      "epoch": 0.3590888888888889,
      "grad_norm": 1.4103249311447144,
      "learning_rate": 0.0001282107134918871,
      "loss": 1.9518,
      "step": 16159
    },
    {
      "epoch": 0.3591111111111111,
      "grad_norm": 1.381029725074768,
      "learning_rate": 0.0001282062680595688,
      "loss": 1.9601,
      "step": 16160
    },
    {
      "epoch": 0.35913333333333336,
      "grad_norm": 1.7461179494857788,
      "learning_rate": 0.0001282018226272505,
      "loss": 2.1668,
      "step": 16161
    },
    {
      "epoch": 0.35915555555555556,
      "grad_norm": 1.4807053804397583,
      "learning_rate": 0.00012819737719493222,
      "loss": 1.5965,
      "step": 16162
    },
    {
      "epoch": 0.35917777777777776,
      "grad_norm": 1.8053438663482666,
      "learning_rate": 0.0001281929317626139,
      "loss": 2.3404,
      "step": 16163
    },
    {
      "epoch": 0.3592,
      "grad_norm": 1.3544905185699463,
      "learning_rate": 0.00012818848633029564,
      "loss": 2.0497,
      "step": 16164
    },
    {
      "epoch": 0.3592222222222222,
      "grad_norm": 1.461362600326538,
      "learning_rate": 0.00012818404089797732,
      "loss": 2.1272,
      "step": 16165
    },
    {
      "epoch": 0.3592444444444444,
      "grad_norm": 1.3539797067642212,
      "learning_rate": 0.00012817959546565906,
      "loss": 1.4793,
      "step": 16166
    },
    {
      "epoch": 0.3592666666666667,
      "grad_norm": 1.3669387102127075,
      "learning_rate": 0.00012817515003334074,
      "loss": 1.6813,
      "step": 16167
    },
    {
      "epoch": 0.3592888888888889,
      "grad_norm": 1.7439086437225342,
      "learning_rate": 0.00012817070460102245,
      "loss": 1.9389,
      "step": 16168
    },
    {
      "epoch": 0.35931111111111114,
      "grad_norm": 1.7463579177856445,
      "learning_rate": 0.00012816625916870416,
      "loss": 2.368,
      "step": 16169
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 1.7305774688720703,
      "learning_rate": 0.00012816181373638587,
      "loss": 2.1026,
      "step": 16170
    },
    {
      "epoch": 0.35935555555555554,
      "grad_norm": 1.7551428079605103,
      "learning_rate": 0.00012815736830406758,
      "loss": 1.9247,
      "step": 16171
    },
    {
      "epoch": 0.3593777777777778,
      "grad_norm": 2.08058762550354,
      "learning_rate": 0.0001281529228717493,
      "loss": 2.0729,
      "step": 16172
    },
    {
      "epoch": 0.3594,
      "grad_norm": 1.5856832265853882,
      "learning_rate": 0.000128148477439431,
      "loss": 1.5622,
      "step": 16173
    },
    {
      "epoch": 0.3594222222222222,
      "grad_norm": 1.5554324388504028,
      "learning_rate": 0.00012814403200711268,
      "loss": 1.8146,
      "step": 16174
    },
    {
      "epoch": 0.35944444444444446,
      "grad_norm": 1.3861033916473389,
      "learning_rate": 0.00012813958657479442,
      "loss": 1.813,
      "step": 16175
    },
    {
      "epoch": 0.35946666666666666,
      "grad_norm": 1.4932825565338135,
      "learning_rate": 0.0001281351411424761,
      "loss": 1.7737,
      "step": 16176
    },
    {
      "epoch": 0.3594888888888889,
      "grad_norm": 1.4517055749893188,
      "learning_rate": 0.0001281306957101578,
      "loss": 1.8474,
      "step": 16177
    },
    {
      "epoch": 0.3595111111111111,
      "grad_norm": 1.3816642761230469,
      "learning_rate": 0.00012812625027783952,
      "loss": 1.5601,
      "step": 16178
    },
    {
      "epoch": 0.3595333333333333,
      "grad_norm": 1.8623759746551514,
      "learning_rate": 0.00012812180484552123,
      "loss": 2.4819,
      "step": 16179
    },
    {
      "epoch": 0.3595555555555556,
      "grad_norm": 1.3929351568222046,
      "learning_rate": 0.00012811735941320294,
      "loss": 1.7199,
      "step": 16180
    },
    {
      "epoch": 0.3595777777777778,
      "grad_norm": 1.4624006748199463,
      "learning_rate": 0.00012811291398088465,
      "loss": 1.6609,
      "step": 16181
    },
    {
      "epoch": 0.3596,
      "grad_norm": 1.972882628440857,
      "learning_rate": 0.00012810846854856636,
      "loss": 2.1896,
      "step": 16182
    },
    {
      "epoch": 0.35962222222222223,
      "grad_norm": 2.3232173919677734,
      "learning_rate": 0.00012810402311624804,
      "loss": 2.3974,
      "step": 16183
    },
    {
      "epoch": 0.35964444444444443,
      "grad_norm": 1.5895195007324219,
      "learning_rate": 0.00012809957768392978,
      "loss": 1.5709,
      "step": 16184
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 1.9375890493392944,
      "learning_rate": 0.00012809513225161146,
      "loss": 2.2846,
      "step": 16185
    },
    {
      "epoch": 0.3596888888888889,
      "grad_norm": 1.69684636592865,
      "learning_rate": 0.0001280906868192932,
      "loss": 2.1056,
      "step": 16186
    },
    {
      "epoch": 0.3597111111111111,
      "grad_norm": 2.024301767349243,
      "learning_rate": 0.00012808624138697488,
      "loss": 1.9557,
      "step": 16187
    },
    {
      "epoch": 0.35973333333333335,
      "grad_norm": 1.852403163909912,
      "learning_rate": 0.0001280817959546566,
      "loss": 1.9444,
      "step": 16188
    },
    {
      "epoch": 0.35975555555555555,
      "grad_norm": 1.8704242706298828,
      "learning_rate": 0.0001280773505223383,
      "loss": 1.7988,
      "step": 16189
    },
    {
      "epoch": 0.35977777777777775,
      "grad_norm": 1.5217872858047485,
      "learning_rate": 0.00012807290509002,
      "loss": 1.7449,
      "step": 16190
    },
    {
      "epoch": 0.3598,
      "grad_norm": 1.5509065389633179,
      "learning_rate": 0.00012806845965770172,
      "loss": 2.0364,
      "step": 16191
    },
    {
      "epoch": 0.3598222222222222,
      "grad_norm": 2.0206825733184814,
      "learning_rate": 0.00012806401422538343,
      "loss": 2.215,
      "step": 16192
    },
    {
      "epoch": 0.35984444444444447,
      "grad_norm": 1.8123524188995361,
      "learning_rate": 0.00012805956879306514,
      "loss": 2.0044,
      "step": 16193
    },
    {
      "epoch": 0.35986666666666667,
      "grad_norm": 1.5886485576629639,
      "learning_rate": 0.00012805512336074682,
      "loss": 1.6109,
      "step": 16194
    },
    {
      "epoch": 0.35988888888888887,
      "grad_norm": 2.332141876220703,
      "learning_rate": 0.00012805067792842856,
      "loss": 2.4586,
      "step": 16195
    },
    {
      "epoch": 0.3599111111111111,
      "grad_norm": 1.68636155128479,
      "learning_rate": 0.00012804623249611024,
      "loss": 1.052,
      "step": 16196
    },
    {
      "epoch": 0.3599333333333333,
      "grad_norm": 0.9989004135131836,
      "learning_rate": 0.00012804178706379195,
      "loss": 0.7887,
      "step": 16197
    },
    {
      "epoch": 0.35995555555555553,
      "grad_norm": 2.1336700916290283,
      "learning_rate": 0.00012803734163147366,
      "loss": 2.5082,
      "step": 16198
    },
    {
      "epoch": 0.3599777777777778,
      "grad_norm": 1.6956727504730225,
      "learning_rate": 0.00012803289619915537,
      "loss": 1.6521,
      "step": 16199
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.775118589401245,
      "learning_rate": 0.00012802845076683708,
      "loss": 0.5406,
      "step": 16200
    },
    {
      "epoch": 0.36002222222222224,
      "grad_norm": 1.3963268995285034,
      "learning_rate": 0.0001280240053345188,
      "loss": 2.4484,
      "step": 16201
    },
    {
      "epoch": 0.36004444444444444,
      "grad_norm": 1.343308448791504,
      "learning_rate": 0.0001280195599022005,
      "loss": 1.3867,
      "step": 16202
    },
    {
      "epoch": 0.36006666666666665,
      "grad_norm": 1.28111732006073,
      "learning_rate": 0.00012801511446988218,
      "loss": 0.0827,
      "step": 16203
    },
    {
      "epoch": 0.3600888888888889,
      "grad_norm": 1.5045517683029175,
      "learning_rate": 0.00012801066903756392,
      "loss": 1.8934,
      "step": 16204
    },
    {
      "epoch": 0.3601111111111111,
      "grad_norm": 1.5268434286117554,
      "learning_rate": 0.0001280062236052456,
      "loss": 2.0886,
      "step": 16205
    },
    {
      "epoch": 0.36013333333333336,
      "grad_norm": 1.4373513460159302,
      "learning_rate": 0.00012800177817292734,
      "loss": 2.0815,
      "step": 16206
    },
    {
      "epoch": 0.36015555555555556,
      "grad_norm": 1.5332146883010864,
      "learning_rate": 0.00012799733274060902,
      "loss": 2.1217,
      "step": 16207
    },
    {
      "epoch": 0.36017777777777776,
      "grad_norm": 1.4335858821868896,
      "learning_rate": 0.00012799288730829073,
      "loss": 2.3966,
      "step": 16208
    },
    {
      "epoch": 0.3602,
      "grad_norm": 1.6646369695663452,
      "learning_rate": 0.00012798844187597247,
      "loss": 2.0355,
      "step": 16209
    },
    {
      "epoch": 0.3602222222222222,
      "grad_norm": 1.3385788202285767,
      "learning_rate": 0.00012798399644365415,
      "loss": 1.2861,
      "step": 16210
    },
    {
      "epoch": 0.3602444444444444,
      "grad_norm": 1.3300851583480835,
      "learning_rate": 0.00012797955101133586,
      "loss": 1.9799,
      "step": 16211
    },
    {
      "epoch": 0.3602666666666667,
      "grad_norm": 1.468813419342041,
      "learning_rate": 0.00012797510557901757,
      "loss": 2.2548,
      "step": 16212
    },
    {
      "epoch": 0.3602888888888889,
      "grad_norm": 1.5688458681106567,
      "learning_rate": 0.00012797066014669928,
      "loss": 1.979,
      "step": 16213
    },
    {
      "epoch": 0.36031111111111114,
      "grad_norm": 1.7865530252456665,
      "learning_rate": 0.00012796621471438096,
      "loss": 1.6517,
      "step": 16214
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 1.8341997861862183,
      "learning_rate": 0.0001279617692820627,
      "loss": 1.8286,
      "step": 16215
    },
    {
      "epoch": 0.36035555555555554,
      "grad_norm": 1.6515251398086548,
      "learning_rate": 0.00012795732384974438,
      "loss": 2.1359,
      "step": 16216
    },
    {
      "epoch": 0.3603777777777778,
      "grad_norm": 1.173688530921936,
      "learning_rate": 0.0001279528784174261,
      "loss": 1.4737,
      "step": 16217
    },
    {
      "epoch": 0.3604,
      "grad_norm": 0.9347336292266846,
      "learning_rate": 0.00012794843298510783,
      "loss": 0.9706,
      "step": 16218
    },
    {
      "epoch": 0.3604222222222222,
      "grad_norm": 1.4770116806030273,
      "learning_rate": 0.0001279439875527895,
      "loss": 2.3186,
      "step": 16219
    },
    {
      "epoch": 0.36044444444444446,
      "grad_norm": 2.0393166542053223,
      "learning_rate": 0.00012793954212047122,
      "loss": 2.1459,
      "step": 16220
    },
    {
      "epoch": 0.36046666666666666,
      "grad_norm": 1.7240307331085205,
      "learning_rate": 0.00012793509668815293,
      "loss": 2.1616,
      "step": 16221
    },
    {
      "epoch": 0.3604888888888889,
      "grad_norm": 1.5411098003387451,
      "learning_rate": 0.00012793065125583464,
      "loss": 2.2473,
      "step": 16222
    },
    {
      "epoch": 0.3605111111111111,
      "grad_norm": 1.7108161449432373,
      "learning_rate": 0.00012792620582351635,
      "loss": 1.7871,
      "step": 16223
    },
    {
      "epoch": 0.3605333333333333,
      "grad_norm": 1.686228632926941,
      "learning_rate": 0.00012792176039119806,
      "loss": 1.5749,
      "step": 16224
    },
    {
      "epoch": 0.3605555555555556,
      "grad_norm": 1.312934398651123,
      "learning_rate": 0.00012791731495887977,
      "loss": 1.2268,
      "step": 16225
    },
    {
      "epoch": 0.3605777777777778,
      "grad_norm": 2.7623820304870605,
      "learning_rate": 0.00012791286952656148,
      "loss": 1.9503,
      "step": 16226
    },
    {
      "epoch": 0.3606,
      "grad_norm": 1.6706156730651855,
      "learning_rate": 0.00012790842409424319,
      "loss": 2.0608,
      "step": 16227
    },
    {
      "epoch": 0.36062222222222223,
      "grad_norm": 1.4364618062973022,
      "learning_rate": 0.00012790397866192487,
      "loss": 1.9534,
      "step": 16228
    },
    {
      "epoch": 0.36064444444444443,
      "grad_norm": 0.973738968372345,
      "learning_rate": 0.0001278995332296066,
      "loss": 0.8613,
      "step": 16229
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 1.7869892120361328,
      "learning_rate": 0.0001278950877972883,
      "loss": 2.2221,
      "step": 16230
    },
    {
      "epoch": 0.3606888888888889,
      "grad_norm": 1.4604641199111938,
      "learning_rate": 0.00012789064236497,
      "loss": 1.976,
      "step": 16231
    },
    {
      "epoch": 0.3607111111111111,
      "grad_norm": 1.4623777866363525,
      "learning_rate": 0.0001278861969326517,
      "loss": 1.6485,
      "step": 16232
    },
    {
      "epoch": 0.36073333333333335,
      "grad_norm": 1.3589915037155151,
      "learning_rate": 0.00012788175150033342,
      "loss": 1.6447,
      "step": 16233
    },
    {
      "epoch": 0.36075555555555555,
      "grad_norm": 1.7065424919128418,
      "learning_rate": 0.00012787730606801513,
      "loss": 2.2196,
      "step": 16234
    },
    {
      "epoch": 0.36077777777777775,
      "grad_norm": 1.3608291149139404,
      "learning_rate": 0.00012787286063569684,
      "loss": 1.6155,
      "step": 16235
    },
    {
      "epoch": 0.3608,
      "grad_norm": 1.6405625343322754,
      "learning_rate": 0.00012786841520337854,
      "loss": 2.1858,
      "step": 16236
    },
    {
      "epoch": 0.3608222222222222,
      "grad_norm": 1.4936463832855225,
      "learning_rate": 0.00012786396977106023,
      "loss": 1.6069,
      "step": 16237
    },
    {
      "epoch": 0.36084444444444447,
      "grad_norm": 1.597963571548462,
      "learning_rate": 0.00012785952433874196,
      "loss": 1.9918,
      "step": 16238
    },
    {
      "epoch": 0.36086666666666667,
      "grad_norm": 1.6440457105636597,
      "learning_rate": 0.00012785507890642365,
      "loss": 1.8549,
      "step": 16239
    },
    {
      "epoch": 0.36088888888888887,
      "grad_norm": 2.181626319885254,
      "learning_rate": 0.00012785063347410536,
      "loss": 2.3062,
      "step": 16240
    },
    {
      "epoch": 0.3609111111111111,
      "grad_norm": 1.4305404424667358,
      "learning_rate": 0.00012784618804178707,
      "loss": 1.3973,
      "step": 16241
    },
    {
      "epoch": 0.36093333333333333,
      "grad_norm": 1.4532307386398315,
      "learning_rate": 0.00012784174260946878,
      "loss": 1.5397,
      "step": 16242
    },
    {
      "epoch": 0.36095555555555553,
      "grad_norm": 2.045511245727539,
      "learning_rate": 0.00012783729717715048,
      "loss": 1.8023,
      "step": 16243
    },
    {
      "epoch": 0.3609777777777778,
      "grad_norm": 2.089973211288452,
      "learning_rate": 0.0001278328517448322,
      "loss": 1.6352,
      "step": 16244
    },
    {
      "epoch": 0.361,
      "grad_norm": 1.4334033727645874,
      "learning_rate": 0.0001278284063125139,
      "loss": 1.7531,
      "step": 16245
    },
    {
      "epoch": 0.36102222222222224,
      "grad_norm": 1.60544753074646,
      "learning_rate": 0.00012782396088019561,
      "loss": 1.9954,
      "step": 16246
    },
    {
      "epoch": 0.36104444444444445,
      "grad_norm": 1.8173366785049438,
      "learning_rate": 0.00012781951544787732,
      "loss": 2.3083,
      "step": 16247
    },
    {
      "epoch": 0.36106666666666665,
      "grad_norm": 2.101228713989258,
      "learning_rate": 0.000127815070015559,
      "loss": 1.7507,
      "step": 16248
    },
    {
      "epoch": 0.3610888888888889,
      "grad_norm": 1.889717698097229,
      "learning_rate": 0.00012781062458324074,
      "loss": 1.9741,
      "step": 16249
    },
    {
      "epoch": 0.3611111111111111,
      "grad_norm": 2.009939432144165,
      "learning_rate": 0.00012780617915092243,
      "loss": 1.5088,
      "step": 16250
    },
    {
      "epoch": 0.3611333333333333,
      "grad_norm": 1.1840828657150269,
      "learning_rate": 0.00012780173371860413,
      "loss": 1.7008,
      "step": 16251
    },
    {
      "epoch": 0.36115555555555556,
      "grad_norm": 1.343583345413208,
      "learning_rate": 0.00012779728828628584,
      "loss": 2.1912,
      "step": 16252
    },
    {
      "epoch": 0.36117777777777776,
      "grad_norm": 2.001493215560913,
      "learning_rate": 0.00012779284285396755,
      "loss": 2.4255,
      "step": 16253
    },
    {
      "epoch": 0.3612,
      "grad_norm": 1.5143225193023682,
      "learning_rate": 0.00012778839742164926,
      "loss": 2.3595,
      "step": 16254
    },
    {
      "epoch": 0.3612222222222222,
      "grad_norm": 1.7514973878860474,
      "learning_rate": 0.00012778395198933097,
      "loss": 2.3464,
      "step": 16255
    },
    {
      "epoch": 0.3612444444444444,
      "grad_norm": 1.6715234518051147,
      "learning_rate": 0.00012777950655701268,
      "loss": 2.376,
      "step": 16256
    },
    {
      "epoch": 0.3612666666666667,
      "grad_norm": 1.4446237087249756,
      "learning_rate": 0.00012777506112469437,
      "loss": 1.9069,
      "step": 16257
    },
    {
      "epoch": 0.3612888888888889,
      "grad_norm": 1.463767170906067,
      "learning_rate": 0.0001277706156923761,
      "loss": 2.4885,
      "step": 16258
    },
    {
      "epoch": 0.36131111111111114,
      "grad_norm": 1.4177019596099854,
      "learning_rate": 0.00012776617026005778,
      "loss": 2.049,
      "step": 16259
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 1.495773196220398,
      "learning_rate": 0.0001277617248277395,
      "loss": 2.3681,
      "step": 16260
    },
    {
      "epoch": 0.36135555555555554,
      "grad_norm": 1.5159237384796143,
      "learning_rate": 0.0001277572793954212,
      "loss": 1.5716,
      "step": 16261
    },
    {
      "epoch": 0.3613777777777778,
      "grad_norm": 1.5664252042770386,
      "learning_rate": 0.0001277528339631029,
      "loss": 1.7879,
      "step": 16262
    },
    {
      "epoch": 0.3614,
      "grad_norm": 1.373751163482666,
      "learning_rate": 0.00012774838853078462,
      "loss": 2.2611,
      "step": 16263
    },
    {
      "epoch": 0.3614222222222222,
      "grad_norm": 1.7104499340057373,
      "learning_rate": 0.00012774394309846633,
      "loss": 1.4042,
      "step": 16264
    },
    {
      "epoch": 0.36144444444444446,
      "grad_norm": 1.6120792627334595,
      "learning_rate": 0.00012773949766614804,
      "loss": 2.1795,
      "step": 16265
    },
    {
      "epoch": 0.36146666666666666,
      "grad_norm": 2.0765838623046875,
      "learning_rate": 0.00012773505223382975,
      "loss": 2.0876,
      "step": 16266
    },
    {
      "epoch": 0.3614888888888889,
      "grad_norm": 1.6942789554595947,
      "learning_rate": 0.00012773060680151146,
      "loss": 2.5211,
      "step": 16267
    },
    {
      "epoch": 0.3615111111111111,
      "grad_norm": 1.6104520559310913,
      "learning_rate": 0.00012772616136919314,
      "loss": 2.1658,
      "step": 16268
    },
    {
      "epoch": 0.3615333333333333,
      "grad_norm": 1.608858585357666,
      "learning_rate": 0.00012772171593687488,
      "loss": 2.0298,
      "step": 16269
    },
    {
      "epoch": 0.3615555555555556,
      "grad_norm": 1.4278061389923096,
      "learning_rate": 0.00012771727050455656,
      "loss": 1.903,
      "step": 16270
    },
    {
      "epoch": 0.3615777777777778,
      "grad_norm": 1.6223812103271484,
      "learning_rate": 0.00012771282507223827,
      "loss": 1.9838,
      "step": 16271
    },
    {
      "epoch": 0.3616,
      "grad_norm": 2.3825414180755615,
      "learning_rate": 0.00012770837963991998,
      "loss": 1.7317,
      "step": 16272
    },
    {
      "epoch": 0.36162222222222223,
      "grad_norm": 1.4485383033752441,
      "learning_rate": 0.0001277039342076017,
      "loss": 1.9868,
      "step": 16273
    },
    {
      "epoch": 0.36164444444444444,
      "grad_norm": 1.7606616020202637,
      "learning_rate": 0.0001276994887752834,
      "loss": 2.289,
      "step": 16274
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 1.6043750047683716,
      "learning_rate": 0.0001276950433429651,
      "loss": 2.2177,
      "step": 16275
    },
    {
      "epoch": 0.3616888888888889,
      "grad_norm": 1.71100914478302,
      "learning_rate": 0.00012769059791064682,
      "loss": 2.2573,
      "step": 16276
    },
    {
      "epoch": 0.3617111111111111,
      "grad_norm": 1.631981372833252,
      "learning_rate": 0.0001276861524783285,
      "loss": 1.8865,
      "step": 16277
    },
    {
      "epoch": 0.36173333333333335,
      "grad_norm": 1.6704739332199097,
      "learning_rate": 0.00012768170704601024,
      "loss": 1.6133,
      "step": 16278
    },
    {
      "epoch": 0.36175555555555555,
      "grad_norm": 1.6936519145965576,
      "learning_rate": 0.00012767726161369192,
      "loss": 2.1428,
      "step": 16279
    },
    {
      "epoch": 0.36177777777777775,
      "grad_norm": 1.6069639921188354,
      "learning_rate": 0.00012767281618137366,
      "loss": 1.772,
      "step": 16280
    },
    {
      "epoch": 0.3618,
      "grad_norm": 1.5088247060775757,
      "learning_rate": 0.00012766837074905534,
      "loss": 1.0275,
      "step": 16281
    },
    {
      "epoch": 0.3618222222222222,
      "grad_norm": 1.3103591203689575,
      "learning_rate": 0.00012766392531673705,
      "loss": 1.5103,
      "step": 16282
    },
    {
      "epoch": 0.36184444444444447,
      "grad_norm": 1.5359615087509155,
      "learning_rate": 0.0001276594798844188,
      "loss": 2.0815,
      "step": 16283
    },
    {
      "epoch": 0.36186666666666667,
      "grad_norm": 1.427302598953247,
      "learning_rate": 0.00012765503445210047,
      "loss": 1.7812,
      "step": 16284
    },
    {
      "epoch": 0.36188888888888887,
      "grad_norm": 1.9241105318069458,
      "learning_rate": 0.00012765058901978218,
      "loss": 1.9127,
      "step": 16285
    },
    {
      "epoch": 0.36191111111111113,
      "grad_norm": 2.3758623600006104,
      "learning_rate": 0.0001276461435874639,
      "loss": 1.7725,
      "step": 16286
    },
    {
      "epoch": 0.36193333333333333,
      "grad_norm": 1.424965500831604,
      "learning_rate": 0.0001276416981551456,
      "loss": 1.6756,
      "step": 16287
    },
    {
      "epoch": 0.36195555555555553,
      "grad_norm": 1.7075377702713013,
      "learning_rate": 0.00012763725272282728,
      "loss": 1.9096,
      "step": 16288
    },
    {
      "epoch": 0.3619777777777778,
      "grad_norm": 1.145492672920227,
      "learning_rate": 0.00012763280729050902,
      "loss": 0.8589,
      "step": 16289
    },
    {
      "epoch": 0.362,
      "grad_norm": 1.616206169128418,
      "learning_rate": 0.0001276283618581907,
      "loss": 2.072,
      "step": 16290
    },
    {
      "epoch": 0.36202222222222225,
      "grad_norm": 1.5567375421524048,
      "learning_rate": 0.0001276239164258724,
      "loss": 1.6213,
      "step": 16291
    },
    {
      "epoch": 0.36204444444444445,
      "grad_norm": 1.3693218231201172,
      "learning_rate": 0.00012761947099355415,
      "loss": 1.5639,
      "step": 16292
    },
    {
      "epoch": 0.36206666666666665,
      "grad_norm": 1.6493313312530518,
      "learning_rate": 0.00012761502556123583,
      "loss": 1.6717,
      "step": 16293
    },
    {
      "epoch": 0.3620888888888889,
      "grad_norm": 2.020341634750366,
      "learning_rate": 0.00012761058012891754,
      "loss": 1.9356,
      "step": 16294
    },
    {
      "epoch": 0.3621111111111111,
      "grad_norm": 1.6266463994979858,
      "learning_rate": 0.00012760613469659925,
      "loss": 1.7016,
      "step": 16295
    },
    {
      "epoch": 0.3621333333333333,
      "grad_norm": 1.8491548299789429,
      "learning_rate": 0.00012760168926428096,
      "loss": 1.1118,
      "step": 16296
    },
    {
      "epoch": 0.36215555555555556,
      "grad_norm": 1.0624213218688965,
      "learning_rate": 0.00012759724383196264,
      "loss": 0.6847,
      "step": 16297
    },
    {
      "epoch": 0.36217777777777777,
      "grad_norm": 1.8116339445114136,
      "learning_rate": 0.00012759279839964438,
      "loss": 1.8726,
      "step": 16298
    },
    {
      "epoch": 0.3622,
      "grad_norm": 1.7163059711456299,
      "learning_rate": 0.0001275883529673261,
      "loss": 1.4816,
      "step": 16299
    },
    {
      "epoch": 0.3622222222222222,
      "grad_norm": 3.137021541595459,
      "learning_rate": 0.0001275839075350078,
      "loss": 0.9146,
      "step": 16300
    },
    {
      "epoch": 0.3622444444444444,
      "grad_norm": 1.422993779182434,
      "learning_rate": 0.0001275794621026895,
      "loss": 2.7637,
      "step": 16301
    },
    {
      "epoch": 0.3622666666666667,
      "grad_norm": 1.2308298349380493,
      "learning_rate": 0.0001275750166703712,
      "loss": 1.9509,
      "step": 16302
    },
    {
      "epoch": 0.3622888888888889,
      "grad_norm": 1.5048059225082397,
      "learning_rate": 0.00012757057123805293,
      "loss": 2.5684,
      "step": 16303
    },
    {
      "epoch": 0.3623111111111111,
      "grad_norm": 1.464209794998169,
      "learning_rate": 0.0001275661258057346,
      "loss": 2.1767,
      "step": 16304
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 1.5420316457748413,
      "learning_rate": 0.00012756168037341632,
      "loss": 2.2946,
      "step": 16305
    },
    {
      "epoch": 0.36235555555555554,
      "grad_norm": 1.4778761863708496,
      "learning_rate": 0.00012755723494109803,
      "loss": 2.1415,
      "step": 16306
    },
    {
      "epoch": 0.3623777777777778,
      "grad_norm": 1.3321038484573364,
      "learning_rate": 0.00012755278950877974,
      "loss": 1.5359,
      "step": 16307
    },
    {
      "epoch": 0.3624,
      "grad_norm": 1.501584529876709,
      "learning_rate": 0.00012754834407646145,
      "loss": 2.1793,
      "step": 16308
    },
    {
      "epoch": 0.3624222222222222,
      "grad_norm": 1.74875009059906,
      "learning_rate": 0.00012754389864414316,
      "loss": 2.7988,
      "step": 16309
    },
    {
      "epoch": 0.36244444444444446,
      "grad_norm": 1.0630648136138916,
      "learning_rate": 0.00012753945321182487,
      "loss": 1.1268,
      "step": 16310
    },
    {
      "epoch": 0.36246666666666666,
      "grad_norm": 1.8221451044082642,
      "learning_rate": 0.00012753500777950655,
      "loss": 2.3657,
      "step": 16311
    },
    {
      "epoch": 0.3624888888888889,
      "grad_norm": 4.4629316329956055,
      "learning_rate": 0.00012753056234718829,
      "loss": 2.3231,
      "step": 16312
    },
    {
      "epoch": 0.3625111111111111,
      "grad_norm": 1.85240638256073,
      "learning_rate": 0.00012752611691486997,
      "loss": 1.9672,
      "step": 16313
    },
    {
      "epoch": 0.3625333333333333,
      "grad_norm": 1.5086324214935303,
      "learning_rate": 0.00012752167148255168,
      "loss": 1.6719,
      "step": 16314
    },
    {
      "epoch": 0.3625555555555556,
      "grad_norm": 1.419154167175293,
      "learning_rate": 0.0001275172260502334,
      "loss": 1.918,
      "step": 16315
    },
    {
      "epoch": 0.3625777777777778,
      "grad_norm": 1.5215470790863037,
      "learning_rate": 0.0001275127806179151,
      "loss": 2.0513,
      "step": 16316
    },
    {
      "epoch": 0.3626,
      "grad_norm": 1.437233328819275,
      "learning_rate": 0.0001275083351855968,
      "loss": 2.3759,
      "step": 16317
    },
    {
      "epoch": 0.36262222222222223,
      "grad_norm": 0.15000107884407043,
      "learning_rate": 0.00012750388975327852,
      "loss": 0.0248,
      "step": 16318
    },
    {
      "epoch": 0.36264444444444444,
      "grad_norm": 1.593325138092041,
      "learning_rate": 0.00012749944432096023,
      "loss": 2.1719,
      "step": 16319
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 1.4715559482574463,
      "learning_rate": 0.00012749499888864194,
      "loss": 1.924,
      "step": 16320
    },
    {
      "epoch": 0.3626888888888889,
      "grad_norm": 1.7083014249801636,
      "learning_rate": 0.00012749055345632365,
      "loss": 1.8286,
      "step": 16321
    },
    {
      "epoch": 0.3627111111111111,
      "grad_norm": 1.5396596193313599,
      "learning_rate": 0.00012748610802400533,
      "loss": 2.0886,
      "step": 16322
    },
    {
      "epoch": 0.36273333333333335,
      "grad_norm": 1.790516972541809,
      "learning_rate": 0.00012748166259168706,
      "loss": 2.2306,
      "step": 16323
    },
    {
      "epoch": 0.36275555555555555,
      "grad_norm": 1.356154203414917,
      "learning_rate": 0.00012747721715936875,
      "loss": 1.7088,
      "step": 16324
    },
    {
      "epoch": 0.36277777777777775,
      "grad_norm": 1.7005623579025269,
      "learning_rate": 0.00012747277172705046,
      "loss": 2.0812,
      "step": 16325
    },
    {
      "epoch": 0.3628,
      "grad_norm": 1.5079842805862427,
      "learning_rate": 0.00012746832629473217,
      "loss": 1.9618,
      "step": 16326
    },
    {
      "epoch": 0.3628222222222222,
      "grad_norm": 1.4037034511566162,
      "learning_rate": 0.00012746388086241388,
      "loss": 1.8112,
      "step": 16327
    },
    {
      "epoch": 0.36284444444444447,
      "grad_norm": 1.4820475578308105,
      "learning_rate": 0.00012745943543009559,
      "loss": 1.8088,
      "step": 16328
    },
    {
      "epoch": 0.36286666666666667,
      "grad_norm": 1.779830813407898,
      "learning_rate": 0.0001274549899977773,
      "loss": 1.9134,
      "step": 16329
    },
    {
      "epoch": 0.36288888888888887,
      "grad_norm": 2.1322011947631836,
      "learning_rate": 0.000127450544565459,
      "loss": 1.9887,
      "step": 16330
    },
    {
      "epoch": 0.36291111111111113,
      "grad_norm": 1.4275832176208496,
      "learning_rate": 0.0001274460991331407,
      "loss": 1.8268,
      "step": 16331
    },
    {
      "epoch": 0.36293333333333333,
      "grad_norm": 1.4653174877166748,
      "learning_rate": 0.00012744165370082242,
      "loss": 2.0188,
      "step": 16332
    },
    {
      "epoch": 0.36295555555555553,
      "grad_norm": 1.8741992712020874,
      "learning_rate": 0.0001274372082685041,
      "loss": 2.2232,
      "step": 16333
    },
    {
      "epoch": 0.3629777777777778,
      "grad_norm": 1.6405096054077148,
      "learning_rate": 0.00012743276283618582,
      "loss": 1.959,
      "step": 16334
    },
    {
      "epoch": 0.363,
      "grad_norm": 1.6078157424926758,
      "learning_rate": 0.00012742831740386753,
      "loss": 1.4187,
      "step": 16335
    },
    {
      "epoch": 0.36302222222222225,
      "grad_norm": 1.411707878112793,
      "learning_rate": 0.00012742387197154924,
      "loss": 1.8665,
      "step": 16336
    },
    {
      "epoch": 0.36304444444444445,
      "grad_norm": 1.5131555795669556,
      "learning_rate": 0.00012741942653923095,
      "loss": 2.06,
      "step": 16337
    },
    {
      "epoch": 0.36306666666666665,
      "grad_norm": 1.1096159219741821,
      "learning_rate": 0.00012741498110691265,
      "loss": 0.8868,
      "step": 16338
    },
    {
      "epoch": 0.3630888888888889,
      "grad_norm": 1.789530873298645,
      "learning_rate": 0.00012741053567459436,
      "loss": 1.6853,
      "step": 16339
    },
    {
      "epoch": 0.3631111111111111,
      "grad_norm": 1.5068333148956299,
      "learning_rate": 0.00012740609024227607,
      "loss": 1.7005,
      "step": 16340
    },
    {
      "epoch": 0.3631333333333333,
      "grad_norm": 3.1438629627227783,
      "learning_rate": 0.00012740164480995778,
      "loss": 2.1648,
      "step": 16341
    },
    {
      "epoch": 0.36315555555555556,
      "grad_norm": 2.055152654647827,
      "learning_rate": 0.00012739719937763947,
      "loss": 2.0204,
      "step": 16342
    },
    {
      "epoch": 0.36317777777777777,
      "grad_norm": 1.4922685623168945,
      "learning_rate": 0.0001273927539453212,
      "loss": 1.6439,
      "step": 16343
    },
    {
      "epoch": 0.3632,
      "grad_norm": 1.5180057287216187,
      "learning_rate": 0.00012738830851300289,
      "loss": 1.9365,
      "step": 16344
    },
    {
      "epoch": 0.3632222222222222,
      "grad_norm": 1.5999231338500977,
      "learning_rate": 0.0001273838630806846,
      "loss": 1.6346,
      "step": 16345
    },
    {
      "epoch": 0.3632444444444444,
      "grad_norm": 2.14752197265625,
      "learning_rate": 0.0001273794176483663,
      "loss": 1.5319,
      "step": 16346
    },
    {
      "epoch": 0.3632666666666667,
      "grad_norm": 1.7106913328170776,
      "learning_rate": 0.00012737497221604801,
      "loss": 2.2024,
      "step": 16347
    },
    {
      "epoch": 0.3632888888888889,
      "grad_norm": 1.8175829648971558,
      "learning_rate": 0.00012737052678372972,
      "loss": 1.8408,
      "step": 16348
    },
    {
      "epoch": 0.3633111111111111,
      "grad_norm": 1.8336130380630493,
      "learning_rate": 0.00012736608135141143,
      "loss": 1.7146,
      "step": 16349
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 1.5411263704299927,
      "learning_rate": 0.00012736163591909314,
      "loss": 1.0668,
      "step": 16350
    },
    {
      "epoch": 0.36335555555555554,
      "grad_norm": 1.5554097890853882,
      "learning_rate": 0.00012735719048677483,
      "loss": 2.3314,
      "step": 16351
    },
    {
      "epoch": 0.3633777777777778,
      "grad_norm": 1.2281739711761475,
      "learning_rate": 0.00012735274505445656,
      "loss": 2.4153,
      "step": 16352
    },
    {
      "epoch": 0.3634,
      "grad_norm": 1.1393768787384033,
      "learning_rate": 0.00012734829962213824,
      "loss": 1.0143,
      "step": 16353
    },
    {
      "epoch": 0.3634222222222222,
      "grad_norm": 1.3372572660446167,
      "learning_rate": 0.00012734385418981995,
      "loss": 2.4848,
      "step": 16354
    },
    {
      "epoch": 0.36344444444444446,
      "grad_norm": 1.3810738325119019,
      "learning_rate": 0.00012733940875750166,
      "loss": 2.5386,
      "step": 16355
    },
    {
      "epoch": 0.36346666666666666,
      "grad_norm": 1.4784982204437256,
      "learning_rate": 0.00012733496332518337,
      "loss": 1.6333,
      "step": 16356
    },
    {
      "epoch": 0.36348888888888886,
      "grad_norm": 1.3907322883605957,
      "learning_rate": 0.0001273305178928651,
      "loss": 2.2836,
      "step": 16357
    },
    {
      "epoch": 0.3635111111111111,
      "grad_norm": 1.8724194765090942,
      "learning_rate": 0.0001273260724605468,
      "loss": 2.4331,
      "step": 16358
    },
    {
      "epoch": 0.3635333333333333,
      "grad_norm": 2.005852699279785,
      "learning_rate": 0.0001273216270282285,
      "loss": 2.0077,
      "step": 16359
    },
    {
      "epoch": 0.3635555555555556,
      "grad_norm": 1.51706063747406,
      "learning_rate": 0.0001273171815959102,
      "loss": 1.9751,
      "step": 16360
    },
    {
      "epoch": 0.3635777777777778,
      "grad_norm": 1.566328763961792,
      "learning_rate": 0.00012731273616359192,
      "loss": 2.1412,
      "step": 16361
    },
    {
      "epoch": 0.3636,
      "grad_norm": 1.4959651231765747,
      "learning_rate": 0.0001273082907312736,
      "loss": 2.2634,
      "step": 16362
    },
    {
      "epoch": 0.36362222222222224,
      "grad_norm": 1.6622995138168335,
      "learning_rate": 0.00012730384529895534,
      "loss": 1.5526,
      "step": 16363
    },
    {
      "epoch": 0.36364444444444444,
      "grad_norm": 1.330394983291626,
      "learning_rate": 0.00012729939986663702,
      "loss": 2.0533,
      "step": 16364
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 1.5756733417510986,
      "learning_rate": 0.00012729495443431873,
      "loss": 2.2008,
      "step": 16365
    },
    {
      "epoch": 0.3636888888888889,
      "grad_norm": 1.3997119665145874,
      "learning_rate": 0.00012729050900200047,
      "loss": 1.6473,
      "step": 16366
    },
    {
      "epoch": 0.3637111111111111,
      "grad_norm": 1.6849393844604492,
      "learning_rate": 0.00012728606356968215,
      "loss": 1.6248,
      "step": 16367
    },
    {
      "epoch": 0.36373333333333335,
      "grad_norm": 1.4575748443603516,
      "learning_rate": 0.00012728161813736386,
      "loss": 1.7735,
      "step": 16368
    },
    {
      "epoch": 0.36375555555555555,
      "grad_norm": 1.31903874874115,
      "learning_rate": 0.00012727717270504557,
      "loss": 2.0481,
      "step": 16369
    },
    {
      "epoch": 0.36377777777777776,
      "grad_norm": 1.5976399183273315,
      "learning_rate": 0.00012727272727272728,
      "loss": 1.7209,
      "step": 16370
    },
    {
      "epoch": 0.3638,
      "grad_norm": 1.422777771949768,
      "learning_rate": 0.00012726828184040896,
      "loss": 2.0049,
      "step": 16371
    },
    {
      "epoch": 0.3638222222222222,
      "grad_norm": 1.5604279041290283,
      "learning_rate": 0.0001272638364080907,
      "loss": 2.1862,
      "step": 16372
    },
    {
      "epoch": 0.36384444444444447,
      "grad_norm": 1.6616419553756714,
      "learning_rate": 0.0001272593909757724,
      "loss": 2.1338,
      "step": 16373
    },
    {
      "epoch": 0.36386666666666667,
      "grad_norm": 1.6143308877944946,
      "learning_rate": 0.0001272549455434541,
      "loss": 2.1752,
      "step": 16374
    },
    {
      "epoch": 0.3638888888888889,
      "grad_norm": 1.4154630899429321,
      "learning_rate": 0.00012725050011113583,
      "loss": 2.1167,
      "step": 16375
    },
    {
      "epoch": 0.36391111111111113,
      "grad_norm": 1.4922763109207153,
      "learning_rate": 0.0001272460546788175,
      "loss": 1.7664,
      "step": 16376
    },
    {
      "epoch": 0.36393333333333333,
      "grad_norm": 2.050072431564331,
      "learning_rate": 0.00012724160924649925,
      "loss": 2.2692,
      "step": 16377
    },
    {
      "epoch": 0.36395555555555553,
      "grad_norm": 1.3658099174499512,
      "learning_rate": 0.00012723716381418093,
      "loss": 1.6922,
      "step": 16378
    },
    {
      "epoch": 0.3639777777777778,
      "grad_norm": 1.9095841646194458,
      "learning_rate": 0.00012723271838186264,
      "loss": 2.0437,
      "step": 16379
    },
    {
      "epoch": 0.364,
      "grad_norm": 1.9570503234863281,
      "learning_rate": 0.00012722827294954435,
      "loss": 1.923,
      "step": 16380
    },
    {
      "epoch": 0.36402222222222225,
      "grad_norm": 1.5617365837097168,
      "learning_rate": 0.00012722382751722606,
      "loss": 1.7312,
      "step": 16381
    },
    {
      "epoch": 0.36404444444444445,
      "grad_norm": 1.5748733282089233,
      "learning_rate": 0.00012721938208490777,
      "loss": 1.7643,
      "step": 16382
    },
    {
      "epoch": 0.36406666666666665,
      "grad_norm": 1.7844003438949585,
      "learning_rate": 0.00012721493665258948,
      "loss": 1.8525,
      "step": 16383
    },
    {
      "epoch": 0.3640888888888889,
      "grad_norm": 1.518686056137085,
      "learning_rate": 0.0001272104912202712,
      "loss": 1.4598,
      "step": 16384
    },
    {
      "epoch": 0.3641111111111111,
      "grad_norm": 3.031402826309204,
      "learning_rate": 0.00012720604578795287,
      "loss": 2.3648,
      "step": 16385
    },
    {
      "epoch": 0.3641333333333333,
      "grad_norm": 1.6252365112304688,
      "learning_rate": 0.0001272016003556346,
      "loss": 1.8457,
      "step": 16386
    },
    {
      "epoch": 0.36415555555555557,
      "grad_norm": 2.3723013401031494,
      "learning_rate": 0.0001271971549233163,
      "loss": 2.2809,
      "step": 16387
    },
    {
      "epoch": 0.36417777777777777,
      "grad_norm": 1.607423186302185,
      "learning_rate": 0.000127192709490998,
      "loss": 2.3669,
      "step": 16388
    },
    {
      "epoch": 0.3642,
      "grad_norm": 1.4895689487457275,
      "learning_rate": 0.0001271882640586797,
      "loss": 1.7725,
      "step": 16389
    },
    {
      "epoch": 0.3642222222222222,
      "grad_norm": 1.6893128156661987,
      "learning_rate": 0.00012718381862636142,
      "loss": 1.6328,
      "step": 16390
    },
    {
      "epoch": 0.3642444444444444,
      "grad_norm": 2.0559792518615723,
      "learning_rate": 0.00012717937319404313,
      "loss": 1.6226,
      "step": 16391
    },
    {
      "epoch": 0.3642666666666667,
      "grad_norm": 2.240098476409912,
      "learning_rate": 0.00012717492776172484,
      "loss": 2.2168,
      "step": 16392
    },
    {
      "epoch": 0.3642888888888889,
      "grad_norm": 1.6744484901428223,
      "learning_rate": 0.00012717048232940655,
      "loss": 1.7516,
      "step": 16393
    },
    {
      "epoch": 0.3643111111111111,
      "grad_norm": 2.325544834136963,
      "learning_rate": 0.00012716603689708826,
      "loss": 1.9228,
      "step": 16394
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 1.6184747219085693,
      "learning_rate": 0.00012716159146476997,
      "loss": 1.978,
      "step": 16395
    },
    {
      "epoch": 0.36435555555555554,
      "grad_norm": 1.6805431842803955,
      "learning_rate": 0.00012715714603245165,
      "loss": 1.9989,
      "step": 16396
    },
    {
      "epoch": 0.3643777777777778,
      "grad_norm": 2.1922800540924072,
      "learning_rate": 0.0001271527006001334,
      "loss": 1.8086,
      "step": 16397
    },
    {
      "epoch": 0.3644,
      "grad_norm": 1.8238922357559204,
      "learning_rate": 0.00012714825516781507,
      "loss": 1.6888,
      "step": 16398
    },
    {
      "epoch": 0.3644222222222222,
      "grad_norm": 1.381381630897522,
      "learning_rate": 0.00012714380973549678,
      "loss": 1.104,
      "step": 16399
    },
    {
      "epoch": 0.36444444444444446,
      "grad_norm": 1.8128700256347656,
      "learning_rate": 0.0001271393643031785,
      "loss": 1.6531,
      "step": 16400
    },
    {
      "epoch": 0.36446666666666666,
      "grad_norm": 1.6590524911880493,
      "learning_rate": 0.0001271349188708602,
      "loss": 2.6032,
      "step": 16401
    },
    {
      "epoch": 0.36448888888888886,
      "grad_norm": 1.402819275856018,
      "learning_rate": 0.0001271304734385419,
      "loss": 2.0644,
      "step": 16402
    },
    {
      "epoch": 0.3645111111111111,
      "grad_norm": 1.309700846672058,
      "learning_rate": 0.00012712602800622362,
      "loss": 1.4156,
      "step": 16403
    },
    {
      "epoch": 0.3645333333333333,
      "grad_norm": 1.4291019439697266,
      "learning_rate": 0.00012712158257390533,
      "loss": 2.3959,
      "step": 16404
    },
    {
      "epoch": 0.3645555555555556,
      "grad_norm": 1.4629896879196167,
      "learning_rate": 0.000127117137141587,
      "loss": 2.4853,
      "step": 16405
    },
    {
      "epoch": 0.3645777777777778,
      "grad_norm": 1.793003797531128,
      "learning_rate": 0.00012711269170926875,
      "loss": 1.9781,
      "step": 16406
    },
    {
      "epoch": 0.3646,
      "grad_norm": 1.4378371238708496,
      "learning_rate": 0.00012710824627695043,
      "loss": 2.1593,
      "step": 16407
    },
    {
      "epoch": 0.36462222222222224,
      "grad_norm": 1.3295698165893555,
      "learning_rate": 0.00012710380084463214,
      "loss": 1.9684,
      "step": 16408
    },
    {
      "epoch": 0.36464444444444444,
      "grad_norm": 1.5599929094314575,
      "learning_rate": 0.00012709935541231385,
      "loss": 1.8127,
      "step": 16409
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 1.4928749799728394,
      "learning_rate": 0.00012709490997999556,
      "loss": 2.1291,
      "step": 16410
    },
    {
      "epoch": 0.3646888888888889,
      "grad_norm": 1.3585646152496338,
      "learning_rate": 0.00012709046454767727,
      "loss": 1.9259,
      "step": 16411
    },
    {
      "epoch": 0.3647111111111111,
      "grad_norm": 1.9034433364868164,
      "learning_rate": 0.00012708601911535898,
      "loss": 2.2527,
      "step": 16412
    },
    {
      "epoch": 0.36473333333333335,
      "grad_norm": 1.7711306810379028,
      "learning_rate": 0.0001270815736830407,
      "loss": 1.8713,
      "step": 16413
    },
    {
      "epoch": 0.36475555555555556,
      "grad_norm": 1.49762761592865,
      "learning_rate": 0.0001270771282507224,
      "loss": 1.9077,
      "step": 16414
    },
    {
      "epoch": 0.36477777777777776,
      "grad_norm": 1.698832392692566,
      "learning_rate": 0.0001270726828184041,
      "loss": 1.7701,
      "step": 16415
    },
    {
      "epoch": 0.3648,
      "grad_norm": 1.6053962707519531,
      "learning_rate": 0.0001270682373860858,
      "loss": 1.9816,
      "step": 16416
    },
    {
      "epoch": 0.3648222222222222,
      "grad_norm": 1.6128363609313965,
      "learning_rate": 0.00012706379195376752,
      "loss": 2.3312,
      "step": 16417
    },
    {
      "epoch": 0.36484444444444447,
      "grad_norm": 1.6201943159103394,
      "learning_rate": 0.0001270593465214492,
      "loss": 1.825,
      "step": 16418
    },
    {
      "epoch": 0.3648666666666667,
      "grad_norm": 1.829760193824768,
      "learning_rate": 0.00012705490108913092,
      "loss": 1.6485,
      "step": 16419
    },
    {
      "epoch": 0.3648888888888889,
      "grad_norm": 1.5065274238586426,
      "learning_rate": 0.00012705045565681263,
      "loss": 2.3362,
      "step": 16420
    },
    {
      "epoch": 0.36491111111111113,
      "grad_norm": 1.7621313333511353,
      "learning_rate": 0.00012704601022449434,
      "loss": 2.1711,
      "step": 16421
    },
    {
      "epoch": 0.36493333333333333,
      "grad_norm": 1.9431484937667847,
      "learning_rate": 0.00012704156479217605,
      "loss": 1.8759,
      "step": 16422
    },
    {
      "epoch": 0.36495555555555553,
      "grad_norm": 2.2519524097442627,
      "learning_rate": 0.00012703711935985776,
      "loss": 2.4083,
      "step": 16423
    },
    {
      "epoch": 0.3649777777777778,
      "grad_norm": 1.6928433179855347,
      "learning_rate": 0.00012703267392753947,
      "loss": 1.9724,
      "step": 16424
    },
    {
      "epoch": 0.365,
      "grad_norm": 1.7958784103393555,
      "learning_rate": 0.00012702822849522115,
      "loss": 1.961,
      "step": 16425
    },
    {
      "epoch": 0.36502222222222225,
      "grad_norm": 1.8786625862121582,
      "learning_rate": 0.00012702378306290288,
      "loss": 2.0491,
      "step": 16426
    },
    {
      "epoch": 0.36504444444444445,
      "grad_norm": 2.0132999420166016,
      "learning_rate": 0.00012701933763058457,
      "loss": 2.1646,
      "step": 16427
    },
    {
      "epoch": 0.36506666666666665,
      "grad_norm": 1.741666316986084,
      "learning_rate": 0.00012701489219826628,
      "loss": 2.0574,
      "step": 16428
    },
    {
      "epoch": 0.3650888888888889,
      "grad_norm": 1.6403323411941528,
      "learning_rate": 0.00012701044676594799,
      "loss": 2.1171,
      "step": 16429
    },
    {
      "epoch": 0.3651111111111111,
      "grad_norm": 1.5555109977722168,
      "learning_rate": 0.0001270060013336297,
      "loss": 1.7202,
      "step": 16430
    },
    {
      "epoch": 0.3651333333333333,
      "grad_norm": 1.2447967529296875,
      "learning_rate": 0.0001270015559013114,
      "loss": 1.4269,
      "step": 16431
    },
    {
      "epoch": 0.36515555555555557,
      "grad_norm": 1.9699888229370117,
      "learning_rate": 0.00012699711046899312,
      "loss": 2.6899,
      "step": 16432
    },
    {
      "epoch": 0.36517777777777777,
      "grad_norm": 1.8658734560012817,
      "learning_rate": 0.00012699266503667482,
      "loss": 2.4061,
      "step": 16433
    },
    {
      "epoch": 0.3652,
      "grad_norm": 1.488725185394287,
      "learning_rate": 0.00012698821960435653,
      "loss": 1.0311,
      "step": 16434
    },
    {
      "epoch": 0.3652222222222222,
      "grad_norm": 1.7825111150741577,
      "learning_rate": 0.00012698377417203824,
      "loss": 1.9106,
      "step": 16435
    },
    {
      "epoch": 0.3652444444444444,
      "grad_norm": 1.5032564401626587,
      "learning_rate": 0.00012697932873971993,
      "loss": 1.9832,
      "step": 16436
    },
    {
      "epoch": 0.3652666666666667,
      "grad_norm": 1.5748059749603271,
      "learning_rate": 0.00012697488330740166,
      "loss": 1.8433,
      "step": 16437
    },
    {
      "epoch": 0.3652888888888889,
      "grad_norm": 1.4526340961456299,
      "learning_rate": 0.00012697043787508335,
      "loss": 1.3885,
      "step": 16438
    },
    {
      "epoch": 0.3653111111111111,
      "grad_norm": 1.6906837224960327,
      "learning_rate": 0.00012696599244276506,
      "loss": 1.8867,
      "step": 16439
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 1.9303662776947021,
      "learning_rate": 0.0001269615470104468,
      "loss": 1.6988,
      "step": 16440
    },
    {
      "epoch": 0.36535555555555554,
      "grad_norm": 1.4651328325271606,
      "learning_rate": 0.00012695710157812847,
      "loss": 1.9181,
      "step": 16441
    },
    {
      "epoch": 0.3653777777777778,
      "grad_norm": 1.8550469875335693,
      "learning_rate": 0.00012695265614581018,
      "loss": 1.993,
      "step": 16442
    },
    {
      "epoch": 0.3654,
      "grad_norm": 2.177872896194458,
      "learning_rate": 0.0001269482107134919,
      "loss": 1.9741,
      "step": 16443
    },
    {
      "epoch": 0.3654222222222222,
      "grad_norm": 1.6292749643325806,
      "learning_rate": 0.0001269437652811736,
      "loss": 1.6622,
      "step": 16444
    },
    {
      "epoch": 0.36544444444444446,
      "grad_norm": 1.8350744247436523,
      "learning_rate": 0.00012693931984885529,
      "loss": 1.7921,
      "step": 16445
    },
    {
      "epoch": 0.36546666666666666,
      "grad_norm": 1.6541404724121094,
      "learning_rate": 0.00012693487441653702,
      "loss": 2.0388,
      "step": 16446
    },
    {
      "epoch": 0.36548888888888886,
      "grad_norm": 1.6794558763504028,
      "learning_rate": 0.00012693042898421873,
      "loss": 1.9993,
      "step": 16447
    },
    {
      "epoch": 0.3655111111111111,
      "grad_norm": 2.0763657093048096,
      "learning_rate": 0.00012692598355190041,
      "loss": 1.8847,
      "step": 16448
    },
    {
      "epoch": 0.3655333333333333,
      "grad_norm": 1.4460046291351318,
      "learning_rate": 0.00012692153811958215,
      "loss": 1.4323,
      "step": 16449
    },
    {
      "epoch": 0.3655555555555556,
      "grad_norm": 1.5693731307983398,
      "learning_rate": 0.00012691709268726383,
      "loss": 1.7872,
      "step": 16450
    },
    {
      "epoch": 0.3655777777777778,
      "grad_norm": 1.1256673336029053,
      "learning_rate": 0.00012691264725494557,
      "loss": 1.4648,
      "step": 16451
    },
    {
      "epoch": 0.3656,
      "grad_norm": 1.2701457738876343,
      "learning_rate": 0.00012690820182262725,
      "loss": 2.6558,
      "step": 16452
    },
    {
      "epoch": 0.36562222222222224,
      "grad_norm": 0.9810531735420227,
      "learning_rate": 0.00012690375639030896,
      "loss": 1.0998,
      "step": 16453
    },
    {
      "epoch": 0.36564444444444444,
      "grad_norm": 1.5265165567398071,
      "learning_rate": 0.00012689931095799067,
      "loss": 1.987,
      "step": 16454
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 1.1969881057739258,
      "learning_rate": 0.00012689486552567238,
      "loss": 1.6606,
      "step": 16455
    },
    {
      "epoch": 0.3656888888888889,
      "grad_norm": 1.137200117111206,
      "learning_rate": 0.0001268904200933541,
      "loss": 2.115,
      "step": 16456
    },
    {
      "epoch": 0.3657111111111111,
      "grad_norm": 1.6278433799743652,
      "learning_rate": 0.0001268859746610358,
      "loss": 2.3092,
      "step": 16457
    },
    {
      "epoch": 0.36573333333333335,
      "grad_norm": 1.3295248746871948,
      "learning_rate": 0.0001268815292287175,
      "loss": 1.8082,
      "step": 16458
    },
    {
      "epoch": 0.36575555555555556,
      "grad_norm": 1.4616384506225586,
      "learning_rate": 0.0001268770837963992,
      "loss": 2.3473,
      "step": 16459
    },
    {
      "epoch": 0.36577777777777776,
      "grad_norm": 1.3683706521987915,
      "learning_rate": 0.00012687263836408093,
      "loss": 2.2511,
      "step": 16460
    },
    {
      "epoch": 0.3658,
      "grad_norm": 0.9696990847587585,
      "learning_rate": 0.0001268681929317626,
      "loss": 1.1569,
      "step": 16461
    },
    {
      "epoch": 0.3658222222222222,
      "grad_norm": 1.4389667510986328,
      "learning_rate": 0.00012686374749944432,
      "loss": 2.1435,
      "step": 16462
    },
    {
      "epoch": 0.36584444444444447,
      "grad_norm": 1.3896499872207642,
      "learning_rate": 0.00012685930206712603,
      "loss": 2.0505,
      "step": 16463
    },
    {
      "epoch": 0.3658666666666667,
      "grad_norm": 1.3735021352767944,
      "learning_rate": 0.00012685485663480774,
      "loss": 2.3066,
      "step": 16464
    },
    {
      "epoch": 0.3658888888888889,
      "grad_norm": 1.6018072366714478,
      "learning_rate": 0.00012685041120248945,
      "loss": 2.3108,
      "step": 16465
    },
    {
      "epoch": 0.36591111111111113,
      "grad_norm": 1.5977877378463745,
      "learning_rate": 0.00012684596577017116,
      "loss": 2.2039,
      "step": 16466
    },
    {
      "epoch": 0.36593333333333333,
      "grad_norm": 1.4195632934570312,
      "learning_rate": 0.00012684152033785287,
      "loss": 2.1067,
      "step": 16467
    },
    {
      "epoch": 0.36595555555555553,
      "grad_norm": 1.5600173473358154,
      "learning_rate": 0.00012683707490553455,
      "loss": 1.8729,
      "step": 16468
    },
    {
      "epoch": 0.3659777777777778,
      "grad_norm": 1.4530647993087769,
      "learning_rate": 0.0001268326294732163,
      "loss": 1.8104,
      "step": 16469
    },
    {
      "epoch": 0.366,
      "grad_norm": 1.4368304014205933,
      "learning_rate": 0.00012682818404089797,
      "loss": 1.451,
      "step": 16470
    },
    {
      "epoch": 0.36602222222222225,
      "grad_norm": 1.1463379859924316,
      "learning_rate": 0.0001268237386085797,
      "loss": 0.9231,
      "step": 16471
    },
    {
      "epoch": 0.36604444444444445,
      "grad_norm": 1.5142005681991577,
      "learning_rate": 0.0001268192931762614,
      "loss": 1.9588,
      "step": 16472
    },
    {
      "epoch": 0.36606666666666665,
      "grad_norm": 1.4869393110275269,
      "learning_rate": 0.0001268148477439431,
      "loss": 2.2265,
      "step": 16473
    },
    {
      "epoch": 0.3660888888888889,
      "grad_norm": 1.5199114084243774,
      "learning_rate": 0.0001268104023116248,
      "loss": 1.6515,
      "step": 16474
    },
    {
      "epoch": 0.3661111111111111,
      "grad_norm": 1.4429229497909546,
      "learning_rate": 0.00012680595687930652,
      "loss": 2.0327,
      "step": 16475
    },
    {
      "epoch": 0.3661333333333333,
      "grad_norm": 1.8261127471923828,
      "learning_rate": 0.00012680151144698823,
      "loss": 2.0775,
      "step": 16476
    },
    {
      "epoch": 0.36615555555555557,
      "grad_norm": 1.0764864683151245,
      "learning_rate": 0.00012679706601466994,
      "loss": 0.7005,
      "step": 16477
    },
    {
      "epoch": 0.36617777777777777,
      "grad_norm": 1.781354546546936,
      "learning_rate": 0.00012679262058235165,
      "loss": 2.0229,
      "step": 16478
    },
    {
      "epoch": 0.3662,
      "grad_norm": 1.7021243572235107,
      "learning_rate": 0.00012678817515003333,
      "loss": 2.1036,
      "step": 16479
    },
    {
      "epoch": 0.3662222222222222,
      "grad_norm": 1.7798186540603638,
      "learning_rate": 0.00012678372971771507,
      "loss": 1.783,
      "step": 16480
    },
    {
      "epoch": 0.36624444444444443,
      "grad_norm": 1.4425660371780396,
      "learning_rate": 0.00012677928428539675,
      "loss": 1.3587,
      "step": 16481
    },
    {
      "epoch": 0.3662666666666667,
      "grad_norm": 1.6026091575622559,
      "learning_rate": 0.00012677483885307846,
      "loss": 1.899,
      "step": 16482
    },
    {
      "epoch": 0.3662888888888889,
      "grad_norm": 1.6123017072677612,
      "learning_rate": 0.00012677039342076017,
      "loss": 1.7548,
      "step": 16483
    },
    {
      "epoch": 0.3663111111111111,
      "grad_norm": 1.6025161743164062,
      "learning_rate": 0.00012676594798844188,
      "loss": 1.88,
      "step": 16484
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 1.6245675086975098,
      "learning_rate": 0.0001267615025561236,
      "loss": 2.0834,
      "step": 16485
    },
    {
      "epoch": 0.36635555555555555,
      "grad_norm": 1.5347927808761597,
      "learning_rate": 0.0001267570571238053,
      "loss": 1.8083,
      "step": 16486
    },
    {
      "epoch": 0.3663777777777778,
      "grad_norm": 1.6078579425811768,
      "learning_rate": 0.000126752611691487,
      "loss": 1.8756,
      "step": 16487
    },
    {
      "epoch": 0.3664,
      "grad_norm": 1.7062689065933228,
      "learning_rate": 0.0001267481662591687,
      "loss": 2.0252,
      "step": 16488
    },
    {
      "epoch": 0.3664222222222222,
      "grad_norm": 1.7474768161773682,
      "learning_rate": 0.00012674372082685043,
      "loss": 1.877,
      "step": 16489
    },
    {
      "epoch": 0.36644444444444446,
      "grad_norm": 1.5196045637130737,
      "learning_rate": 0.0001267392753945321,
      "loss": 1.6982,
      "step": 16490
    },
    {
      "epoch": 0.36646666666666666,
      "grad_norm": 1.6462470293045044,
      "learning_rate": 0.00012673482996221385,
      "loss": 1.9431,
      "step": 16491
    },
    {
      "epoch": 0.36648888888888886,
      "grad_norm": 1.7583214044570923,
      "learning_rate": 0.00012673038452989553,
      "loss": 1.5986,
      "step": 16492
    },
    {
      "epoch": 0.3665111111111111,
      "grad_norm": 1.81016206741333,
      "learning_rate": 0.00012672593909757724,
      "loss": 1.9786,
      "step": 16493
    },
    {
      "epoch": 0.3665333333333333,
      "grad_norm": 2.340080738067627,
      "learning_rate": 0.00012672149366525895,
      "loss": 2.1787,
      "step": 16494
    },
    {
      "epoch": 0.3665555555555556,
      "grad_norm": 1.6210383176803589,
      "learning_rate": 0.00012671704823294066,
      "loss": 1.8971,
      "step": 16495
    },
    {
      "epoch": 0.3665777777777778,
      "grad_norm": 1.505406379699707,
      "learning_rate": 0.00012671260280062237,
      "loss": 0.9052,
      "step": 16496
    },
    {
      "epoch": 0.3666,
      "grad_norm": 1.191978096961975,
      "learning_rate": 0.00012670815736830408,
      "loss": 0.9988,
      "step": 16497
    },
    {
      "epoch": 0.36662222222222224,
      "grad_norm": 2.288464069366455,
      "learning_rate": 0.0001267037119359858,
      "loss": 1.9232,
      "step": 16498
    },
    {
      "epoch": 0.36664444444444444,
      "grad_norm": 2.0598666667938232,
      "learning_rate": 0.00012669926650366747,
      "loss": 2.1648,
      "step": 16499
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 1.9134489297866821,
      "learning_rate": 0.0001266948210713492,
      "loss": 1.6892,
      "step": 16500
    },
    {
      "epoch": 0.3666888888888889,
      "grad_norm": 1.256078839302063,
      "learning_rate": 0.0001266903756390309,
      "loss": 2.3857,
      "step": 16501
    },
    {
      "epoch": 0.3667111111111111,
      "grad_norm": 1.2984135150909424,
      "learning_rate": 0.0001266859302067126,
      "loss": 2.2609,
      "step": 16502
    },
    {
      "epoch": 0.36673333333333336,
      "grad_norm": 1.3960436582565308,
      "learning_rate": 0.0001266814847743943,
      "loss": 2.3995,
      "step": 16503
    },
    {
      "epoch": 0.36675555555555556,
      "grad_norm": 1.687291145324707,
      "learning_rate": 0.00012667703934207602,
      "loss": 2.6853,
      "step": 16504
    },
    {
      "epoch": 0.36677777777777776,
      "grad_norm": 1.555446982383728,
      "learning_rate": 0.00012667259390975773,
      "loss": 2.0795,
      "step": 16505
    },
    {
      "epoch": 0.3668,
      "grad_norm": 1.3161174058914185,
      "learning_rate": 0.00012666814847743944,
      "loss": 1.4871,
      "step": 16506
    },
    {
      "epoch": 0.3668222222222222,
      "grad_norm": 1.4691404104232788,
      "learning_rate": 0.00012666370304512115,
      "loss": 1.9324,
      "step": 16507
    },
    {
      "epoch": 0.3668444444444444,
      "grad_norm": 1.2219760417938232,
      "learning_rate": 0.00012665925761280286,
      "loss": 1.3962,
      "step": 16508
    },
    {
      "epoch": 0.3668666666666667,
      "grad_norm": 1.398219108581543,
      "learning_rate": 0.00012665481218048457,
      "loss": 2.1356,
      "step": 16509
    },
    {
      "epoch": 0.3668888888888889,
      "grad_norm": 1.5698130130767822,
      "learning_rate": 0.00012665036674816625,
      "loss": 2.5469,
      "step": 16510
    },
    {
      "epoch": 0.36691111111111113,
      "grad_norm": 1.572418451309204,
      "learning_rate": 0.00012664592131584799,
      "loss": 2.3908,
      "step": 16511
    },
    {
      "epoch": 0.36693333333333333,
      "grad_norm": 1.3839350938796997,
      "learning_rate": 0.00012664147588352967,
      "loss": 1.9681,
      "step": 16512
    },
    {
      "epoch": 0.36695555555555553,
      "grad_norm": 1.2591410875320435,
      "learning_rate": 0.00012663703045121138,
      "loss": 1.4895,
      "step": 16513
    },
    {
      "epoch": 0.3669777777777778,
      "grad_norm": 1.5359232425689697,
      "learning_rate": 0.00012663258501889311,
      "loss": 2.1578,
      "step": 16514
    },
    {
      "epoch": 0.367,
      "grad_norm": 1.4210774898529053,
      "learning_rate": 0.0001266281395865748,
      "loss": 2.3294,
      "step": 16515
    },
    {
      "epoch": 0.36702222222222225,
      "grad_norm": 1.4952281713485718,
      "learning_rate": 0.0001266236941542565,
      "loss": 2.0525,
      "step": 16516
    },
    {
      "epoch": 0.36704444444444445,
      "grad_norm": 1.0128772258758545,
      "learning_rate": 0.00012661924872193822,
      "loss": 0.9951,
      "step": 16517
    },
    {
      "epoch": 0.36706666666666665,
      "grad_norm": 1.503359317779541,
      "learning_rate": 0.00012661480328961993,
      "loss": 1.8849,
      "step": 16518
    },
    {
      "epoch": 0.3670888888888889,
      "grad_norm": 1.5528035163879395,
      "learning_rate": 0.0001266103578573016,
      "loss": 2.162,
      "step": 16519
    },
    {
      "epoch": 0.3671111111111111,
      "grad_norm": 1.40122389793396,
      "learning_rate": 0.00012660591242498334,
      "loss": 1.782,
      "step": 16520
    },
    {
      "epoch": 0.3671333333333333,
      "grad_norm": 2.1177656650543213,
      "learning_rate": 0.00012660146699266505,
      "loss": 2.5424,
      "step": 16521
    },
    {
      "epoch": 0.36715555555555557,
      "grad_norm": 1.554455041885376,
      "learning_rate": 0.00012659702156034674,
      "loss": 1.925,
      "step": 16522
    },
    {
      "epoch": 0.36717777777777777,
      "grad_norm": 1.6010061502456665,
      "learning_rate": 0.00012659257612802847,
      "loss": 2.2772,
      "step": 16523
    },
    {
      "epoch": 0.3672,
      "grad_norm": 1.4535537958145142,
      "learning_rate": 0.00012658813069571016,
      "loss": 1.7997,
      "step": 16524
    },
    {
      "epoch": 0.3672222222222222,
      "grad_norm": 1.6641085147857666,
      "learning_rate": 0.00012658368526339187,
      "loss": 1.8491,
      "step": 16525
    },
    {
      "epoch": 0.36724444444444443,
      "grad_norm": 1.6496978998184204,
      "learning_rate": 0.00012657923983107358,
      "loss": 2.0669,
      "step": 16526
    },
    {
      "epoch": 0.3672666666666667,
      "grad_norm": 1.6437890529632568,
      "learning_rate": 0.00012657479439875528,
      "loss": 2.0307,
      "step": 16527
    },
    {
      "epoch": 0.3672888888888889,
      "grad_norm": 1.5048694610595703,
      "learning_rate": 0.000126570348966437,
      "loss": 1.8354,
      "step": 16528
    },
    {
      "epoch": 0.3673111111111111,
      "grad_norm": 2.012007474899292,
      "learning_rate": 0.0001265659035341187,
      "loss": 2.244,
      "step": 16529
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 1.4733670949935913,
      "learning_rate": 0.00012656145810180041,
      "loss": 1.8018,
      "step": 16530
    },
    {
      "epoch": 0.36735555555555555,
      "grad_norm": 1.6795954704284668,
      "learning_rate": 0.00012655701266948212,
      "loss": 1.7326,
      "step": 16531
    },
    {
      "epoch": 0.3673777777777778,
      "grad_norm": 1.3981419801712036,
      "learning_rate": 0.00012655256723716383,
      "loss": 1.2704,
      "step": 16532
    },
    {
      "epoch": 0.3674,
      "grad_norm": 1.5919158458709717,
      "learning_rate": 0.00012654812180484552,
      "loss": 1.9385,
      "step": 16533
    },
    {
      "epoch": 0.3674222222222222,
      "grad_norm": 1.7183877229690552,
      "learning_rate": 0.00012654367637252725,
      "loss": 2.2928,
      "step": 16534
    },
    {
      "epoch": 0.36744444444444446,
      "grad_norm": 1.5595381259918213,
      "learning_rate": 0.00012653923094020893,
      "loss": 1.7107,
      "step": 16535
    },
    {
      "epoch": 0.36746666666666666,
      "grad_norm": 1.5862030982971191,
      "learning_rate": 0.00012653478550789064,
      "loss": 1.5413,
      "step": 16536
    },
    {
      "epoch": 0.36748888888888886,
      "grad_norm": 1.5626006126403809,
      "learning_rate": 0.00012653034007557235,
      "loss": 1.6991,
      "step": 16537
    },
    {
      "epoch": 0.3675111111111111,
      "grad_norm": 1.5584461688995361,
      "learning_rate": 0.00012652589464325406,
      "loss": 1.9752,
      "step": 16538
    },
    {
      "epoch": 0.3675333333333333,
      "grad_norm": 1.8252708911895752,
      "learning_rate": 0.00012652144921093577,
      "loss": 1.9232,
      "step": 16539
    },
    {
      "epoch": 0.3675555555555556,
      "grad_norm": 1.4600917100906372,
      "learning_rate": 0.00012651700377861748,
      "loss": 1.5288,
      "step": 16540
    },
    {
      "epoch": 0.3675777777777778,
      "grad_norm": 1.9506300687789917,
      "learning_rate": 0.0001265125583462992,
      "loss": 2.1785,
      "step": 16541
    },
    {
      "epoch": 0.3676,
      "grad_norm": 1.388526439666748,
      "learning_rate": 0.00012650811291398087,
      "loss": 1.3993,
      "step": 16542
    },
    {
      "epoch": 0.36762222222222224,
      "grad_norm": 1.5055958032608032,
      "learning_rate": 0.0001265036674816626,
      "loss": 1.517,
      "step": 16543
    },
    {
      "epoch": 0.36764444444444444,
      "grad_norm": 1.5979152917861938,
      "learning_rate": 0.0001264992220493443,
      "loss": 1.423,
      "step": 16544
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 1.7235647439956665,
      "learning_rate": 0.00012649477661702603,
      "loss": 1.5663,
      "step": 16545
    },
    {
      "epoch": 0.3676888888888889,
      "grad_norm": 1.1527347564697266,
      "learning_rate": 0.0001264903311847077,
      "loss": 0.8185,
      "step": 16546
    },
    {
      "epoch": 0.3677111111111111,
      "grad_norm": 1.7150261402130127,
      "learning_rate": 0.00012648588575238942,
      "loss": 1.7366,
      "step": 16547
    },
    {
      "epoch": 0.36773333333333336,
      "grad_norm": 1.685738205909729,
      "learning_rate": 0.00012648144032007113,
      "loss": 1.8203,
      "step": 16548
    },
    {
      "epoch": 0.36775555555555556,
      "grad_norm": 1.8855102062225342,
      "learning_rate": 0.00012647699488775284,
      "loss": 1.7226,
      "step": 16549
    },
    {
      "epoch": 0.36777777777777776,
      "grad_norm": 1.636500358581543,
      "learning_rate": 0.00012647254945543455,
      "loss": 1.3481,
      "step": 16550
    },
    {
      "epoch": 0.3678,
      "grad_norm": 1.4606417417526245,
      "learning_rate": 0.00012646810402311626,
      "loss": 2.789,
      "step": 16551
    },
    {
      "epoch": 0.3678222222222222,
      "grad_norm": 1.548889398574829,
      "learning_rate": 0.00012646365859079797,
      "loss": 3.0635,
      "step": 16552
    },
    {
      "epoch": 0.3678444444444444,
      "grad_norm": 1.5939066410064697,
      "learning_rate": 0.00012645921315847965,
      "loss": 2.4646,
      "step": 16553
    },
    {
      "epoch": 0.3678666666666667,
      "grad_norm": 1.7273625135421753,
      "learning_rate": 0.0001264547677261614,
      "loss": 1.1184,
      "step": 16554
    },
    {
      "epoch": 0.3678888888888889,
      "grad_norm": 1.5058479309082031,
      "learning_rate": 0.00012645032229384307,
      "loss": 1.4558,
      "step": 16555
    },
    {
      "epoch": 0.36791111111111113,
      "grad_norm": 1.3951919078826904,
      "learning_rate": 0.00012644587686152478,
      "loss": 2.6135,
      "step": 16556
    },
    {
      "epoch": 0.36793333333333333,
      "grad_norm": 1.3740673065185547,
      "learning_rate": 0.0001264414314292065,
      "loss": 1.7513,
      "step": 16557
    },
    {
      "epoch": 0.36795555555555554,
      "grad_norm": 1.3211923837661743,
      "learning_rate": 0.0001264369859968882,
      "loss": 1.8408,
      "step": 16558
    },
    {
      "epoch": 0.3679777777777778,
      "grad_norm": 1.7692538499832153,
      "learning_rate": 0.0001264325405645699,
      "loss": 2.0865,
      "step": 16559
    },
    {
      "epoch": 0.368,
      "grad_norm": 1.611243724822998,
      "learning_rate": 0.00012642809513225162,
      "loss": 2.0896,
      "step": 16560
    },
    {
      "epoch": 0.3680222222222222,
      "grad_norm": 1.5975373983383179,
      "learning_rate": 0.00012642364969993333,
      "loss": 2.1768,
      "step": 16561
    },
    {
      "epoch": 0.36804444444444445,
      "grad_norm": 1.4681864976882935,
      "learning_rate": 0.000126419204267615,
      "loss": 2.0402,
      "step": 16562
    },
    {
      "epoch": 0.36806666666666665,
      "grad_norm": 1.5848989486694336,
      "learning_rate": 0.00012641475883529675,
      "loss": 1.8431,
      "step": 16563
    },
    {
      "epoch": 0.3680888888888889,
      "grad_norm": 1.4398491382598877,
      "learning_rate": 0.00012641031340297843,
      "loss": 1.9704,
      "step": 16564
    },
    {
      "epoch": 0.3681111111111111,
      "grad_norm": 1.3475606441497803,
      "learning_rate": 0.00012640586797066017,
      "loss": 1.9829,
      "step": 16565
    },
    {
      "epoch": 0.3681333333333333,
      "grad_norm": 1.6237977743148804,
      "learning_rate": 0.00012640142253834185,
      "loss": 1.896,
      "step": 16566
    },
    {
      "epoch": 0.36815555555555557,
      "grad_norm": 1.4093961715698242,
      "learning_rate": 0.00012639697710602356,
      "loss": 1.6463,
      "step": 16567
    },
    {
      "epoch": 0.36817777777777777,
      "grad_norm": 1.4323790073394775,
      "learning_rate": 0.00012639253167370527,
      "loss": 1.7201,
      "step": 16568
    },
    {
      "epoch": 0.3682,
      "grad_norm": 0.3834593594074249,
      "learning_rate": 0.00012638808624138698,
      "loss": 0.0299,
      "step": 16569
    },
    {
      "epoch": 0.36822222222222223,
      "grad_norm": 1.2417365312576294,
      "learning_rate": 0.0001263836408090687,
      "loss": 1.5094,
      "step": 16570
    },
    {
      "epoch": 0.36824444444444443,
      "grad_norm": 1.6323665380477905,
      "learning_rate": 0.0001263791953767504,
      "loss": 2.4108,
      "step": 16571
    },
    {
      "epoch": 0.3682666666666667,
      "grad_norm": 1.5326601266860962,
      "learning_rate": 0.0001263747499444321,
      "loss": 2.1544,
      "step": 16572
    },
    {
      "epoch": 0.3682888888888889,
      "grad_norm": 1.4560399055480957,
      "learning_rate": 0.0001263703045121138,
      "loss": 1.8359,
      "step": 16573
    },
    {
      "epoch": 0.3683111111111111,
      "grad_norm": 1.8639947175979614,
      "learning_rate": 0.00012636585907979553,
      "loss": 2.0203,
      "step": 16574
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 2.04642915725708,
      "learning_rate": 0.0001263614136474772,
      "loss": 2.2186,
      "step": 16575
    },
    {
      "epoch": 0.36835555555555555,
      "grad_norm": 1.4007641077041626,
      "learning_rate": 0.00012635696821515892,
      "loss": 1.9917,
      "step": 16576
    },
    {
      "epoch": 0.3683777777777778,
      "grad_norm": 1.844355583190918,
      "learning_rate": 0.00012635252278284063,
      "loss": 2.4443,
      "step": 16577
    },
    {
      "epoch": 0.3684,
      "grad_norm": 1.6559580564498901,
      "learning_rate": 0.00012634807735052234,
      "loss": 2.3403,
      "step": 16578
    },
    {
      "epoch": 0.3684222222222222,
      "grad_norm": 1.6592761278152466,
      "learning_rate": 0.00012634363191820405,
      "loss": 1.8666,
      "step": 16579
    },
    {
      "epoch": 0.36844444444444446,
      "grad_norm": 1.9092217683792114,
      "learning_rate": 0.00012633918648588576,
      "loss": 2.0262,
      "step": 16580
    },
    {
      "epoch": 0.36846666666666666,
      "grad_norm": 1.8340736627578735,
      "learning_rate": 0.00012633474105356747,
      "loss": 2.232,
      "step": 16581
    },
    {
      "epoch": 0.36848888888888887,
      "grad_norm": 1.7724661827087402,
      "learning_rate": 0.00012633029562124915,
      "loss": 2.1201,
      "step": 16582
    },
    {
      "epoch": 0.3685111111111111,
      "grad_norm": 1.6107308864593506,
      "learning_rate": 0.0001263258501889309,
      "loss": 1.7692,
      "step": 16583
    },
    {
      "epoch": 0.3685333333333333,
      "grad_norm": 1.6734896898269653,
      "learning_rate": 0.00012632140475661257,
      "loss": 2.3358,
      "step": 16584
    },
    {
      "epoch": 0.3685555555555556,
      "grad_norm": 1.3090434074401855,
      "learning_rate": 0.0001263169593242943,
      "loss": 1.7343,
      "step": 16585
    },
    {
      "epoch": 0.3685777777777778,
      "grad_norm": 1.7023351192474365,
      "learning_rate": 0.000126312513891976,
      "loss": 1.8313,
      "step": 16586
    },
    {
      "epoch": 0.3686,
      "grad_norm": 1.6536725759506226,
      "learning_rate": 0.0001263080684596577,
      "loss": 2.316,
      "step": 16587
    },
    {
      "epoch": 0.36862222222222224,
      "grad_norm": 1.906385064125061,
      "learning_rate": 0.00012630362302733944,
      "loss": 1.9344,
      "step": 16588
    },
    {
      "epoch": 0.36864444444444444,
      "grad_norm": 1.6718922853469849,
      "learning_rate": 0.00012629917759502112,
      "loss": 2.3052,
      "step": 16589
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 1.7350823879241943,
      "learning_rate": 0.00012629473216270283,
      "loss": 1.9847,
      "step": 16590
    },
    {
      "epoch": 0.3686888888888889,
      "grad_norm": 1.4046648740768433,
      "learning_rate": 0.00012629028673038454,
      "loss": 1.7295,
      "step": 16591
    },
    {
      "epoch": 0.3687111111111111,
      "grad_norm": 1.683505892753601,
      "learning_rate": 0.00012628584129806625,
      "loss": 1.5924,
      "step": 16592
    },
    {
      "epoch": 0.36873333333333336,
      "grad_norm": 1.6868987083435059,
      "learning_rate": 0.00012628139586574793,
      "loss": 1.8577,
      "step": 16593
    },
    {
      "epoch": 0.36875555555555556,
      "grad_norm": 1.4269455671310425,
      "learning_rate": 0.00012627695043342967,
      "loss": 1.3869,
      "step": 16594
    },
    {
      "epoch": 0.36877777777777776,
      "grad_norm": 1.376625895500183,
      "learning_rate": 0.00012627250500111138,
      "loss": 1.347,
      "step": 16595
    },
    {
      "epoch": 0.3688,
      "grad_norm": 1.722744107246399,
      "learning_rate": 0.00012626805956879306,
      "loss": 1.7268,
      "step": 16596
    },
    {
      "epoch": 0.3688222222222222,
      "grad_norm": 2.0526366233825684,
      "learning_rate": 0.0001262636141364748,
      "loss": 1.9215,
      "step": 16597
    },
    {
      "epoch": 0.3688444444444444,
      "grad_norm": 1.6585888862609863,
      "learning_rate": 0.00012625916870415648,
      "loss": 1.8563,
      "step": 16598
    },
    {
      "epoch": 0.3688666666666667,
      "grad_norm": 2.0220208168029785,
      "learning_rate": 0.0001262547232718382,
      "loss": 2.0068,
      "step": 16599
    },
    {
      "epoch": 0.3688888888888889,
      "grad_norm": 1.7478975057601929,
      "learning_rate": 0.0001262502778395199,
      "loss": 0.9944,
      "step": 16600
    },
    {
      "epoch": 0.36891111111111113,
      "grad_norm": 1.6463137865066528,
      "learning_rate": 0.0001262458324072016,
      "loss": 2.4456,
      "step": 16601
    },
    {
      "epoch": 0.36893333333333334,
      "grad_norm": 0.7594020962715149,
      "learning_rate": 0.00012624138697488332,
      "loss": 1.0994,
      "step": 16602
    },
    {
      "epoch": 0.36895555555555554,
      "grad_norm": 0.9550880789756775,
      "learning_rate": 0.00012623694154256503,
      "loss": 1.0837,
      "step": 16603
    },
    {
      "epoch": 0.3689777777777778,
      "grad_norm": 1.0694665908813477,
      "learning_rate": 0.00012623249611024674,
      "loss": 1.2963,
      "step": 16604
    },
    {
      "epoch": 0.369,
      "grad_norm": 1.1346588134765625,
      "learning_rate": 0.00012622805067792845,
      "loss": 1.5749,
      "step": 16605
    },
    {
      "epoch": 0.3690222222222222,
      "grad_norm": 1.3872511386871338,
      "learning_rate": 0.00012622360524561016,
      "loss": 2.4471,
      "step": 16606
    },
    {
      "epoch": 0.36904444444444445,
      "grad_norm": 1.5278156995773315,
      "learning_rate": 0.00012621915981329184,
      "loss": 2.559,
      "step": 16607
    },
    {
      "epoch": 0.36906666666666665,
      "grad_norm": 1.413999319076538,
      "learning_rate": 0.00012621471438097357,
      "loss": 2.4579,
      "step": 16608
    },
    {
      "epoch": 0.3690888888888889,
      "grad_norm": 1.2664915323257446,
      "learning_rate": 0.00012621026894865526,
      "loss": 2.215,
      "step": 16609
    },
    {
      "epoch": 0.3691111111111111,
      "grad_norm": 1.456433653831482,
      "learning_rate": 0.00012620582351633697,
      "loss": 1.6879,
      "step": 16610
    },
    {
      "epoch": 0.3691333333333333,
      "grad_norm": 1.4563636779785156,
      "learning_rate": 0.00012620137808401868,
      "loss": 2.0026,
      "step": 16611
    },
    {
      "epoch": 0.36915555555555557,
      "grad_norm": 1.369415283203125,
      "learning_rate": 0.00012619693265170039,
      "loss": 2.4035,
      "step": 16612
    },
    {
      "epoch": 0.36917777777777777,
      "grad_norm": 1.3060139417648315,
      "learning_rate": 0.0001261924872193821,
      "loss": 1.9654,
      "step": 16613
    },
    {
      "epoch": 0.3692,
      "grad_norm": 1.8394807577133179,
      "learning_rate": 0.0001261880417870638,
      "loss": 2.7104,
      "step": 16614
    },
    {
      "epoch": 0.36922222222222223,
      "grad_norm": 1.3933706283569336,
      "learning_rate": 0.00012618359635474551,
      "loss": 1.8293,
      "step": 16615
    },
    {
      "epoch": 0.36924444444444443,
      "grad_norm": 1.5080913305282593,
      "learning_rate": 0.0001261791509224272,
      "loss": 2.0744,
      "step": 16616
    },
    {
      "epoch": 0.3692666666666667,
      "grad_norm": 1.5433248281478882,
      "learning_rate": 0.00012617470549010893,
      "loss": 2.3998,
      "step": 16617
    },
    {
      "epoch": 0.3692888888888889,
      "grad_norm": 1.5660065412521362,
      "learning_rate": 0.00012617026005779062,
      "loss": 2.0276,
      "step": 16618
    },
    {
      "epoch": 0.3693111111111111,
      "grad_norm": 1.4305673837661743,
      "learning_rate": 0.00012616581462547233,
      "loss": 1.7465,
      "step": 16619
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 1.4700607061386108,
      "learning_rate": 0.00012616136919315404,
      "loss": 1.9747,
      "step": 16620
    },
    {
      "epoch": 0.36935555555555555,
      "grad_norm": 1.3895028829574585,
      "learning_rate": 0.00012615692376083575,
      "loss": 1.8075,
      "step": 16621
    },
    {
      "epoch": 0.3693777777777778,
      "grad_norm": 2.2753188610076904,
      "learning_rate": 0.00012615247832851745,
      "loss": 2.4083,
      "step": 16622
    },
    {
      "epoch": 0.3694,
      "grad_norm": 1.563951849937439,
      "learning_rate": 0.00012614803289619916,
      "loss": 1.9849,
      "step": 16623
    },
    {
      "epoch": 0.3694222222222222,
      "grad_norm": 1.505448579788208,
      "learning_rate": 0.00012614358746388087,
      "loss": 2.1121,
      "step": 16624
    },
    {
      "epoch": 0.36944444444444446,
      "grad_norm": 1.5933023691177368,
      "learning_rate": 0.00012613914203156258,
      "loss": 2.5041,
      "step": 16625
    },
    {
      "epoch": 0.36946666666666667,
      "grad_norm": 1.6757105588912964,
      "learning_rate": 0.0001261346965992443,
      "loss": 2.2783,
      "step": 16626
    },
    {
      "epoch": 0.36948888888888887,
      "grad_norm": 1.4643638134002686,
      "learning_rate": 0.00012613025116692598,
      "loss": 1.7938,
      "step": 16627
    },
    {
      "epoch": 0.3695111111111111,
      "grad_norm": 1.3801805973052979,
      "learning_rate": 0.0001261258057346077,
      "loss": 1.7508,
      "step": 16628
    },
    {
      "epoch": 0.3695333333333333,
      "grad_norm": 1.5592478513717651,
      "learning_rate": 0.0001261213603022894,
      "loss": 2.1323,
      "step": 16629
    },
    {
      "epoch": 0.3695555555555556,
      "grad_norm": 1.9894969463348389,
      "learning_rate": 0.0001261169148699711,
      "loss": 2.3279,
      "step": 16630
    },
    {
      "epoch": 0.3695777777777778,
      "grad_norm": 1.907638669013977,
      "learning_rate": 0.00012611246943765281,
      "loss": 2.263,
      "step": 16631
    },
    {
      "epoch": 0.3696,
      "grad_norm": 1.453669548034668,
      "learning_rate": 0.00012610802400533452,
      "loss": 1.833,
      "step": 16632
    },
    {
      "epoch": 0.36962222222222224,
      "grad_norm": 2.0237040519714355,
      "learning_rate": 0.00012610357857301623,
      "loss": 0.5167,
      "step": 16633
    },
    {
      "epoch": 0.36964444444444444,
      "grad_norm": 2.140324115753174,
      "learning_rate": 0.00012609913314069794,
      "loss": 2.4004,
      "step": 16634
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 1.6337860822677612,
      "learning_rate": 0.00012609468770837965,
      "loss": 2.2265,
      "step": 16635
    },
    {
      "epoch": 0.3696888888888889,
      "grad_norm": 2.1235902309417725,
      "learning_rate": 0.00012609024227606134,
      "loss": 0.865,
      "step": 16636
    },
    {
      "epoch": 0.3697111111111111,
      "grad_norm": 1.5125398635864258,
      "learning_rate": 0.00012608579684374307,
      "loss": 1.9902,
      "step": 16637
    },
    {
      "epoch": 0.36973333333333336,
      "grad_norm": 1.7344651222229004,
      "learning_rate": 0.00012608135141142475,
      "loss": 2.5298,
      "step": 16638
    },
    {
      "epoch": 0.36975555555555556,
      "grad_norm": 1.564921259880066,
      "learning_rate": 0.00012607690597910646,
      "loss": 1.9997,
      "step": 16639
    },
    {
      "epoch": 0.36977777777777776,
      "grad_norm": 1.820210576057434,
      "learning_rate": 0.00012607246054678817,
      "loss": 2.1237,
      "step": 16640
    },
    {
      "epoch": 0.3698,
      "grad_norm": 1.631913423538208,
      "learning_rate": 0.00012606801511446988,
      "loss": 1.4896,
      "step": 16641
    },
    {
      "epoch": 0.3698222222222222,
      "grad_norm": 1.4231349229812622,
      "learning_rate": 0.0001260635696821516,
      "loss": 1.6141,
      "step": 16642
    },
    {
      "epoch": 0.3698444444444444,
      "grad_norm": 1.4107275009155273,
      "learning_rate": 0.0001260591242498333,
      "loss": 1.7577,
      "step": 16643
    },
    {
      "epoch": 0.3698666666666667,
      "grad_norm": 1.5753707885742188,
      "learning_rate": 0.000126054678817515,
      "loss": 1.7622,
      "step": 16644
    },
    {
      "epoch": 0.3698888888888889,
      "grad_norm": 1.4613564014434814,
      "learning_rate": 0.00012605023338519672,
      "loss": 1.838,
      "step": 16645
    },
    {
      "epoch": 0.36991111111111113,
      "grad_norm": 1.459191918373108,
      "learning_rate": 0.00012604578795287843,
      "loss": 1.5012,
      "step": 16646
    },
    {
      "epoch": 0.36993333333333334,
      "grad_norm": 1.541397213935852,
      "learning_rate": 0.00012604134252056011,
      "loss": 1.8286,
      "step": 16647
    },
    {
      "epoch": 0.36995555555555554,
      "grad_norm": 1.6604089736938477,
      "learning_rate": 0.00012603689708824185,
      "loss": 1.9916,
      "step": 16648
    },
    {
      "epoch": 0.3699777777777778,
      "grad_norm": 1.797871708869934,
      "learning_rate": 0.00012603245165592353,
      "loss": 1.3926,
      "step": 16649
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1370298862457275,
      "learning_rate": 0.00012602800622360524,
      "loss": 2.2071,
      "step": 16650
    },
    {
      "epoch": 0.3700222222222222,
      "grad_norm": 0.9393934011459351,
      "learning_rate": 0.00012602356079128695,
      "loss": 0.9832,
      "step": 16651
    },
    {
      "epoch": 0.37004444444444445,
      "grad_norm": 1.3298345804214478,
      "learning_rate": 0.00012601911535896866,
      "loss": 2.1299,
      "step": 16652
    },
    {
      "epoch": 0.37006666666666665,
      "grad_norm": 1.5332449674606323,
      "learning_rate": 0.00012601466992665037,
      "loss": 2.2062,
      "step": 16653
    },
    {
      "epoch": 0.3700888888888889,
      "grad_norm": 1.2670273780822754,
      "learning_rate": 0.00012601022449433208,
      "loss": 2.2474,
      "step": 16654
    },
    {
      "epoch": 0.3701111111111111,
      "grad_norm": 1.3589239120483398,
      "learning_rate": 0.0001260057790620138,
      "loss": 2.4855,
      "step": 16655
    },
    {
      "epoch": 0.3701333333333333,
      "grad_norm": 1.3179646730422974,
      "learning_rate": 0.00012600133362969547,
      "loss": 1.8344,
      "step": 16656
    },
    {
      "epoch": 0.37015555555555557,
      "grad_norm": 1.5377777814865112,
      "learning_rate": 0.0001259968881973772,
      "loss": 2.7729,
      "step": 16657
    },
    {
      "epoch": 0.3701777777777778,
      "grad_norm": 1.6540377140045166,
      "learning_rate": 0.0001259924427650589,
      "loss": 2.4191,
      "step": 16658
    },
    {
      "epoch": 0.3702,
      "grad_norm": 1.5898433923721313,
      "learning_rate": 0.00012598799733274063,
      "loss": 2.7849,
      "step": 16659
    },
    {
      "epoch": 0.37022222222222223,
      "grad_norm": 1.4375251531600952,
      "learning_rate": 0.0001259835519004223,
      "loss": 1.9887,
      "step": 16660
    },
    {
      "epoch": 0.37024444444444443,
      "grad_norm": 1.786268711090088,
      "learning_rate": 0.00012597910646810402,
      "loss": 2.3593,
      "step": 16661
    },
    {
      "epoch": 0.3702666666666667,
      "grad_norm": 1.3874739408493042,
      "learning_rate": 0.00012597466103578576,
      "loss": 1.8882,
      "step": 16662
    },
    {
      "epoch": 0.3702888888888889,
      "grad_norm": 1.6987278461456299,
      "learning_rate": 0.00012597021560346744,
      "loss": 1.5543,
      "step": 16663
    },
    {
      "epoch": 0.3703111111111111,
      "grad_norm": 1.3115402460098267,
      "learning_rate": 0.00012596577017114915,
      "loss": 2.2701,
      "step": 16664
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 1.3791131973266602,
      "learning_rate": 0.00012596132473883086,
      "loss": 2.1391,
      "step": 16665
    },
    {
      "epoch": 0.37035555555555555,
      "grad_norm": 1.415932536125183,
      "learning_rate": 0.00012595687930651257,
      "loss": 1.7356,
      "step": 16666
    },
    {
      "epoch": 0.37037777777777775,
      "grad_norm": 1.325096607208252,
      "learning_rate": 0.00012595243387419425,
      "loss": 2.0215,
      "step": 16667
    },
    {
      "epoch": 0.3704,
      "grad_norm": 1.6046193838119507,
      "learning_rate": 0.000125947988441876,
      "loss": 2.1527,
      "step": 16668
    },
    {
      "epoch": 0.3704222222222222,
      "grad_norm": 0.7754111289978027,
      "learning_rate": 0.0001259435430095577,
      "loss": 0.5186,
      "step": 16669
    },
    {
      "epoch": 0.37044444444444447,
      "grad_norm": 0.983288586139679,
      "learning_rate": 0.00012593909757723938,
      "loss": 0.9632,
      "step": 16670
    },
    {
      "epoch": 0.37046666666666667,
      "grad_norm": 1.598437786102295,
      "learning_rate": 0.00012593465214492112,
      "loss": 2.0261,
      "step": 16671
    },
    {
      "epoch": 0.37048888888888887,
      "grad_norm": 1.5563595294952393,
      "learning_rate": 0.0001259302067126028,
      "loss": 2.2989,
      "step": 16672
    },
    {
      "epoch": 0.3705111111111111,
      "grad_norm": 1.912574052810669,
      "learning_rate": 0.0001259257612802845,
      "loss": 2.0537,
      "step": 16673
    },
    {
      "epoch": 0.3705333333333333,
      "grad_norm": 1.7147544622421265,
      "learning_rate": 0.00012592131584796622,
      "loss": 2.1266,
      "step": 16674
    },
    {
      "epoch": 0.3705555555555556,
      "grad_norm": 1.5377520322799683,
      "learning_rate": 0.00012591687041564793,
      "loss": 1.6592,
      "step": 16675
    },
    {
      "epoch": 0.3705777777777778,
      "grad_norm": 1.9039684534072876,
      "learning_rate": 0.0001259124249833296,
      "loss": 1.7713,
      "step": 16676
    },
    {
      "epoch": 0.3706,
      "grad_norm": 1.701189637184143,
      "learning_rate": 0.00012590797955101135,
      "loss": 1.9911,
      "step": 16677
    },
    {
      "epoch": 0.37062222222222224,
      "grad_norm": 1.7031360864639282,
      "learning_rate": 0.00012590353411869306,
      "loss": 2.0774,
      "step": 16678
    },
    {
      "epoch": 0.37064444444444444,
      "grad_norm": 1.660871148109436,
      "learning_rate": 0.00012589908868637477,
      "loss": 2.0657,
      "step": 16679
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 1.7022709846496582,
      "learning_rate": 0.00012589464325405648,
      "loss": 1.9684,
      "step": 16680
    },
    {
      "epoch": 0.3706888888888889,
      "grad_norm": 1.3496675491333008,
      "learning_rate": 0.00012589019782173816,
      "loss": 1.0944,
      "step": 16681
    },
    {
      "epoch": 0.3707111111111111,
      "grad_norm": 1.8222696781158447,
      "learning_rate": 0.0001258857523894199,
      "loss": 2.3306,
      "step": 16682
    },
    {
      "epoch": 0.37073333333333336,
      "grad_norm": 1.5908746719360352,
      "learning_rate": 0.00012588130695710158,
      "loss": 2.0539,
      "step": 16683
    },
    {
      "epoch": 0.37075555555555556,
      "grad_norm": 1.7341867685317993,
      "learning_rate": 0.0001258768615247833,
      "loss": 1.8012,
      "step": 16684
    },
    {
      "epoch": 0.37077777777777776,
      "grad_norm": 1.089030146598816,
      "learning_rate": 0.000125872416092465,
      "loss": 0.8469,
      "step": 16685
    },
    {
      "epoch": 0.3708,
      "grad_norm": 1.852903127670288,
      "learning_rate": 0.0001258679706601467,
      "loss": 2.3344,
      "step": 16686
    },
    {
      "epoch": 0.3708222222222222,
      "grad_norm": 2.1164135932922363,
      "learning_rate": 0.00012586352522782842,
      "loss": 2.5114,
      "step": 16687
    },
    {
      "epoch": 0.3708444444444444,
      "grad_norm": 1.7115716934204102,
      "learning_rate": 0.00012585907979551013,
      "loss": 1.8567,
      "step": 16688
    },
    {
      "epoch": 0.3708666666666667,
      "grad_norm": 1.5957574844360352,
      "learning_rate": 0.00012585463436319184,
      "loss": 1.9541,
      "step": 16689
    },
    {
      "epoch": 0.3708888888888889,
      "grad_norm": 1.5023760795593262,
      "learning_rate": 0.00012585018893087352,
      "loss": 1.7346,
      "step": 16690
    },
    {
      "epoch": 0.37091111111111114,
      "grad_norm": 1.8686888217926025,
      "learning_rate": 0.00012584574349855526,
      "loss": 1.8129,
      "step": 16691
    },
    {
      "epoch": 0.37093333333333334,
      "grad_norm": 1.630514144897461,
      "learning_rate": 0.00012584129806623694,
      "loss": 1.684,
      "step": 16692
    },
    {
      "epoch": 0.37095555555555554,
      "grad_norm": 1.7808600664138794,
      "learning_rate": 0.00012583685263391865,
      "loss": 1.9388,
      "step": 16693
    },
    {
      "epoch": 0.3709777777777778,
      "grad_norm": 1.4560153484344482,
      "learning_rate": 0.00012583240720160036,
      "loss": 1.772,
      "step": 16694
    },
    {
      "epoch": 0.371,
      "grad_norm": 1.9025388956069946,
      "learning_rate": 0.00012582796176928207,
      "loss": 1.8815,
      "step": 16695
    },
    {
      "epoch": 0.3710222222222222,
      "grad_norm": 1.9185057878494263,
      "learning_rate": 0.00012582351633696378,
      "loss": 2.115,
      "step": 16696
    },
    {
      "epoch": 0.37104444444444445,
      "grad_norm": 1.8057348728179932,
      "learning_rate": 0.00012581907090464549,
      "loss": 1.9811,
      "step": 16697
    },
    {
      "epoch": 0.37106666666666666,
      "grad_norm": 1.4067058563232422,
      "learning_rate": 0.0001258146254723272,
      "loss": 1.7922,
      "step": 16698
    },
    {
      "epoch": 0.3710888888888889,
      "grad_norm": 1.364578366279602,
      "learning_rate": 0.0001258101800400089,
      "loss": 1.2876,
      "step": 16699
    },
    {
      "epoch": 0.3711111111111111,
      "grad_norm": 1.6918845176696777,
      "learning_rate": 0.00012580573460769062,
      "loss": 1.9722,
      "step": 16700
    },
    {
      "epoch": 0.3711333333333333,
      "grad_norm": 1.711984634399414,
      "learning_rate": 0.0001258012891753723,
      "loss": 2.9984,
      "step": 16701
    },
    {
      "epoch": 0.37115555555555557,
      "grad_norm": 1.217106819152832,
      "learning_rate": 0.00012579684374305403,
      "loss": 1.2458,
      "step": 16702
    },
    {
      "epoch": 0.3711777777777778,
      "grad_norm": 0.9059705138206482,
      "learning_rate": 0.00012579239831073572,
      "loss": 0.8955,
      "step": 16703
    },
    {
      "epoch": 0.3712,
      "grad_norm": 1.3002461194992065,
      "learning_rate": 0.00012578795287841743,
      "loss": 2.0059,
      "step": 16704
    },
    {
      "epoch": 0.37122222222222223,
      "grad_norm": 1.476334810256958,
      "learning_rate": 0.00012578350744609914,
      "loss": 2.143,
      "step": 16705
    },
    {
      "epoch": 0.37124444444444443,
      "grad_norm": 1.348078966140747,
      "learning_rate": 0.00012577906201378085,
      "loss": 1.677,
      "step": 16706
    },
    {
      "epoch": 0.3712666666666667,
      "grad_norm": 1.3337881565093994,
      "learning_rate": 0.00012577461658146256,
      "loss": 1.3714,
      "step": 16707
    },
    {
      "epoch": 0.3712888888888889,
      "grad_norm": 1.3551936149597168,
      "learning_rate": 0.00012577017114914427,
      "loss": 1.5688,
      "step": 16708
    },
    {
      "epoch": 0.3713111111111111,
      "grad_norm": 2.0728530883789062,
      "learning_rate": 0.00012576572571682597,
      "loss": 1.33,
      "step": 16709
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 1.5104787349700928,
      "learning_rate": 0.00012576128028450766,
      "loss": 2.4605,
      "step": 16710
    },
    {
      "epoch": 0.37135555555555555,
      "grad_norm": 1.8586390018463135,
      "learning_rate": 0.0001257568348521894,
      "loss": 2.3849,
      "step": 16711
    },
    {
      "epoch": 0.37137777777777775,
      "grad_norm": 1.608721137046814,
      "learning_rate": 0.00012575238941987108,
      "loss": 2.1036,
      "step": 16712
    },
    {
      "epoch": 0.3714,
      "grad_norm": 1.6093361377716064,
      "learning_rate": 0.00012574794398755279,
      "loss": 2.1767,
      "step": 16713
    },
    {
      "epoch": 0.3714222222222222,
      "grad_norm": 1.6752846240997314,
      "learning_rate": 0.0001257434985552345,
      "loss": 2.4136,
      "step": 16714
    },
    {
      "epoch": 0.37144444444444447,
      "grad_norm": 1.3860033750534058,
      "learning_rate": 0.0001257390531229162,
      "loss": 1.8049,
      "step": 16715
    },
    {
      "epoch": 0.37146666666666667,
      "grad_norm": 1.3646255731582642,
      "learning_rate": 0.00012573460769059791,
      "loss": 1.9758,
      "step": 16716
    },
    {
      "epoch": 0.37148888888888887,
      "grad_norm": 1.4439975023269653,
      "learning_rate": 0.00012573016225827962,
      "loss": 2.0735,
      "step": 16717
    },
    {
      "epoch": 0.3715111111111111,
      "grad_norm": 1.3021304607391357,
      "learning_rate": 0.00012572571682596133,
      "loss": 2.2012,
      "step": 16718
    },
    {
      "epoch": 0.3715333333333333,
      "grad_norm": 2.171766757965088,
      "learning_rate": 0.00012572127139364304,
      "loss": 2.0371,
      "step": 16719
    },
    {
      "epoch": 0.37155555555555553,
      "grad_norm": 1.5499322414398193,
      "learning_rate": 0.00012571682596132475,
      "loss": 1.928,
      "step": 16720
    },
    {
      "epoch": 0.3715777777777778,
      "grad_norm": 1.6300163269042969,
      "learning_rate": 0.00012571238052900644,
      "loss": 2.2656,
      "step": 16721
    },
    {
      "epoch": 0.3716,
      "grad_norm": 1.3939085006713867,
      "learning_rate": 0.00012570793509668817,
      "loss": 1.8978,
      "step": 16722
    },
    {
      "epoch": 0.37162222222222224,
      "grad_norm": 1.879780650138855,
      "learning_rate": 0.00012570348966436986,
      "loss": 2.3435,
      "step": 16723
    },
    {
      "epoch": 0.37164444444444444,
      "grad_norm": 1.2976435422897339,
      "learning_rate": 0.00012569904423205156,
      "loss": 1.6671,
      "step": 16724
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 1.5973918437957764,
      "learning_rate": 0.00012569459879973327,
      "loss": 1.9241,
      "step": 16725
    },
    {
      "epoch": 0.3716888888888889,
      "grad_norm": 1.4050148725509644,
      "learning_rate": 0.00012569015336741498,
      "loss": 1.9059,
      "step": 16726
    },
    {
      "epoch": 0.3717111111111111,
      "grad_norm": 1.5631520748138428,
      "learning_rate": 0.0001256857079350967,
      "loss": 2.1461,
      "step": 16727
    },
    {
      "epoch": 0.37173333333333336,
      "grad_norm": 1.4322733879089355,
      "learning_rate": 0.0001256812625027784,
      "loss": 1.6056,
      "step": 16728
    },
    {
      "epoch": 0.37175555555555556,
      "grad_norm": 2.393230438232422,
      "learning_rate": 0.0001256768170704601,
      "loss": 2.3892,
      "step": 16729
    },
    {
      "epoch": 0.37177777777777776,
      "grad_norm": 0.9099664688110352,
      "learning_rate": 0.0001256723716381418,
      "loss": 0.9482,
      "step": 16730
    },
    {
      "epoch": 0.3718,
      "grad_norm": 1.5948028564453125,
      "learning_rate": 0.00012566792620582353,
      "loss": 1.6031,
      "step": 16731
    },
    {
      "epoch": 0.3718222222222222,
      "grad_norm": 1.7710895538330078,
      "learning_rate": 0.00012566348077350521,
      "loss": 2.0028,
      "step": 16732
    },
    {
      "epoch": 0.3718444444444444,
      "grad_norm": 1.753313422203064,
      "learning_rate": 0.00012565903534118692,
      "loss": 2.1362,
      "step": 16733
    },
    {
      "epoch": 0.3718666666666667,
      "grad_norm": 1.8567290306091309,
      "learning_rate": 0.00012565458990886863,
      "loss": 2.6124,
      "step": 16734
    },
    {
      "epoch": 0.3718888888888889,
      "grad_norm": 1.5224201679229736,
      "learning_rate": 0.00012565014447655034,
      "loss": 1.7103,
      "step": 16735
    },
    {
      "epoch": 0.37191111111111114,
      "grad_norm": 1.4469681978225708,
      "learning_rate": 0.00012564569904423208,
      "loss": 1.6653,
      "step": 16736
    },
    {
      "epoch": 0.37193333333333334,
      "grad_norm": 1.5293443202972412,
      "learning_rate": 0.00012564125361191376,
      "loss": 1.7449,
      "step": 16737
    },
    {
      "epoch": 0.37195555555555554,
      "grad_norm": 1.2547194957733154,
      "learning_rate": 0.00012563680817959547,
      "loss": 1.268,
      "step": 16738
    },
    {
      "epoch": 0.3719777777777778,
      "grad_norm": 1.382080078125,
      "learning_rate": 0.00012563236274727718,
      "loss": 1.434,
      "step": 16739
    },
    {
      "epoch": 0.372,
      "grad_norm": 1.7342110872268677,
      "learning_rate": 0.0001256279173149589,
      "loss": 1.589,
      "step": 16740
    },
    {
      "epoch": 0.3720222222222222,
      "grad_norm": 1.8426178693771362,
      "learning_rate": 0.00012562347188264057,
      "loss": 2.1253,
      "step": 16741
    },
    {
      "epoch": 0.37204444444444446,
      "grad_norm": 1.6385453939437866,
      "learning_rate": 0.0001256190264503223,
      "loss": 1.7339,
      "step": 16742
    },
    {
      "epoch": 0.37206666666666666,
      "grad_norm": 2.101870059967041,
      "learning_rate": 0.00012561458101800402,
      "loss": 1.9112,
      "step": 16743
    },
    {
      "epoch": 0.3720888888888889,
      "grad_norm": 1.3318120241165161,
      "learning_rate": 0.0001256101355856857,
      "loss": 1.3845,
      "step": 16744
    },
    {
      "epoch": 0.3721111111111111,
      "grad_norm": 1.8790721893310547,
      "learning_rate": 0.00012560569015336744,
      "loss": 2.049,
      "step": 16745
    },
    {
      "epoch": 0.3721333333333333,
      "grad_norm": 1.792312502861023,
      "learning_rate": 0.00012560124472104912,
      "loss": 2.1249,
      "step": 16746
    },
    {
      "epoch": 0.3721555555555556,
      "grad_norm": 1.8054970502853394,
      "learning_rate": 0.00012559679928873083,
      "loss": 1.6082,
      "step": 16747
    },
    {
      "epoch": 0.3721777777777778,
      "grad_norm": 1.7407935857772827,
      "learning_rate": 0.00012559235385641254,
      "loss": 2.0486,
      "step": 16748
    },
    {
      "epoch": 0.3722,
      "grad_norm": 1.2921009063720703,
      "learning_rate": 0.00012558790842409425,
      "loss": 1.364,
      "step": 16749
    },
    {
      "epoch": 0.37222222222222223,
      "grad_norm": 1.2934240102767944,
      "learning_rate": 0.00012558346299177593,
      "loss": 0.8102,
      "step": 16750
    },
    {
      "epoch": 0.37224444444444443,
      "grad_norm": 1.5871261358261108,
      "learning_rate": 0.00012557901755945767,
      "loss": 2.48,
      "step": 16751
    },
    {
      "epoch": 0.3722666666666667,
      "grad_norm": 1.5912988185882568,
      "learning_rate": 0.00012557457212713938,
      "loss": 2.5557,
      "step": 16752
    },
    {
      "epoch": 0.3722888888888889,
      "grad_norm": 1.5043953657150269,
      "learning_rate": 0.00012557012669482106,
      "loss": 2.3588,
      "step": 16753
    },
    {
      "epoch": 0.3723111111111111,
      "grad_norm": 1.1742349863052368,
      "learning_rate": 0.0001255656812625028,
      "loss": 1.2528,
      "step": 16754
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 1.3730549812316895,
      "learning_rate": 0.00012556123583018448,
      "loss": 2.3079,
      "step": 16755
    },
    {
      "epoch": 0.37235555555555555,
      "grad_norm": 1.561370849609375,
      "learning_rate": 0.00012555679039786622,
      "loss": 2.1165,
      "step": 16756
    },
    {
      "epoch": 0.37237777777777775,
      "grad_norm": 1.4394935369491577,
      "learning_rate": 0.0001255523449655479,
      "loss": 2.045,
      "step": 16757
    },
    {
      "epoch": 0.3724,
      "grad_norm": 1.4615623950958252,
      "learning_rate": 0.0001255478995332296,
      "loss": 2.0309,
      "step": 16758
    },
    {
      "epoch": 0.3724222222222222,
      "grad_norm": 1.636417269706726,
      "learning_rate": 0.00012554345410091132,
      "loss": 2.1869,
      "step": 16759
    },
    {
      "epoch": 0.37244444444444447,
      "grad_norm": 1.2739627361297607,
      "learning_rate": 0.00012553900866859303,
      "loss": 1.9844,
      "step": 16760
    },
    {
      "epoch": 0.37246666666666667,
      "grad_norm": 1.398114562034607,
      "learning_rate": 0.00012553456323627474,
      "loss": 1.6355,
      "step": 16761
    },
    {
      "epoch": 0.37248888888888887,
      "grad_norm": 1.7737399339675903,
      "learning_rate": 0.00012553011780395645,
      "loss": 2.1932,
      "step": 16762
    },
    {
      "epoch": 0.3725111111111111,
      "grad_norm": 1.8821165561676025,
      "learning_rate": 0.00012552567237163816,
      "loss": 2.6303,
      "step": 16763
    },
    {
      "epoch": 0.3725333333333333,
      "grad_norm": 1.4965705871582031,
      "learning_rate": 0.00012552122693931984,
      "loss": 1.8286,
      "step": 16764
    },
    {
      "epoch": 0.37255555555555553,
      "grad_norm": 0.9885923862457275,
      "learning_rate": 0.00012551678150700158,
      "loss": 1.1946,
      "step": 16765
    },
    {
      "epoch": 0.3725777777777778,
      "grad_norm": 1.718733787536621,
      "learning_rate": 0.00012551233607468326,
      "loss": 2.2164,
      "step": 16766
    },
    {
      "epoch": 0.3726,
      "grad_norm": 1.7823845148086548,
      "learning_rate": 0.00012550789064236497,
      "loss": 1.9638,
      "step": 16767
    },
    {
      "epoch": 0.37262222222222224,
      "grad_norm": 1.4229669570922852,
      "learning_rate": 0.00012550344521004668,
      "loss": 1.8846,
      "step": 16768
    },
    {
      "epoch": 0.37264444444444444,
      "grad_norm": 1.7239844799041748,
      "learning_rate": 0.0001254989997777284,
      "loss": 2.2276,
      "step": 16769
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 1.7229639291763306,
      "learning_rate": 0.0001254945543454101,
      "loss": 1.9518,
      "step": 16770
    },
    {
      "epoch": 0.3726888888888889,
      "grad_norm": 1.3916438817977905,
      "learning_rate": 0.0001254901089130918,
      "loss": 1.6712,
      "step": 16771
    },
    {
      "epoch": 0.3727111111111111,
      "grad_norm": 1.759914517402649,
      "learning_rate": 0.00012548566348077352,
      "loss": 2.1996,
      "step": 16772
    },
    {
      "epoch": 0.37273333333333336,
      "grad_norm": 1.6073622703552246,
      "learning_rate": 0.00012548121804845523,
      "loss": 1.7771,
      "step": 16773
    },
    {
      "epoch": 0.37275555555555556,
      "grad_norm": 2.1796791553497314,
      "learning_rate": 0.00012547677261613694,
      "loss": 1.6491,
      "step": 16774
    },
    {
      "epoch": 0.37277777777777776,
      "grad_norm": 1.3641105890274048,
      "learning_rate": 0.00012547232718381862,
      "loss": 2.1339,
      "step": 16775
    },
    {
      "epoch": 0.3728,
      "grad_norm": 1.4773584604263306,
      "learning_rate": 0.00012546788175150036,
      "loss": 1.4226,
      "step": 16776
    },
    {
      "epoch": 0.3728222222222222,
      "grad_norm": 1.5856103897094727,
      "learning_rate": 0.00012546343631918204,
      "loss": 2.0534,
      "step": 16777
    },
    {
      "epoch": 0.3728444444444444,
      "grad_norm": 2.068054676055908,
      "learning_rate": 0.00012545899088686375,
      "loss": 2.2699,
      "step": 16778
    },
    {
      "epoch": 0.3728666666666667,
      "grad_norm": 1.7377119064331055,
      "learning_rate": 0.00012545454545454546,
      "loss": 1.9832,
      "step": 16779
    },
    {
      "epoch": 0.3728888888888889,
      "grad_norm": 1.3433321714401245,
      "learning_rate": 0.00012545010002222717,
      "loss": 1.7424,
      "step": 16780
    },
    {
      "epoch": 0.37291111111111114,
      "grad_norm": 1.0824251174926758,
      "learning_rate": 0.00012544565458990888,
      "loss": 1.0356,
      "step": 16781
    },
    {
      "epoch": 0.37293333333333334,
      "grad_norm": 1.8038009405136108,
      "learning_rate": 0.0001254412091575906,
      "loss": 1.6764,
      "step": 16782
    },
    {
      "epoch": 0.37295555555555554,
      "grad_norm": 2.591923713684082,
      "learning_rate": 0.0001254367637252723,
      "loss": 2.504,
      "step": 16783
    },
    {
      "epoch": 0.3729777777777778,
      "grad_norm": 1.9605389833450317,
      "learning_rate": 0.00012543231829295398,
      "loss": 2.3588,
      "step": 16784
    },
    {
      "epoch": 0.373,
      "grad_norm": 1.6127930879592896,
      "learning_rate": 0.00012542787286063572,
      "loss": 1.9734,
      "step": 16785
    },
    {
      "epoch": 0.3730222222222222,
      "grad_norm": 0.222866028547287,
      "learning_rate": 0.0001254234274283174,
      "loss": 0.0293,
      "step": 16786
    },
    {
      "epoch": 0.37304444444444446,
      "grad_norm": 1.5765674114227295,
      "learning_rate": 0.0001254189819959991,
      "loss": 1.9339,
      "step": 16787
    },
    {
      "epoch": 0.37306666666666666,
      "grad_norm": 1.6508169174194336,
      "learning_rate": 0.00012541453656368082,
      "loss": 2.0015,
      "step": 16788
    },
    {
      "epoch": 0.3730888888888889,
      "grad_norm": 1.5922642946243286,
      "learning_rate": 0.00012541009113136253,
      "loss": 1.5131,
      "step": 16789
    },
    {
      "epoch": 0.3731111111111111,
      "grad_norm": 1.6832891702651978,
      "learning_rate": 0.00012540564569904424,
      "loss": 1.6284,
      "step": 16790
    },
    {
      "epoch": 0.3731333333333333,
      "grad_norm": 1.5387794971466064,
      "learning_rate": 0.00012540120026672595,
      "loss": 1.8409,
      "step": 16791
    },
    {
      "epoch": 0.3731555555555556,
      "grad_norm": 1.7273874282836914,
      "learning_rate": 0.00012539675483440766,
      "loss": 1.7644,
      "step": 16792
    },
    {
      "epoch": 0.3731777777777778,
      "grad_norm": 1.6099343299865723,
      "learning_rate": 0.00012539230940208937,
      "loss": 2.1928,
      "step": 16793
    },
    {
      "epoch": 0.3732,
      "grad_norm": 2.248852491378784,
      "learning_rate": 0.00012538786396977108,
      "loss": 2.0646,
      "step": 16794
    },
    {
      "epoch": 0.37322222222222223,
      "grad_norm": 1.6167981624603271,
      "learning_rate": 0.00012538341853745276,
      "loss": 1.9273,
      "step": 16795
    },
    {
      "epoch": 0.37324444444444443,
      "grad_norm": 1.3096460103988647,
      "learning_rate": 0.0001253789731051345,
      "loss": 1.4636,
      "step": 16796
    },
    {
      "epoch": 0.3732666666666667,
      "grad_norm": 1.6731404066085815,
      "learning_rate": 0.00012537452767281618,
      "loss": 1.5665,
      "step": 16797
    },
    {
      "epoch": 0.3732888888888889,
      "grad_norm": 1.4529669284820557,
      "learning_rate": 0.0001253700822404979,
      "loss": 1.6056,
      "step": 16798
    },
    {
      "epoch": 0.3733111111111111,
      "grad_norm": 1.7163978815078735,
      "learning_rate": 0.0001253656368081796,
      "loss": 1.7968,
      "step": 16799
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 1.679338812828064,
      "learning_rate": 0.0001253611913758613,
      "loss": 1.605,
      "step": 16800
    },
    {
      "epoch": 0.37335555555555555,
      "grad_norm": 1.3108155727386475,
      "learning_rate": 0.00012535674594354302,
      "loss": 2.3501,
      "step": 16801
    },
    {
      "epoch": 0.37337777777777775,
      "grad_norm": 1.5681747198104858,
      "learning_rate": 0.00012535230051122473,
      "loss": 2.8893,
      "step": 16802
    },
    {
      "epoch": 0.3734,
      "grad_norm": 1.5374188423156738,
      "learning_rate": 0.00012534785507890643,
      "loss": 2.6942,
      "step": 16803
    },
    {
      "epoch": 0.3734222222222222,
      "grad_norm": 1.4212298393249512,
      "learning_rate": 0.00012534340964658812,
      "loss": 2.5365,
      "step": 16804
    },
    {
      "epoch": 0.37344444444444447,
      "grad_norm": 1.5885850191116333,
      "learning_rate": 0.00012533896421426985,
      "loss": 2.6575,
      "step": 16805
    },
    {
      "epoch": 0.37346666666666667,
      "grad_norm": 1.4013267755508423,
      "learning_rate": 0.00012533451878195154,
      "loss": 1.3577,
      "step": 16806
    },
    {
      "epoch": 0.37348888888888887,
      "grad_norm": 1.6267465353012085,
      "learning_rate": 0.00012533007334963325,
      "loss": 2.437,
      "step": 16807
    },
    {
      "epoch": 0.3735111111111111,
      "grad_norm": 1.3931304216384888,
      "learning_rate": 0.00012532562791731496,
      "loss": 1.9348,
      "step": 16808
    },
    {
      "epoch": 0.37353333333333333,
      "grad_norm": 1.3119407892227173,
      "learning_rate": 0.00012532118248499667,
      "loss": 1.9804,
      "step": 16809
    },
    {
      "epoch": 0.37355555555555553,
      "grad_norm": 1.5404751300811768,
      "learning_rate": 0.00012531673705267838,
      "loss": 1.9808,
      "step": 16810
    },
    {
      "epoch": 0.3735777777777778,
      "grad_norm": 1.8131555318832397,
      "learning_rate": 0.00012531229162036008,
      "loss": 1.1415,
      "step": 16811
    },
    {
      "epoch": 0.3736,
      "grad_norm": 1.602956771850586,
      "learning_rate": 0.0001253078461880418,
      "loss": 2.3704,
      "step": 16812
    },
    {
      "epoch": 0.37362222222222224,
      "grad_norm": 1.762731909751892,
      "learning_rate": 0.0001253034007557235,
      "loss": 2.4144,
      "step": 16813
    },
    {
      "epoch": 0.37364444444444445,
      "grad_norm": 1.564542531967163,
      "learning_rate": 0.00012529895532340521,
      "loss": 2.2468,
      "step": 16814
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 1.690718412399292,
      "learning_rate": 0.0001252945098910869,
      "loss": 1.8161,
      "step": 16815
    },
    {
      "epoch": 0.3736888888888889,
      "grad_norm": 1.5898962020874023,
      "learning_rate": 0.00012529006445876863,
      "loss": 1.9996,
      "step": 16816
    },
    {
      "epoch": 0.3737111111111111,
      "grad_norm": 1.1828006505966187,
      "learning_rate": 0.00012528561902645034,
      "loss": 0.9254,
      "step": 16817
    },
    {
      "epoch": 0.3737333333333333,
      "grad_norm": 1.3902286291122437,
      "learning_rate": 0.00012528117359413203,
      "loss": 2.0527,
      "step": 16818
    },
    {
      "epoch": 0.37375555555555556,
      "grad_norm": 1.7340984344482422,
      "learning_rate": 0.00012527672816181376,
      "loss": 2.124,
      "step": 16819
    },
    {
      "epoch": 0.37377777777777776,
      "grad_norm": 1.6172446012496948,
      "learning_rate": 0.00012527228272949544,
      "loss": 1.959,
      "step": 16820
    },
    {
      "epoch": 0.3738,
      "grad_norm": 1.4555851221084595,
      "learning_rate": 0.00012526783729717715,
      "loss": 1.8471,
      "step": 16821
    },
    {
      "epoch": 0.3738222222222222,
      "grad_norm": 1.6827646493911743,
      "learning_rate": 0.00012526339186485886,
      "loss": 1.5102,
      "step": 16822
    },
    {
      "epoch": 0.3738444444444444,
      "grad_norm": 1.7588239908218384,
      "learning_rate": 0.00012525894643254057,
      "loss": 1.9122,
      "step": 16823
    },
    {
      "epoch": 0.3738666666666667,
      "grad_norm": 1.9244636297225952,
      "learning_rate": 0.00012525450100022226,
      "loss": 1.8724,
      "step": 16824
    },
    {
      "epoch": 0.3738888888888889,
      "grad_norm": 1.4528063535690308,
      "learning_rate": 0.000125250055567904,
      "loss": 1.9631,
      "step": 16825
    },
    {
      "epoch": 0.37391111111111114,
      "grad_norm": 1.7744401693344116,
      "learning_rate": 0.0001252456101355857,
      "loss": 2.094,
      "step": 16826
    },
    {
      "epoch": 0.37393333333333334,
      "grad_norm": 1.2004472017288208,
      "learning_rate": 0.00012524116470326738,
      "loss": 1.0819,
      "step": 16827
    },
    {
      "epoch": 0.37395555555555554,
      "grad_norm": 1.8003931045532227,
      "learning_rate": 0.00012523671927094912,
      "loss": 1.8857,
      "step": 16828
    },
    {
      "epoch": 0.3739777777777778,
      "grad_norm": 1.6937525272369385,
      "learning_rate": 0.0001252322738386308,
      "loss": 1.6565,
      "step": 16829
    },
    {
      "epoch": 0.374,
      "grad_norm": 1.5015538930892944,
      "learning_rate": 0.00012522782840631254,
      "loss": 1.8887,
      "step": 16830
    },
    {
      "epoch": 0.3740222222222222,
      "grad_norm": 1.4764606952667236,
      "learning_rate": 0.00012522338297399422,
      "loss": 1.7944,
      "step": 16831
    },
    {
      "epoch": 0.37404444444444446,
      "grad_norm": 0.14204411208629608,
      "learning_rate": 0.00012521893754167593,
      "loss": 0.026,
      "step": 16832
    },
    {
      "epoch": 0.37406666666666666,
      "grad_norm": 1.8090744018554688,
      "learning_rate": 0.00012521449210935764,
      "loss": 2.2879,
      "step": 16833
    },
    {
      "epoch": 0.3740888888888889,
      "grad_norm": 1.6519392728805542,
      "learning_rate": 0.00012521004667703935,
      "loss": 2.0617,
      "step": 16834
    },
    {
      "epoch": 0.3741111111111111,
      "grad_norm": 1.6095070838928223,
      "learning_rate": 0.00012520560124472106,
      "loss": 1.9957,
      "step": 16835
    },
    {
      "epoch": 0.3741333333333333,
      "grad_norm": 1.5639010667800903,
      "learning_rate": 0.00012520115581240277,
      "loss": 1.935,
      "step": 16836
    },
    {
      "epoch": 0.3741555555555556,
      "grad_norm": 1.8783766031265259,
      "learning_rate": 0.00012519671038008448,
      "loss": 1.9381,
      "step": 16837
    },
    {
      "epoch": 0.3741777777777778,
      "grad_norm": 1.3585084676742554,
      "learning_rate": 0.00012519226494776616,
      "loss": 1.8597,
      "step": 16838
    },
    {
      "epoch": 0.3742,
      "grad_norm": 1.3565913438796997,
      "learning_rate": 0.0001251878195154479,
      "loss": 1.6304,
      "step": 16839
    },
    {
      "epoch": 0.37422222222222223,
      "grad_norm": 1.6347392797470093,
      "learning_rate": 0.00012518337408312958,
      "loss": 2.0934,
      "step": 16840
    },
    {
      "epoch": 0.37424444444444444,
      "grad_norm": 1.7374932765960693,
      "learning_rate": 0.0001251789286508113,
      "loss": 2.0171,
      "step": 16841
    },
    {
      "epoch": 0.3742666666666667,
      "grad_norm": 2.1597530841827393,
      "learning_rate": 0.000125174483218493,
      "loss": 2.0432,
      "step": 16842
    },
    {
      "epoch": 0.3742888888888889,
      "grad_norm": 1.4743914604187012,
      "learning_rate": 0.0001251700377861747,
      "loss": 1.8125,
      "step": 16843
    },
    {
      "epoch": 0.3743111111111111,
      "grad_norm": 1.8412928581237793,
      "learning_rate": 0.00012516559235385642,
      "loss": 1.7874,
      "step": 16844
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 1.996043086051941,
      "learning_rate": 0.00012516114692153813,
      "loss": 2.0494,
      "step": 16845
    },
    {
      "epoch": 0.37435555555555555,
      "grad_norm": 1.9297871589660645,
      "learning_rate": 0.00012515670148921984,
      "loss": 1.7954,
      "step": 16846
    },
    {
      "epoch": 0.37437777777777775,
      "grad_norm": 1.4320247173309326,
      "learning_rate": 0.00012515225605690152,
      "loss": 1.4321,
      "step": 16847
    },
    {
      "epoch": 0.3744,
      "grad_norm": 1.373056173324585,
      "learning_rate": 0.00012514781062458326,
      "loss": 1.5791,
      "step": 16848
    },
    {
      "epoch": 0.3744222222222222,
      "grad_norm": 1.100448727607727,
      "learning_rate": 0.00012514336519226494,
      "loss": 0.4973,
      "step": 16849
    },
    {
      "epoch": 0.37444444444444447,
      "grad_norm": 1.3996870517730713,
      "learning_rate": 0.00012513891975994668,
      "loss": 1.0754,
      "step": 16850
    },
    {
      "epoch": 0.37446666666666667,
      "grad_norm": 1.7540576457977295,
      "learning_rate": 0.00012513447432762836,
      "loss": 2.2067,
      "step": 16851
    },
    {
      "epoch": 0.37448888888888887,
      "grad_norm": 1.0950781106948853,
      "learning_rate": 0.00012513002889531007,
      "loss": 2.2289,
      "step": 16852
    },
    {
      "epoch": 0.37451111111111113,
      "grad_norm": 1.181554913520813,
      "learning_rate": 0.00012512558346299178,
      "loss": 2.1978,
      "step": 16853
    },
    {
      "epoch": 0.37453333333333333,
      "grad_norm": 1.3593257665634155,
      "learning_rate": 0.0001251211380306735,
      "loss": 2.3696,
      "step": 16854
    },
    {
      "epoch": 0.37455555555555553,
      "grad_norm": 1.9929633140563965,
      "learning_rate": 0.0001251166925983552,
      "loss": 1.937,
      "step": 16855
    },
    {
      "epoch": 0.3745777777777778,
      "grad_norm": 1.5061497688293457,
      "learning_rate": 0.0001251122471660369,
      "loss": 2.0502,
      "step": 16856
    },
    {
      "epoch": 0.3746,
      "grad_norm": 1.6142675876617432,
      "learning_rate": 0.00012510780173371862,
      "loss": 2.0849,
      "step": 16857
    },
    {
      "epoch": 0.37462222222222225,
      "grad_norm": 1.2676138877868652,
      "learning_rate": 0.0001251033563014003,
      "loss": 1.8127,
      "step": 16858
    },
    {
      "epoch": 0.37464444444444445,
      "grad_norm": 1.2736493349075317,
      "learning_rate": 0.00012509891086908204,
      "loss": 1.7731,
      "step": 16859
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 1.5302865505218506,
      "learning_rate": 0.00012509446543676372,
      "loss": 2.0088,
      "step": 16860
    },
    {
      "epoch": 0.3746888888888889,
      "grad_norm": 1.4737753868103027,
      "learning_rate": 0.00012509002000444543,
      "loss": 2.1708,
      "step": 16861
    },
    {
      "epoch": 0.3747111111111111,
      "grad_norm": 1.540956735610962,
      "learning_rate": 0.00012508557457212714,
      "loss": 2.0892,
      "step": 16862
    },
    {
      "epoch": 0.3747333333333333,
      "grad_norm": 1.9429975748062134,
      "learning_rate": 0.00012508112913980885,
      "loss": 2.1184,
      "step": 16863
    },
    {
      "epoch": 0.37475555555555556,
      "grad_norm": 2.0585310459136963,
      "learning_rate": 0.00012507668370749056,
      "loss": 2.2792,
      "step": 16864
    },
    {
      "epoch": 0.37477777777777777,
      "grad_norm": 1.413946270942688,
      "learning_rate": 0.00012507223827517227,
      "loss": 2.1308,
      "step": 16865
    },
    {
      "epoch": 0.3748,
      "grad_norm": 1.568137288093567,
      "learning_rate": 0.00012506779284285398,
      "loss": 1.9917,
      "step": 16866
    },
    {
      "epoch": 0.3748222222222222,
      "grad_norm": 1.5885308980941772,
      "learning_rate": 0.00012506334741053566,
      "loss": 1.9449,
      "step": 16867
    },
    {
      "epoch": 0.3748444444444444,
      "grad_norm": 1.4839041233062744,
      "learning_rate": 0.0001250589019782174,
      "loss": 1.9141,
      "step": 16868
    },
    {
      "epoch": 0.3748666666666667,
      "grad_norm": 1.4379422664642334,
      "learning_rate": 0.00012505445654589908,
      "loss": 1.9687,
      "step": 16869
    },
    {
      "epoch": 0.3748888888888889,
      "grad_norm": 1.4678349494934082,
      "learning_rate": 0.00012505001111358082,
      "loss": 1.8579,
      "step": 16870
    },
    {
      "epoch": 0.3749111111111111,
      "grad_norm": 1.461670160293579,
      "learning_rate": 0.0001250455656812625,
      "loss": 1.8936,
      "step": 16871
    },
    {
      "epoch": 0.37493333333333334,
      "grad_norm": 1.6498249769210815,
      "learning_rate": 0.0001250411202489442,
      "loss": 1.713,
      "step": 16872
    },
    {
      "epoch": 0.37495555555555554,
      "grad_norm": 1.8089724779129028,
      "learning_rate": 0.00012503667481662592,
      "loss": 2.4108,
      "step": 16873
    },
    {
      "epoch": 0.3749777777777778,
      "grad_norm": 1.8673909902572632,
      "learning_rate": 0.00012503222938430763,
      "loss": 2.2397,
      "step": 16874
    },
    {
      "epoch": 0.375,
      "grad_norm": 1.6611167192459106,
      "learning_rate": 0.00012502778395198934,
      "loss": 1.9168,
      "step": 16875
    },
    {
      "epoch": 0.3750222222222222,
      "grad_norm": 1.7151752710342407,
      "learning_rate": 0.00012502333851967105,
      "loss": 2.3105,
      "step": 16876
    },
    {
      "epoch": 0.37504444444444446,
      "grad_norm": 1.5972856283187866,
      "learning_rate": 0.00012501889308735276,
      "loss": 2.651,
      "step": 16877
    },
    {
      "epoch": 0.37506666666666666,
      "grad_norm": 1.876758337020874,
      "learning_rate": 0.00012501444765503444,
      "loss": 2.1204,
      "step": 16878
    },
    {
      "epoch": 0.3750888888888889,
      "grad_norm": 1.662562608718872,
      "learning_rate": 0.00012501000222271618,
      "loss": 1.9763,
      "step": 16879
    },
    {
      "epoch": 0.3751111111111111,
      "grad_norm": 1.1833473443984985,
      "learning_rate": 0.00012500555679039786,
      "loss": 1.0335,
      "step": 16880
    },
    {
      "epoch": 0.3751333333333333,
      "grad_norm": 1.7367974519729614,
      "learning_rate": 0.00012500111135807957,
      "loss": 2.003,
      "step": 16881
    },
    {
      "epoch": 0.3751555555555556,
      "grad_norm": 1.4502992630004883,
      "learning_rate": 0.00012499666592576128,
      "loss": 1.8487,
      "step": 16882
    },
    {
      "epoch": 0.3751777777777778,
      "grad_norm": 1.3285874128341675,
      "learning_rate": 0.000124992220493443,
      "loss": 1.8052,
      "step": 16883
    },
    {
      "epoch": 0.3752,
      "grad_norm": 1.4681676626205444,
      "learning_rate": 0.0001249877750611247,
      "loss": 1.681,
      "step": 16884
    },
    {
      "epoch": 0.37522222222222223,
      "grad_norm": 1.5701510906219482,
      "learning_rate": 0.0001249833296288064,
      "loss": 1.5245,
      "step": 16885
    },
    {
      "epoch": 0.37524444444444444,
      "grad_norm": 1.912704586982727,
      "learning_rate": 0.00012497888419648812,
      "loss": 1.9941,
      "step": 16886
    },
    {
      "epoch": 0.3752666666666667,
      "grad_norm": 1.4370331764221191,
      "learning_rate": 0.00012497443876416983,
      "loss": 1.6022,
      "step": 16887
    },
    {
      "epoch": 0.3752888888888889,
      "grad_norm": 1.4032515287399292,
      "learning_rate": 0.00012496999333185154,
      "loss": 1.9485,
      "step": 16888
    },
    {
      "epoch": 0.3753111111111111,
      "grad_norm": 1.8604564666748047,
      "learning_rate": 0.00012496554789953322,
      "loss": 2.1077,
      "step": 16889
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 1.7408437728881836,
      "learning_rate": 0.00012496110246721495,
      "loss": 2.1094,
      "step": 16890
    },
    {
      "epoch": 0.37535555555555555,
      "grad_norm": 1.7221074104309082,
      "learning_rate": 0.00012495665703489666,
      "loss": 1.9954,
      "step": 16891
    },
    {
      "epoch": 0.37537777777777775,
      "grad_norm": 1.4874168634414673,
      "learning_rate": 0.00012495221160257835,
      "loss": 1.8255,
      "step": 16892
    },
    {
      "epoch": 0.3754,
      "grad_norm": 1.2920156717300415,
      "learning_rate": 0.00012494776617026008,
      "loss": 1.6103,
      "step": 16893
    },
    {
      "epoch": 0.3754222222222222,
      "grad_norm": 1.5920710563659668,
      "learning_rate": 0.00012494332073794177,
      "loss": 1.9582,
      "step": 16894
    },
    {
      "epoch": 0.37544444444444447,
      "grad_norm": 1.4368380308151245,
      "learning_rate": 0.00012493887530562348,
      "loss": 1.6571,
      "step": 16895
    },
    {
      "epoch": 0.37546666666666667,
      "grad_norm": 1.897302269935608,
      "learning_rate": 0.00012493442987330519,
      "loss": 1.8306,
      "step": 16896
    },
    {
      "epoch": 0.37548888888888887,
      "grad_norm": 2.257052183151245,
      "learning_rate": 0.0001249299844409869,
      "loss": 2.0351,
      "step": 16897
    },
    {
      "epoch": 0.37551111111111113,
      "grad_norm": 1.549875020980835,
      "learning_rate": 0.00012492553900866858,
      "loss": 1.605,
      "step": 16898
    },
    {
      "epoch": 0.37553333333333333,
      "grad_norm": 2.060906171798706,
      "learning_rate": 0.00012492109357635031,
      "loss": 1.7948,
      "step": 16899
    },
    {
      "epoch": 0.37555555555555553,
      "grad_norm": 2.0876705646514893,
      "learning_rate": 0.00012491664814403202,
      "loss": 1.2017,
      "step": 16900
    },
    {
      "epoch": 0.3755777777777778,
      "grad_norm": 1.0230337381362915,
      "learning_rate": 0.0001249122027117137,
      "loss": 1.1172,
      "step": 16901
    },
    {
      "epoch": 0.3756,
      "grad_norm": 1.6193846464157104,
      "learning_rate": 0.00012490775727939544,
      "loss": 3.2266,
      "step": 16902
    },
    {
      "epoch": 0.37562222222222225,
      "grad_norm": 1.5448641777038574,
      "learning_rate": 0.00012490331184707713,
      "loss": 2.5044,
      "step": 16903
    },
    {
      "epoch": 0.37564444444444445,
      "grad_norm": 1.770897626876831,
      "learning_rate": 0.00012489886641475884,
      "loss": 2.8734,
      "step": 16904
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 1.3584085702896118,
      "learning_rate": 0.00012489442098244055,
      "loss": 2.1435,
      "step": 16905
    },
    {
      "epoch": 0.3756888888888889,
      "grad_norm": 1.5830910205841064,
      "learning_rate": 0.00012488997555012225,
      "loss": 2.136,
      "step": 16906
    },
    {
      "epoch": 0.3757111111111111,
      "grad_norm": 1.5340543985366821,
      "learning_rate": 0.00012488553011780396,
      "loss": 2.2918,
      "step": 16907
    },
    {
      "epoch": 0.3757333333333333,
      "grad_norm": 1.3354295492172241,
      "learning_rate": 0.00012488108468548567,
      "loss": 1.6275,
      "step": 16908
    },
    {
      "epoch": 0.37575555555555556,
      "grad_norm": 1.4395500421524048,
      "learning_rate": 0.00012487663925316738,
      "loss": 2.1015,
      "step": 16909
    },
    {
      "epoch": 0.37577777777777777,
      "grad_norm": 1.4462865591049194,
      "learning_rate": 0.0001248721938208491,
      "loss": 1.5098,
      "step": 16910
    },
    {
      "epoch": 0.3758,
      "grad_norm": 1.4821323156356812,
      "learning_rate": 0.0001248677483885308,
      "loss": 1.7417,
      "step": 16911
    },
    {
      "epoch": 0.3758222222222222,
      "grad_norm": 1.3385118246078491,
      "learning_rate": 0.00012486330295621249,
      "loss": 2.2247,
      "step": 16912
    },
    {
      "epoch": 0.3758444444444444,
      "grad_norm": 1.6423389911651611,
      "learning_rate": 0.00012485885752389422,
      "loss": 2.3314,
      "step": 16913
    },
    {
      "epoch": 0.3758666666666667,
      "grad_norm": 1.5438873767852783,
      "learning_rate": 0.0001248544120915759,
      "loss": 2.0382,
      "step": 16914
    },
    {
      "epoch": 0.3758888888888889,
      "grad_norm": 1.643117070198059,
      "learning_rate": 0.00012484996665925761,
      "loss": 1.9322,
      "step": 16915
    },
    {
      "epoch": 0.3759111111111111,
      "grad_norm": 1.2299081087112427,
      "learning_rate": 0.00012484552122693932,
      "loss": 1.8241,
      "step": 16916
    },
    {
      "epoch": 0.37593333333333334,
      "grad_norm": 1.7855545282363892,
      "learning_rate": 0.00012484107579462103,
      "loss": 2.3075,
      "step": 16917
    },
    {
      "epoch": 0.37595555555555554,
      "grad_norm": 1.8038971424102783,
      "learning_rate": 0.00012483663036230274,
      "loss": 2.1124,
      "step": 16918
    },
    {
      "epoch": 0.3759777777777778,
      "grad_norm": 1.5535142421722412,
      "learning_rate": 0.00012483218492998445,
      "loss": 1.8877,
      "step": 16919
    },
    {
      "epoch": 0.376,
      "grad_norm": 1.381049633026123,
      "learning_rate": 0.00012482773949766616,
      "loss": 1.0521,
      "step": 16920
    },
    {
      "epoch": 0.3760222222222222,
      "grad_norm": 1.1667413711547852,
      "learning_rate": 0.00012482329406534784,
      "loss": 0.9803,
      "step": 16921
    },
    {
      "epoch": 0.37604444444444446,
      "grad_norm": 1.4792386293411255,
      "learning_rate": 0.00012481884863302958,
      "loss": 1.7158,
      "step": 16922
    },
    {
      "epoch": 0.37606666666666666,
      "grad_norm": 1.6221200227737427,
      "learning_rate": 0.00012481440320071126,
      "loss": 2.2665,
      "step": 16923
    },
    {
      "epoch": 0.37608888888888886,
      "grad_norm": 1.643584966659546,
      "learning_rate": 0.000124809957768393,
      "loss": 1.8755,
      "step": 16924
    },
    {
      "epoch": 0.3761111111111111,
      "grad_norm": 1.3490657806396484,
      "learning_rate": 0.00012480551233607468,
      "loss": 1.759,
      "step": 16925
    },
    {
      "epoch": 0.3761333333333333,
      "grad_norm": 1.3820399045944214,
      "learning_rate": 0.0001248010669037564,
      "loss": 2.0458,
      "step": 16926
    },
    {
      "epoch": 0.3761555555555556,
      "grad_norm": 1.3047168254852295,
      "learning_rate": 0.0001247966214714381,
      "loss": 1.4274,
      "step": 16927
    },
    {
      "epoch": 0.3761777777777778,
      "grad_norm": 1.4602571725845337,
      "learning_rate": 0.0001247921760391198,
      "loss": 1.7686,
      "step": 16928
    },
    {
      "epoch": 0.3762,
      "grad_norm": 1.4299107789993286,
      "learning_rate": 0.00012478773060680152,
      "loss": 2.0675,
      "step": 16929
    },
    {
      "epoch": 0.37622222222222224,
      "grad_norm": 1.731750249862671,
      "learning_rate": 0.00012478328517448323,
      "loss": 2.0503,
      "step": 16930
    },
    {
      "epoch": 0.37624444444444444,
      "grad_norm": 1.0755488872528076,
      "learning_rate": 0.00012477883974216494,
      "loss": 1.0263,
      "step": 16931
    },
    {
      "epoch": 0.3762666666666667,
      "grad_norm": 1.5716723203659058,
      "learning_rate": 0.00012477439430984662,
      "loss": 2.0483,
      "step": 16932
    },
    {
      "epoch": 0.3762888888888889,
      "grad_norm": 1.4076896905899048,
      "learning_rate": 0.00012476994887752836,
      "loss": 1.879,
      "step": 16933
    },
    {
      "epoch": 0.3763111111111111,
      "grad_norm": 1.6706088781356812,
      "learning_rate": 0.00012476550344521004,
      "loss": 1.7184,
      "step": 16934
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 1.6926518678665161,
      "learning_rate": 0.00012476105801289175,
      "loss": 1.9668,
      "step": 16935
    },
    {
      "epoch": 0.37635555555555555,
      "grad_norm": 1.3861950635910034,
      "learning_rate": 0.00012475661258057346,
      "loss": 1.3791,
      "step": 16936
    },
    {
      "epoch": 0.37637777777777776,
      "grad_norm": 1.716324806213379,
      "learning_rate": 0.00012475216714825517,
      "loss": 2.073,
      "step": 16937
    },
    {
      "epoch": 0.3764,
      "grad_norm": 1.8302850723266602,
      "learning_rate": 0.00012474772171593688,
      "loss": 2.1293,
      "step": 16938
    },
    {
      "epoch": 0.3764222222222222,
      "grad_norm": 1.4252631664276123,
      "learning_rate": 0.0001247432762836186,
      "loss": 1.5714,
      "step": 16939
    },
    {
      "epoch": 0.37644444444444447,
      "grad_norm": 2.350478172302246,
      "learning_rate": 0.0001247388308513003,
      "loss": 2.1823,
      "step": 16940
    },
    {
      "epoch": 0.37646666666666667,
      "grad_norm": 1.4991856813430786,
      "learning_rate": 0.00012473438541898198,
      "loss": 1.5921,
      "step": 16941
    },
    {
      "epoch": 0.3764888888888889,
      "grad_norm": 2.053945302963257,
      "learning_rate": 0.00012472993998666372,
      "loss": 2.3886,
      "step": 16942
    },
    {
      "epoch": 0.37651111111111113,
      "grad_norm": 1.5535646677017212,
      "learning_rate": 0.0001247254945543454,
      "loss": 2.0259,
      "step": 16943
    },
    {
      "epoch": 0.37653333333333333,
      "grad_norm": 1.7270318269729614,
      "learning_rate": 0.00012472104912202714,
      "loss": 1.9001,
      "step": 16944
    },
    {
      "epoch": 0.37655555555555553,
      "grad_norm": 1.7068214416503906,
      "learning_rate": 0.00012471660368970882,
      "loss": 1.9366,
      "step": 16945
    },
    {
      "epoch": 0.3765777777777778,
      "grad_norm": 1.8936502933502197,
      "learning_rate": 0.00012471215825739053,
      "loss": 2.173,
      "step": 16946
    },
    {
      "epoch": 0.3766,
      "grad_norm": 2.4446284770965576,
      "learning_rate": 0.00012470771282507224,
      "loss": 2.6338,
      "step": 16947
    },
    {
      "epoch": 0.37662222222222225,
      "grad_norm": 1.6719913482666016,
      "learning_rate": 0.00012470326739275395,
      "loss": 1.312,
      "step": 16948
    },
    {
      "epoch": 0.37664444444444445,
      "grad_norm": 1.8509806394577026,
      "learning_rate": 0.00012469882196043566,
      "loss": 1.7665,
      "step": 16949
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 1.418500304222107,
      "learning_rate": 0.00012469437652811737,
      "loss": 1.0672,
      "step": 16950
    },
    {
      "epoch": 0.3766888888888889,
      "grad_norm": 1.6107487678527832,
      "learning_rate": 0.00012468993109579908,
      "loss": 1.1802,
      "step": 16951
    },
    {
      "epoch": 0.3767111111111111,
      "grad_norm": 0.885644257068634,
      "learning_rate": 0.00012468548566348076,
      "loss": 1.1602,
      "step": 16952
    },
    {
      "epoch": 0.3767333333333333,
      "grad_norm": 1.3756146430969238,
      "learning_rate": 0.0001246810402311625,
      "loss": 2.4373,
      "step": 16953
    },
    {
      "epoch": 0.37675555555555557,
      "grad_norm": 1.358303427696228,
      "learning_rate": 0.00012467659479884418,
      "loss": 2.3174,
      "step": 16954
    },
    {
      "epoch": 0.37677777777777777,
      "grad_norm": 0.962418258190155,
      "learning_rate": 0.0001246721493665259,
      "loss": 0.0479,
      "step": 16955
    },
    {
      "epoch": 0.3768,
      "grad_norm": 1.3937039375305176,
      "learning_rate": 0.0001246677039342076,
      "loss": 2.4399,
      "step": 16956
    },
    {
      "epoch": 0.3768222222222222,
      "grad_norm": 1.4016830921173096,
      "learning_rate": 0.0001246632585018893,
      "loss": 2.4424,
      "step": 16957
    },
    {
      "epoch": 0.3768444444444444,
      "grad_norm": 1.5605233907699585,
      "learning_rate": 0.00012465881306957102,
      "loss": 2.255,
      "step": 16958
    },
    {
      "epoch": 0.3768666666666667,
      "grad_norm": 1.4772753715515137,
      "learning_rate": 0.00012465436763725273,
      "loss": 2.1567,
      "step": 16959
    },
    {
      "epoch": 0.3768888888888889,
      "grad_norm": 1.302549958229065,
      "learning_rate": 0.00012464992220493444,
      "loss": 1.8505,
      "step": 16960
    },
    {
      "epoch": 0.3769111111111111,
      "grad_norm": 1.4448894262313843,
      "learning_rate": 0.00012464547677261612,
      "loss": 1.974,
      "step": 16961
    },
    {
      "epoch": 0.37693333333333334,
      "grad_norm": 1.3456333875656128,
      "learning_rate": 0.00012464103134029786,
      "loss": 2.062,
      "step": 16962
    },
    {
      "epoch": 0.37695555555555554,
      "grad_norm": 1.5061109066009521,
      "learning_rate": 0.00012463658590797954,
      "loss": 2.1381,
      "step": 16963
    },
    {
      "epoch": 0.3769777777777778,
      "grad_norm": 1.2922807931900024,
      "learning_rate": 0.00012463214047566128,
      "loss": 2.0209,
      "step": 16964
    },
    {
      "epoch": 0.377,
      "grad_norm": 1.382561445236206,
      "learning_rate": 0.000124627695043343,
      "loss": 1.823,
      "step": 16965
    },
    {
      "epoch": 0.3770222222222222,
      "grad_norm": 1.4545676708221436,
      "learning_rate": 0.00012462324961102467,
      "loss": 2.2891,
      "step": 16966
    },
    {
      "epoch": 0.37704444444444446,
      "grad_norm": 1.5299147367477417,
      "learning_rate": 0.0001246188041787064,
      "loss": 2.5593,
      "step": 16967
    },
    {
      "epoch": 0.37706666666666666,
      "grad_norm": 1.6274776458740234,
      "learning_rate": 0.0001246143587463881,
      "loss": 2.4834,
      "step": 16968
    },
    {
      "epoch": 0.37708888888888886,
      "grad_norm": 1.6025100946426392,
      "learning_rate": 0.0001246099133140698,
      "loss": 2.0627,
      "step": 16969
    },
    {
      "epoch": 0.3771111111111111,
      "grad_norm": 1.397505283355713,
      "learning_rate": 0.0001246054678817515,
      "loss": 1.7439,
      "step": 16970
    },
    {
      "epoch": 0.3771333333333333,
      "grad_norm": 2.273164987564087,
      "learning_rate": 0.00012460102244943322,
      "loss": 1.8034,
      "step": 16971
    },
    {
      "epoch": 0.3771555555555556,
      "grad_norm": 1.2745752334594727,
      "learning_rate": 0.0001245965770171149,
      "loss": 1.3046,
      "step": 16972
    },
    {
      "epoch": 0.3771777777777778,
      "grad_norm": 1.5909833908081055,
      "learning_rate": 0.00012459213158479664,
      "loss": 2.5067,
      "step": 16973
    },
    {
      "epoch": 0.3772,
      "grad_norm": 1.7413685321807861,
      "learning_rate": 0.00012458768615247835,
      "loss": 2.166,
      "step": 16974
    },
    {
      "epoch": 0.37722222222222224,
      "grad_norm": 1.5422146320343018,
      "learning_rate": 0.00012458324072016003,
      "loss": 1.3916,
      "step": 16975
    },
    {
      "epoch": 0.37724444444444444,
      "grad_norm": 1.6091618537902832,
      "learning_rate": 0.00012457879528784177,
      "loss": 1.9136,
      "step": 16976
    },
    {
      "epoch": 0.37726666666666664,
      "grad_norm": 1.4476916790008545,
      "learning_rate": 0.00012457434985552345,
      "loss": 2.1171,
      "step": 16977
    },
    {
      "epoch": 0.3772888888888889,
      "grad_norm": 1.6755776405334473,
      "learning_rate": 0.00012456990442320516,
      "loss": 1.6692,
      "step": 16978
    },
    {
      "epoch": 0.3773111111111111,
      "grad_norm": 1.568428874015808,
      "learning_rate": 0.00012456545899088687,
      "loss": 1.726,
      "step": 16979
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 0.9840132594108582,
      "learning_rate": 0.00012456101355856858,
      "loss": 0.7473,
      "step": 16980
    },
    {
      "epoch": 0.37735555555555556,
      "grad_norm": 1.5071097612380981,
      "learning_rate": 0.00012455656812625029,
      "loss": 1.7237,
      "step": 16981
    },
    {
      "epoch": 0.37737777777777776,
      "grad_norm": 1.4690020084381104,
      "learning_rate": 0.000124552122693932,
      "loss": 1.7286,
      "step": 16982
    },
    {
      "epoch": 0.3774,
      "grad_norm": 1.658342719078064,
      "learning_rate": 0.0001245476772616137,
      "loss": 2.0507,
      "step": 16983
    },
    {
      "epoch": 0.3774222222222222,
      "grad_norm": 1.7967098951339722,
      "learning_rate": 0.00012454323182929542,
      "loss": 2.4849,
      "step": 16984
    },
    {
      "epoch": 0.37744444444444447,
      "grad_norm": 1.558040976524353,
      "learning_rate": 0.00012453878639697712,
      "loss": 1.657,
      "step": 16985
    },
    {
      "epoch": 0.3774666666666667,
      "grad_norm": 1.818222165107727,
      "learning_rate": 0.0001245343409646588,
      "loss": 1.9396,
      "step": 16986
    },
    {
      "epoch": 0.3774888888888889,
      "grad_norm": 1.4954044818878174,
      "learning_rate": 0.00012452989553234054,
      "loss": 2.004,
      "step": 16987
    },
    {
      "epoch": 0.37751111111111113,
      "grad_norm": 1.678399920463562,
      "learning_rate": 0.00012452545010002223,
      "loss": 1.9741,
      "step": 16988
    },
    {
      "epoch": 0.37753333333333333,
      "grad_norm": 2.0278093814849854,
      "learning_rate": 0.00012452100466770394,
      "loss": 1.8846,
      "step": 16989
    },
    {
      "epoch": 0.37755555555555553,
      "grad_norm": 1.522039771080017,
      "learning_rate": 0.00012451655923538565,
      "loss": 1.5811,
      "step": 16990
    },
    {
      "epoch": 0.3775777777777778,
      "grad_norm": 1.7286535501480103,
      "learning_rate": 0.00012451211380306736,
      "loss": 1.8647,
      "step": 16991
    },
    {
      "epoch": 0.3776,
      "grad_norm": 1.48921799659729,
      "learning_rate": 0.00012450766837074907,
      "loss": 1.5347,
      "step": 16992
    },
    {
      "epoch": 0.37762222222222225,
      "grad_norm": 1.6348655223846436,
      "learning_rate": 0.00012450322293843077,
      "loss": 1.9951,
      "step": 16993
    },
    {
      "epoch": 0.37764444444444445,
      "grad_norm": 1.5627589225769043,
      "learning_rate": 0.00012449877750611248,
      "loss": 1.8302,
      "step": 16994
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 1.6452326774597168,
      "learning_rate": 0.00012449433207379417,
      "loss": 1.809,
      "step": 16995
    },
    {
      "epoch": 0.3776888888888889,
      "grad_norm": 1.5905872583389282,
      "learning_rate": 0.0001244898866414759,
      "loss": 1.7713,
      "step": 16996
    },
    {
      "epoch": 0.3777111111111111,
      "grad_norm": 1.7882118225097656,
      "learning_rate": 0.00012448544120915759,
      "loss": 1.8187,
      "step": 16997
    },
    {
      "epoch": 0.3777333333333333,
      "grad_norm": 2.1255738735198975,
      "learning_rate": 0.0001244809957768393,
      "loss": 1.8771,
      "step": 16998
    },
    {
      "epoch": 0.37775555555555557,
      "grad_norm": 1.953229546546936,
      "learning_rate": 0.000124476550344521,
      "loss": 1.8902,
      "step": 16999
    },
    {
      "epoch": 0.37777777777777777,
      "grad_norm": 1.825746774673462,
      "learning_rate": 0.00012447210491220271,
      "loss": 1.7042,
      "step": 17000
    },
    {
      "epoch": 0.3778,
      "grad_norm": 1.3975331783294678,
      "learning_rate": 0.00012446765947988442,
      "loss": 2.2497,
      "step": 17001
    },
    {
      "epoch": 0.3778222222222222,
      "grad_norm": 1.4264541864395142,
      "learning_rate": 0.00012446321404756613,
      "loss": 2.6367,
      "step": 17002
    },
    {
      "epoch": 0.3778444444444444,
      "grad_norm": 1.212888479232788,
      "learning_rate": 0.00012445876861524784,
      "loss": 1.2262,
      "step": 17003
    },
    {
      "epoch": 0.3778666666666667,
      "grad_norm": 1.3237775564193726,
      "learning_rate": 0.00012445432318292955,
      "loss": 2.5332,
      "step": 17004
    },
    {
      "epoch": 0.3778888888888889,
      "grad_norm": 1.3925256729125977,
      "learning_rate": 0.00012444987775061126,
      "loss": 1.7215,
      "step": 17005
    },
    {
      "epoch": 0.3779111111111111,
      "grad_norm": 1.3538731336593628,
      "learning_rate": 0.00012444543231829295,
      "loss": 2.1364,
      "step": 17006
    },
    {
      "epoch": 0.37793333333333334,
      "grad_norm": 1.2866578102111816,
      "learning_rate": 0.00012444098688597468,
      "loss": 2.0852,
      "step": 17007
    },
    {
      "epoch": 0.37795555555555554,
      "grad_norm": 1.664933443069458,
      "learning_rate": 0.00012443654145365636,
      "loss": 2.0398,
      "step": 17008
    },
    {
      "epoch": 0.3779777777777778,
      "grad_norm": 1.2318885326385498,
      "learning_rate": 0.00012443209602133807,
      "loss": 1.8545,
      "step": 17009
    },
    {
      "epoch": 0.378,
      "grad_norm": 1.373307704925537,
      "learning_rate": 0.00012442765058901978,
      "loss": 1.6659,
      "step": 17010
    },
    {
      "epoch": 0.3780222222222222,
      "grad_norm": 1.286302089691162,
      "learning_rate": 0.0001244232051567015,
      "loss": 1.744,
      "step": 17011
    },
    {
      "epoch": 0.37804444444444446,
      "grad_norm": 2.710498332977295,
      "learning_rate": 0.0001244187597243832,
      "loss": 1.0147,
      "step": 17012
    },
    {
      "epoch": 0.37806666666666666,
      "grad_norm": 1.6431471109390259,
      "learning_rate": 0.0001244143142920649,
      "loss": 2.0423,
      "step": 17013
    },
    {
      "epoch": 0.37808888888888886,
      "grad_norm": 1.7776159048080444,
      "learning_rate": 0.00012440986885974662,
      "loss": 1.6941,
      "step": 17014
    },
    {
      "epoch": 0.3781111111111111,
      "grad_norm": 1.568916916847229,
      "learning_rate": 0.0001244054234274283,
      "loss": 1.7294,
      "step": 17015
    },
    {
      "epoch": 0.3781333333333333,
      "grad_norm": 1.345013976097107,
      "learning_rate": 0.00012440097799511004,
      "loss": 1.8296,
      "step": 17016
    },
    {
      "epoch": 0.3781555555555556,
      "grad_norm": 1.6494548320770264,
      "learning_rate": 0.00012439653256279172,
      "loss": 1.4077,
      "step": 17017
    },
    {
      "epoch": 0.3781777777777778,
      "grad_norm": 1.4097704887390137,
      "learning_rate": 0.00012439208713047343,
      "loss": 1.5913,
      "step": 17018
    },
    {
      "epoch": 0.3782,
      "grad_norm": 1.5690958499908447,
      "learning_rate": 0.00012438764169815514,
      "loss": 1.3263,
      "step": 17019
    },
    {
      "epoch": 0.37822222222222224,
      "grad_norm": 1.480014681816101,
      "learning_rate": 0.00012438319626583685,
      "loss": 1.5438,
      "step": 17020
    },
    {
      "epoch": 0.37824444444444444,
      "grad_norm": 1.637869119644165,
      "learning_rate": 0.00012437875083351856,
      "loss": 1.8086,
      "step": 17021
    },
    {
      "epoch": 0.37826666666666664,
      "grad_norm": 1.5483566522598267,
      "learning_rate": 0.00012437430540120027,
      "loss": 1.9627,
      "step": 17022
    },
    {
      "epoch": 0.3782888888888889,
      "grad_norm": 1.4966918230056763,
      "learning_rate": 0.00012436985996888198,
      "loss": 2.1523,
      "step": 17023
    },
    {
      "epoch": 0.3783111111111111,
      "grad_norm": 1.7601655721664429,
      "learning_rate": 0.0001243654145365637,
      "loss": 1.9407,
      "step": 17024
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 1.4444868564605713,
      "learning_rate": 0.0001243609691042454,
      "loss": 1.6761,
      "step": 17025
    },
    {
      "epoch": 0.37835555555555556,
      "grad_norm": 1.8218642473220825,
      "learning_rate": 0.00012435652367192708,
      "loss": 2.2892,
      "step": 17026
    },
    {
      "epoch": 0.37837777777777776,
      "grad_norm": 1.2241779565811157,
      "learning_rate": 0.00012435207823960882,
      "loss": 1.2337,
      "step": 17027
    },
    {
      "epoch": 0.3784,
      "grad_norm": 1.5618804693222046,
      "learning_rate": 0.0001243476328072905,
      "loss": 1.4833,
      "step": 17028
    },
    {
      "epoch": 0.3784222222222222,
      "grad_norm": 1.5780526399612427,
      "learning_rate": 0.0001243431873749722,
      "loss": 1.8374,
      "step": 17029
    },
    {
      "epoch": 0.37844444444444447,
      "grad_norm": 1.1305989027023315,
      "learning_rate": 0.00012433874194265392,
      "loss": 0.9137,
      "step": 17030
    },
    {
      "epoch": 0.3784666666666667,
      "grad_norm": 1.4028223752975464,
      "learning_rate": 0.00012433429651033563,
      "loss": 1.7497,
      "step": 17031
    },
    {
      "epoch": 0.3784888888888889,
      "grad_norm": 1.4936155080795288,
      "learning_rate": 0.00012432985107801734,
      "loss": 1.444,
      "step": 17032
    },
    {
      "epoch": 0.37851111111111113,
      "grad_norm": 1.7641388177871704,
      "learning_rate": 0.00012432540564569905,
      "loss": 2.2687,
      "step": 17033
    },
    {
      "epoch": 0.37853333333333333,
      "grad_norm": 1.533160924911499,
      "learning_rate": 0.00012432096021338076,
      "loss": 1.7858,
      "step": 17034
    },
    {
      "epoch": 0.37855555555555553,
      "grad_norm": 1.5630104541778564,
      "learning_rate": 0.00012431651478106244,
      "loss": 1.7304,
      "step": 17035
    },
    {
      "epoch": 0.3785777777777778,
      "grad_norm": 1.759898066520691,
      "learning_rate": 0.00012431206934874418,
      "loss": 1.7125,
      "step": 17036
    },
    {
      "epoch": 0.3786,
      "grad_norm": 1.6130472421646118,
      "learning_rate": 0.00012430762391642586,
      "loss": 1.5874,
      "step": 17037
    },
    {
      "epoch": 0.37862222222222225,
      "grad_norm": 1.5947017669677734,
      "learning_rate": 0.0001243031784841076,
      "loss": 1.7252,
      "step": 17038
    },
    {
      "epoch": 0.37864444444444445,
      "grad_norm": 1.530173659324646,
      "learning_rate": 0.0001242987330517893,
      "loss": 1.4899,
      "step": 17039
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 1.6717785596847534,
      "learning_rate": 0.000124294287619471,
      "loss": 1.8993,
      "step": 17040
    },
    {
      "epoch": 0.3786888888888889,
      "grad_norm": 1.4351921081542969,
      "learning_rate": 0.00012428984218715273,
      "loss": 1.6128,
      "step": 17041
    },
    {
      "epoch": 0.3787111111111111,
      "grad_norm": 1.6129751205444336,
      "learning_rate": 0.0001242853967548344,
      "loss": 1.9476,
      "step": 17042
    },
    {
      "epoch": 0.3787333333333333,
      "grad_norm": 1.776366949081421,
      "learning_rate": 0.00012428095132251612,
      "loss": 1.8706,
      "step": 17043
    },
    {
      "epoch": 0.37875555555555557,
      "grad_norm": 1.4292398691177368,
      "learning_rate": 0.00012427650589019783,
      "loss": 1.4598,
      "step": 17044
    },
    {
      "epoch": 0.37877777777777777,
      "grad_norm": 1.8073334693908691,
      "learning_rate": 0.00012427206045787954,
      "loss": 1.72,
      "step": 17045
    },
    {
      "epoch": 0.3788,
      "grad_norm": 1.6994620561599731,
      "learning_rate": 0.00012426761502556122,
      "loss": 1.7398,
      "step": 17046
    },
    {
      "epoch": 0.3788222222222222,
      "grad_norm": 1.7075424194335938,
      "learning_rate": 0.00012426316959324296,
      "loss": 1.8817,
      "step": 17047
    },
    {
      "epoch": 0.37884444444444443,
      "grad_norm": 1.729676365852356,
      "learning_rate": 0.00012425872416092467,
      "loss": 1.7246,
      "step": 17048
    },
    {
      "epoch": 0.3788666666666667,
      "grad_norm": 1.425682783126831,
      "learning_rate": 0.00012425427872860635,
      "loss": 1.4943,
      "step": 17049
    },
    {
      "epoch": 0.3788888888888889,
      "grad_norm": 2.2688539028167725,
      "learning_rate": 0.0001242498332962881,
      "loss": 2.0816,
      "step": 17050
    },
    {
      "epoch": 0.3789111111111111,
      "grad_norm": 1.414455533027649,
      "learning_rate": 0.00012424538786396977,
      "loss": 0.9728,
      "step": 17051
    },
    {
      "epoch": 0.37893333333333334,
      "grad_norm": 0.9564747214317322,
      "learning_rate": 0.00012424094243165148,
      "loss": 0.9932,
      "step": 17052
    },
    {
      "epoch": 0.37895555555555555,
      "grad_norm": 1.4001731872558594,
      "learning_rate": 0.0001242364969993332,
      "loss": 2.0896,
      "step": 17053
    },
    {
      "epoch": 0.3789777777777778,
      "grad_norm": 1.6278696060180664,
      "learning_rate": 0.0001242320515670149,
      "loss": 2.3187,
      "step": 17054
    },
    {
      "epoch": 0.379,
      "grad_norm": 1.2997173070907593,
      "learning_rate": 0.00012422760613469658,
      "loss": 2.2255,
      "step": 17055
    },
    {
      "epoch": 0.3790222222222222,
      "grad_norm": 1.8083775043487549,
      "learning_rate": 0.00012422316070237832,
      "loss": 2.4092,
      "step": 17056
    },
    {
      "epoch": 0.37904444444444446,
      "grad_norm": 1.356382131576538,
      "learning_rate": 0.00012421871527006003,
      "loss": 2.1738,
      "step": 17057
    },
    {
      "epoch": 0.37906666666666666,
      "grad_norm": 1.3973420858383179,
      "learning_rate": 0.00012421426983774174,
      "loss": 2.2848,
      "step": 17058
    },
    {
      "epoch": 0.37908888888888886,
      "grad_norm": 1.3346641063690186,
      "learning_rate": 0.00012420982440542345,
      "loss": 1.8602,
      "step": 17059
    },
    {
      "epoch": 0.3791111111111111,
      "grad_norm": 1.4951395988464355,
      "learning_rate": 0.00012420537897310513,
      "loss": 2.3025,
      "step": 17060
    },
    {
      "epoch": 0.3791333333333333,
      "grad_norm": 1.4769423007965088,
      "learning_rate": 0.00012420093354078687,
      "loss": 1.8049,
      "step": 17061
    },
    {
      "epoch": 0.3791555555555556,
      "grad_norm": 1.6534852981567383,
      "learning_rate": 0.00012419648810846855,
      "loss": 2.1133,
      "step": 17062
    },
    {
      "epoch": 0.3791777777777778,
      "grad_norm": 1.2750627994537354,
      "learning_rate": 0.00012419204267615026,
      "loss": 1.9609,
      "step": 17063
    },
    {
      "epoch": 0.3792,
      "grad_norm": 1.5280120372772217,
      "learning_rate": 0.00012418759724383197,
      "loss": 1.578,
      "step": 17064
    },
    {
      "epoch": 0.37922222222222224,
      "grad_norm": 1.830438494682312,
      "learning_rate": 0.00012418315181151368,
      "loss": 2.5514,
      "step": 17065
    },
    {
      "epoch": 0.37924444444444444,
      "grad_norm": 1.6144001483917236,
      "learning_rate": 0.0001241787063791954,
      "loss": 2.0092,
      "step": 17066
    },
    {
      "epoch": 0.37926666666666664,
      "grad_norm": 1.4144041538238525,
      "learning_rate": 0.0001241742609468771,
      "loss": 2.0246,
      "step": 17067
    },
    {
      "epoch": 0.3792888888888889,
      "grad_norm": 1.8137980699539185,
      "learning_rate": 0.0001241698155145588,
      "loss": 2.6681,
      "step": 17068
    },
    {
      "epoch": 0.3793111111111111,
      "grad_norm": 1.5260107517242432,
      "learning_rate": 0.0001241653700822405,
      "loss": 2.1999,
      "step": 17069
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 1.4903696775436401,
      "learning_rate": 0.00012416092464992223,
      "loss": 1.4757,
      "step": 17070
    },
    {
      "epoch": 0.37935555555555556,
      "grad_norm": 1.432842493057251,
      "learning_rate": 0.0001241564792176039,
      "loss": 1.5997,
      "step": 17071
    },
    {
      "epoch": 0.37937777777777776,
      "grad_norm": 1.4533989429473877,
      "learning_rate": 0.00012415203378528562,
      "loss": 2.0125,
      "step": 17072
    },
    {
      "epoch": 0.3794,
      "grad_norm": 1.8398979902267456,
      "learning_rate": 0.00012414758835296733,
      "loss": 2.0994,
      "step": 17073
    },
    {
      "epoch": 0.3794222222222222,
      "grad_norm": 1.4681283235549927,
      "learning_rate": 0.00012414314292064904,
      "loss": 1.9717,
      "step": 17074
    },
    {
      "epoch": 0.3794444444444444,
      "grad_norm": 1.5900179147720337,
      "learning_rate": 0.00012413869748833075,
      "loss": 1.9774,
      "step": 17075
    },
    {
      "epoch": 0.3794666666666667,
      "grad_norm": 1.7599401473999023,
      "learning_rate": 0.00012413425205601246,
      "loss": 2.0056,
      "step": 17076
    },
    {
      "epoch": 0.3794888888888889,
      "grad_norm": 1.446492314338684,
      "learning_rate": 0.00012412980662369417,
      "loss": 1.8423,
      "step": 17077
    },
    {
      "epoch": 0.37951111111111113,
      "grad_norm": 1.672692060470581,
      "learning_rate": 0.00012412536119137588,
      "loss": 1.7671,
      "step": 17078
    },
    {
      "epoch": 0.37953333333333333,
      "grad_norm": 1.7879620790481567,
      "learning_rate": 0.00012412091575905759,
      "loss": 1.4543,
      "step": 17079
    },
    {
      "epoch": 0.37955555555555553,
      "grad_norm": 1.5294251441955566,
      "learning_rate": 0.00012411647032673927,
      "loss": 1.8885,
      "step": 17080
    },
    {
      "epoch": 0.3795777777777778,
      "grad_norm": 1.8194397687911987,
      "learning_rate": 0.000124112024894421,
      "loss": 2.1077,
      "step": 17081
    },
    {
      "epoch": 0.3796,
      "grad_norm": 1.4384641647338867,
      "learning_rate": 0.0001241075794621027,
      "loss": 1.4873,
      "step": 17082
    },
    {
      "epoch": 0.37962222222222225,
      "grad_norm": 1.0779433250427246,
      "learning_rate": 0.0001241031340297844,
      "loss": 0.8667,
      "step": 17083
    },
    {
      "epoch": 0.37964444444444445,
      "grad_norm": 1.8016668558120728,
      "learning_rate": 0.0001240986885974661,
      "loss": 1.8192,
      "step": 17084
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 1.3890174627304077,
      "learning_rate": 0.00012409424316514782,
      "loss": 1.7959,
      "step": 17085
    },
    {
      "epoch": 0.3796888888888889,
      "grad_norm": 1.7438671588897705,
      "learning_rate": 0.00012408979773282953,
      "loss": 2.0867,
      "step": 17086
    },
    {
      "epoch": 0.3797111111111111,
      "grad_norm": 2.3403255939483643,
      "learning_rate": 0.00012408535230051123,
      "loss": 2.4853,
      "step": 17087
    },
    {
      "epoch": 0.3797333333333333,
      "grad_norm": 1.3991726636886597,
      "learning_rate": 0.00012408090686819294,
      "loss": 1.4744,
      "step": 17088
    },
    {
      "epoch": 0.37975555555555557,
      "grad_norm": 1.7032291889190674,
      "learning_rate": 0.00012407646143587463,
      "loss": 2.0836,
      "step": 17089
    },
    {
      "epoch": 0.37977777777777777,
      "grad_norm": 1.433791160583496,
      "learning_rate": 0.00012407201600355636,
      "loss": 1.6637,
      "step": 17090
    },
    {
      "epoch": 0.3798,
      "grad_norm": 1.9407100677490234,
      "learning_rate": 0.00012406757057123805,
      "loss": 1.9591,
      "step": 17091
    },
    {
      "epoch": 0.3798222222222222,
      "grad_norm": 1.8736776113510132,
      "learning_rate": 0.00012406312513891976,
      "loss": 2.0135,
      "step": 17092
    },
    {
      "epoch": 0.37984444444444443,
      "grad_norm": 1.83005690574646,
      "learning_rate": 0.00012405867970660147,
      "loss": 2.381,
      "step": 17093
    },
    {
      "epoch": 0.3798666666666667,
      "grad_norm": 1.631521224975586,
      "learning_rate": 0.00012405423427428318,
      "loss": 1.9106,
      "step": 17094
    },
    {
      "epoch": 0.3798888888888889,
      "grad_norm": 1.6711210012435913,
      "learning_rate": 0.00012404978884196488,
      "loss": 1.6896,
      "step": 17095
    },
    {
      "epoch": 0.3799111111111111,
      "grad_norm": 1.651126503944397,
      "learning_rate": 0.0001240453434096466,
      "loss": 1.9197,
      "step": 17096
    },
    {
      "epoch": 0.37993333333333335,
      "grad_norm": 1.8097684383392334,
      "learning_rate": 0.0001240408979773283,
      "loss": 1.7677,
      "step": 17097
    },
    {
      "epoch": 0.37995555555555555,
      "grad_norm": 1.6012310981750488,
      "learning_rate": 0.00012403645254501001,
      "loss": 1.4018,
      "step": 17098
    },
    {
      "epoch": 0.3799777777777778,
      "grad_norm": 1.8042207956314087,
      "learning_rate": 0.00012403200711269172,
      "loss": 2.0519,
      "step": 17099
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7105902433395386,
      "learning_rate": 0.0001240275616803734,
      "loss": 1.2116,
      "step": 17100
    },
    {
      "epoch": 0.3800222222222222,
      "grad_norm": 1.415652871131897,
      "learning_rate": 0.00012402311624805514,
      "loss": 2.6403,
      "step": 17101
    },
    {
      "epoch": 0.38004444444444446,
      "grad_norm": 1.0987064838409424,
      "learning_rate": 0.00012401867081573683,
      "loss": 1.2157,
      "step": 17102
    },
    {
      "epoch": 0.38006666666666666,
      "grad_norm": 1.2384895086288452,
      "learning_rate": 0.00012401422538341853,
      "loss": 2.3876,
      "step": 17103
    },
    {
      "epoch": 0.38008888888888887,
      "grad_norm": 2.3636059761047363,
      "learning_rate": 0.00012400977995110027,
      "loss": 1.2365,
      "step": 17104
    },
    {
      "epoch": 0.3801111111111111,
      "grad_norm": 1.5190621614456177,
      "learning_rate": 0.00012400533451878195,
      "loss": 2.4541,
      "step": 17105
    },
    {
      "epoch": 0.3801333333333333,
      "grad_norm": 1.542265772819519,
      "learning_rate": 0.00012400088908646366,
      "loss": 2.1427,
      "step": 17106
    },
    {
      "epoch": 0.3801555555555556,
      "grad_norm": 1.2514679431915283,
      "learning_rate": 0.00012399644365414537,
      "loss": 1.8514,
      "step": 17107
    },
    {
      "epoch": 0.3801777777777778,
      "grad_norm": 1.8424293994903564,
      "learning_rate": 0.00012399199822182708,
      "loss": 2.4855,
      "step": 17108
    },
    {
      "epoch": 0.3802,
      "grad_norm": 1.5626643896102905,
      "learning_rate": 0.00012398755278950877,
      "loss": 2.1728,
      "step": 17109
    },
    {
      "epoch": 0.38022222222222224,
      "grad_norm": 1.6035406589508057,
      "learning_rate": 0.0001239831073571905,
      "loss": 2.2074,
      "step": 17110
    },
    {
      "epoch": 0.38024444444444444,
      "grad_norm": 1.3313151597976685,
      "learning_rate": 0.00012397866192487218,
      "loss": 1.6352,
      "step": 17111
    },
    {
      "epoch": 0.38026666666666664,
      "grad_norm": 1.5212112665176392,
      "learning_rate": 0.0001239742164925539,
      "loss": 1.69,
      "step": 17112
    },
    {
      "epoch": 0.3802888888888889,
      "grad_norm": 1.9115362167358398,
      "learning_rate": 0.00012396977106023563,
      "loss": 2.0439,
      "step": 17113
    },
    {
      "epoch": 0.3803111111111111,
      "grad_norm": 1.8910552263259888,
      "learning_rate": 0.0001239653256279173,
      "loss": 2.5361,
      "step": 17114
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 1.7042722702026367,
      "learning_rate": 0.00012396088019559905,
      "loss": 2.0087,
      "step": 17115
    },
    {
      "epoch": 0.38035555555555556,
      "grad_norm": 1.6367123126983643,
      "learning_rate": 0.00012395643476328073,
      "loss": 2.4302,
      "step": 17116
    },
    {
      "epoch": 0.38037777777777776,
      "grad_norm": 1.44392991065979,
      "learning_rate": 0.00012395198933096244,
      "loss": 1.9817,
      "step": 17117
    },
    {
      "epoch": 0.3804,
      "grad_norm": 1.0529497861862183,
      "learning_rate": 0.00012394754389864415,
      "loss": 1.0497,
      "step": 17118
    },
    {
      "epoch": 0.3804222222222222,
      "grad_norm": 1.4542906284332275,
      "learning_rate": 0.00012394309846632586,
      "loss": 2.1542,
      "step": 17119
    },
    {
      "epoch": 0.3804444444444444,
      "grad_norm": 1.5269349813461304,
      "learning_rate": 0.00012393865303400754,
      "loss": 2.1081,
      "step": 17120
    },
    {
      "epoch": 0.3804666666666667,
      "grad_norm": 1.6718449592590332,
      "learning_rate": 0.00012393420760168928,
      "loss": 2.0337,
      "step": 17121
    },
    {
      "epoch": 0.3804888888888889,
      "grad_norm": 1.8539427518844604,
      "learning_rate": 0.000123929762169371,
      "loss": 1.833,
      "step": 17122
    },
    {
      "epoch": 0.38051111111111113,
      "grad_norm": 1.6204105615615845,
      "learning_rate": 0.00012392531673705267,
      "loss": 2.0132,
      "step": 17123
    },
    {
      "epoch": 0.38053333333333333,
      "grad_norm": 1.4402297735214233,
      "learning_rate": 0.0001239208713047344,
      "loss": 1.8429,
      "step": 17124
    },
    {
      "epoch": 0.38055555555555554,
      "grad_norm": 1.5738763809204102,
      "learning_rate": 0.0001239164258724161,
      "loss": 2.2441,
      "step": 17125
    },
    {
      "epoch": 0.3805777777777778,
      "grad_norm": 1.5507068634033203,
      "learning_rate": 0.0001239119804400978,
      "loss": 2.4222,
      "step": 17126
    },
    {
      "epoch": 0.3806,
      "grad_norm": 2.1203529834747314,
      "learning_rate": 0.0001239075350077795,
      "loss": 2.3768,
      "step": 17127
    },
    {
      "epoch": 0.3806222222222222,
      "grad_norm": 1.4727121591567993,
      "learning_rate": 0.00012390308957546122,
      "loss": 1.9446,
      "step": 17128
    },
    {
      "epoch": 0.38064444444444445,
      "grad_norm": 1.5812937021255493,
      "learning_rate": 0.0001238986441431429,
      "loss": 1.6732,
      "step": 17129
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 1.6669743061065674,
      "learning_rate": 0.00012389419871082464,
      "loss": 2.0149,
      "step": 17130
    },
    {
      "epoch": 0.3806888888888889,
      "grad_norm": 1.1720266342163086,
      "learning_rate": 0.00012388975327850635,
      "loss": 1.3121,
      "step": 17131
    },
    {
      "epoch": 0.3807111111111111,
      "grad_norm": 1.4145292043685913,
      "learning_rate": 0.00012388530784618803,
      "loss": 1.5283,
      "step": 17132
    },
    {
      "epoch": 0.3807333333333333,
      "grad_norm": 1.4458578824996948,
      "learning_rate": 0.00012388086241386977,
      "loss": 1.9756,
      "step": 17133
    },
    {
      "epoch": 0.38075555555555557,
      "grad_norm": 1.4115296602249146,
      "learning_rate": 0.00012387641698155145,
      "loss": 1.8085,
      "step": 17134
    },
    {
      "epoch": 0.38077777777777777,
      "grad_norm": 1.4474197626113892,
      "learning_rate": 0.0001238719715492332,
      "loss": 1.8915,
      "step": 17135
    },
    {
      "epoch": 0.3808,
      "grad_norm": 1.6087347269058228,
      "learning_rate": 0.00012386752611691487,
      "loss": 1.7297,
      "step": 17136
    },
    {
      "epoch": 0.38082222222222223,
      "grad_norm": 1.7190687656402588,
      "learning_rate": 0.00012386308068459658,
      "loss": 1.7994,
      "step": 17137
    },
    {
      "epoch": 0.38084444444444443,
      "grad_norm": 1.673370599746704,
      "learning_rate": 0.0001238586352522783,
      "loss": 1.9538,
      "step": 17138
    },
    {
      "epoch": 0.3808666666666667,
      "grad_norm": 1.685890793800354,
      "learning_rate": 0.00012385418981996,
      "loss": 2.0951,
      "step": 17139
    },
    {
      "epoch": 0.3808888888888889,
      "grad_norm": 1.527970552444458,
      "learning_rate": 0.0001238497443876417,
      "loss": 1.7914,
      "step": 17140
    },
    {
      "epoch": 0.3809111111111111,
      "grad_norm": 1.7202908992767334,
      "learning_rate": 0.00012384529895532342,
      "loss": 1.7429,
      "step": 17141
    },
    {
      "epoch": 0.38093333333333335,
      "grad_norm": 2.0187478065490723,
      "learning_rate": 0.00012384085352300513,
      "loss": 1.966,
      "step": 17142
    },
    {
      "epoch": 0.38095555555555555,
      "grad_norm": 1.4169108867645264,
      "learning_rate": 0.0001238364080906868,
      "loss": 1.751,
      "step": 17143
    },
    {
      "epoch": 0.3809777777777778,
      "grad_norm": 1.636232614517212,
      "learning_rate": 0.00012383196265836855,
      "loss": 1.7065,
      "step": 17144
    },
    {
      "epoch": 0.381,
      "grad_norm": 1.8671165704727173,
      "learning_rate": 0.00012382751722605023,
      "loss": 1.6947,
      "step": 17145
    },
    {
      "epoch": 0.3810222222222222,
      "grad_norm": 1.6411871910095215,
      "learning_rate": 0.00012382307179373194,
      "loss": 1.7901,
      "step": 17146
    },
    {
      "epoch": 0.38104444444444446,
      "grad_norm": 1.6240218877792358,
      "learning_rate": 0.00012381862636141365,
      "loss": 1.8133,
      "step": 17147
    },
    {
      "epoch": 0.38106666666666666,
      "grad_norm": 1.8068056106567383,
      "learning_rate": 0.00012381418092909536,
      "loss": 1.815,
      "step": 17148
    },
    {
      "epoch": 0.38108888888888887,
      "grad_norm": 1.6875666379928589,
      "learning_rate": 0.00012380973549677707,
      "loss": 1.6752,
      "step": 17149
    },
    {
      "epoch": 0.3811111111111111,
      "grad_norm": 1.7935892343521118,
      "learning_rate": 0.00012380529006445878,
      "loss": 0.7828,
      "step": 17150
    },
    {
      "epoch": 0.3811333333333333,
      "grad_norm": 1.3717451095581055,
      "learning_rate": 0.0001238008446321405,
      "loss": 2.3537,
      "step": 17151
    },
    {
      "epoch": 0.3811555555555556,
      "grad_norm": 1.4280611276626587,
      "learning_rate": 0.0001237963991998222,
      "loss": 2.4758,
      "step": 17152
    },
    {
      "epoch": 0.3811777777777778,
      "grad_norm": 1.4466569423675537,
      "learning_rate": 0.0001237919537675039,
      "loss": 2.2686,
      "step": 17153
    },
    {
      "epoch": 0.3812,
      "grad_norm": 1.5023963451385498,
      "learning_rate": 0.0001237875083351856,
      "loss": 2.2676,
      "step": 17154
    },
    {
      "epoch": 0.38122222222222224,
      "grad_norm": 1.3070870637893677,
      "learning_rate": 0.00012378306290286733,
      "loss": 2.0344,
      "step": 17155
    },
    {
      "epoch": 0.38124444444444444,
      "grad_norm": 2.1087076663970947,
      "learning_rate": 0.000123778617470549,
      "loss": 1.8215,
      "step": 17156
    },
    {
      "epoch": 0.38126666666666664,
      "grad_norm": 1.3798747062683105,
      "learning_rate": 0.00012377417203823072,
      "loss": 1.809,
      "step": 17157
    },
    {
      "epoch": 0.3812888888888889,
      "grad_norm": 1.4428274631500244,
      "learning_rate": 0.00012376972660591243,
      "loss": 2.4013,
      "step": 17158
    },
    {
      "epoch": 0.3813111111111111,
      "grad_norm": 1.580748438835144,
      "learning_rate": 0.00012376528117359414,
      "loss": 2.2588,
      "step": 17159
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 1.278149962425232,
      "learning_rate": 0.00012376083574127585,
      "loss": 1.7467,
      "step": 17160
    },
    {
      "epoch": 0.38135555555555556,
      "grad_norm": 1.5638213157653809,
      "learning_rate": 0.00012375639030895756,
      "loss": 2.3895,
      "step": 17161
    },
    {
      "epoch": 0.38137777777777776,
      "grad_norm": 1.4945728778839111,
      "learning_rate": 0.00012375194487663927,
      "loss": 1.9545,
      "step": 17162
    },
    {
      "epoch": 0.3814,
      "grad_norm": 1.708885908126831,
      "learning_rate": 0.00012374749944432095,
      "loss": 1.9745,
      "step": 17163
    },
    {
      "epoch": 0.3814222222222222,
      "grad_norm": 1.6482102870941162,
      "learning_rate": 0.00012374305401200269,
      "loss": 2.3326,
      "step": 17164
    },
    {
      "epoch": 0.3814444444444444,
      "grad_norm": 1.5197420120239258,
      "learning_rate": 0.00012373860857968437,
      "loss": 2.0002,
      "step": 17165
    },
    {
      "epoch": 0.3814666666666667,
      "grad_norm": 1.6750307083129883,
      "learning_rate": 0.00012373416314736608,
      "loss": 1.7402,
      "step": 17166
    },
    {
      "epoch": 0.3814888888888889,
      "grad_norm": 1.5513291358947754,
      "learning_rate": 0.0001237297177150478,
      "loss": 2.258,
      "step": 17167
    },
    {
      "epoch": 0.38151111111111113,
      "grad_norm": 1.6683878898620605,
      "learning_rate": 0.0001237252722827295,
      "loss": 2.2788,
      "step": 17168
    },
    {
      "epoch": 0.38153333333333334,
      "grad_norm": 1.6013524532318115,
      "learning_rate": 0.0001237208268504112,
      "loss": 1.8644,
      "step": 17169
    },
    {
      "epoch": 0.38155555555555554,
      "grad_norm": 1.5631979703903198,
      "learning_rate": 0.00012371638141809292,
      "loss": 2.2372,
      "step": 17170
    },
    {
      "epoch": 0.3815777777777778,
      "grad_norm": 1.6560860872268677,
      "learning_rate": 0.00012371193598577463,
      "loss": 1.882,
      "step": 17171
    },
    {
      "epoch": 0.3816,
      "grad_norm": 1.5884733200073242,
      "learning_rate": 0.00012370749055345634,
      "loss": 2.1552,
      "step": 17172
    },
    {
      "epoch": 0.3816222222222222,
      "grad_norm": 1.3936158418655396,
      "learning_rate": 0.00012370304512113805,
      "loss": 1.4144,
      "step": 17173
    },
    {
      "epoch": 0.38164444444444445,
      "grad_norm": 1.6000581979751587,
      "learning_rate": 0.00012369859968881973,
      "loss": 2.1865,
      "step": 17174
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 1.342008113861084,
      "learning_rate": 0.00012369415425650146,
      "loss": 1.8959,
      "step": 17175
    },
    {
      "epoch": 0.3816888888888889,
      "grad_norm": 1.5577874183654785,
      "learning_rate": 0.00012368970882418315,
      "loss": 2.2804,
      "step": 17176
    },
    {
      "epoch": 0.3817111111111111,
      "grad_norm": 1.9203654527664185,
      "learning_rate": 0.00012368526339186486,
      "loss": 2.3664,
      "step": 17177
    },
    {
      "epoch": 0.3817333333333333,
      "grad_norm": 1.6517200469970703,
      "learning_rate": 0.0001236808179595466,
      "loss": 2.031,
      "step": 17178
    },
    {
      "epoch": 0.38175555555555557,
      "grad_norm": 1.4755445718765259,
      "learning_rate": 0.00012367637252722828,
      "loss": 1.7047,
      "step": 17179
    },
    {
      "epoch": 0.38177777777777777,
      "grad_norm": 1.5570579767227173,
      "learning_rate": 0.00012367192709490999,
      "loss": 1.7103,
      "step": 17180
    },
    {
      "epoch": 0.3818,
      "grad_norm": 1.7038527727127075,
      "learning_rate": 0.0001236674816625917,
      "loss": 2.2352,
      "step": 17181
    },
    {
      "epoch": 0.38182222222222223,
      "grad_norm": 1.7473279237747192,
      "learning_rate": 0.0001236630362302734,
      "loss": 1.9326,
      "step": 17182
    },
    {
      "epoch": 0.38184444444444443,
      "grad_norm": 1.2229441404342651,
      "learning_rate": 0.0001236585907979551,
      "loss": 1.5049,
      "step": 17183
    },
    {
      "epoch": 0.3818666666666667,
      "grad_norm": 1.2915589809417725,
      "learning_rate": 0.00012365414536563682,
      "loss": 1.0202,
      "step": 17184
    },
    {
      "epoch": 0.3818888888888889,
      "grad_norm": 1.851837396621704,
      "learning_rate": 0.0001236496999333185,
      "loss": 2.0874,
      "step": 17185
    },
    {
      "epoch": 0.3819111111111111,
      "grad_norm": 1.6027671098709106,
      "learning_rate": 0.00012364525450100022,
      "loss": 2.1255,
      "step": 17186
    },
    {
      "epoch": 0.38193333333333335,
      "grad_norm": 1.752566933631897,
      "learning_rate": 0.00012364080906868195,
      "loss": 1.7708,
      "step": 17187
    },
    {
      "epoch": 0.38195555555555555,
      "grad_norm": 1.5370157957077026,
      "learning_rate": 0.00012363636363636364,
      "loss": 0.9155,
      "step": 17188
    },
    {
      "epoch": 0.3819777777777778,
      "grad_norm": 1.525890827178955,
      "learning_rate": 0.00012363191820404535,
      "loss": 1.7752,
      "step": 17189
    },
    {
      "epoch": 0.382,
      "grad_norm": 1.6240832805633545,
      "learning_rate": 0.00012362747277172705,
      "loss": 1.76,
      "step": 17190
    },
    {
      "epoch": 0.3820222222222222,
      "grad_norm": 1.507964015007019,
      "learning_rate": 0.00012362302733940876,
      "loss": 1.3809,
      "step": 17191
    },
    {
      "epoch": 0.38204444444444446,
      "grad_norm": 1.7100913524627686,
      "learning_rate": 0.00012361858190709047,
      "loss": 1.7231,
      "step": 17192
    },
    {
      "epoch": 0.38206666666666667,
      "grad_norm": 1.8007186651229858,
      "learning_rate": 0.00012361413647477218,
      "loss": 1.9396,
      "step": 17193
    },
    {
      "epoch": 0.38208888888888887,
      "grad_norm": 1.6137458086013794,
      "learning_rate": 0.00012360969104245387,
      "loss": 1.8003,
      "step": 17194
    },
    {
      "epoch": 0.3821111111111111,
      "grad_norm": 1.8670278787612915,
      "learning_rate": 0.0001236052456101356,
      "loss": 2.0807,
      "step": 17195
    },
    {
      "epoch": 0.3821333333333333,
      "grad_norm": 1.7459466457366943,
      "learning_rate": 0.0001236008001778173,
      "loss": 1.7308,
      "step": 17196
    },
    {
      "epoch": 0.3821555555555556,
      "grad_norm": 1.5586304664611816,
      "learning_rate": 0.000123596354745499,
      "loss": 1.5915,
      "step": 17197
    },
    {
      "epoch": 0.3821777777777778,
      "grad_norm": 1.423480749130249,
      "learning_rate": 0.00012359190931318073,
      "loss": 0.7999,
      "step": 17198
    },
    {
      "epoch": 0.3822,
      "grad_norm": 1.8815633058547974,
      "learning_rate": 0.00012358746388086241,
      "loss": 1.5976,
      "step": 17199
    },
    {
      "epoch": 0.38222222222222224,
      "grad_norm": 2.1385741233825684,
      "learning_rate": 0.00012358301844854412,
      "loss": 1.198,
      "step": 17200
    },
    {
      "epoch": 0.38224444444444444,
      "grad_norm": 1.3075460195541382,
      "learning_rate": 0.00012357857301622583,
      "loss": 2.2957,
      "step": 17201
    },
    {
      "epoch": 0.38226666666666664,
      "grad_norm": 1.588110327720642,
      "learning_rate": 0.00012357412758390754,
      "loss": 2.8277,
      "step": 17202
    },
    {
      "epoch": 0.3822888888888889,
      "grad_norm": 1.6848514080047607,
      "learning_rate": 0.00012356968215158923,
      "loss": 1.3885,
      "step": 17203
    },
    {
      "epoch": 0.3823111111111111,
      "grad_norm": 1.4638556241989136,
      "learning_rate": 0.00012356523671927096,
      "loss": 2.3143,
      "step": 17204
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 1.4635783433914185,
      "learning_rate": 0.00012356079128695267,
      "loss": 2.1295,
      "step": 17205
    },
    {
      "epoch": 0.38235555555555556,
      "grad_norm": 1.333567500114441,
      "learning_rate": 0.00012355634585463435,
      "loss": 1.8236,
      "step": 17206
    },
    {
      "epoch": 0.38237777777777776,
      "grad_norm": 1.4364951848983765,
      "learning_rate": 0.0001235519004223161,
      "loss": 2.5802,
      "step": 17207
    },
    {
      "epoch": 0.3824,
      "grad_norm": 1.4052678346633911,
      "learning_rate": 0.00012354745498999777,
      "loss": 2.1626,
      "step": 17208
    },
    {
      "epoch": 0.3824222222222222,
      "grad_norm": 1.476454257965088,
      "learning_rate": 0.0001235430095576795,
      "loss": 2.3004,
      "step": 17209
    },
    {
      "epoch": 0.3824444444444444,
      "grad_norm": 1.3606523275375366,
      "learning_rate": 0.0001235385641253612,
      "loss": 1.9084,
      "step": 17210
    },
    {
      "epoch": 0.3824666666666667,
      "grad_norm": 1.3111724853515625,
      "learning_rate": 0.0001235341186930429,
      "loss": 1.8316,
      "step": 17211
    },
    {
      "epoch": 0.3824888888888889,
      "grad_norm": 1.618853211402893,
      "learning_rate": 0.0001235296732607246,
      "loss": 2.4924,
      "step": 17212
    },
    {
      "epoch": 0.38251111111111114,
      "grad_norm": 1.3207006454467773,
      "learning_rate": 0.00012352522782840632,
      "loss": 2.0987,
      "step": 17213
    },
    {
      "epoch": 0.38253333333333334,
      "grad_norm": 1.7010105848312378,
      "learning_rate": 0.00012352078239608803,
      "loss": 2.4101,
      "step": 17214
    },
    {
      "epoch": 0.38255555555555554,
      "grad_norm": 1.6576955318450928,
      "learning_rate": 0.00012351633696376974,
      "loss": 2.092,
      "step": 17215
    },
    {
      "epoch": 0.3825777777777778,
      "grad_norm": 1.465349793434143,
      "learning_rate": 0.00012351189153145145,
      "loss": 2.038,
      "step": 17216
    },
    {
      "epoch": 0.3826,
      "grad_norm": 1.5251652002334595,
      "learning_rate": 0.00012350744609913313,
      "loss": 2.285,
      "step": 17217
    },
    {
      "epoch": 0.3826222222222222,
      "grad_norm": 2.115323543548584,
      "learning_rate": 0.00012350300066681487,
      "loss": 1.9197,
      "step": 17218
    },
    {
      "epoch": 0.38264444444444445,
      "grad_norm": 1.6477893590927124,
      "learning_rate": 0.00012349855523449655,
      "loss": 1.9303,
      "step": 17219
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 1.60769784450531,
      "learning_rate": 0.00012349410980217826,
      "loss": 1.9675,
      "step": 17220
    },
    {
      "epoch": 0.3826888888888889,
      "grad_norm": 1.0998971462249756,
      "learning_rate": 0.00012348966436985997,
      "loss": 1.2253,
      "step": 17221
    },
    {
      "epoch": 0.3827111111111111,
      "grad_norm": 1.5672024488449097,
      "learning_rate": 0.00012348521893754168,
      "loss": 2.094,
      "step": 17222
    },
    {
      "epoch": 0.3827333333333333,
      "grad_norm": 1.4474272727966309,
      "learning_rate": 0.0001234807735052234,
      "loss": 2.0133,
      "step": 17223
    },
    {
      "epoch": 0.38275555555555557,
      "grad_norm": 1.6286097764968872,
      "learning_rate": 0.0001234763280729051,
      "loss": 2.0244,
      "step": 17224
    },
    {
      "epoch": 0.3827777777777778,
      "grad_norm": 1.7706489562988281,
      "learning_rate": 0.0001234718826405868,
      "loss": 2.056,
      "step": 17225
    },
    {
      "epoch": 0.3828,
      "grad_norm": 1.338029384613037,
      "learning_rate": 0.0001234674372082685,
      "loss": 1.3782,
      "step": 17226
    },
    {
      "epoch": 0.38282222222222223,
      "grad_norm": 1.3797051906585693,
      "learning_rate": 0.00012346299177595023,
      "loss": 1.7737,
      "step": 17227
    },
    {
      "epoch": 0.38284444444444443,
      "grad_norm": 1.4964045286178589,
      "learning_rate": 0.0001234585463436319,
      "loss": 2.1795,
      "step": 17228
    },
    {
      "epoch": 0.3828666666666667,
      "grad_norm": 1.406674861907959,
      "learning_rate": 0.00012345410091131365,
      "loss": 1.7176,
      "step": 17229
    },
    {
      "epoch": 0.3828888888888889,
      "grad_norm": 1.079085350036621,
      "learning_rate": 0.00012344965547899533,
      "loss": 0.9427,
      "step": 17230
    },
    {
      "epoch": 0.3829111111111111,
      "grad_norm": 2.0945351123809814,
      "learning_rate": 0.00012344521004667704,
      "loss": 1.8022,
      "step": 17231
    },
    {
      "epoch": 0.38293333333333335,
      "grad_norm": 1.7384939193725586,
      "learning_rate": 0.00012344076461435875,
      "loss": 2.1513,
      "step": 17232
    },
    {
      "epoch": 0.38295555555555555,
      "grad_norm": 1.8282862901687622,
      "learning_rate": 0.00012343631918204046,
      "loss": 1.8474,
      "step": 17233
    },
    {
      "epoch": 0.38297777777777775,
      "grad_norm": 1.9707763195037842,
      "learning_rate": 0.00012343187374972217,
      "loss": 2.5291,
      "step": 17234
    },
    {
      "epoch": 0.383,
      "grad_norm": 1.8976469039916992,
      "learning_rate": 0.00012342742831740388,
      "loss": 1.7378,
      "step": 17235
    },
    {
      "epoch": 0.3830222222222222,
      "grad_norm": 1.8217600584030151,
      "learning_rate": 0.0001234229828850856,
      "loss": 2.4023,
      "step": 17236
    },
    {
      "epoch": 0.38304444444444447,
      "grad_norm": 1.823038935661316,
      "learning_rate": 0.00012341853745276727,
      "loss": 2.0463,
      "step": 17237
    },
    {
      "epoch": 0.38306666666666667,
      "grad_norm": 1.8017327785491943,
      "learning_rate": 0.000123414092020449,
      "loss": 1.883,
      "step": 17238
    },
    {
      "epoch": 0.38308888888888887,
      "grad_norm": 1.858462929725647,
      "learning_rate": 0.0001234096465881307,
      "loss": 1.9246,
      "step": 17239
    },
    {
      "epoch": 0.3831111111111111,
      "grad_norm": 1.7779614925384521,
      "learning_rate": 0.0001234052011558124,
      "loss": 2.4219,
      "step": 17240
    },
    {
      "epoch": 0.3831333333333333,
      "grad_norm": 1.6002389192581177,
      "learning_rate": 0.0001234007557234941,
      "loss": 1.9764,
      "step": 17241
    },
    {
      "epoch": 0.3831555555555556,
      "grad_norm": 1.7166982889175415,
      "learning_rate": 0.00012339631029117582,
      "loss": 1.4257,
      "step": 17242
    },
    {
      "epoch": 0.3831777777777778,
      "grad_norm": 1.5447874069213867,
      "learning_rate": 0.00012339186485885753,
      "loss": 1.7988,
      "step": 17243
    },
    {
      "epoch": 0.3832,
      "grad_norm": 1.8927584886550903,
      "learning_rate": 0.00012338741942653924,
      "loss": 2.2073,
      "step": 17244
    },
    {
      "epoch": 0.38322222222222224,
      "grad_norm": 1.8773539066314697,
      "learning_rate": 0.00012338297399422095,
      "loss": 2.2362,
      "step": 17245
    },
    {
      "epoch": 0.38324444444444444,
      "grad_norm": 1.663537621498108,
      "learning_rate": 0.00012337852856190263,
      "loss": 1.9748,
      "step": 17246
    },
    {
      "epoch": 0.38326666666666664,
      "grad_norm": 1.5189481973648071,
      "learning_rate": 0.00012337408312958437,
      "loss": 1.6614,
      "step": 17247
    },
    {
      "epoch": 0.3832888888888889,
      "grad_norm": 1.7465263605117798,
      "learning_rate": 0.00012336963769726605,
      "loss": 1.8218,
      "step": 17248
    },
    {
      "epoch": 0.3833111111111111,
      "grad_norm": 2.1664645671844482,
      "learning_rate": 0.0001233651922649478,
      "loss": 2.075,
      "step": 17249
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 1.7623893022537231,
      "learning_rate": 0.00012336074683262947,
      "loss": 1.1007,
      "step": 17250
    },
    {
      "epoch": 0.38335555555555556,
      "grad_norm": 1.2935786247253418,
      "learning_rate": 0.00012335630140031118,
      "loss": 2.6163,
      "step": 17251
    },
    {
      "epoch": 0.38337777777777776,
      "grad_norm": 1.578933835029602,
      "learning_rate": 0.00012335185596799292,
      "loss": 2.6141,
      "step": 17252
    },
    {
      "epoch": 0.3834,
      "grad_norm": 1.4726356267929077,
      "learning_rate": 0.0001233474105356746,
      "loss": 2.2348,
      "step": 17253
    },
    {
      "epoch": 0.3834222222222222,
      "grad_norm": 1.3175004720687866,
      "learning_rate": 0.0001233429651033563,
      "loss": 1.9299,
      "step": 17254
    },
    {
      "epoch": 0.3834444444444444,
      "grad_norm": 1.2925224304199219,
      "learning_rate": 0.00012333851967103802,
      "loss": 2.0794,
      "step": 17255
    },
    {
      "epoch": 0.3834666666666667,
      "grad_norm": 1.39106285572052,
      "learning_rate": 0.00012333407423871973,
      "loss": 1.9166,
      "step": 17256
    },
    {
      "epoch": 0.3834888888888889,
      "grad_norm": 1.3829307556152344,
      "learning_rate": 0.0001233296288064014,
      "loss": 2.1269,
      "step": 17257
    },
    {
      "epoch": 0.38351111111111114,
      "grad_norm": 1.4919642210006714,
      "learning_rate": 0.00012332518337408315,
      "loss": 2.1368,
      "step": 17258
    },
    {
      "epoch": 0.38353333333333334,
      "grad_norm": 1.3926973342895508,
      "learning_rate": 0.00012332073794176483,
      "loss": 2.2806,
      "step": 17259
    },
    {
      "epoch": 0.38355555555555554,
      "grad_norm": 1.3669383525848389,
      "learning_rate": 0.00012331629250944654,
      "loss": 1.8917,
      "step": 17260
    },
    {
      "epoch": 0.3835777777777778,
      "grad_norm": 1.4846796989440918,
      "learning_rate": 0.00012331184707712827,
      "loss": 2.4669,
      "step": 17261
    },
    {
      "epoch": 0.3836,
      "grad_norm": 1.8150663375854492,
      "learning_rate": 0.00012330740164480996,
      "loss": 2.1342,
      "step": 17262
    },
    {
      "epoch": 0.3836222222222222,
      "grad_norm": 2.02124285697937,
      "learning_rate": 0.00012330295621249167,
      "loss": 2.4369,
      "step": 17263
    },
    {
      "epoch": 0.38364444444444445,
      "grad_norm": 1.6468266248703003,
      "learning_rate": 0.00012329851078017338,
      "loss": 2.0545,
      "step": 17264
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 1.625737190246582,
      "learning_rate": 0.00012329406534785509,
      "loss": 2.0796,
      "step": 17265
    },
    {
      "epoch": 0.3836888888888889,
      "grad_norm": 1.6504758596420288,
      "learning_rate": 0.0001232896199155368,
      "loss": 2.0668,
      "step": 17266
    },
    {
      "epoch": 0.3837111111111111,
      "grad_norm": 1.4826126098632812,
      "learning_rate": 0.0001232851744832185,
      "loss": 2.0777,
      "step": 17267
    },
    {
      "epoch": 0.3837333333333333,
      "grad_norm": 1.3622478246688843,
      "learning_rate": 0.0001232807290509002,
      "loss": 1.8551,
      "step": 17268
    },
    {
      "epoch": 0.38375555555555557,
      "grad_norm": 1.8389782905578613,
      "learning_rate": 0.00012327628361858192,
      "loss": 2.0127,
      "step": 17269
    },
    {
      "epoch": 0.3837777777777778,
      "grad_norm": 1.479477882385254,
      "learning_rate": 0.00012327183818626363,
      "loss": 1.7643,
      "step": 17270
    },
    {
      "epoch": 0.3838,
      "grad_norm": 1.4242268800735474,
      "learning_rate": 0.00012326739275394532,
      "loss": 1.746,
      "step": 17271
    },
    {
      "epoch": 0.38382222222222223,
      "grad_norm": 1.8626503944396973,
      "learning_rate": 0.00012326294732162705,
      "loss": 2.3452,
      "step": 17272
    },
    {
      "epoch": 0.38384444444444443,
      "grad_norm": 1.4054352045059204,
      "learning_rate": 0.00012325850188930874,
      "loss": 2.0141,
      "step": 17273
    },
    {
      "epoch": 0.3838666666666667,
      "grad_norm": 1.4681001901626587,
      "learning_rate": 0.00012325405645699045,
      "loss": 2.0238,
      "step": 17274
    },
    {
      "epoch": 0.3838888888888889,
      "grad_norm": 1.888939380645752,
      "learning_rate": 0.00012324961102467216,
      "loss": 1.8469,
      "step": 17275
    },
    {
      "epoch": 0.3839111111111111,
      "grad_norm": 1.8206048011779785,
      "learning_rate": 0.00012324516559235387,
      "loss": 1.8093,
      "step": 17276
    },
    {
      "epoch": 0.38393333333333335,
      "grad_norm": 1.2248339653015137,
      "learning_rate": 0.00012324072016003555,
      "loss": 1.1257,
      "step": 17277
    },
    {
      "epoch": 0.38395555555555555,
      "grad_norm": 1.3357129096984863,
      "learning_rate": 0.00012323627472771728,
      "loss": 0.8047,
      "step": 17278
    },
    {
      "epoch": 0.38397777777777775,
      "grad_norm": 1.5333690643310547,
      "learning_rate": 0.000123231829295399,
      "loss": 2.1465,
      "step": 17279
    },
    {
      "epoch": 0.384,
      "grad_norm": 2.5492498874664307,
      "learning_rate": 0.00012322738386308068,
      "loss": 2.4288,
      "step": 17280
    },
    {
      "epoch": 0.3840222222222222,
      "grad_norm": 1.6602352857589722,
      "learning_rate": 0.0001232229384307624,
      "loss": 1.8278,
      "step": 17281
    },
    {
      "epoch": 0.38404444444444447,
      "grad_norm": 1.5764340162277222,
      "learning_rate": 0.0001232184929984441,
      "loss": 2.2568,
      "step": 17282
    },
    {
      "epoch": 0.38406666666666667,
      "grad_norm": 1.575445532798767,
      "learning_rate": 0.0001232140475661258,
      "loss": 1.5797,
      "step": 17283
    },
    {
      "epoch": 0.38408888888888887,
      "grad_norm": 1.6963069438934326,
      "learning_rate": 0.00012320960213380751,
      "loss": 1.8303,
      "step": 17284
    },
    {
      "epoch": 0.3841111111111111,
      "grad_norm": 1.490020513534546,
      "learning_rate": 0.00012320515670148922,
      "loss": 1.5304,
      "step": 17285
    },
    {
      "epoch": 0.3841333333333333,
      "grad_norm": 1.7634103298187256,
      "learning_rate": 0.00012320071126917093,
      "loss": 2.2467,
      "step": 17286
    },
    {
      "epoch": 0.38415555555555553,
      "grad_norm": 1.611981749534607,
      "learning_rate": 0.00012319626583685264,
      "loss": 1.96,
      "step": 17287
    },
    {
      "epoch": 0.3841777777777778,
      "grad_norm": 1.5156700611114502,
      "learning_rate": 0.00012319182040453435,
      "loss": 1.8169,
      "step": 17288
    },
    {
      "epoch": 0.3842,
      "grad_norm": 1.9656354188919067,
      "learning_rate": 0.00012318737497221606,
      "loss": 1.6859,
      "step": 17289
    },
    {
      "epoch": 0.38422222222222224,
      "grad_norm": 1.5647965669631958,
      "learning_rate": 0.00012318292953989777,
      "loss": 1.5526,
      "step": 17290
    },
    {
      "epoch": 0.38424444444444444,
      "grad_norm": 1.9781839847564697,
      "learning_rate": 0.00012317848410757946,
      "loss": 1.83,
      "step": 17291
    },
    {
      "epoch": 0.38426666666666665,
      "grad_norm": 1.4163933992385864,
      "learning_rate": 0.0001231740386752612,
      "loss": 1.5376,
      "step": 17292
    },
    {
      "epoch": 0.3842888888888889,
      "grad_norm": 1.7903577089309692,
      "learning_rate": 0.00012316959324294287,
      "loss": 2.4764,
      "step": 17293
    },
    {
      "epoch": 0.3843111111111111,
      "grad_norm": 1.866322636604309,
      "learning_rate": 0.00012316514781062458,
      "loss": 1.9957,
      "step": 17294
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 1.7091686725616455,
      "learning_rate": 0.0001231607023783063,
      "loss": 1.672,
      "step": 17295
    },
    {
      "epoch": 0.38435555555555556,
      "grad_norm": 1.877525806427002,
      "learning_rate": 0.000123156256945988,
      "loss": 1.962,
      "step": 17296
    },
    {
      "epoch": 0.38437777777777776,
      "grad_norm": 1.5507664680480957,
      "learning_rate": 0.0001231518115136697,
      "loss": 1.8729,
      "step": 17297
    },
    {
      "epoch": 0.3844,
      "grad_norm": 0.8853379487991333,
      "learning_rate": 0.00012314736608135142,
      "loss": 0.7589,
      "step": 17298
    },
    {
      "epoch": 0.3844222222222222,
      "grad_norm": 1.7604529857635498,
      "learning_rate": 0.00012314292064903313,
      "loss": 1.8314,
      "step": 17299
    },
    {
      "epoch": 0.3844444444444444,
      "grad_norm": 1.6065338850021362,
      "learning_rate": 0.00012313847521671481,
      "loss": 1.3825,
      "step": 17300
    },
    {
      "epoch": 0.3844666666666667,
      "grad_norm": 1.2518385648727417,
      "learning_rate": 0.00012313402978439655,
      "loss": 1.1087,
      "step": 17301
    },
    {
      "epoch": 0.3844888888888889,
      "grad_norm": 1.3776131868362427,
      "learning_rate": 0.00012312958435207823,
      "loss": 2.3697,
      "step": 17302
    },
    {
      "epoch": 0.38451111111111114,
      "grad_norm": 1.8152738809585571,
      "learning_rate": 0.00012312513891975997,
      "loss": 2.9233,
      "step": 17303
    },
    {
      "epoch": 0.38453333333333334,
      "grad_norm": 1.5521037578582764,
      "learning_rate": 0.00012312069348744165,
      "loss": 2.0327,
      "step": 17304
    },
    {
      "epoch": 0.38455555555555554,
      "grad_norm": 1.5497077703475952,
      "learning_rate": 0.00012311624805512336,
      "loss": 2.0972,
      "step": 17305
    },
    {
      "epoch": 0.3845777777777778,
      "grad_norm": 1.3902555704116821,
      "learning_rate": 0.00012311180262280507,
      "loss": 1.9679,
      "step": 17306
    },
    {
      "epoch": 0.3846,
      "grad_norm": 1.5237404108047485,
      "learning_rate": 0.00012310735719048678,
      "loss": 1.8475,
      "step": 17307
    },
    {
      "epoch": 0.3846222222222222,
      "grad_norm": 1.523760199546814,
      "learning_rate": 0.0001231029117581685,
      "loss": 2.3335,
      "step": 17308
    },
    {
      "epoch": 0.38464444444444446,
      "grad_norm": 1.3268239498138428,
      "learning_rate": 0.0001230984663258502,
      "loss": 1.892,
      "step": 17309
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 1.4625492095947266,
      "learning_rate": 0.0001230940208935319,
      "loss": 2.0568,
      "step": 17310
    },
    {
      "epoch": 0.3846888888888889,
      "grad_norm": 1.578626275062561,
      "learning_rate": 0.0001230895754612136,
      "loss": 1.4961,
      "step": 17311
    },
    {
      "epoch": 0.3847111111111111,
      "grad_norm": 1.9047428369522095,
      "learning_rate": 0.00012308513002889533,
      "loss": 2.2202,
      "step": 17312
    },
    {
      "epoch": 0.3847333333333333,
      "grad_norm": 1.665043592453003,
      "learning_rate": 0.000123080684596577,
      "loss": 2.6241,
      "step": 17313
    },
    {
      "epoch": 0.3847555555555556,
      "grad_norm": 1.5364794731140137,
      "learning_rate": 0.00012307623916425872,
      "loss": 1.8482,
      "step": 17314
    },
    {
      "epoch": 0.3847777777777778,
      "grad_norm": 2.0446937084198,
      "learning_rate": 0.00012307179373194043,
      "loss": 2.2084,
      "step": 17315
    },
    {
      "epoch": 0.3848,
      "grad_norm": 1.4826620817184448,
      "learning_rate": 0.00012306734829962214,
      "loss": 2.0412,
      "step": 17316
    },
    {
      "epoch": 0.38482222222222223,
      "grad_norm": 1.5066440105438232,
      "learning_rate": 0.00012306290286730385,
      "loss": 1.5758,
      "step": 17317
    },
    {
      "epoch": 0.38484444444444443,
      "grad_norm": 1.5298172235488892,
      "learning_rate": 0.00012305845743498556,
      "loss": 1.8383,
      "step": 17318
    },
    {
      "epoch": 0.3848666666666667,
      "grad_norm": 1.5765812397003174,
      "learning_rate": 0.00012305401200266727,
      "loss": 1.9876,
      "step": 17319
    },
    {
      "epoch": 0.3848888888888889,
      "grad_norm": 1.6812511682510376,
      "learning_rate": 0.00012304956657034895,
      "loss": 1.9439,
      "step": 17320
    },
    {
      "epoch": 0.3849111111111111,
      "grad_norm": 1.4467076063156128,
      "learning_rate": 0.0001230451211380307,
      "loss": 1.7975,
      "step": 17321
    },
    {
      "epoch": 0.38493333333333335,
      "grad_norm": 1.8753762245178223,
      "learning_rate": 0.00012304067570571237,
      "loss": 2.2172,
      "step": 17322
    },
    {
      "epoch": 0.38495555555555555,
      "grad_norm": 1.756596565246582,
      "learning_rate": 0.0001230362302733941,
      "loss": 2.258,
      "step": 17323
    },
    {
      "epoch": 0.38497777777777775,
      "grad_norm": 1.5470144748687744,
      "learning_rate": 0.0001230317848410758,
      "loss": 1.7766,
      "step": 17324
    },
    {
      "epoch": 0.385,
      "grad_norm": 1.7546769380569458,
      "learning_rate": 0.0001230273394087575,
      "loss": 2.0287,
      "step": 17325
    },
    {
      "epoch": 0.3850222222222222,
      "grad_norm": 1.6323031187057495,
      "learning_rate": 0.00012302289397643924,
      "loss": 2.0295,
      "step": 17326
    },
    {
      "epoch": 0.38504444444444447,
      "grad_norm": 1.4826984405517578,
      "learning_rate": 0.00012301844854412092,
      "loss": 1.3191,
      "step": 17327
    },
    {
      "epoch": 0.38506666666666667,
      "grad_norm": 0.952813446521759,
      "learning_rate": 0.00012301400311180263,
      "loss": 0.8058,
      "step": 17328
    },
    {
      "epoch": 0.38508888888888887,
      "grad_norm": 1.1814156770706177,
      "learning_rate": 0.00012300955767948434,
      "loss": 0.6782,
      "step": 17329
    },
    {
      "epoch": 0.3851111111111111,
      "grad_norm": 1.554007649421692,
      "learning_rate": 0.00012300511224716605,
      "loss": 1.8732,
      "step": 17330
    },
    {
      "epoch": 0.3851333333333333,
      "grad_norm": 1.4360084533691406,
      "learning_rate": 0.00012300066681484773,
      "loss": 1.7004,
      "step": 17331
    },
    {
      "epoch": 0.38515555555555553,
      "grad_norm": 1.600545883178711,
      "learning_rate": 0.00012299622138252947,
      "loss": 1.8727,
      "step": 17332
    },
    {
      "epoch": 0.3851777777777778,
      "grad_norm": 1.7238819599151611,
      "learning_rate": 0.00012299177595021115,
      "loss": 1.9617,
      "step": 17333
    },
    {
      "epoch": 0.3852,
      "grad_norm": 1.8540295362472534,
      "learning_rate": 0.00012298733051789286,
      "loss": 2.097,
      "step": 17334
    },
    {
      "epoch": 0.38522222222222224,
      "grad_norm": 2.1281559467315674,
      "learning_rate": 0.0001229828850855746,
      "loss": 1.5184,
      "step": 17335
    },
    {
      "epoch": 0.38524444444444444,
      "grad_norm": 1.603065013885498,
      "learning_rate": 0.00012297843965325628,
      "loss": 1.9637,
      "step": 17336
    },
    {
      "epoch": 0.38526666666666665,
      "grad_norm": 1.8191943168640137,
      "learning_rate": 0.000122973994220938,
      "loss": 1.9617,
      "step": 17337
    },
    {
      "epoch": 0.3852888888888889,
      "grad_norm": 1.4161502122879028,
      "learning_rate": 0.0001229695487886197,
      "loss": 1.0271,
      "step": 17338
    },
    {
      "epoch": 0.3853111111111111,
      "grad_norm": 1.8241432905197144,
      "learning_rate": 0.0001229651033563014,
      "loss": 2.1455,
      "step": 17339
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 1.6221035718917847,
      "learning_rate": 0.0001229606579239831,
      "loss": 1.9427,
      "step": 17340
    },
    {
      "epoch": 0.38535555555555556,
      "grad_norm": 1.646174430847168,
      "learning_rate": 0.00012295621249166483,
      "loss": 1.7755,
      "step": 17341
    },
    {
      "epoch": 0.38537777777777776,
      "grad_norm": 1.5721626281738281,
      "learning_rate": 0.0001229517670593465,
      "loss": 1.4551,
      "step": 17342
    },
    {
      "epoch": 0.3854,
      "grad_norm": 1.64772629737854,
      "learning_rate": 0.00012294732162702825,
      "loss": 1.833,
      "step": 17343
    },
    {
      "epoch": 0.3854222222222222,
      "grad_norm": 1.7535890340805054,
      "learning_rate": 0.00012294287619470996,
      "loss": 1.8575,
      "step": 17344
    },
    {
      "epoch": 0.3854444444444444,
      "grad_norm": 1.4006400108337402,
      "learning_rate": 0.00012293843076239164,
      "loss": 1.758,
      "step": 17345
    },
    {
      "epoch": 0.3854666666666667,
      "grad_norm": 1.6358166933059692,
      "learning_rate": 0.00012293398533007338,
      "loss": 2.0272,
      "step": 17346
    },
    {
      "epoch": 0.3854888888888889,
      "grad_norm": 1.050582766532898,
      "learning_rate": 0.00012292953989775506,
      "loss": 0.6972,
      "step": 17347
    },
    {
      "epoch": 0.38551111111111114,
      "grad_norm": 1.5204664468765259,
      "learning_rate": 0.00012292509446543677,
      "loss": 1.6298,
      "step": 17348
    },
    {
      "epoch": 0.38553333333333334,
      "grad_norm": 1.9097223281860352,
      "learning_rate": 0.00012292064903311848,
      "loss": 1.8313,
      "step": 17349
    },
    {
      "epoch": 0.38555555555555554,
      "grad_norm": 1.750875473022461,
      "learning_rate": 0.0001229162036008002,
      "loss": 0.6981,
      "step": 17350
    },
    {
      "epoch": 0.3855777777777778,
      "grad_norm": 0.9729292988777161,
      "learning_rate": 0.00012291175816848187,
      "loss": 1.1477,
      "step": 17351
    },
    {
      "epoch": 0.3856,
      "grad_norm": 0.9833340048789978,
      "learning_rate": 0.0001229073127361636,
      "loss": 0.909,
      "step": 17352
    },
    {
      "epoch": 0.3856222222222222,
      "grad_norm": 0.8849024176597595,
      "learning_rate": 0.00012290286730384532,
      "loss": 0.876,
      "step": 17353
    },
    {
      "epoch": 0.38564444444444446,
      "grad_norm": 1.4565770626068115,
      "learning_rate": 0.000122898421871527,
      "loss": 2.299,
      "step": 17354
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 1.585631251335144,
      "learning_rate": 0.00012289397643920874,
      "loss": 2.7945,
      "step": 17355
    },
    {
      "epoch": 0.3856888888888889,
      "grad_norm": 1.5112087726593018,
      "learning_rate": 0.00012288953100689042,
      "loss": 2.3631,
      "step": 17356
    },
    {
      "epoch": 0.3857111111111111,
      "grad_norm": 1.7865736484527588,
      "learning_rate": 0.00012288508557457213,
      "loss": 2.3985,
      "step": 17357
    },
    {
      "epoch": 0.3857333333333333,
      "grad_norm": 1.3725701570510864,
      "learning_rate": 0.00012288064014225384,
      "loss": 2.01,
      "step": 17358
    },
    {
      "epoch": 0.3857555555555556,
      "grad_norm": 1.1460130214691162,
      "learning_rate": 0.00012287619470993555,
      "loss": 1.4202,
      "step": 17359
    },
    {
      "epoch": 0.3857777777777778,
      "grad_norm": 1.3722366094589233,
      "learning_rate": 0.00012287174927761726,
      "loss": 1.8105,
      "step": 17360
    },
    {
      "epoch": 0.3858,
      "grad_norm": 1.3670724630355835,
      "learning_rate": 0.00012286730384529897,
      "loss": 1.8523,
      "step": 17361
    },
    {
      "epoch": 0.38582222222222223,
      "grad_norm": 1.424476146697998,
      "learning_rate": 0.00012286285841298068,
      "loss": 1.9598,
      "step": 17362
    },
    {
      "epoch": 0.38584444444444443,
      "grad_norm": 1.4791383743286133,
      "learning_rate": 0.00012285841298066239,
      "loss": 1.9554,
      "step": 17363
    },
    {
      "epoch": 0.3858666666666667,
      "grad_norm": 1.3289685249328613,
      "learning_rate": 0.0001228539675483441,
      "loss": 2.0208,
      "step": 17364
    },
    {
      "epoch": 0.3858888888888889,
      "grad_norm": 1.4950993061065674,
      "learning_rate": 0.00012284952211602578,
      "loss": 2.0973,
      "step": 17365
    },
    {
      "epoch": 0.3859111111111111,
      "grad_norm": 1.530866026878357,
      "learning_rate": 0.00012284507668370751,
      "loss": 1.9616,
      "step": 17366
    },
    {
      "epoch": 0.38593333333333335,
      "grad_norm": 1.425535798072815,
      "learning_rate": 0.0001228406312513892,
      "loss": 1.6352,
      "step": 17367
    },
    {
      "epoch": 0.38595555555555555,
      "grad_norm": 1.5816539525985718,
      "learning_rate": 0.0001228361858190709,
      "loss": 2.035,
      "step": 17368
    },
    {
      "epoch": 0.38597777777777775,
      "grad_norm": 1.7353795766830444,
      "learning_rate": 0.00012283174038675262,
      "loss": 1.8333,
      "step": 17369
    },
    {
      "epoch": 0.386,
      "grad_norm": 1.6604242324829102,
      "learning_rate": 0.00012282729495443433,
      "loss": 2.3513,
      "step": 17370
    },
    {
      "epoch": 0.3860222222222222,
      "grad_norm": 1.889787197113037,
      "learning_rate": 0.00012282284952211603,
      "loss": 1.8285,
      "step": 17371
    },
    {
      "epoch": 0.38604444444444447,
      "grad_norm": 1.6971418857574463,
      "learning_rate": 0.00012281840408979774,
      "loss": 2.3126,
      "step": 17372
    },
    {
      "epoch": 0.38606666666666667,
      "grad_norm": 1.7037558555603027,
      "learning_rate": 0.00012281395865747945,
      "loss": 2.3899,
      "step": 17373
    },
    {
      "epoch": 0.38608888888888887,
      "grad_norm": 1.291961431503296,
      "learning_rate": 0.00012280951322516114,
      "loss": 1.6076,
      "step": 17374
    },
    {
      "epoch": 0.3861111111111111,
      "grad_norm": 1.4153422117233276,
      "learning_rate": 0.00012280506779284287,
      "loss": 1.9844,
      "step": 17375
    },
    {
      "epoch": 0.38613333333333333,
      "grad_norm": 2.1405625343322754,
      "learning_rate": 0.00012280062236052456,
      "loss": 2.6782,
      "step": 17376
    },
    {
      "epoch": 0.38615555555555553,
      "grad_norm": 1.4405934810638428,
      "learning_rate": 0.00012279617692820627,
      "loss": 2.0429,
      "step": 17377
    },
    {
      "epoch": 0.3861777777777778,
      "grad_norm": 1.7186108827590942,
      "learning_rate": 0.00012279173149588798,
      "loss": 1.4987,
      "step": 17378
    },
    {
      "epoch": 0.3862,
      "grad_norm": 1.8683710098266602,
      "learning_rate": 0.00012278728606356968,
      "loss": 2.2443,
      "step": 17379
    },
    {
      "epoch": 0.38622222222222224,
      "grad_norm": 1.640010952949524,
      "learning_rate": 0.0001227828406312514,
      "loss": 2.0945,
      "step": 17380
    },
    {
      "epoch": 0.38624444444444445,
      "grad_norm": 1.8013412952423096,
      "learning_rate": 0.0001227783951989331,
      "loss": 2.3102,
      "step": 17381
    },
    {
      "epoch": 0.38626666666666665,
      "grad_norm": 0.14066237211227417,
      "learning_rate": 0.00012277394976661481,
      "loss": 0.0271,
      "step": 17382
    },
    {
      "epoch": 0.3862888888888889,
      "grad_norm": 1.7903140783309937,
      "learning_rate": 0.00012276950433429652,
      "loss": 2.0268,
      "step": 17383
    },
    {
      "epoch": 0.3863111111111111,
      "grad_norm": 1.9264636039733887,
      "learning_rate": 0.00012276505890197823,
      "loss": 2.0041,
      "step": 17384
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 2.034620761871338,
      "learning_rate": 0.00012276061346965992,
      "loss": 2.2158,
      "step": 17385
    },
    {
      "epoch": 0.38635555555555556,
      "grad_norm": 1.4915173053741455,
      "learning_rate": 0.00012275616803734165,
      "loss": 1.8162,
      "step": 17386
    },
    {
      "epoch": 0.38637777777777776,
      "grad_norm": 1.7286019325256348,
      "learning_rate": 0.00012275172260502333,
      "loss": 2.1913,
      "step": 17387
    },
    {
      "epoch": 0.3864,
      "grad_norm": 1.1700420379638672,
      "learning_rate": 0.00012274727717270504,
      "loss": 0.8892,
      "step": 17388
    },
    {
      "epoch": 0.3864222222222222,
      "grad_norm": 1.5075254440307617,
      "learning_rate": 0.00012274283174038675,
      "loss": 1.8496,
      "step": 17389
    },
    {
      "epoch": 0.3864444444444444,
      "grad_norm": 1.7903952598571777,
      "learning_rate": 0.00012273838630806846,
      "loss": 1.788,
      "step": 17390
    },
    {
      "epoch": 0.3864666666666667,
      "grad_norm": 1.7478455305099487,
      "learning_rate": 0.00012273394087575017,
      "loss": 1.9037,
      "step": 17391
    },
    {
      "epoch": 0.3864888888888889,
      "grad_norm": 2.100975513458252,
      "learning_rate": 0.00012272949544343188,
      "loss": 1.7573,
      "step": 17392
    },
    {
      "epoch": 0.38651111111111114,
      "grad_norm": 2.026771068572998,
      "learning_rate": 0.0001227250500111136,
      "loss": 2.3393,
      "step": 17393
    },
    {
      "epoch": 0.38653333333333334,
      "grad_norm": 1.868222713470459,
      "learning_rate": 0.00012272060457879527,
      "loss": 1.9406,
      "step": 17394
    },
    {
      "epoch": 0.38655555555555554,
      "grad_norm": 1.6341220140457153,
      "learning_rate": 0.000122716159146477,
      "loss": 1.7966,
      "step": 17395
    },
    {
      "epoch": 0.3865777777777778,
      "grad_norm": 2.6055405139923096,
      "learning_rate": 0.0001227117137141587,
      "loss": 2.2664,
      "step": 17396
    },
    {
      "epoch": 0.3866,
      "grad_norm": 1.7239351272583008,
      "learning_rate": 0.0001227072682818404,
      "loss": 2.0296,
      "step": 17397
    },
    {
      "epoch": 0.3866222222222222,
      "grad_norm": 1.526833176612854,
      "learning_rate": 0.0001227028228495221,
      "loss": 1.6501,
      "step": 17398
    },
    {
      "epoch": 0.38664444444444446,
      "grad_norm": 1.6774827241897583,
      "learning_rate": 0.00012269837741720382,
      "loss": 1.3902,
      "step": 17399
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 2.620828151702881,
      "learning_rate": 0.00012269393198488556,
      "loss": 1.7889,
      "step": 17400
    },
    {
      "epoch": 0.3866888888888889,
      "grad_norm": 1.619847297668457,
      "learning_rate": 0.00012268948655256724,
      "loss": 2.7061,
      "step": 17401
    },
    {
      "epoch": 0.3867111111111111,
      "grad_norm": 1.2093472480773926,
      "learning_rate": 0.00012268504112024895,
      "loss": 2.4349,
      "step": 17402
    },
    {
      "epoch": 0.3867333333333333,
      "grad_norm": 1.2588568925857544,
      "learning_rate": 0.00012268059568793066,
      "loss": 1.2631,
      "step": 17403
    },
    {
      "epoch": 0.3867555555555556,
      "grad_norm": 1.2417271137237549,
      "learning_rate": 0.00012267615025561237,
      "loss": 2.3177,
      "step": 17404
    },
    {
      "epoch": 0.3867777777777778,
      "grad_norm": 1.3708056211471558,
      "learning_rate": 0.00012267170482329405,
      "loss": 1.0871,
      "step": 17405
    },
    {
      "epoch": 0.3868,
      "grad_norm": 1.416205644607544,
      "learning_rate": 0.0001226672593909758,
      "loss": 2.6382,
      "step": 17406
    },
    {
      "epoch": 0.38682222222222223,
      "grad_norm": 1.328263282775879,
      "learning_rate": 0.00012266281395865747,
      "loss": 2.2222,
      "step": 17407
    },
    {
      "epoch": 0.38684444444444444,
      "grad_norm": 1.248745322227478,
      "learning_rate": 0.00012265836852633918,
      "loss": 2.0184,
      "step": 17408
    },
    {
      "epoch": 0.3868666666666667,
      "grad_norm": 1.4451426267623901,
      "learning_rate": 0.00012265392309402092,
      "loss": 1.3888,
      "step": 17409
    },
    {
      "epoch": 0.3868888888888889,
      "grad_norm": 1.3263636827468872,
      "learning_rate": 0.0001226494776617026,
      "loss": 1.9164,
      "step": 17410
    },
    {
      "epoch": 0.3869111111111111,
      "grad_norm": 1.6917647123336792,
      "learning_rate": 0.0001226450322293843,
      "loss": 2.4069,
      "step": 17411
    },
    {
      "epoch": 0.38693333333333335,
      "grad_norm": 1.6050642728805542,
      "learning_rate": 0.00012264058679706602,
      "loss": 2.036,
      "step": 17412
    },
    {
      "epoch": 0.38695555555555555,
      "grad_norm": 1.3267556428909302,
      "learning_rate": 0.00012263614136474773,
      "loss": 1.2769,
      "step": 17413
    },
    {
      "epoch": 0.38697777777777775,
      "grad_norm": 1.488412618637085,
      "learning_rate": 0.0001226316959324294,
      "loss": 2.0292,
      "step": 17414
    },
    {
      "epoch": 0.387,
      "grad_norm": 1.8978874683380127,
      "learning_rate": 0.00012262725050011115,
      "loss": 2.7412,
      "step": 17415
    },
    {
      "epoch": 0.3870222222222222,
      "grad_norm": 1.703440546989441,
      "learning_rate": 0.00012262280506779283,
      "loss": 2.6598,
      "step": 17416
    },
    {
      "epoch": 0.38704444444444447,
      "grad_norm": 1.4589024782180786,
      "learning_rate": 0.00012261835963547457,
      "loss": 2.1297,
      "step": 17417
    },
    {
      "epoch": 0.38706666666666667,
      "grad_norm": 1.7077966928482056,
      "learning_rate": 0.00012261391420315628,
      "loss": 1.8395,
      "step": 17418
    },
    {
      "epoch": 0.38708888888888887,
      "grad_norm": 1.4377282857894897,
      "learning_rate": 0.00012260946877083796,
      "loss": 1.7707,
      "step": 17419
    },
    {
      "epoch": 0.38711111111111113,
      "grad_norm": 1.5122960805892944,
      "learning_rate": 0.0001226050233385197,
      "loss": 1.9417,
      "step": 17420
    },
    {
      "epoch": 0.38713333333333333,
      "grad_norm": 1.488092064857483,
      "learning_rate": 0.00012260057790620138,
      "loss": 1.9096,
      "step": 17421
    },
    {
      "epoch": 0.38715555555555553,
      "grad_norm": 1.5165644884109497,
      "learning_rate": 0.0001225961324738831,
      "loss": 2.2496,
      "step": 17422
    },
    {
      "epoch": 0.3871777777777778,
      "grad_norm": 1.5589574575424194,
      "learning_rate": 0.0001225916870415648,
      "loss": 2.003,
      "step": 17423
    },
    {
      "epoch": 0.3872,
      "grad_norm": 1.455109715461731,
      "learning_rate": 0.0001225872416092465,
      "loss": 1.8917,
      "step": 17424
    },
    {
      "epoch": 0.38722222222222225,
      "grad_norm": 1.6348330974578857,
      "learning_rate": 0.0001225827961769282,
      "loss": 2.1651,
      "step": 17425
    },
    {
      "epoch": 0.38724444444444445,
      "grad_norm": 1.3381909132003784,
      "learning_rate": 0.00012257835074460993,
      "loss": 1.4251,
      "step": 17426
    },
    {
      "epoch": 0.38726666666666665,
      "grad_norm": 1.8511182069778442,
      "learning_rate": 0.00012257390531229164,
      "loss": 2.1682,
      "step": 17427
    },
    {
      "epoch": 0.3872888888888889,
      "grad_norm": 1.7420365810394287,
      "learning_rate": 0.00012256945987997332,
      "loss": 1.8449,
      "step": 17428
    },
    {
      "epoch": 0.3873111111111111,
      "grad_norm": 1.6041672229766846,
      "learning_rate": 0.00012256501444765506,
      "loss": 1.8274,
      "step": 17429
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 1.9764951467514038,
      "learning_rate": 0.00012256056901533674,
      "loss": 2.2976,
      "step": 17430
    },
    {
      "epoch": 0.38735555555555556,
      "grad_norm": 1.9165700674057007,
      "learning_rate": 0.00012255612358301845,
      "loss": 2.15,
      "step": 17431
    },
    {
      "epoch": 0.38737777777777777,
      "grad_norm": 1.7227753400802612,
      "learning_rate": 0.00012255167815070016,
      "loss": 2.321,
      "step": 17432
    },
    {
      "epoch": 0.3874,
      "grad_norm": 1.6566839218139648,
      "learning_rate": 0.00012254723271838187,
      "loss": 1.7978,
      "step": 17433
    },
    {
      "epoch": 0.3874222222222222,
      "grad_norm": 2.2495598793029785,
      "learning_rate": 0.00012254278728606358,
      "loss": 1.6999,
      "step": 17434
    },
    {
      "epoch": 0.3874444444444444,
      "grad_norm": 1.7466981410980225,
      "learning_rate": 0.0001225383418537453,
      "loss": 0.6694,
      "step": 17435
    },
    {
      "epoch": 0.3874666666666667,
      "grad_norm": 1.1164149045944214,
      "learning_rate": 0.000122533896421427,
      "loss": 0.9529,
      "step": 17436
    },
    {
      "epoch": 0.3874888888888889,
      "grad_norm": 1.4960871934890747,
      "learning_rate": 0.0001225294509891087,
      "loss": 2.0552,
      "step": 17437
    },
    {
      "epoch": 0.3875111111111111,
      "grad_norm": 1.746873378753662,
      "learning_rate": 0.00012252500555679042,
      "loss": 1.728,
      "step": 17438
    },
    {
      "epoch": 0.38753333333333334,
      "grad_norm": 2.126906156539917,
      "learning_rate": 0.0001225205601244721,
      "loss": 1.926,
      "step": 17439
    },
    {
      "epoch": 0.38755555555555554,
      "grad_norm": 1.384629249572754,
      "learning_rate": 0.00012251611469215384,
      "loss": 1.6747,
      "step": 17440
    },
    {
      "epoch": 0.3875777777777778,
      "grad_norm": 1.5666468143463135,
      "learning_rate": 0.00012251166925983552,
      "loss": 1.6039,
      "step": 17441
    },
    {
      "epoch": 0.3876,
      "grad_norm": 1.9151769876480103,
      "learning_rate": 0.00012250722382751723,
      "loss": 2.109,
      "step": 17442
    },
    {
      "epoch": 0.3876222222222222,
      "grad_norm": 1.7270034551620483,
      "learning_rate": 0.00012250277839519894,
      "loss": 2.3246,
      "step": 17443
    },
    {
      "epoch": 0.38764444444444446,
      "grad_norm": 1.7859103679656982,
      "learning_rate": 0.00012249833296288065,
      "loss": 1.7654,
      "step": 17444
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 2.3005294799804688,
      "learning_rate": 0.00012249388753056236,
      "loss": 2.2352,
      "step": 17445
    },
    {
      "epoch": 0.3876888888888889,
      "grad_norm": 2.5601184368133545,
      "learning_rate": 0.00012248944209824407,
      "loss": 2.2164,
      "step": 17446
    },
    {
      "epoch": 0.3877111111111111,
      "grad_norm": 1.5042592287063599,
      "learning_rate": 0.00012248499666592578,
      "loss": 1.5693,
      "step": 17447
    },
    {
      "epoch": 0.3877333333333333,
      "grad_norm": 1.7008295059204102,
      "learning_rate": 0.00012248055123360746,
      "loss": 1.6533,
      "step": 17448
    },
    {
      "epoch": 0.3877555555555556,
      "grad_norm": 1.9446171522140503,
      "learning_rate": 0.0001224761058012892,
      "loss": 2.1436,
      "step": 17449
    },
    {
      "epoch": 0.3877777777777778,
      "grad_norm": 1.9413686990737915,
      "learning_rate": 0.00012247166036897088,
      "loss": 2.0928,
      "step": 17450
    },
    {
      "epoch": 0.3878,
      "grad_norm": 1.8690507411956787,
      "learning_rate": 0.0001224672149366526,
      "loss": 3.0974,
      "step": 17451
    },
    {
      "epoch": 0.38782222222222223,
      "grad_norm": 1.416060447692871,
      "learning_rate": 0.0001224627695043343,
      "loss": 3.0323,
      "step": 17452
    },
    {
      "epoch": 0.38784444444444444,
      "grad_norm": 1.607886552810669,
      "learning_rate": 0.000122458324072016,
      "loss": 1.9276,
      "step": 17453
    },
    {
      "epoch": 0.3878666666666667,
      "grad_norm": 1.2984135150909424,
      "learning_rate": 0.00012245387863969772,
      "loss": 2.2285,
      "step": 17454
    },
    {
      "epoch": 0.3878888888888889,
      "grad_norm": 1.4445265531539917,
      "learning_rate": 0.00012244943320737943,
      "loss": 2.3992,
      "step": 17455
    },
    {
      "epoch": 0.3879111111111111,
      "grad_norm": 1.5273231267929077,
      "learning_rate": 0.00012244498777506114,
      "loss": 1.864,
      "step": 17456
    },
    {
      "epoch": 0.38793333333333335,
      "grad_norm": 1.7143423557281494,
      "learning_rate": 0.00012244054234274285,
      "loss": 3.0401,
      "step": 17457
    },
    {
      "epoch": 0.38795555555555555,
      "grad_norm": 1.5079026222229004,
      "learning_rate": 0.00012243609691042455,
      "loss": 2.0412,
      "step": 17458
    },
    {
      "epoch": 0.38797777777777775,
      "grad_norm": 1.1419340372085571,
      "learning_rate": 0.00012243165147810624,
      "loss": 1.3642,
      "step": 17459
    },
    {
      "epoch": 0.388,
      "grad_norm": 1.6349397897720337,
      "learning_rate": 0.00012242720604578797,
      "loss": 2.6155,
      "step": 17460
    },
    {
      "epoch": 0.3880222222222222,
      "grad_norm": 1.5442521572113037,
      "learning_rate": 0.00012242276061346966,
      "loss": 2.4529,
      "step": 17461
    },
    {
      "epoch": 0.38804444444444447,
      "grad_norm": 1.4096976518630981,
      "learning_rate": 0.00012241831518115137,
      "loss": 1.9892,
      "step": 17462
    },
    {
      "epoch": 0.38806666666666667,
      "grad_norm": 1.911872148513794,
      "learning_rate": 0.00012241386974883308,
      "loss": 1.7786,
      "step": 17463
    },
    {
      "epoch": 0.38808888888888887,
      "grad_norm": 1.3756314516067505,
      "learning_rate": 0.00012240942431651479,
      "loss": 2.1259,
      "step": 17464
    },
    {
      "epoch": 0.38811111111111113,
      "grad_norm": 1.359997272491455,
      "learning_rate": 0.0001224049788841965,
      "loss": 1.9833,
      "step": 17465
    },
    {
      "epoch": 0.38813333333333333,
      "grad_norm": 1.5328022241592407,
      "learning_rate": 0.0001224005334518782,
      "loss": 1.7525,
      "step": 17466
    },
    {
      "epoch": 0.38815555555555553,
      "grad_norm": 1.7116576433181763,
      "learning_rate": 0.00012239608801955991,
      "loss": 2.5429,
      "step": 17467
    },
    {
      "epoch": 0.3881777777777778,
      "grad_norm": 1.8557679653167725,
      "learning_rate": 0.0001223916425872416,
      "loss": 2.2224,
      "step": 17468
    },
    {
      "epoch": 0.3882,
      "grad_norm": 1.3519552946090698,
      "learning_rate": 0.00012238719715492333,
      "loss": 0.938,
      "step": 17469
    },
    {
      "epoch": 0.38822222222222225,
      "grad_norm": 1.1188280582427979,
      "learning_rate": 0.00012238275172260502,
      "loss": 1.2936,
      "step": 17470
    },
    {
      "epoch": 0.38824444444444445,
      "grad_norm": 1.3127135038375854,
      "learning_rate": 0.00012237830629028673,
      "loss": 1.7406,
      "step": 17471
    },
    {
      "epoch": 0.38826666666666665,
      "grad_norm": 1.8910406827926636,
      "learning_rate": 0.00012237386085796844,
      "loss": 2.1655,
      "step": 17472
    },
    {
      "epoch": 0.3882888888888889,
      "grad_norm": 1.7552345991134644,
      "learning_rate": 0.00012236941542565014,
      "loss": 1.9494,
      "step": 17473
    },
    {
      "epoch": 0.3883111111111111,
      "grad_norm": 1.5301541090011597,
      "learning_rate": 0.00012236496999333188,
      "loss": 2.0869,
      "step": 17474
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 1.5000405311584473,
      "learning_rate": 0.00012236052456101356,
      "loss": 1.4388,
      "step": 17475
    },
    {
      "epoch": 0.38835555555555556,
      "grad_norm": 1.9458850622177124,
      "learning_rate": 0.00012235607912869527,
      "loss": 2.3397,
      "step": 17476
    },
    {
      "epoch": 0.38837777777777777,
      "grad_norm": 1.5592504739761353,
      "learning_rate": 0.00012235163369637698,
      "loss": 1.4892,
      "step": 17477
    },
    {
      "epoch": 0.3884,
      "grad_norm": 1.9187599420547485,
      "learning_rate": 0.0001223471882640587,
      "loss": 1.6622,
      "step": 17478
    },
    {
      "epoch": 0.3884222222222222,
      "grad_norm": 1.4891619682312012,
      "learning_rate": 0.00012234274283174038,
      "loss": 1.7544,
      "step": 17479
    },
    {
      "epoch": 0.3884444444444444,
      "grad_norm": 2.6119651794433594,
      "learning_rate": 0.0001223382973994221,
      "loss": 2.2427,
      "step": 17480
    },
    {
      "epoch": 0.3884666666666667,
      "grad_norm": 1.957666039466858,
      "learning_rate": 0.0001223338519671038,
      "loss": 1.8686,
      "step": 17481
    },
    {
      "epoch": 0.3884888888888889,
      "grad_norm": 1.1661213636398315,
      "learning_rate": 0.0001223294065347855,
      "loss": 1.1674,
      "step": 17482
    },
    {
      "epoch": 0.3885111111111111,
      "grad_norm": 1.4457372426986694,
      "learning_rate": 0.00012232496110246724,
      "loss": 2.0995,
      "step": 17483
    },
    {
      "epoch": 0.38853333333333334,
      "grad_norm": 1.7681282758712769,
      "learning_rate": 0.00012232051567014892,
      "loss": 2.7547,
      "step": 17484
    },
    {
      "epoch": 0.38855555555555554,
      "grad_norm": 1.8121858835220337,
      "learning_rate": 0.00012231607023783063,
      "loss": 1.9235,
      "step": 17485
    },
    {
      "epoch": 0.3885777777777778,
      "grad_norm": 1.8831104040145874,
      "learning_rate": 0.00012231162480551234,
      "loss": 2.0552,
      "step": 17486
    },
    {
      "epoch": 0.3886,
      "grad_norm": 1.6048592329025269,
      "learning_rate": 0.00012230717937319405,
      "loss": 1.853,
      "step": 17487
    },
    {
      "epoch": 0.3886222222222222,
      "grad_norm": 2.117129325866699,
      "learning_rate": 0.00012230273394087574,
      "loss": 2.584,
      "step": 17488
    },
    {
      "epoch": 0.38864444444444446,
      "grad_norm": 1.7792409658432007,
      "learning_rate": 0.00012229828850855747,
      "loss": 1.732,
      "step": 17489
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 1.6640360355377197,
      "learning_rate": 0.00012229384307623915,
      "loss": 1.8431,
      "step": 17490
    },
    {
      "epoch": 0.38868888888888886,
      "grad_norm": 2.086986541748047,
      "learning_rate": 0.00012228939764392086,
      "loss": 1.7975,
      "step": 17491
    },
    {
      "epoch": 0.3887111111111111,
      "grad_norm": 1.7960858345031738,
      "learning_rate": 0.0001222849522116026,
      "loss": 1.9643,
      "step": 17492
    },
    {
      "epoch": 0.3887333333333333,
      "grad_norm": 2.257563829421997,
      "learning_rate": 0.00012228050677928428,
      "loss": 2.1123,
      "step": 17493
    },
    {
      "epoch": 0.3887555555555556,
      "grad_norm": 1.530408501625061,
      "learning_rate": 0.00012227606134696602,
      "loss": 1.6112,
      "step": 17494
    },
    {
      "epoch": 0.3887777777777778,
      "grad_norm": 1.7887789011001587,
      "learning_rate": 0.0001222716159146477,
      "loss": 1.8339,
      "step": 17495
    },
    {
      "epoch": 0.3888,
      "grad_norm": 1.7331969738006592,
      "learning_rate": 0.0001222671704823294,
      "loss": 2.0197,
      "step": 17496
    },
    {
      "epoch": 0.38882222222222224,
      "grad_norm": 1.450584053993225,
      "learning_rate": 0.00012226272505001112,
      "loss": 1.5598,
      "step": 17497
    },
    {
      "epoch": 0.38884444444444444,
      "grad_norm": 1.6984224319458008,
      "learning_rate": 0.00012225827961769283,
      "loss": 1.6619,
      "step": 17498
    },
    {
      "epoch": 0.3888666666666667,
      "grad_norm": 1.5264428853988647,
      "learning_rate": 0.00012225383418537451,
      "loss": 1.4269,
      "step": 17499
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 1.8600207567214966,
      "learning_rate": 0.00012224938875305625,
      "loss": 1.6084,
      "step": 17500
    },
    {
      "epoch": 0.3889111111111111,
      "grad_norm": 1.184576392173767,
      "learning_rate": 0.00012224494332073796,
      "loss": 2.3564,
      "step": 17501
    },
    {
      "epoch": 0.38893333333333335,
      "grad_norm": 1.0409692525863647,
      "learning_rate": 0.00012224049788841964,
      "loss": 1.3694,
      "step": 17502
    },
    {
      "epoch": 0.38895555555555555,
      "grad_norm": 1.5655328035354614,
      "learning_rate": 0.00012223605245610138,
      "loss": 2.1444,
      "step": 17503
    },
    {
      "epoch": 0.38897777777777776,
      "grad_norm": 1.7317711114883423,
      "learning_rate": 0.00012223160702378306,
      "loss": 2.2777,
      "step": 17504
    },
    {
      "epoch": 0.389,
      "grad_norm": 1.6848468780517578,
      "learning_rate": 0.00012222716159146477,
      "loss": 2.82,
      "step": 17505
    },
    {
      "epoch": 0.3890222222222222,
      "grad_norm": 1.2390131950378418,
      "learning_rate": 0.00012222271615914648,
      "loss": 1.6182,
      "step": 17506
    },
    {
      "epoch": 0.38904444444444447,
      "grad_norm": 1.2700494527816772,
      "learning_rate": 0.0001222182707268282,
      "loss": 1.5131,
      "step": 17507
    },
    {
      "epoch": 0.38906666666666667,
      "grad_norm": 1.5437268018722534,
      "learning_rate": 0.0001222138252945099,
      "loss": 2.4214,
      "step": 17508
    },
    {
      "epoch": 0.3890888888888889,
      "grad_norm": 1.842952847480774,
      "learning_rate": 0.0001222093798621916,
      "loss": 2.5273,
      "step": 17509
    },
    {
      "epoch": 0.38911111111111113,
      "grad_norm": 1.4228097200393677,
      "learning_rate": 0.00012220493442987332,
      "loss": 2.2859,
      "step": 17510
    },
    {
      "epoch": 0.38913333333333333,
      "grad_norm": 1.507725477218628,
      "learning_rate": 0.000122200488997555,
      "loss": 2.016,
      "step": 17511
    },
    {
      "epoch": 0.38915555555555553,
      "grad_norm": 2.4933786392211914,
      "learning_rate": 0.00012219604356523674,
      "loss": 1.3327,
      "step": 17512
    },
    {
      "epoch": 0.3891777777777778,
      "grad_norm": 1.2467708587646484,
      "learning_rate": 0.00012219159813291842,
      "loss": 2.0624,
      "step": 17513
    },
    {
      "epoch": 0.3892,
      "grad_norm": 1.2634128332138062,
      "learning_rate": 0.00012218715270060016,
      "loss": 1.6204,
      "step": 17514
    },
    {
      "epoch": 0.38922222222222225,
      "grad_norm": 1.5732035636901855,
      "learning_rate": 0.00012218270726828184,
      "loss": 1.9895,
      "step": 17515
    },
    {
      "epoch": 0.38924444444444445,
      "grad_norm": 1.3637257814407349,
      "learning_rate": 0.00012217826183596355,
      "loss": 2.0569,
      "step": 17516
    },
    {
      "epoch": 0.38926666666666665,
      "grad_norm": 1.4662506580352783,
      "learning_rate": 0.00012217381640364526,
      "loss": 2.0524,
      "step": 17517
    },
    {
      "epoch": 0.3892888888888889,
      "grad_norm": 2.014887809753418,
      "learning_rate": 0.00012216937097132697,
      "loss": 2.2956,
      "step": 17518
    },
    {
      "epoch": 0.3893111111111111,
      "grad_norm": 1.0810425281524658,
      "learning_rate": 0.00012216492553900868,
      "loss": 0.9616,
      "step": 17519
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 1.0682427883148193,
      "learning_rate": 0.0001221604801066904,
      "loss": 0.9561,
      "step": 17520
    },
    {
      "epoch": 0.38935555555555557,
      "grad_norm": 1.8469911813735962,
      "learning_rate": 0.0001221560346743721,
      "loss": 2.1859,
      "step": 17521
    },
    {
      "epoch": 0.38937777777777777,
      "grad_norm": 1.6559597253799438,
      "learning_rate": 0.00012215158924205378,
      "loss": 2.1512,
      "step": 17522
    },
    {
      "epoch": 0.3894,
      "grad_norm": 1.5826221704483032,
      "learning_rate": 0.00012214714380973552,
      "loss": 2.2199,
      "step": 17523
    },
    {
      "epoch": 0.3894222222222222,
      "grad_norm": 1.952441930770874,
      "learning_rate": 0.0001221426983774172,
      "loss": 2.149,
      "step": 17524
    },
    {
      "epoch": 0.3894444444444444,
      "grad_norm": 1.4078243970870972,
      "learning_rate": 0.0001221382529450989,
      "loss": 1.8698,
      "step": 17525
    },
    {
      "epoch": 0.3894666666666667,
      "grad_norm": 1.7023617029190063,
      "learning_rate": 0.00012213380751278062,
      "loss": 2.3906,
      "step": 17526
    },
    {
      "epoch": 0.3894888888888889,
      "grad_norm": 1.5046749114990234,
      "learning_rate": 0.00012212936208046233,
      "loss": 1.7756,
      "step": 17527
    },
    {
      "epoch": 0.3895111111111111,
      "grad_norm": 1.7216849327087402,
      "learning_rate": 0.00012212491664814404,
      "loss": 1.8637,
      "step": 17528
    },
    {
      "epoch": 0.38953333333333334,
      "grad_norm": 1.7944459915161133,
      "learning_rate": 0.00012212047121582575,
      "loss": 1.7303,
      "step": 17529
    },
    {
      "epoch": 0.38955555555555554,
      "grad_norm": 1.4752345085144043,
      "learning_rate": 0.00012211602578350746,
      "loss": 1.7939,
      "step": 17530
    },
    {
      "epoch": 0.3895777777777778,
      "grad_norm": 1.4638276100158691,
      "learning_rate": 0.00012211158035118917,
      "loss": 1.6673,
      "step": 17531
    },
    {
      "epoch": 0.3896,
      "grad_norm": 1.7667592763900757,
      "learning_rate": 0.00012210713491887088,
      "loss": 2.0188,
      "step": 17532
    },
    {
      "epoch": 0.3896222222222222,
      "grad_norm": 0.9430719017982483,
      "learning_rate": 0.00012210268948655256,
      "loss": 0.7759,
      "step": 17533
    },
    {
      "epoch": 0.38964444444444446,
      "grad_norm": 1.9360886812210083,
      "learning_rate": 0.0001220982440542343,
      "loss": 1.8254,
      "step": 17534
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 1.8708734512329102,
      "learning_rate": 0.00012209379862191598,
      "loss": 2.1861,
      "step": 17535
    },
    {
      "epoch": 0.38968888888888886,
      "grad_norm": 1.7242482900619507,
      "learning_rate": 0.0001220893531895977,
      "loss": 1.7707,
      "step": 17536
    },
    {
      "epoch": 0.3897111111111111,
      "grad_norm": 1.9188984632492065,
      "learning_rate": 0.0001220849077572794,
      "loss": 1.8507,
      "step": 17537
    },
    {
      "epoch": 0.3897333333333333,
      "grad_norm": 1.2510102987289429,
      "learning_rate": 0.0001220804623249611,
      "loss": 1.5061,
      "step": 17538
    },
    {
      "epoch": 0.3897555555555556,
      "grad_norm": 1.560984492301941,
      "learning_rate": 0.00012207601689264282,
      "loss": 1.8819,
      "step": 17539
    },
    {
      "epoch": 0.3897777777777778,
      "grad_norm": 1.8002362251281738,
      "learning_rate": 0.00012207157146032453,
      "loss": 1.7648,
      "step": 17540
    },
    {
      "epoch": 0.3898,
      "grad_norm": 1.4114406108856201,
      "learning_rate": 0.00012206712602800622,
      "loss": 1.4304,
      "step": 17541
    },
    {
      "epoch": 0.38982222222222224,
      "grad_norm": 1.540909767150879,
      "learning_rate": 0.00012206268059568793,
      "loss": 1.973,
      "step": 17542
    },
    {
      "epoch": 0.38984444444444444,
      "grad_norm": 1.745468020439148,
      "learning_rate": 0.00012205823516336966,
      "loss": 1.5378,
      "step": 17543
    },
    {
      "epoch": 0.38986666666666664,
      "grad_norm": 1.3534538745880127,
      "learning_rate": 0.00012205378973105135,
      "loss": 1.3459,
      "step": 17544
    },
    {
      "epoch": 0.3898888888888889,
      "grad_norm": 1.3702386617660522,
      "learning_rate": 0.00012204934429873305,
      "loss": 1.7504,
      "step": 17545
    },
    {
      "epoch": 0.3899111111111111,
      "grad_norm": 1.5441081523895264,
      "learning_rate": 0.00012204489886641477,
      "loss": 1.9383,
      "step": 17546
    },
    {
      "epoch": 0.38993333333333335,
      "grad_norm": 1.7032406330108643,
      "learning_rate": 0.00012204045343409647,
      "loss": 1.7689,
      "step": 17547
    },
    {
      "epoch": 0.38995555555555556,
      "grad_norm": 1.704555630683899,
      "learning_rate": 0.00012203600800177816,
      "loss": 1.9259,
      "step": 17548
    },
    {
      "epoch": 0.38997777777777776,
      "grad_norm": 1.8965743780136108,
      "learning_rate": 0.00012203156256945989,
      "loss": 1.7869,
      "step": 17549
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.8046754598617554,
      "learning_rate": 0.00012202711713714158,
      "loss": 0.3481,
      "step": 17550
    },
    {
      "epoch": 0.3900222222222222,
      "grad_norm": 1.3548915386199951,
      "learning_rate": 0.0001220226717048233,
      "loss": 2.5257,
      "step": 17551
    },
    {
      "epoch": 0.39004444444444447,
      "grad_norm": 1.262471318244934,
      "learning_rate": 0.00012201822627250502,
      "loss": 2.395,
      "step": 17552
    },
    {
      "epoch": 0.3900666666666667,
      "grad_norm": 1.320263385772705,
      "learning_rate": 0.00012201378084018671,
      "loss": 1.2271,
      "step": 17553
    },
    {
      "epoch": 0.3900888888888889,
      "grad_norm": 1.5616686344146729,
      "learning_rate": 0.00012200933540786843,
      "loss": 2.6751,
      "step": 17554
    },
    {
      "epoch": 0.39011111111111113,
      "grad_norm": 1.5438343286514282,
      "learning_rate": 0.00012200488997555013,
      "loss": 2.309,
      "step": 17555
    },
    {
      "epoch": 0.39013333333333333,
      "grad_norm": 1.3333277702331543,
      "learning_rate": 0.00012200044454323183,
      "loss": 2.2197,
      "step": 17556
    },
    {
      "epoch": 0.39015555555555553,
      "grad_norm": 1.3423582315444946,
      "learning_rate": 0.00012199599911091355,
      "loss": 2.1474,
      "step": 17557
    },
    {
      "epoch": 0.3901777777777778,
      "grad_norm": 1.5703659057617188,
      "learning_rate": 0.00012199155367859525,
      "loss": 1.8169,
      "step": 17558
    },
    {
      "epoch": 0.3902,
      "grad_norm": 1.5494035482406616,
      "learning_rate": 0.00012198710824627696,
      "loss": 1.9786,
      "step": 17559
    },
    {
      "epoch": 0.39022222222222225,
      "grad_norm": 1.5946719646453857,
      "learning_rate": 0.00012198266281395866,
      "loss": 2.0323,
      "step": 17560
    },
    {
      "epoch": 0.39024444444444445,
      "grad_norm": 1.136406421661377,
      "learning_rate": 0.00012197821738164037,
      "loss": 1.1612,
      "step": 17561
    },
    {
      "epoch": 0.39026666666666665,
      "grad_norm": 1.5732002258300781,
      "learning_rate": 0.00012197377194932207,
      "loss": 2.0138,
      "step": 17562
    },
    {
      "epoch": 0.3902888888888889,
      "grad_norm": 1.508773684501648,
      "learning_rate": 0.0001219693265170038,
      "loss": 1.9079,
      "step": 17563
    },
    {
      "epoch": 0.3903111111111111,
      "grad_norm": 1.3759291172027588,
      "learning_rate": 0.00012196488108468549,
      "loss": 1.9787,
      "step": 17564
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 1.4450078010559082,
      "learning_rate": 0.00012196043565236719,
      "loss": 1.8698,
      "step": 17565
    },
    {
      "epoch": 0.39035555555555557,
      "grad_norm": 1.6095932722091675,
      "learning_rate": 0.00012195599022004891,
      "loss": 2.2439,
      "step": 17566
    },
    {
      "epoch": 0.39037777777777777,
      "grad_norm": 1.6252614259719849,
      "learning_rate": 0.0001219515447877306,
      "loss": 2.3254,
      "step": 17567
    },
    {
      "epoch": 0.3904,
      "grad_norm": 1.4917405843734741,
      "learning_rate": 0.00012194709935541231,
      "loss": 1.4306,
      "step": 17568
    },
    {
      "epoch": 0.3904222222222222,
      "grad_norm": 1.5139260292053223,
      "learning_rate": 0.00012194265392309402,
      "loss": 1.2087,
      "step": 17569
    },
    {
      "epoch": 0.3904444444444444,
      "grad_norm": 1.721994161605835,
      "learning_rate": 0.00012193820849077573,
      "loss": 2.4491,
      "step": 17570
    },
    {
      "epoch": 0.3904666666666667,
      "grad_norm": 1.280468463897705,
      "learning_rate": 0.00012193376305845746,
      "loss": 1.6499,
      "step": 17571
    },
    {
      "epoch": 0.3904888888888889,
      "grad_norm": 1.6061327457427979,
      "learning_rate": 0.00012192931762613915,
      "loss": 2.2285,
      "step": 17572
    },
    {
      "epoch": 0.3905111111111111,
      "grad_norm": 1.5507465600967407,
      "learning_rate": 0.00012192487219382085,
      "loss": 1.8548,
      "step": 17573
    },
    {
      "epoch": 0.39053333333333334,
      "grad_norm": 1.8081785440444946,
      "learning_rate": 0.00012192042676150257,
      "loss": 1.816,
      "step": 17574
    },
    {
      "epoch": 0.39055555555555554,
      "grad_norm": 1.7015373706817627,
      "learning_rate": 0.00012191598132918427,
      "loss": 1.5292,
      "step": 17575
    },
    {
      "epoch": 0.3905777777777778,
      "grad_norm": 1.4023901224136353,
      "learning_rate": 0.00012191153589686596,
      "loss": 1.6408,
      "step": 17576
    },
    {
      "epoch": 0.3906,
      "grad_norm": 0.3072587847709656,
      "learning_rate": 0.00012190709046454769,
      "loss": 0.0265,
      "step": 17577
    },
    {
      "epoch": 0.3906222222222222,
      "grad_norm": 1.521950602531433,
      "learning_rate": 0.00012190264503222938,
      "loss": 1.7143,
      "step": 17578
    },
    {
      "epoch": 0.39064444444444446,
      "grad_norm": 1.399401068687439,
      "learning_rate": 0.0001218981995999111,
      "loss": 1.686,
      "step": 17579
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 1.305353045463562,
      "learning_rate": 0.00012189375416759282,
      "loss": 0.8927,
      "step": 17580
    },
    {
      "epoch": 0.39068888888888886,
      "grad_norm": 1.6929725408554077,
      "learning_rate": 0.00012188930873527451,
      "loss": 1.7552,
      "step": 17581
    },
    {
      "epoch": 0.3907111111111111,
      "grad_norm": 1.7423774003982544,
      "learning_rate": 0.00012188486330295621,
      "loss": 1.6118,
      "step": 17582
    },
    {
      "epoch": 0.3907333333333333,
      "grad_norm": 1.6652803421020508,
      "learning_rate": 0.00012188041787063793,
      "loss": 1.8599,
      "step": 17583
    },
    {
      "epoch": 0.3907555555555556,
      "grad_norm": 1.637446403503418,
      "learning_rate": 0.00012187597243831963,
      "loss": 1.8972,
      "step": 17584
    },
    {
      "epoch": 0.3907777777777778,
      "grad_norm": 2.2103800773620605,
      "learning_rate": 0.00012187152700600132,
      "loss": 2.1717,
      "step": 17585
    },
    {
      "epoch": 0.3908,
      "grad_norm": 1.8659510612487793,
      "learning_rate": 0.00012186708157368305,
      "loss": 1.7156,
      "step": 17586
    },
    {
      "epoch": 0.39082222222222224,
      "grad_norm": 1.530369520187378,
      "learning_rate": 0.00012186263614136474,
      "loss": 1.8771,
      "step": 17587
    },
    {
      "epoch": 0.39084444444444444,
      "grad_norm": 1.7214043140411377,
      "learning_rate": 0.00012185819070904647,
      "loss": 1.9917,
      "step": 17588
    },
    {
      "epoch": 0.39086666666666664,
      "grad_norm": 1.7347151041030884,
      "learning_rate": 0.00012185374527672818,
      "loss": 1.7143,
      "step": 17589
    },
    {
      "epoch": 0.3908888888888889,
      "grad_norm": 1.6731294393539429,
      "learning_rate": 0.00012184929984440987,
      "loss": 1.629,
      "step": 17590
    },
    {
      "epoch": 0.3909111111111111,
      "grad_norm": 1.6361242532730103,
      "learning_rate": 0.0001218448544120916,
      "loss": 2.0862,
      "step": 17591
    },
    {
      "epoch": 0.39093333333333335,
      "grad_norm": 1.7401318550109863,
      "learning_rate": 0.00012184040897977329,
      "loss": 1.9937,
      "step": 17592
    },
    {
      "epoch": 0.39095555555555556,
      "grad_norm": 1.745485782623291,
      "learning_rate": 0.00012183596354745499,
      "loss": 1.9048,
      "step": 17593
    },
    {
      "epoch": 0.39097777777777776,
      "grad_norm": 1.7559860944747925,
      "learning_rate": 0.00012183151811513671,
      "loss": 2.1731,
      "step": 17594
    },
    {
      "epoch": 0.391,
      "grad_norm": 1.6722599267959595,
      "learning_rate": 0.0001218270726828184,
      "loss": 1.8173,
      "step": 17595
    },
    {
      "epoch": 0.3910222222222222,
      "grad_norm": 1.9714652299880981,
      "learning_rate": 0.00012182262725050012,
      "loss": 1.7338,
      "step": 17596
    },
    {
      "epoch": 0.3910444444444444,
      "grad_norm": 1.8410602807998657,
      "learning_rate": 0.00012181818181818183,
      "loss": 2.0806,
      "step": 17597
    },
    {
      "epoch": 0.3910666666666667,
      "grad_norm": 1.180541753768921,
      "learning_rate": 0.00012181373638586354,
      "loss": 0.6893,
      "step": 17598
    },
    {
      "epoch": 0.3910888888888889,
      "grad_norm": 2.1083264350891113,
      "learning_rate": 0.00012180929095354523,
      "loss": 2.173,
      "step": 17599
    },
    {
      "epoch": 0.39111111111111113,
      "grad_norm": 2.011270046234131,
      "learning_rate": 0.00012180484552122695,
      "loss": 1.6915,
      "step": 17600
    },
    {
      "epoch": 0.39113333333333333,
      "grad_norm": 1.3811241388320923,
      "learning_rate": 0.00012180040008890865,
      "loss": 2.3312,
      "step": 17601
    },
    {
      "epoch": 0.39115555555555553,
      "grad_norm": 0.7650458812713623,
      "learning_rate": 0.00012179595465659035,
      "loss": 1.2269,
      "step": 17602
    },
    {
      "epoch": 0.3911777777777778,
      "grad_norm": 1.1424046754837036,
      "learning_rate": 0.00012179150922427207,
      "loss": 1.4122,
      "step": 17603
    },
    {
      "epoch": 0.3912,
      "grad_norm": 1.2794125080108643,
      "learning_rate": 0.00012178706379195377,
      "loss": 1.9906,
      "step": 17604
    },
    {
      "epoch": 0.39122222222222225,
      "grad_norm": 1.2902040481567383,
      "learning_rate": 0.00012178261835963548,
      "loss": 2.1621,
      "step": 17605
    },
    {
      "epoch": 0.39124444444444445,
      "grad_norm": 1.7623716592788696,
      "learning_rate": 0.00012177817292731719,
      "loss": 2.5412,
      "step": 17606
    },
    {
      "epoch": 0.39126666666666665,
      "grad_norm": 1.3752349615097046,
      "learning_rate": 0.0001217737274949989,
      "loss": 2.0434,
      "step": 17607
    },
    {
      "epoch": 0.3912888888888889,
      "grad_norm": 1.6624318361282349,
      "learning_rate": 0.00012176928206268062,
      "loss": 1.7593,
      "step": 17608
    },
    {
      "epoch": 0.3913111111111111,
      "grad_norm": 1.6179300546646118,
      "learning_rate": 0.00012176483663036231,
      "loss": 1.8738,
      "step": 17609
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 1.7424358129501343,
      "learning_rate": 0.00012176039119804401,
      "loss": 2.4119,
      "step": 17610
    },
    {
      "epoch": 0.39135555555555557,
      "grad_norm": 1.4188684225082397,
      "learning_rate": 0.00012175594576572573,
      "loss": 2.2088,
      "step": 17611
    },
    {
      "epoch": 0.39137777777777777,
      "grad_norm": 1.5556247234344482,
      "learning_rate": 0.00012175150033340743,
      "loss": 1.8047,
      "step": 17612
    },
    {
      "epoch": 0.3914,
      "grad_norm": 1.4102649688720703,
      "learning_rate": 0.00012174705490108913,
      "loss": 1.6593,
      "step": 17613
    },
    {
      "epoch": 0.3914222222222222,
      "grad_norm": 1.1157785654067993,
      "learning_rate": 0.00012174260946877085,
      "loss": 0.9977,
      "step": 17614
    },
    {
      "epoch": 0.39144444444444443,
      "grad_norm": 1.1556791067123413,
      "learning_rate": 0.00012173816403645254,
      "loss": 1.0257,
      "step": 17615
    },
    {
      "epoch": 0.3914666666666667,
      "grad_norm": 2.4551103115081787,
      "learning_rate": 0.00012173371860413425,
      "loss": 2.0085,
      "step": 17616
    },
    {
      "epoch": 0.3914888888888889,
      "grad_norm": 1.4015377759933472,
      "learning_rate": 0.00012172927317181598,
      "loss": 1.7568,
      "step": 17617
    },
    {
      "epoch": 0.3915111111111111,
      "grad_norm": 2.0289852619171143,
      "learning_rate": 0.00012172482773949767,
      "loss": 2.5688,
      "step": 17618
    },
    {
      "epoch": 0.39153333333333334,
      "grad_norm": 1.472774624824524,
      "learning_rate": 0.00012172038230717937,
      "loss": 1.622,
      "step": 17619
    },
    {
      "epoch": 0.39155555555555555,
      "grad_norm": 1.3383549451828003,
      "learning_rate": 0.00012171593687486109,
      "loss": 1.7075,
      "step": 17620
    },
    {
      "epoch": 0.3915777777777778,
      "grad_norm": 2.779128313064575,
      "learning_rate": 0.00012171149144254279,
      "loss": 2.4903,
      "step": 17621
    },
    {
      "epoch": 0.3916,
      "grad_norm": 1.6012530326843262,
      "learning_rate": 0.00012170704601022449,
      "loss": 2.1689,
      "step": 17622
    },
    {
      "epoch": 0.3916222222222222,
      "grad_norm": 1.8417047262191772,
      "learning_rate": 0.00012170260057790621,
      "loss": 2.4105,
      "step": 17623
    },
    {
      "epoch": 0.39164444444444446,
      "grad_norm": 0.11585061252117157,
      "learning_rate": 0.0001216981551455879,
      "loss": 0.023,
      "step": 17624
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 1.227434754371643,
      "learning_rate": 0.00012169370971326961,
      "loss": 1.0767,
      "step": 17625
    },
    {
      "epoch": 0.39168888888888886,
      "grad_norm": 1.3943300247192383,
      "learning_rate": 0.00012168926428095134,
      "loss": 1.4289,
      "step": 17626
    },
    {
      "epoch": 0.3917111111111111,
      "grad_norm": 2.2778539657592773,
      "learning_rate": 0.00012168481884863303,
      "loss": 2.1474,
      "step": 17627
    },
    {
      "epoch": 0.3917333333333333,
      "grad_norm": 1.5379692316055298,
      "learning_rate": 0.00012168037341631476,
      "loss": 1.6325,
      "step": 17628
    },
    {
      "epoch": 0.3917555555555556,
      "grad_norm": 1.8491140604019165,
      "learning_rate": 0.00012167592798399645,
      "loss": 1.998,
      "step": 17629
    },
    {
      "epoch": 0.3917777777777778,
      "grad_norm": 0.9994746446609497,
      "learning_rate": 0.00012167148255167815,
      "loss": 0.7302,
      "step": 17630
    },
    {
      "epoch": 0.3918,
      "grad_norm": 1.6801313161849976,
      "learning_rate": 0.00012166703711935987,
      "loss": 1.9571,
      "step": 17631
    },
    {
      "epoch": 0.39182222222222224,
      "grad_norm": 1.7985020875930786,
      "learning_rate": 0.00012166259168704157,
      "loss": 1.9456,
      "step": 17632
    },
    {
      "epoch": 0.39184444444444444,
      "grad_norm": 1.2937965393066406,
      "learning_rate": 0.00012165814625472328,
      "loss": 1.2885,
      "step": 17633
    },
    {
      "epoch": 0.39186666666666664,
      "grad_norm": 1.8615968227386475,
      "learning_rate": 0.00012165370082240499,
      "loss": 1.943,
      "step": 17634
    },
    {
      "epoch": 0.3918888888888889,
      "grad_norm": 1.603894829750061,
      "learning_rate": 0.0001216492553900867,
      "loss": 2.0319,
      "step": 17635
    },
    {
      "epoch": 0.3919111111111111,
      "grad_norm": 1.9781925678253174,
      "learning_rate": 0.00012164480995776839,
      "loss": 1.9053,
      "step": 17636
    },
    {
      "epoch": 0.39193333333333336,
      "grad_norm": 1.5462414026260376,
      "learning_rate": 0.00012164036452545012,
      "loss": 1.4289,
      "step": 17637
    },
    {
      "epoch": 0.39195555555555556,
      "grad_norm": 1.7175697088241577,
      "learning_rate": 0.00012163591909313181,
      "loss": 1.893,
      "step": 17638
    },
    {
      "epoch": 0.39197777777777776,
      "grad_norm": 1.8639215230941772,
      "learning_rate": 0.00012163147366081351,
      "loss": 2.2015,
      "step": 17639
    },
    {
      "epoch": 0.392,
      "grad_norm": 1.4929612874984741,
      "learning_rate": 0.00012162702822849523,
      "loss": 1.6418,
      "step": 17640
    },
    {
      "epoch": 0.3920222222222222,
      "grad_norm": 1.5802404880523682,
      "learning_rate": 0.00012162258279617693,
      "loss": 1.6281,
      "step": 17641
    },
    {
      "epoch": 0.3920444444444444,
      "grad_norm": 1.6668537855148315,
      "learning_rate": 0.00012161813736385864,
      "loss": 1.5614,
      "step": 17642
    },
    {
      "epoch": 0.3920666666666667,
      "grad_norm": 1.988574504852295,
      "learning_rate": 0.00012161369193154035,
      "loss": 2.0295,
      "step": 17643
    },
    {
      "epoch": 0.3920888888888889,
      "grad_norm": 1.9154361486434937,
      "learning_rate": 0.00012160924649922206,
      "loss": 2.3787,
      "step": 17644
    },
    {
      "epoch": 0.39211111111111113,
      "grad_norm": 2.1940150260925293,
      "learning_rate": 0.00012160480106690378,
      "loss": 2.2941,
      "step": 17645
    },
    {
      "epoch": 0.39213333333333333,
      "grad_norm": 1.5071221590042114,
      "learning_rate": 0.00012160035563458548,
      "loss": 1.3799,
      "step": 17646
    },
    {
      "epoch": 0.39215555555555554,
      "grad_norm": 1.5452897548675537,
      "learning_rate": 0.00012159591020226717,
      "loss": 1.8908,
      "step": 17647
    },
    {
      "epoch": 0.3921777777777778,
      "grad_norm": 1.869106411933899,
      "learning_rate": 0.0001215914647699489,
      "loss": 1.6864,
      "step": 17648
    },
    {
      "epoch": 0.3922,
      "grad_norm": 1.5656133890151978,
      "learning_rate": 0.00012158701933763059,
      "loss": 1.6215,
      "step": 17649
    },
    {
      "epoch": 0.39222222222222225,
      "grad_norm": 1.5678526163101196,
      "learning_rate": 0.00012158257390531229,
      "loss": 0.8408,
      "step": 17650
    },
    {
      "epoch": 0.39224444444444445,
      "grad_norm": 1.0006624460220337,
      "learning_rate": 0.00012157812847299401,
      "loss": 1.2092,
      "step": 17651
    },
    {
      "epoch": 0.39226666666666665,
      "grad_norm": 1.21088707447052,
      "learning_rate": 0.0001215736830406757,
      "loss": 1.2787,
      "step": 17652
    },
    {
      "epoch": 0.3922888888888889,
      "grad_norm": 1.6457054615020752,
      "learning_rate": 0.00012156923760835742,
      "loss": 2.15,
      "step": 17653
    },
    {
      "epoch": 0.3923111111111111,
      "grad_norm": 1.4261308908462524,
      "learning_rate": 0.00012156479217603914,
      "loss": 2.0803,
      "step": 17654
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 1.3214508295059204,
      "learning_rate": 0.00012156034674372083,
      "loss": 1.9485,
      "step": 17655
    },
    {
      "epoch": 0.39235555555555557,
      "grad_norm": 1.411032795906067,
      "learning_rate": 0.00012155590131140253,
      "loss": 2.3182,
      "step": 17656
    },
    {
      "epoch": 0.39237777777777777,
      "grad_norm": 1.5269707441329956,
      "learning_rate": 0.00012155145587908425,
      "loss": 2.245,
      "step": 17657
    },
    {
      "epoch": 0.3924,
      "grad_norm": 1.652403473854065,
      "learning_rate": 0.00012154701044676595,
      "loss": 1.6691,
      "step": 17658
    },
    {
      "epoch": 0.39242222222222223,
      "grad_norm": 1.605124592781067,
      "learning_rate": 0.00012154256501444765,
      "loss": 1.8907,
      "step": 17659
    },
    {
      "epoch": 0.39244444444444443,
      "grad_norm": 1.6509414911270142,
      "learning_rate": 0.00012153811958212937,
      "loss": 2.4032,
      "step": 17660
    },
    {
      "epoch": 0.3924666666666667,
      "grad_norm": 1.515860915184021,
      "learning_rate": 0.00012153367414981107,
      "loss": 2.2251,
      "step": 17661
    },
    {
      "epoch": 0.3924888888888889,
      "grad_norm": 1.529523491859436,
      "learning_rate": 0.00012152922871749278,
      "loss": 2.0111,
      "step": 17662
    },
    {
      "epoch": 0.3925111111111111,
      "grad_norm": 1.2833102941513062,
      "learning_rate": 0.0001215247832851745,
      "loss": 1.3855,
      "step": 17663
    },
    {
      "epoch": 0.39253333333333335,
      "grad_norm": 1.659764289855957,
      "learning_rate": 0.0001215203378528562,
      "loss": 2.0651,
      "step": 17664
    },
    {
      "epoch": 0.39255555555555555,
      "grad_norm": 2.122814416885376,
      "learning_rate": 0.00012151589242053792,
      "loss": 1.8193,
      "step": 17665
    },
    {
      "epoch": 0.3925777777777778,
      "grad_norm": 1.4494009017944336,
      "learning_rate": 0.00012151144698821961,
      "loss": 1.6536,
      "step": 17666
    },
    {
      "epoch": 0.3926,
      "grad_norm": 1.8345489501953125,
      "learning_rate": 0.00012150700155590131,
      "loss": 1.9838,
      "step": 17667
    },
    {
      "epoch": 0.3926222222222222,
      "grad_norm": 1.5911636352539062,
      "learning_rate": 0.00012150255612358303,
      "loss": 2.0237,
      "step": 17668
    },
    {
      "epoch": 0.39264444444444446,
      "grad_norm": 1.812572717666626,
      "learning_rate": 0.00012149811069126473,
      "loss": 2.0765,
      "step": 17669
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 1.3567590713500977,
      "learning_rate": 0.00012149366525894644,
      "loss": 1.7681,
      "step": 17670
    },
    {
      "epoch": 0.39268888888888887,
      "grad_norm": 1.6363705396652222,
      "learning_rate": 0.00012148921982662815,
      "loss": 2.1674,
      "step": 17671
    },
    {
      "epoch": 0.3927111111111111,
      "grad_norm": 1.5687181949615479,
      "learning_rate": 0.00012148477439430986,
      "loss": 1.5174,
      "step": 17672
    },
    {
      "epoch": 0.3927333333333333,
      "grad_norm": 1.677057147026062,
      "learning_rate": 0.00012148032896199155,
      "loss": 2.1757,
      "step": 17673
    },
    {
      "epoch": 0.3927555555555556,
      "grad_norm": 2.8222110271453857,
      "learning_rate": 0.00012147588352967328,
      "loss": 2.2404,
      "step": 17674
    },
    {
      "epoch": 0.3927777777777778,
      "grad_norm": 1.8734986782073975,
      "learning_rate": 0.00012147143809735497,
      "loss": 2.098,
      "step": 17675
    },
    {
      "epoch": 0.3928,
      "grad_norm": 1.4805972576141357,
      "learning_rate": 0.00012146699266503667,
      "loss": 1.5384,
      "step": 17676
    },
    {
      "epoch": 0.39282222222222224,
      "grad_norm": 2.0149402618408203,
      "learning_rate": 0.00012146254723271839,
      "loss": 2.2151,
      "step": 17677
    },
    {
      "epoch": 0.39284444444444444,
      "grad_norm": 2.1682357788085938,
      "learning_rate": 0.00012145810180040009,
      "loss": 1.4784,
      "step": 17678
    },
    {
      "epoch": 0.39286666666666664,
      "grad_norm": 1.4449819326400757,
      "learning_rate": 0.0001214536563680818,
      "loss": 1.8402,
      "step": 17679
    },
    {
      "epoch": 0.3928888888888889,
      "grad_norm": 1.4553110599517822,
      "learning_rate": 0.00012144921093576351,
      "loss": 1.9955,
      "step": 17680
    },
    {
      "epoch": 0.3929111111111111,
      "grad_norm": 1.2844966650009155,
      "learning_rate": 0.00012144476550344522,
      "loss": 1.319,
      "step": 17681
    },
    {
      "epoch": 0.39293333333333336,
      "grad_norm": 1.780070185661316,
      "learning_rate": 0.00012144032007112694,
      "loss": 2.1322,
      "step": 17682
    },
    {
      "epoch": 0.39295555555555556,
      "grad_norm": 1.7490726709365845,
      "learning_rate": 0.00012143587463880864,
      "loss": 2.2762,
      "step": 17683
    },
    {
      "epoch": 0.39297777777777776,
      "grad_norm": 1.673018217086792,
      "learning_rate": 0.00012143142920649033,
      "loss": 2.2308,
      "step": 17684
    },
    {
      "epoch": 0.393,
      "grad_norm": 1.5410845279693604,
      "learning_rate": 0.00012142698377417206,
      "loss": 1.5648,
      "step": 17685
    },
    {
      "epoch": 0.3930222222222222,
      "grad_norm": 2.076482057571411,
      "learning_rate": 0.00012142253834185375,
      "loss": 2.0125,
      "step": 17686
    },
    {
      "epoch": 0.3930444444444444,
      "grad_norm": 1.4950884580612183,
      "learning_rate": 0.00012141809290953545,
      "loss": 1.6855,
      "step": 17687
    },
    {
      "epoch": 0.3930666666666667,
      "grad_norm": 1.930188536643982,
      "learning_rate": 0.00012141364747721717,
      "loss": 2.0935,
      "step": 17688
    },
    {
      "epoch": 0.3930888888888889,
      "grad_norm": 1.6556342840194702,
      "learning_rate": 0.00012140920204489887,
      "loss": 2.1586,
      "step": 17689
    },
    {
      "epoch": 0.39311111111111113,
      "grad_norm": 1.470857858657837,
      "learning_rate": 0.00012140475661258058,
      "loss": 1.7054,
      "step": 17690
    },
    {
      "epoch": 0.39313333333333333,
      "grad_norm": 1.9642137289047241,
      "learning_rate": 0.0001214003111802623,
      "loss": 2.1619,
      "step": 17691
    },
    {
      "epoch": 0.39315555555555554,
      "grad_norm": 1.540523648262024,
      "learning_rate": 0.000121395865747944,
      "loss": 1.5724,
      "step": 17692
    },
    {
      "epoch": 0.3931777777777778,
      "grad_norm": 1.6778801679611206,
      "learning_rate": 0.00012139142031562569,
      "loss": 2.0208,
      "step": 17693
    },
    {
      "epoch": 0.3932,
      "grad_norm": 1.2706714868545532,
      "learning_rate": 0.00012138697488330742,
      "loss": 1.4408,
      "step": 17694
    },
    {
      "epoch": 0.3932222222222222,
      "grad_norm": 1.4061970710754395,
      "learning_rate": 0.00012138252945098911,
      "loss": 1.7051,
      "step": 17695
    },
    {
      "epoch": 0.39324444444444445,
      "grad_norm": 1.854660987854004,
      "learning_rate": 0.00012137808401867081,
      "loss": 2.0069,
      "step": 17696
    },
    {
      "epoch": 0.39326666666666665,
      "grad_norm": 1.4195126295089722,
      "learning_rate": 0.00012137363858635253,
      "loss": 1.423,
      "step": 17697
    },
    {
      "epoch": 0.3932888888888889,
      "grad_norm": 1.5643062591552734,
      "learning_rate": 0.00012136919315403423,
      "loss": 1.8401,
      "step": 17698
    },
    {
      "epoch": 0.3933111111111111,
      "grad_norm": 1.5815187692642212,
      "learning_rate": 0.00012136474772171594,
      "loss": 0.6635,
      "step": 17699
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 0.8776087164878845,
      "learning_rate": 0.00012136030228939766,
      "loss": 0.4317,
      "step": 17700
    },
    {
      "epoch": 0.39335555555555557,
      "grad_norm": 1.3463373184204102,
      "learning_rate": 0.00012135585685707936,
      "loss": 2.1828,
      "step": 17701
    },
    {
      "epoch": 0.39337777777777777,
      "grad_norm": 1.3913017511367798,
      "learning_rate": 0.00012135141142476108,
      "loss": 2.1701,
      "step": 17702
    },
    {
      "epoch": 0.3934,
      "grad_norm": 1.7775893211364746,
      "learning_rate": 0.00012134696599244277,
      "loss": 2.735,
      "step": 17703
    },
    {
      "epoch": 0.39342222222222223,
      "grad_norm": 1.669142723083496,
      "learning_rate": 0.00012134252056012447,
      "loss": 2.4564,
      "step": 17704
    },
    {
      "epoch": 0.39344444444444443,
      "grad_norm": 1.3242841958999634,
      "learning_rate": 0.0001213380751278062,
      "loss": 2.1025,
      "step": 17705
    },
    {
      "epoch": 0.3934666666666667,
      "grad_norm": 1.297681212425232,
      "learning_rate": 0.00012133362969548789,
      "loss": 1.6247,
      "step": 17706
    },
    {
      "epoch": 0.3934888888888889,
      "grad_norm": 1.6449793577194214,
      "learning_rate": 0.0001213291842631696,
      "loss": 1.6056,
      "step": 17707
    },
    {
      "epoch": 0.3935111111111111,
      "grad_norm": 1.6097311973571777,
      "learning_rate": 0.00012132473883085131,
      "loss": 2.5767,
      "step": 17708
    },
    {
      "epoch": 0.39353333333333335,
      "grad_norm": 1.4410622119903564,
      "learning_rate": 0.00012132029339853302,
      "loss": 2.0325,
      "step": 17709
    },
    {
      "epoch": 0.39355555555555555,
      "grad_norm": 1.4121208190917969,
      "learning_rate": 0.00012131584796621471,
      "loss": 1.7304,
      "step": 17710
    },
    {
      "epoch": 0.3935777777777778,
      "grad_norm": 1.6529830694198608,
      "learning_rate": 0.00012131140253389644,
      "loss": 1.9938,
      "step": 17711
    },
    {
      "epoch": 0.3936,
      "grad_norm": 1.678483009338379,
      "learning_rate": 0.00012130695710157813,
      "loss": 1.9253,
      "step": 17712
    },
    {
      "epoch": 0.3936222222222222,
      "grad_norm": 1.791206955909729,
      "learning_rate": 0.00012130251166925983,
      "loss": 1.9119,
      "step": 17713
    },
    {
      "epoch": 0.39364444444444446,
      "grad_norm": 1.4011096954345703,
      "learning_rate": 0.00012129806623694155,
      "loss": 2.0992,
      "step": 17714
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 1.2371646165847778,
      "learning_rate": 0.00012129362080462325,
      "loss": 0.9544,
      "step": 17715
    },
    {
      "epoch": 0.39368888888888887,
      "grad_norm": 1.0277661085128784,
      "learning_rate": 0.00012128917537230496,
      "loss": 1.112,
      "step": 17716
    },
    {
      "epoch": 0.3937111111111111,
      "grad_norm": 1.493034839630127,
      "learning_rate": 0.00012128472993998667,
      "loss": 1.9425,
      "step": 17717
    },
    {
      "epoch": 0.3937333333333333,
      "grad_norm": 1.695567011833191,
      "learning_rate": 0.00012128028450766838,
      "loss": 1.6727,
      "step": 17718
    },
    {
      "epoch": 0.3937555555555556,
      "grad_norm": 1.5846925973892212,
      "learning_rate": 0.00012127583907535007,
      "loss": 1.8389,
      "step": 17719
    },
    {
      "epoch": 0.3937777777777778,
      "grad_norm": 1.7623522281646729,
      "learning_rate": 0.0001212713936430318,
      "loss": 2.3498,
      "step": 17720
    },
    {
      "epoch": 0.3938,
      "grad_norm": 1.864607572555542,
      "learning_rate": 0.0001212669482107135,
      "loss": 2.5602,
      "step": 17721
    },
    {
      "epoch": 0.39382222222222224,
      "grad_norm": 1.5337928533554077,
      "learning_rate": 0.00012126250277839522,
      "loss": 2.0455,
      "step": 17722
    },
    {
      "epoch": 0.39384444444444444,
      "grad_norm": 1.6734427213668823,
      "learning_rate": 0.00012125805734607691,
      "loss": 2.0753,
      "step": 17723
    },
    {
      "epoch": 0.39386666666666664,
      "grad_norm": 1.5500174760818481,
      "learning_rate": 0.00012125361191375861,
      "loss": 2.1298,
      "step": 17724
    },
    {
      "epoch": 0.3938888888888889,
      "grad_norm": 1.480017066001892,
      "learning_rate": 0.00012124916648144033,
      "loss": 1.8759,
      "step": 17725
    },
    {
      "epoch": 0.3939111111111111,
      "grad_norm": 1.0811676979064941,
      "learning_rate": 0.00012124472104912203,
      "loss": 0.8579,
      "step": 17726
    },
    {
      "epoch": 0.39393333333333336,
      "grad_norm": 1.6785136461257935,
      "learning_rate": 0.00012124027561680374,
      "loss": 1.4574,
      "step": 17727
    },
    {
      "epoch": 0.39395555555555556,
      "grad_norm": 2.0342588424682617,
      "learning_rate": 0.00012123583018448546,
      "loss": 1.8601,
      "step": 17728
    },
    {
      "epoch": 0.39397777777777776,
      "grad_norm": 1.1504640579223633,
      "learning_rate": 0.00012123138475216716,
      "loss": 0.7953,
      "step": 17729
    },
    {
      "epoch": 0.394,
      "grad_norm": 1.6625250577926636,
      "learning_rate": 0.00012122693931984885,
      "loss": 1.7834,
      "step": 17730
    },
    {
      "epoch": 0.3940222222222222,
      "grad_norm": 1.706854224205017,
      "learning_rate": 0.00012122249388753058,
      "loss": 1.8447,
      "step": 17731
    },
    {
      "epoch": 0.3940444444444444,
      "grad_norm": 1.6768968105316162,
      "learning_rate": 0.00012121804845521227,
      "loss": 2.3678,
      "step": 17732
    },
    {
      "epoch": 0.3940666666666667,
      "grad_norm": 1.4940361976623535,
      "learning_rate": 0.00012121360302289397,
      "loss": 1.6193,
      "step": 17733
    },
    {
      "epoch": 0.3940888888888889,
      "grad_norm": 1.960801601409912,
      "learning_rate": 0.00012120915759057569,
      "loss": 2.1436,
      "step": 17734
    },
    {
      "epoch": 0.39411111111111113,
      "grad_norm": 1.5547000169754028,
      "learning_rate": 0.00012120471215825739,
      "loss": 1.6522,
      "step": 17735
    },
    {
      "epoch": 0.39413333333333334,
      "grad_norm": 1.5712110996246338,
      "learning_rate": 0.0001212002667259391,
      "loss": 1.9974,
      "step": 17736
    },
    {
      "epoch": 0.39415555555555554,
      "grad_norm": 1.6984308958053589,
      "learning_rate": 0.00012119582129362082,
      "loss": 1.5875,
      "step": 17737
    },
    {
      "epoch": 0.3941777777777778,
      "grad_norm": 2.2584228515625,
      "learning_rate": 0.00012119137586130252,
      "loss": 1.7906,
      "step": 17738
    },
    {
      "epoch": 0.3942,
      "grad_norm": 2.8901991844177246,
      "learning_rate": 0.00012118693042898424,
      "loss": 2.0048,
      "step": 17739
    },
    {
      "epoch": 0.3942222222222222,
      "grad_norm": 1.9268003702163696,
      "learning_rate": 0.00012118248499666594,
      "loss": 2.0967,
      "step": 17740
    },
    {
      "epoch": 0.39424444444444445,
      "grad_norm": 1.513759732246399,
      "learning_rate": 0.00012117803956434763,
      "loss": 1.3991,
      "step": 17741
    },
    {
      "epoch": 0.39426666666666665,
      "grad_norm": 1.8473231792449951,
      "learning_rate": 0.00012117359413202935,
      "loss": 2.1517,
      "step": 17742
    },
    {
      "epoch": 0.3942888888888889,
      "grad_norm": 1.5445016622543335,
      "learning_rate": 0.00012116914869971105,
      "loss": 1.4578,
      "step": 17743
    },
    {
      "epoch": 0.3943111111111111,
      "grad_norm": 1.3910659551620483,
      "learning_rate": 0.00012116470326739276,
      "loss": 1.4357,
      "step": 17744
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 2.1702933311462402,
      "learning_rate": 0.00012116025783507447,
      "loss": 1.6798,
      "step": 17745
    },
    {
      "epoch": 0.39435555555555557,
      "grad_norm": 1.6398732662200928,
      "learning_rate": 0.00012115581240275618,
      "loss": 1.7699,
      "step": 17746
    },
    {
      "epoch": 0.39437777777777777,
      "grad_norm": 1.6068570613861084,
      "learning_rate": 0.00012115136697043788,
      "loss": 1.6177,
      "step": 17747
    },
    {
      "epoch": 0.3944,
      "grad_norm": 1.8872485160827637,
      "learning_rate": 0.0001211469215381196,
      "loss": 1.9702,
      "step": 17748
    },
    {
      "epoch": 0.39442222222222223,
      "grad_norm": 1.815777063369751,
      "learning_rate": 0.0001211424761058013,
      "loss": 1.798,
      "step": 17749
    },
    {
      "epoch": 0.39444444444444443,
      "grad_norm": 1.8630094528198242,
      "learning_rate": 0.00012113803067348299,
      "loss": 1.9705,
      "step": 17750
    },
    {
      "epoch": 0.3944666666666667,
      "grad_norm": 1.197953701019287,
      "learning_rate": 0.00012113358524116471,
      "loss": 2.2197,
      "step": 17751
    },
    {
      "epoch": 0.3944888888888889,
      "grad_norm": 1.6326824426651,
      "learning_rate": 0.00012112913980884641,
      "loss": 2.7381,
      "step": 17752
    },
    {
      "epoch": 0.3945111111111111,
      "grad_norm": 1.640034556388855,
      "learning_rate": 0.00012112469437652812,
      "loss": 2.4631,
      "step": 17753
    },
    {
      "epoch": 0.39453333333333335,
      "grad_norm": 1.2730481624603271,
      "learning_rate": 0.00012112024894420983,
      "loss": 1.6884,
      "step": 17754
    },
    {
      "epoch": 0.39455555555555555,
      "grad_norm": 1.3340673446655273,
      "learning_rate": 0.00012111580351189154,
      "loss": 2.2554,
      "step": 17755
    },
    {
      "epoch": 0.3945777777777778,
      "grad_norm": 1.047996997833252,
      "learning_rate": 0.00012111135807957324,
      "loss": 0.8816,
      "step": 17756
    },
    {
      "epoch": 0.3946,
      "grad_norm": 1.4163973331451416,
      "learning_rate": 0.00012110691264725496,
      "loss": 2.4074,
      "step": 17757
    },
    {
      "epoch": 0.3946222222222222,
      "grad_norm": 1.283290147781372,
      "learning_rate": 0.00012110246721493665,
      "loss": 2.2093,
      "step": 17758
    },
    {
      "epoch": 0.39464444444444446,
      "grad_norm": 1.3081992864608765,
      "learning_rate": 0.00012109802178261838,
      "loss": 2.0988,
      "step": 17759
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 1.5621498823165894,
      "learning_rate": 0.00012109357635030007,
      "loss": 2.6951,
      "step": 17760
    },
    {
      "epoch": 0.39468888888888887,
      "grad_norm": 1.8633991479873657,
      "learning_rate": 0.00012108913091798177,
      "loss": 2.0143,
      "step": 17761
    },
    {
      "epoch": 0.3947111111111111,
      "grad_norm": 1.4953995943069458,
      "learning_rate": 0.00012108468548566349,
      "loss": 2.4004,
      "step": 17762
    },
    {
      "epoch": 0.3947333333333333,
      "grad_norm": 1.7258914709091187,
      "learning_rate": 0.00012108024005334519,
      "loss": 2.0551,
      "step": 17763
    },
    {
      "epoch": 0.3947555555555556,
      "grad_norm": 2.089797258377075,
      "learning_rate": 0.0001210757946210269,
      "loss": 1.946,
      "step": 17764
    },
    {
      "epoch": 0.3947777777777778,
      "grad_norm": 1.7644741535186768,
      "learning_rate": 0.00012107134918870862,
      "loss": 1.8561,
      "step": 17765
    },
    {
      "epoch": 0.3948,
      "grad_norm": 1.2534514665603638,
      "learning_rate": 0.00012106690375639032,
      "loss": 1.6318,
      "step": 17766
    },
    {
      "epoch": 0.39482222222222224,
      "grad_norm": 1.694451928138733,
      "learning_rate": 0.00012106245832407201,
      "loss": 2.3982,
      "step": 17767
    },
    {
      "epoch": 0.39484444444444444,
      "grad_norm": 1.6423821449279785,
      "learning_rate": 0.00012105801289175374,
      "loss": 2.1786,
      "step": 17768
    },
    {
      "epoch": 0.39486666666666664,
      "grad_norm": 1.3998712301254272,
      "learning_rate": 0.00012105356745943543,
      "loss": 1.8276,
      "step": 17769
    },
    {
      "epoch": 0.3948888888888889,
      "grad_norm": 1.402224063873291,
      "learning_rate": 0.00012104912202711713,
      "loss": 1.9454,
      "step": 17770
    },
    {
      "epoch": 0.3949111111111111,
      "grad_norm": 1.7614039182662964,
      "learning_rate": 0.00012104467659479885,
      "loss": 2.4431,
      "step": 17771
    },
    {
      "epoch": 0.39493333333333336,
      "grad_norm": 1.2886056900024414,
      "learning_rate": 0.00012104023116248055,
      "loss": 1.4126,
      "step": 17772
    },
    {
      "epoch": 0.39495555555555556,
      "grad_norm": 1.3890550136566162,
      "learning_rate": 0.00012103578573016226,
      "loss": 1.794,
      "step": 17773
    },
    {
      "epoch": 0.39497777777777776,
      "grad_norm": 1.7979551553726196,
      "learning_rate": 0.00012103134029784398,
      "loss": 2.1285,
      "step": 17774
    },
    {
      "epoch": 0.395,
      "grad_norm": 1.4006789922714233,
      "learning_rate": 0.00012102689486552568,
      "loss": 1.534,
      "step": 17775
    },
    {
      "epoch": 0.3950222222222222,
      "grad_norm": 1.4348963499069214,
      "learning_rate": 0.00012102244943320737,
      "loss": 1.8827,
      "step": 17776
    },
    {
      "epoch": 0.3950444444444444,
      "grad_norm": 2.2003774642944336,
      "learning_rate": 0.0001210180040008891,
      "loss": 2.4183,
      "step": 17777
    },
    {
      "epoch": 0.3950666666666667,
      "grad_norm": 1.6563982963562012,
      "learning_rate": 0.00012101355856857079,
      "loss": 2.2795,
      "step": 17778
    },
    {
      "epoch": 0.3950888888888889,
      "grad_norm": 1.7424689531326294,
      "learning_rate": 0.00012100911313625252,
      "loss": 2.4659,
      "step": 17779
    },
    {
      "epoch": 0.39511111111111114,
      "grad_norm": 1.8794560432434082,
      "learning_rate": 0.00012100466770393421,
      "loss": 2.1149,
      "step": 17780
    },
    {
      "epoch": 0.39513333333333334,
      "grad_norm": 2.2772886753082275,
      "learning_rate": 0.00012100022227161592,
      "loss": 2.081,
      "step": 17781
    },
    {
      "epoch": 0.39515555555555554,
      "grad_norm": 0.16386279463768005,
      "learning_rate": 0.00012099577683929763,
      "loss": 0.0285,
      "step": 17782
    },
    {
      "epoch": 0.3951777777777778,
      "grad_norm": 1.6942428350448608,
      "learning_rate": 0.00012099133140697934,
      "loss": 1.798,
      "step": 17783
    },
    {
      "epoch": 0.3952,
      "grad_norm": 1.5539785623550415,
      "learning_rate": 0.00012098688597466104,
      "loss": 1.7348,
      "step": 17784
    },
    {
      "epoch": 0.3952222222222222,
      "grad_norm": 1.3267667293548584,
      "learning_rate": 0.00012098244054234276,
      "loss": 1.5056,
      "step": 17785
    },
    {
      "epoch": 0.39524444444444445,
      "grad_norm": 1.3882554769515991,
      "learning_rate": 0.00012097799511002446,
      "loss": 1.813,
      "step": 17786
    },
    {
      "epoch": 0.39526666666666666,
      "grad_norm": 1.3702131509780884,
      "learning_rate": 0.00012097354967770615,
      "loss": 1.6967,
      "step": 17787
    },
    {
      "epoch": 0.3952888888888889,
      "grad_norm": 2.040696382522583,
      "learning_rate": 0.00012096910424538788,
      "loss": 1.5289,
      "step": 17788
    },
    {
      "epoch": 0.3953111111111111,
      "grad_norm": 1.7161678075790405,
      "learning_rate": 0.00012096465881306957,
      "loss": 1.9865,
      "step": 17789
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 1.617400050163269,
      "learning_rate": 0.00012096021338075128,
      "loss": 2.0302,
      "step": 17790
    },
    {
      "epoch": 0.39535555555555557,
      "grad_norm": 1.3733439445495605,
      "learning_rate": 0.00012095576794843299,
      "loss": 1.4868,
      "step": 17791
    },
    {
      "epoch": 0.3953777777777778,
      "grad_norm": 1.949847936630249,
      "learning_rate": 0.0001209513225161147,
      "loss": 1.4881,
      "step": 17792
    },
    {
      "epoch": 0.3954,
      "grad_norm": 1.8423224687576294,
      "learning_rate": 0.0001209468770837964,
      "loss": 1.6326,
      "step": 17793
    },
    {
      "epoch": 0.39542222222222223,
      "grad_norm": 1.7002345323562622,
      "learning_rate": 0.00012094243165147812,
      "loss": 1.8192,
      "step": 17794
    },
    {
      "epoch": 0.39544444444444443,
      "grad_norm": 1.6549268960952759,
      "learning_rate": 0.00012093798621915982,
      "loss": 1.5482,
      "step": 17795
    },
    {
      "epoch": 0.3954666666666667,
      "grad_norm": 1.3795658349990845,
      "learning_rate": 0.00012093354078684154,
      "loss": 1.594,
      "step": 17796
    },
    {
      "epoch": 0.3954888888888889,
      "grad_norm": 1.9594110250473022,
      "learning_rate": 0.00012092909535452323,
      "loss": 1.9579,
      "step": 17797
    },
    {
      "epoch": 0.3955111111111111,
      "grad_norm": 1.6209205389022827,
      "learning_rate": 0.00012092464992220493,
      "loss": 1.7021,
      "step": 17798
    },
    {
      "epoch": 0.39553333333333335,
      "grad_norm": 2.2022218704223633,
      "learning_rate": 0.00012092020448988665,
      "loss": 1.9913,
      "step": 17799
    },
    {
      "epoch": 0.39555555555555555,
      "grad_norm": 1.8527088165283203,
      "learning_rate": 0.00012091575905756835,
      "loss": 1.7203,
      "step": 17800
    },
    {
      "epoch": 0.39557777777777775,
      "grad_norm": 1.5440837144851685,
      "learning_rate": 0.00012091131362525006,
      "loss": 2.8366,
      "step": 17801
    },
    {
      "epoch": 0.3956,
      "grad_norm": 1.4550321102142334,
      "learning_rate": 0.00012090686819293178,
      "loss": 2.0455,
      "step": 17802
    },
    {
      "epoch": 0.3956222222222222,
      "grad_norm": 1.496168613433838,
      "learning_rate": 0.00012090242276061348,
      "loss": 2.0685,
      "step": 17803
    },
    {
      "epoch": 0.39564444444444447,
      "grad_norm": 0.9498647451400757,
      "learning_rate": 0.00012089797732829518,
      "loss": 1.0062,
      "step": 17804
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 1.648077368736267,
      "learning_rate": 0.0001208935318959769,
      "loss": 1.9139,
      "step": 17805
    },
    {
      "epoch": 0.39568888888888887,
      "grad_norm": 1.5853803157806396,
      "learning_rate": 0.0001208890864636586,
      "loss": 1.7728,
      "step": 17806
    },
    {
      "epoch": 0.3957111111111111,
      "grad_norm": 1.5270648002624512,
      "learning_rate": 0.00012088464103134029,
      "loss": 1.9937,
      "step": 17807
    },
    {
      "epoch": 0.3957333333333333,
      "grad_norm": 1.4585306644439697,
      "learning_rate": 0.00012088019559902201,
      "loss": 1.7692,
      "step": 17808
    },
    {
      "epoch": 0.3957555555555556,
      "grad_norm": 1.3862885236740112,
      "learning_rate": 0.00012087575016670371,
      "loss": 2.166,
      "step": 17809
    },
    {
      "epoch": 0.3957777777777778,
      "grad_norm": 1.7027519941329956,
      "learning_rate": 0.00012087130473438542,
      "loss": 1.7662,
      "step": 17810
    },
    {
      "epoch": 0.3958,
      "grad_norm": 1.552891492843628,
      "learning_rate": 0.00012086685930206714,
      "loss": 2.4606,
      "step": 17811
    },
    {
      "epoch": 0.39582222222222224,
      "grad_norm": 1.6945277452468872,
      "learning_rate": 0.00012086241386974884,
      "loss": 2.086,
      "step": 17812
    },
    {
      "epoch": 0.39584444444444444,
      "grad_norm": 1.411382794380188,
      "learning_rate": 0.00012085796843743053,
      "loss": 1.7513,
      "step": 17813
    },
    {
      "epoch": 0.39586666666666664,
      "grad_norm": 1.1548190116882324,
      "learning_rate": 0.00012085352300511226,
      "loss": 0.9514,
      "step": 17814
    },
    {
      "epoch": 0.3958888888888889,
      "grad_norm": 1.1040620803833008,
      "learning_rate": 0.00012084907757279395,
      "loss": 1.0312,
      "step": 17815
    },
    {
      "epoch": 0.3959111111111111,
      "grad_norm": 1.6489282846450806,
      "learning_rate": 0.00012084463214047568,
      "loss": 1.7938,
      "step": 17816
    },
    {
      "epoch": 0.39593333333333336,
      "grad_norm": 1.5500048398971558,
      "learning_rate": 0.00012084018670815737,
      "loss": 1.5436,
      "step": 17817
    },
    {
      "epoch": 0.39595555555555556,
      "grad_norm": 2.0706427097320557,
      "learning_rate": 0.00012083574127583908,
      "loss": 1.8812,
      "step": 17818
    },
    {
      "epoch": 0.39597777777777776,
      "grad_norm": 1.36445951461792,
      "learning_rate": 0.00012083129584352079,
      "loss": 1.8944,
      "step": 17819
    },
    {
      "epoch": 0.396,
      "grad_norm": 1.3722442388534546,
      "learning_rate": 0.0001208268504112025,
      "loss": 1.865,
      "step": 17820
    },
    {
      "epoch": 0.3960222222222222,
      "grad_norm": 1.8409942388534546,
      "learning_rate": 0.0001208224049788842,
      "loss": 2.1096,
      "step": 17821
    },
    {
      "epoch": 0.3960444444444444,
      "grad_norm": 1.5702532529830933,
      "learning_rate": 0.00012081795954656592,
      "loss": 1.6465,
      "step": 17822
    },
    {
      "epoch": 0.3960666666666667,
      "grad_norm": 1.4781376123428345,
      "learning_rate": 0.00012081351411424762,
      "loss": 1.5686,
      "step": 17823
    },
    {
      "epoch": 0.3960888888888889,
      "grad_norm": 1.548874020576477,
      "learning_rate": 0.00012080906868192931,
      "loss": 1.5568,
      "step": 17824
    },
    {
      "epoch": 0.39611111111111114,
      "grad_norm": 1.8683927059173584,
      "learning_rate": 0.00012080462324961104,
      "loss": 2.0169,
      "step": 17825
    },
    {
      "epoch": 0.39613333333333334,
      "grad_norm": 1.2714890241622925,
      "learning_rate": 0.00012080017781729273,
      "loss": 0.9388,
      "step": 17826
    },
    {
      "epoch": 0.39615555555555554,
      "grad_norm": 1.521761417388916,
      "learning_rate": 0.00012079573238497444,
      "loss": 1.609,
      "step": 17827
    },
    {
      "epoch": 0.3961777777777778,
      "grad_norm": 1.5044206380844116,
      "learning_rate": 0.00012079128695265615,
      "loss": 1.7815,
      "step": 17828
    },
    {
      "epoch": 0.3962,
      "grad_norm": 2.2503249645233154,
      "learning_rate": 0.00012078684152033786,
      "loss": 2.0719,
      "step": 17829
    },
    {
      "epoch": 0.3962222222222222,
      "grad_norm": 1.4928345680236816,
      "learning_rate": 0.00012078239608801956,
      "loss": 1.8463,
      "step": 17830
    },
    {
      "epoch": 0.39624444444444445,
      "grad_norm": 1.4575657844543457,
      "learning_rate": 0.00012077795065570128,
      "loss": 1.921,
      "step": 17831
    },
    {
      "epoch": 0.39626666666666666,
      "grad_norm": 1.4892812967300415,
      "learning_rate": 0.00012077350522338298,
      "loss": 1.7132,
      "step": 17832
    },
    {
      "epoch": 0.3962888888888889,
      "grad_norm": 1.2712613344192505,
      "learning_rate": 0.00012076905979106467,
      "loss": 0.9127,
      "step": 17833
    },
    {
      "epoch": 0.3963111111111111,
      "grad_norm": 1.7958182096481323,
      "learning_rate": 0.0001207646143587464,
      "loss": 2.1524,
      "step": 17834
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 1.8181157112121582,
      "learning_rate": 0.00012076016892642809,
      "loss": 2.139,
      "step": 17835
    },
    {
      "epoch": 0.39635555555555557,
      "grad_norm": 1.5159001350402832,
      "learning_rate": 0.00012075572349410982,
      "loss": 1.3139,
      "step": 17836
    },
    {
      "epoch": 0.3963777777777778,
      "grad_norm": 1.7803035974502563,
      "learning_rate": 0.00012075127806179151,
      "loss": 1.6957,
      "step": 17837
    },
    {
      "epoch": 0.3964,
      "grad_norm": 1.6354196071624756,
      "learning_rate": 0.00012074683262947322,
      "loss": 1.9227,
      "step": 17838
    },
    {
      "epoch": 0.39642222222222223,
      "grad_norm": 1.7890533208847046,
      "learning_rate": 0.00012074238719715494,
      "loss": 1.6446,
      "step": 17839
    },
    {
      "epoch": 0.39644444444444443,
      "grad_norm": 1.343205451965332,
      "learning_rate": 0.00012073794176483664,
      "loss": 1.5292,
      "step": 17840
    },
    {
      "epoch": 0.3964666666666667,
      "grad_norm": 1.7307573556900024,
      "learning_rate": 0.00012073349633251834,
      "loss": 1.917,
      "step": 17841
    },
    {
      "epoch": 0.3964888888888889,
      "grad_norm": 1.6462451219558716,
      "learning_rate": 0.00012072905090020006,
      "loss": 2.1252,
      "step": 17842
    },
    {
      "epoch": 0.3965111111111111,
      "grad_norm": 1.9755719900131226,
      "learning_rate": 0.00012072460546788176,
      "loss": 1.923,
      "step": 17843
    },
    {
      "epoch": 0.39653333333333335,
      "grad_norm": 1.929202914237976,
      "learning_rate": 0.00012072016003556345,
      "loss": 2.1182,
      "step": 17844
    },
    {
      "epoch": 0.39655555555555555,
      "grad_norm": 2.192142963409424,
      "learning_rate": 0.00012071571460324517,
      "loss": 2.1361,
      "step": 17845
    },
    {
      "epoch": 0.39657777777777775,
      "grad_norm": 1.8210945129394531,
      "learning_rate": 0.00012071126917092687,
      "loss": 1.9902,
      "step": 17846
    },
    {
      "epoch": 0.3966,
      "grad_norm": 1.8939656019210815,
      "learning_rate": 0.00012070682373860858,
      "loss": 2.0258,
      "step": 17847
    },
    {
      "epoch": 0.3966222222222222,
      "grad_norm": 1.608397364616394,
      "learning_rate": 0.0001207023783062903,
      "loss": 1.5641,
      "step": 17848
    },
    {
      "epoch": 0.39664444444444447,
      "grad_norm": 1.7869261503219604,
      "learning_rate": 0.000120697932873972,
      "loss": 1.6502,
      "step": 17849
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 1.386149287223816,
      "learning_rate": 0.0001206934874416537,
      "loss": 1.2845,
      "step": 17850
    },
    {
      "epoch": 0.39668888888888887,
      "grad_norm": 1.2763782739639282,
      "learning_rate": 0.00012068904200933542,
      "loss": 2.573,
      "step": 17851
    },
    {
      "epoch": 0.3967111111111111,
      "grad_norm": 1.3797351121902466,
      "learning_rate": 0.00012068459657701711,
      "loss": 2.1509,
      "step": 17852
    },
    {
      "epoch": 0.3967333333333333,
      "grad_norm": 1.3155173063278198,
      "learning_rate": 0.00012068015114469884,
      "loss": 2.7261,
      "step": 17853
    },
    {
      "epoch": 0.39675555555555553,
      "grad_norm": 0.9748480916023254,
      "learning_rate": 0.00012067570571238053,
      "loss": 0.7608,
      "step": 17854
    },
    {
      "epoch": 0.3967777777777778,
      "grad_norm": 1.5537060499191284,
      "learning_rate": 0.00012067126028006224,
      "loss": 1.9868,
      "step": 17855
    },
    {
      "epoch": 0.3968,
      "grad_norm": 1.400687575340271,
      "learning_rate": 0.00012066681484774395,
      "loss": 2.1906,
      "step": 17856
    },
    {
      "epoch": 0.39682222222222224,
      "grad_norm": 1.3030481338500977,
      "learning_rate": 0.00012066236941542566,
      "loss": 2.4818,
      "step": 17857
    },
    {
      "epoch": 0.39684444444444444,
      "grad_norm": 1.8875659704208374,
      "learning_rate": 0.00012065792398310736,
      "loss": 1.9503,
      "step": 17858
    },
    {
      "epoch": 0.39686666666666665,
      "grad_norm": 0.944459080696106,
      "learning_rate": 0.00012065347855078908,
      "loss": 0.9648,
      "step": 17859
    },
    {
      "epoch": 0.3968888888888889,
      "grad_norm": 1.715967059135437,
      "learning_rate": 0.00012064903311847078,
      "loss": 1.864,
      "step": 17860
    },
    {
      "epoch": 0.3969111111111111,
      "grad_norm": 1.4876946210861206,
      "learning_rate": 0.00012064458768615247,
      "loss": 1.995,
      "step": 17861
    },
    {
      "epoch": 0.39693333333333336,
      "grad_norm": 1.4970307350158691,
      "learning_rate": 0.0001206401422538342,
      "loss": 2.0611,
      "step": 17862
    },
    {
      "epoch": 0.39695555555555556,
      "grad_norm": 1.7271069288253784,
      "learning_rate": 0.0001206356968215159,
      "loss": 2.2341,
      "step": 17863
    },
    {
      "epoch": 0.39697777777777776,
      "grad_norm": 1.8820300102233887,
      "learning_rate": 0.0001206312513891976,
      "loss": 2.3501,
      "step": 17864
    },
    {
      "epoch": 0.397,
      "grad_norm": 1.3691020011901855,
      "learning_rate": 0.00012062680595687931,
      "loss": 1.8884,
      "step": 17865
    },
    {
      "epoch": 0.3970222222222222,
      "grad_norm": 1.655464768409729,
      "learning_rate": 0.00012062236052456102,
      "loss": 2.2148,
      "step": 17866
    },
    {
      "epoch": 0.3970444444444444,
      "grad_norm": 0.31621286273002625,
      "learning_rate": 0.00012061791509224272,
      "loss": 0.031,
      "step": 17867
    },
    {
      "epoch": 0.3970666666666667,
      "grad_norm": 1.5617952346801758,
      "learning_rate": 0.00012061346965992444,
      "loss": 1.8748,
      "step": 17868
    },
    {
      "epoch": 0.3970888888888889,
      "grad_norm": 1.5894449949264526,
      "learning_rate": 0.00012060902422760614,
      "loss": 2.1521,
      "step": 17869
    },
    {
      "epoch": 0.39711111111111114,
      "grad_norm": 2.013969898223877,
      "learning_rate": 0.00012060457879528783,
      "loss": 2.4238,
      "step": 17870
    },
    {
      "epoch": 0.39713333333333334,
      "grad_norm": 1.423439621925354,
      "learning_rate": 0.00012060013336296956,
      "loss": 1.6961,
      "step": 17871
    },
    {
      "epoch": 0.39715555555555554,
      "grad_norm": 1.3390485048294067,
      "learning_rate": 0.00012059568793065125,
      "loss": 1.7451,
      "step": 17872
    },
    {
      "epoch": 0.3971777777777778,
      "grad_norm": 1.3406425714492798,
      "learning_rate": 0.00012059124249833298,
      "loss": 1.3148,
      "step": 17873
    },
    {
      "epoch": 0.3972,
      "grad_norm": 1.8623292446136475,
      "learning_rate": 0.00012058679706601467,
      "loss": 2.3095,
      "step": 17874
    },
    {
      "epoch": 0.3972222222222222,
      "grad_norm": 1.667230486869812,
      "learning_rate": 0.00012058235163369638,
      "loss": 1.8812,
      "step": 17875
    },
    {
      "epoch": 0.39724444444444446,
      "grad_norm": 1.7091385126113892,
      "learning_rate": 0.0001205779062013781,
      "loss": 2.1105,
      "step": 17876
    },
    {
      "epoch": 0.39726666666666666,
      "grad_norm": 1.1808754205703735,
      "learning_rate": 0.0001205734607690598,
      "loss": 1.3367,
      "step": 17877
    },
    {
      "epoch": 0.3972888888888889,
      "grad_norm": 1.6394668817520142,
      "learning_rate": 0.0001205690153367415,
      "loss": 2.1706,
      "step": 17878
    },
    {
      "epoch": 0.3973111111111111,
      "grad_norm": 1.864306926727295,
      "learning_rate": 0.00012056456990442322,
      "loss": 2.0242,
      "step": 17879
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 1.5622109174728394,
      "learning_rate": 0.00012056012447210492,
      "loss": 1.918,
      "step": 17880
    },
    {
      "epoch": 0.3973555555555556,
      "grad_norm": 1.6109724044799805,
      "learning_rate": 0.00012055567903978661,
      "loss": 1.9224,
      "step": 17881
    },
    {
      "epoch": 0.3973777777777778,
      "grad_norm": 1.1416460275650024,
      "learning_rate": 0.00012055123360746834,
      "loss": 1.2888,
      "step": 17882
    },
    {
      "epoch": 0.3974,
      "grad_norm": 1.8896746635437012,
      "learning_rate": 0.00012054678817515003,
      "loss": 2.0772,
      "step": 17883
    },
    {
      "epoch": 0.39742222222222223,
      "grad_norm": 1.5975240468978882,
      "learning_rate": 0.00012054234274283174,
      "loss": 1.989,
      "step": 17884
    },
    {
      "epoch": 0.39744444444444443,
      "grad_norm": 1.53486967086792,
      "learning_rate": 0.00012053789731051346,
      "loss": 1.8997,
      "step": 17885
    },
    {
      "epoch": 0.3974666666666667,
      "grad_norm": 1.6324388980865479,
      "learning_rate": 0.00012053345187819516,
      "loss": 1.8168,
      "step": 17886
    },
    {
      "epoch": 0.3974888888888889,
      "grad_norm": 1.4331392049789429,
      "learning_rate": 0.00012052900644587686,
      "loss": 1.7649,
      "step": 17887
    },
    {
      "epoch": 0.3975111111111111,
      "grad_norm": 1.0271108150482178,
      "learning_rate": 0.00012052456101355858,
      "loss": 0.5809,
      "step": 17888
    },
    {
      "epoch": 0.39753333333333335,
      "grad_norm": 1.7836472988128662,
      "learning_rate": 0.00012052011558124028,
      "loss": 2.1626,
      "step": 17889
    },
    {
      "epoch": 0.39755555555555555,
      "grad_norm": 1.6597812175750732,
      "learning_rate": 0.00012051567014892197,
      "loss": 2.2473,
      "step": 17890
    },
    {
      "epoch": 0.39757777777777775,
      "grad_norm": 1.7553766965866089,
      "learning_rate": 0.0001205112247166037,
      "loss": 1.7115,
      "step": 17891
    },
    {
      "epoch": 0.3976,
      "grad_norm": 1.3213613033294678,
      "learning_rate": 0.0001205067792842854,
      "loss": 1.6348,
      "step": 17892
    },
    {
      "epoch": 0.3976222222222222,
      "grad_norm": 1.5687026977539062,
      "learning_rate": 0.00012050233385196711,
      "loss": 1.6426,
      "step": 17893
    },
    {
      "epoch": 0.39764444444444447,
      "grad_norm": 1.6093840599060059,
      "learning_rate": 0.00012049788841964882,
      "loss": 1.8666,
      "step": 17894
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 1.7205979824066162,
      "learning_rate": 0.00012049344298733052,
      "loss": 2.0197,
      "step": 17895
    },
    {
      "epoch": 0.39768888888888887,
      "grad_norm": 2.0702695846557617,
      "learning_rate": 0.00012048899755501224,
      "loss": 2.2582,
      "step": 17896
    },
    {
      "epoch": 0.3977111111111111,
      "grad_norm": 1.6842647790908813,
      "learning_rate": 0.00012048455212269394,
      "loss": 1.6222,
      "step": 17897
    },
    {
      "epoch": 0.3977333333333333,
      "grad_norm": 1.9078625440597534,
      "learning_rate": 0.00012048010669037564,
      "loss": 1.6598,
      "step": 17898
    },
    {
      "epoch": 0.39775555555555553,
      "grad_norm": 1.7250261306762695,
      "learning_rate": 0.00012047566125805736,
      "loss": 1.3611,
      "step": 17899
    },
    {
      "epoch": 0.3977777777777778,
      "grad_norm": 1.3019793033599854,
      "learning_rate": 0.00012047121582573905,
      "loss": 0.5539,
      "step": 17900
    },
    {
      "epoch": 0.3978,
      "grad_norm": 0.18055640161037445,
      "learning_rate": 0.00012046677039342076,
      "loss": 0.0176,
      "step": 17901
    },
    {
      "epoch": 0.39782222222222224,
      "grad_norm": 1.672974705696106,
      "learning_rate": 0.00012046232496110247,
      "loss": 3.0311,
      "step": 17902
    },
    {
      "epoch": 0.39784444444444444,
      "grad_norm": 1.4068102836608887,
      "learning_rate": 0.00012045787952878418,
      "loss": 2.4847,
      "step": 17903
    },
    {
      "epoch": 0.39786666666666665,
      "grad_norm": 1.4145638942718506,
      "learning_rate": 0.00012045343409646588,
      "loss": 2.3022,
      "step": 17904
    },
    {
      "epoch": 0.3978888888888889,
      "grad_norm": 1.5449453592300415,
      "learning_rate": 0.0001204489886641476,
      "loss": 1.7933,
      "step": 17905
    },
    {
      "epoch": 0.3979111111111111,
      "grad_norm": 1.0953282117843628,
      "learning_rate": 0.0001204445432318293,
      "loss": 0.8248,
      "step": 17906
    },
    {
      "epoch": 0.3979333333333333,
      "grad_norm": 1.3677164316177368,
      "learning_rate": 0.000120440097799511,
      "loss": 1.8402,
      "step": 17907
    },
    {
      "epoch": 0.39795555555555556,
      "grad_norm": 1.4310027360916138,
      "learning_rate": 0.00012043565236719272,
      "loss": 1.6811,
      "step": 17908
    },
    {
      "epoch": 0.39797777777777776,
      "grad_norm": 1.4331001043319702,
      "learning_rate": 0.00012043120693487441,
      "loss": 1.9371,
      "step": 17909
    },
    {
      "epoch": 0.398,
      "grad_norm": 1.5460885763168335,
      "learning_rate": 0.00012042676150255614,
      "loss": 2.1327,
      "step": 17910
    },
    {
      "epoch": 0.3980222222222222,
      "grad_norm": 1.6948373317718506,
      "learning_rate": 0.00012042231607023783,
      "loss": 1.9645,
      "step": 17911
    },
    {
      "epoch": 0.3980444444444444,
      "grad_norm": 1.2695809602737427,
      "learning_rate": 0.00012041787063791954,
      "loss": 1.3558,
      "step": 17912
    },
    {
      "epoch": 0.3980666666666667,
      "grad_norm": 1.366053581237793,
      "learning_rate": 0.00012041342520560127,
      "loss": 1.9311,
      "step": 17913
    },
    {
      "epoch": 0.3980888888888889,
      "grad_norm": 1.552109956741333,
      "learning_rate": 0.00012040897977328296,
      "loss": 2.0734,
      "step": 17914
    },
    {
      "epoch": 0.39811111111111114,
      "grad_norm": 1.4983667135238647,
      "learning_rate": 0.00012040453434096466,
      "loss": 1.9078,
      "step": 17915
    },
    {
      "epoch": 0.39813333333333334,
      "grad_norm": 1.4653589725494385,
      "learning_rate": 0.00012040008890864638,
      "loss": 1.6319,
      "step": 17916
    },
    {
      "epoch": 0.39815555555555554,
      "grad_norm": 1.79512619972229,
      "learning_rate": 0.00012039564347632808,
      "loss": 2.0994,
      "step": 17917
    },
    {
      "epoch": 0.3981777777777778,
      "grad_norm": 1.7373058795928955,
      "learning_rate": 0.00012039119804400977,
      "loss": 2.2447,
      "step": 17918
    },
    {
      "epoch": 0.3982,
      "grad_norm": 1.6334748268127441,
      "learning_rate": 0.0001203867526116915,
      "loss": 2.0865,
      "step": 17919
    },
    {
      "epoch": 0.3982222222222222,
      "grad_norm": 1.693129539489746,
      "learning_rate": 0.00012038230717937319,
      "loss": 2.4266,
      "step": 17920
    },
    {
      "epoch": 0.39824444444444446,
      "grad_norm": 1.395756483078003,
      "learning_rate": 0.0001203778617470549,
      "loss": 1.6412,
      "step": 17921
    },
    {
      "epoch": 0.39826666666666666,
      "grad_norm": 1.5768578052520752,
      "learning_rate": 0.00012037341631473663,
      "loss": 2.2585,
      "step": 17922
    },
    {
      "epoch": 0.3982888888888889,
      "grad_norm": 1.2996013164520264,
      "learning_rate": 0.00012036897088241832,
      "loss": 1.626,
      "step": 17923
    },
    {
      "epoch": 0.3983111111111111,
      "grad_norm": 1.5139868259429932,
      "learning_rate": 0.00012036452545010002,
      "loss": 2.1592,
      "step": 17924
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 1.3138563632965088,
      "learning_rate": 0.00012036008001778174,
      "loss": 1.7177,
      "step": 17925
    },
    {
      "epoch": 0.3983555555555556,
      "grad_norm": 1.8102120161056519,
      "learning_rate": 0.00012035563458546344,
      "loss": 2.0956,
      "step": 17926
    },
    {
      "epoch": 0.3983777777777778,
      "grad_norm": 1.4854618310928345,
      "learning_rate": 0.00012035118915314513,
      "loss": 2.066,
      "step": 17927
    },
    {
      "epoch": 0.3984,
      "grad_norm": 1.6973552703857422,
      "learning_rate": 0.00012034674372082686,
      "loss": 2.0541,
      "step": 17928
    },
    {
      "epoch": 0.39842222222222223,
      "grad_norm": 1.813912034034729,
      "learning_rate": 0.00012034229828850857,
      "loss": 1.9056,
      "step": 17929
    },
    {
      "epoch": 0.39844444444444443,
      "grad_norm": 1.990423321723938,
      "learning_rate": 0.00012033785285619028,
      "loss": 2.3738,
      "step": 17930
    },
    {
      "epoch": 0.3984666666666667,
      "grad_norm": 1.8304442167282104,
      "learning_rate": 0.00012033340742387198,
      "loss": 1.5075,
      "step": 17931
    },
    {
      "epoch": 0.3984888888888889,
      "grad_norm": 1.8028905391693115,
      "learning_rate": 0.00012032896199155368,
      "loss": 2.1933,
      "step": 17932
    },
    {
      "epoch": 0.3985111111111111,
      "grad_norm": 1.9959949254989624,
      "learning_rate": 0.0001203245165592354,
      "loss": 1.9893,
      "step": 17933
    },
    {
      "epoch": 0.39853333333333335,
      "grad_norm": 1.7115384340286255,
      "learning_rate": 0.0001203200711269171,
      "loss": 1.6777,
      "step": 17934
    },
    {
      "epoch": 0.39855555555555555,
      "grad_norm": 1.5865665674209595,
      "learning_rate": 0.0001203156256945988,
      "loss": 0.9621,
      "step": 17935
    },
    {
      "epoch": 0.39857777777777775,
      "grad_norm": 1.658189058303833,
      "learning_rate": 0.00012031118026228052,
      "loss": 2.0182,
      "step": 17936
    },
    {
      "epoch": 0.3986,
      "grad_norm": 1.468519926071167,
      "learning_rate": 0.00012030673482996222,
      "loss": 2.0062,
      "step": 17937
    },
    {
      "epoch": 0.3986222222222222,
      "grad_norm": 1.46615731716156,
      "learning_rate": 0.00012030228939764393,
      "loss": 1.8153,
      "step": 17938
    },
    {
      "epoch": 0.39864444444444447,
      "grad_norm": 1.6167689561843872,
      "learning_rate": 0.00012029784396532563,
      "loss": 1.9588,
      "step": 17939
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 1.5899592638015747,
      "learning_rate": 0.00012029339853300734,
      "loss": 1.612,
      "step": 17940
    },
    {
      "epoch": 0.39868888888888887,
      "grad_norm": 2.1009883880615234,
      "learning_rate": 0.00012028895310068904,
      "loss": 1.884,
      "step": 17941
    },
    {
      "epoch": 0.3987111111111111,
      "grad_norm": 1.6982946395874023,
      "learning_rate": 0.00012028450766837076,
      "loss": 2.1552,
      "step": 17942
    },
    {
      "epoch": 0.39873333333333333,
      "grad_norm": 1.4534879922866821,
      "learning_rate": 0.00012028006223605246,
      "loss": 1.3833,
      "step": 17943
    },
    {
      "epoch": 0.39875555555555553,
      "grad_norm": 2.081983804702759,
      "learning_rate": 0.00012027561680373416,
      "loss": 1.9578,
      "step": 17944
    },
    {
      "epoch": 0.3987777777777778,
      "grad_norm": 1.9230499267578125,
      "learning_rate": 0.00012027117137141588,
      "loss": 1.9586,
      "step": 17945
    },
    {
      "epoch": 0.3988,
      "grad_norm": 1.5876386165618896,
      "learning_rate": 0.00012026672593909757,
      "loss": 1.6573,
      "step": 17946
    },
    {
      "epoch": 0.39882222222222224,
      "grad_norm": 1.5832427740097046,
      "learning_rate": 0.00012026228050677928,
      "loss": 1.6603,
      "step": 17947
    },
    {
      "epoch": 0.39884444444444445,
      "grad_norm": 1.9551231861114502,
      "learning_rate": 0.000120257835074461,
      "loss": 1.4396,
      "step": 17948
    },
    {
      "epoch": 0.39886666666666665,
      "grad_norm": 1.5989739894866943,
      "learning_rate": 0.0001202533896421427,
      "loss": 1.7287,
      "step": 17949
    },
    {
      "epoch": 0.3988888888888889,
      "grad_norm": 1.9712458848953247,
      "learning_rate": 0.00012024894420982443,
      "loss": 0.5829,
      "step": 17950
    },
    {
      "epoch": 0.3989111111111111,
      "grad_norm": 1.6699206829071045,
      "learning_rate": 0.00012024449877750612,
      "loss": 2.7907,
      "step": 17951
    },
    {
      "epoch": 0.3989333333333333,
      "grad_norm": 0.9708387851715088,
      "learning_rate": 0.00012024005334518782,
      "loss": 1.1213,
      "step": 17952
    },
    {
      "epoch": 0.39895555555555556,
      "grad_norm": 1.6784882545471191,
      "learning_rate": 0.00012023560791286954,
      "loss": 2.3513,
      "step": 17953
    },
    {
      "epoch": 0.39897777777777776,
      "grad_norm": 1.3703334331512451,
      "learning_rate": 0.00012023116248055124,
      "loss": 2.2577,
      "step": 17954
    },
    {
      "epoch": 0.399,
      "grad_norm": 1.4186903238296509,
      "learning_rate": 0.00012022671704823293,
      "loss": 2.4617,
      "step": 17955
    },
    {
      "epoch": 0.3990222222222222,
      "grad_norm": 1.5554919242858887,
      "learning_rate": 0.00012022227161591466,
      "loss": 1.2157,
      "step": 17956
    },
    {
      "epoch": 0.3990444444444444,
      "grad_norm": 1.327907681465149,
      "learning_rate": 0.00012021782618359635,
      "loss": 1.9386,
      "step": 17957
    },
    {
      "epoch": 0.3990666666666667,
      "grad_norm": 1.3357102870941162,
      "learning_rate": 0.00012021338075127806,
      "loss": 2.1241,
      "step": 17958
    },
    {
      "epoch": 0.3990888888888889,
      "grad_norm": 1.5777469873428345,
      "learning_rate": 0.00012020893531895979,
      "loss": 2.3788,
      "step": 17959
    },
    {
      "epoch": 0.39911111111111114,
      "grad_norm": 1.0532772541046143,
      "learning_rate": 0.00012020448988664148,
      "loss": 1.1632,
      "step": 17960
    },
    {
      "epoch": 0.39913333333333334,
      "grad_norm": 1.8121732473373413,
      "learning_rate": 0.00012020004445432318,
      "loss": 1.8952,
      "step": 17961
    },
    {
      "epoch": 0.39915555555555554,
      "grad_norm": 1.7377283573150635,
      "learning_rate": 0.0001201955990220049,
      "loss": 2.3502,
      "step": 17962
    },
    {
      "epoch": 0.3991777777777778,
      "grad_norm": 1.6865512132644653,
      "learning_rate": 0.0001201911535896866,
      "loss": 2.1476,
      "step": 17963
    },
    {
      "epoch": 0.3992,
      "grad_norm": 1.5825413465499878,
      "learning_rate": 0.0001201867081573683,
      "loss": 1.9191,
      "step": 17964
    },
    {
      "epoch": 0.3992222222222222,
      "grad_norm": 1.7972394227981567,
      "learning_rate": 0.00012018226272505002,
      "loss": 2.6027,
      "step": 17965
    },
    {
      "epoch": 0.39924444444444446,
      "grad_norm": 1.5617936849594116,
      "learning_rate": 0.00012017781729273173,
      "loss": 2.0832,
      "step": 17966
    },
    {
      "epoch": 0.39926666666666666,
      "grad_norm": 1.5408169031143188,
      "learning_rate": 0.00012017337186041344,
      "loss": 2.0864,
      "step": 17967
    },
    {
      "epoch": 0.3992888888888889,
      "grad_norm": 1.6262211799621582,
      "learning_rate": 0.00012016892642809515,
      "loss": 2.1098,
      "step": 17968
    },
    {
      "epoch": 0.3993111111111111,
      "grad_norm": 1.4772770404815674,
      "learning_rate": 0.00012016448099577684,
      "loss": 1.887,
      "step": 17969
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 1.4877949953079224,
      "learning_rate": 0.00012016003556345857,
      "loss": 2.5479,
      "step": 17970
    },
    {
      "epoch": 0.3993555555555556,
      "grad_norm": 1.7236512899398804,
      "learning_rate": 0.00012015559013114026,
      "loss": 2.7006,
      "step": 17971
    },
    {
      "epoch": 0.3993777777777778,
      "grad_norm": 1.5990509986877441,
      "learning_rate": 0.00012015114469882196,
      "loss": 2.132,
      "step": 17972
    },
    {
      "epoch": 0.3994,
      "grad_norm": 2.067793369293213,
      "learning_rate": 0.00012014669926650368,
      "loss": 1.8375,
      "step": 17973
    },
    {
      "epoch": 0.39942222222222223,
      "grad_norm": 1.504741907119751,
      "learning_rate": 0.00012014225383418538,
      "loss": 1.8677,
      "step": 17974
    },
    {
      "epoch": 0.39944444444444444,
      "grad_norm": 1.5234289169311523,
      "learning_rate": 0.00012013780840186709,
      "loss": 1.9868,
      "step": 17975
    },
    {
      "epoch": 0.3994666666666667,
      "grad_norm": 1.610552430152893,
      "learning_rate": 0.0001201333629695488,
      "loss": 2.19,
      "step": 17976
    },
    {
      "epoch": 0.3994888888888889,
      "grad_norm": 1.784270167350769,
      "learning_rate": 0.0001201289175372305,
      "loss": 2.3412,
      "step": 17977
    },
    {
      "epoch": 0.3995111111111111,
      "grad_norm": 1.2313084602355957,
      "learning_rate": 0.0001201244721049122,
      "loss": 1.2589,
      "step": 17978
    },
    {
      "epoch": 0.39953333333333335,
      "grad_norm": 1.404236078262329,
      "learning_rate": 0.00012012002667259392,
      "loss": 1.3245,
      "step": 17979
    },
    {
      "epoch": 0.39955555555555555,
      "grad_norm": 1.615935206413269,
      "learning_rate": 0.00012011558124027562,
      "loss": 0.6974,
      "step": 17980
    },
    {
      "epoch": 0.39957777777777775,
      "grad_norm": 1.578179955482483,
      "learning_rate": 0.00012011113580795732,
      "loss": 2.0305,
      "step": 17981
    },
    {
      "epoch": 0.3996,
      "grad_norm": 1.3558768033981323,
      "learning_rate": 0.00012010669037563904,
      "loss": 1.5869,
      "step": 17982
    },
    {
      "epoch": 0.3996222222222222,
      "grad_norm": 1.4674441814422607,
      "learning_rate": 0.00012010224494332074,
      "loss": 1.7219,
      "step": 17983
    },
    {
      "epoch": 0.39964444444444447,
      "grad_norm": 1.4726299047470093,
      "learning_rate": 0.00012009779951100245,
      "loss": 1.1964,
      "step": 17984
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 1.4693081378936768,
      "learning_rate": 0.00012009335407868416,
      "loss": 1.6234,
      "step": 17985
    },
    {
      "epoch": 0.39968888888888887,
      "grad_norm": 1.3373700380325317,
      "learning_rate": 0.00012008890864636586,
      "loss": 1.5641,
      "step": 17986
    },
    {
      "epoch": 0.39971111111111113,
      "grad_norm": 2.013683319091797,
      "learning_rate": 0.00012008446321404759,
      "loss": 2.1578,
      "step": 17987
    },
    {
      "epoch": 0.39973333333333333,
      "grad_norm": 1.6466126441955566,
      "learning_rate": 0.00012008001778172928,
      "loss": 1.6961,
      "step": 17988
    },
    {
      "epoch": 0.39975555555555553,
      "grad_norm": 1.8431767225265503,
      "learning_rate": 0.00012007557234941098,
      "loss": 2.334,
      "step": 17989
    },
    {
      "epoch": 0.3997777777777778,
      "grad_norm": 1.772153377532959,
      "learning_rate": 0.0001200711269170927,
      "loss": 2.0707,
      "step": 17990
    },
    {
      "epoch": 0.3998,
      "grad_norm": 2.165964126586914,
      "learning_rate": 0.0001200666814847744,
      "loss": 2.0732,
      "step": 17991
    },
    {
      "epoch": 0.39982222222222225,
      "grad_norm": 2.137207508087158,
      "learning_rate": 0.0001200622360524561,
      "loss": 2.521,
      "step": 17992
    },
    {
      "epoch": 0.39984444444444445,
      "grad_norm": 2.032749652862549,
      "learning_rate": 0.00012005779062013782,
      "loss": 1.7587,
      "step": 17993
    },
    {
      "epoch": 0.39986666666666665,
      "grad_norm": 2.1154048442840576,
      "learning_rate": 0.00012005334518781951,
      "loss": 2.2819,
      "step": 17994
    },
    {
      "epoch": 0.3998888888888889,
      "grad_norm": 2.0989460945129395,
      "learning_rate": 0.00012004889975550122,
      "loss": 1.9175,
      "step": 17995
    },
    {
      "epoch": 0.3999111111111111,
      "grad_norm": 1.6861445903778076,
      "learning_rate": 0.00012004445432318295,
      "loss": 1.5919,
      "step": 17996
    },
    {
      "epoch": 0.3999333333333333,
      "grad_norm": 1.8900737762451172,
      "learning_rate": 0.00012004000889086464,
      "loss": 1.9086,
      "step": 17997
    },
    {
      "epoch": 0.39995555555555556,
      "grad_norm": 1.7069507837295532,
      "learning_rate": 0.00012003556345854634,
      "loss": 1.4243,
      "step": 17998
    },
    {
      "epoch": 0.39997777777777777,
      "grad_norm": 1.7130053043365479,
      "learning_rate": 0.00012003111802622806,
      "loss": 1.0154,
      "step": 17999
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6805306673049927,
      "learning_rate": 0.00012002667259390976,
      "loss": 1.2854,
      "step": 18000
    },
    {
      "epoch": 0.4,
      "eval_loss": 1.90438711643219,
      "eval_runtime": 2158.7037,
      "eval_samples_per_second": 4.632,
      "eval_steps_per_second": 4.632,
      "step": 18000
    },
    {
      "epoch": 0.4000222222222222,
      "grad_norm": 1.1625239849090576,
      "learning_rate": 0.00012002222716159145,
      "loss": 2.359,
      "step": 18001
    },
    {
      "epoch": 0.4000444444444444,
      "grad_norm": 1.5141894817352295,
      "learning_rate": 0.00012001778172927318,
      "loss": 2.4995,
      "step": 18002
    },
    {
      "epoch": 0.4000666666666667,
      "grad_norm": 1.2569701671600342,
      "learning_rate": 0.00012001333629695489,
      "loss": 1.4267,
      "step": 18003
    },
    {
      "epoch": 0.4000888888888889,
      "grad_norm": 1.3378620147705078,
      "learning_rate": 0.00012000889086463658,
      "loss": 2.3471,
      "step": 18004
    },
    {
      "epoch": 0.4001111111111111,
      "grad_norm": 1.371065616607666,
      "learning_rate": 0.00012000444543231831,
      "loss": 2.1782,
      "step": 18005
    },
    {
      "epoch": 0.40013333333333334,
      "grad_norm": 1.222267508506775,
      "learning_rate": 0.00012,
      "loss": 2.0036,
      "step": 18006
    },
    {
      "epoch": 0.40015555555555554,
      "grad_norm": 1.5821146965026855,
      "learning_rate": 0.00011999555456768173,
      "loss": 1.979,
      "step": 18007
    },
    {
      "epoch": 0.4001777777777778,
      "grad_norm": 1.5243134498596191,
      "learning_rate": 0.00011999110913536342,
      "loss": 1.9528,
      "step": 18008
    },
    {
      "epoch": 0.4002,
      "grad_norm": 1.4646320343017578,
      "learning_rate": 0.00011998666370304512,
      "loss": 1.6323,
      "step": 18009
    },
    {
      "epoch": 0.4002222222222222,
      "grad_norm": 1.7794355154037476,
      "learning_rate": 0.00011998221827072684,
      "loss": 2.1059,
      "step": 18010
    },
    {
      "epoch": 0.40024444444444446,
      "grad_norm": 1.4083000421524048,
      "learning_rate": 0.00011997777283840854,
      "loss": 2.1152,
      "step": 18011
    },
    {
      "epoch": 0.40026666666666666,
      "grad_norm": 1.5260403156280518,
      "learning_rate": 0.00011997332740609025,
      "loss": 2.0385,
      "step": 18012
    },
    {
      "epoch": 0.4002888888888889,
      "grad_norm": 1.6913665533065796,
      "learning_rate": 0.00011996888197377196,
      "loss": 2.1965,
      "step": 18013
    },
    {
      "epoch": 0.4003111111111111,
      "grad_norm": 1.4442570209503174,
      "learning_rate": 0.00011996443654145367,
      "loss": 1.5031,
      "step": 18014
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 1.0511027574539185,
      "learning_rate": 0.00011995999110913536,
      "loss": 0.9387,
      "step": 18015
    },
    {
      "epoch": 0.4003555555555556,
      "grad_norm": 1.584952712059021,
      "learning_rate": 0.00011995554567681709,
      "loss": 2.3536,
      "step": 18016
    },
    {
      "epoch": 0.4003777777777778,
      "grad_norm": 1.0709872245788574,
      "learning_rate": 0.00011995110024449878,
      "loss": 1.215,
      "step": 18017
    },
    {
      "epoch": 0.4004,
      "grad_norm": 1.4630781412124634,
      "learning_rate": 0.00011994665481218048,
      "loss": 1.6215,
      "step": 18018
    },
    {
      "epoch": 0.40042222222222223,
      "grad_norm": 1.4561549425125122,
      "learning_rate": 0.0001199422093798622,
      "loss": 2.3001,
      "step": 18019
    },
    {
      "epoch": 0.40044444444444444,
      "grad_norm": 1.6115220785140991,
      "learning_rate": 0.0001199377639475439,
      "loss": 2.1537,
      "step": 18020
    },
    {
      "epoch": 0.4004666666666667,
      "grad_norm": 1.5595377683639526,
      "learning_rate": 0.0001199333185152256,
      "loss": 2.0139,
      "step": 18021
    },
    {
      "epoch": 0.4004888888888889,
      "grad_norm": 1.3528798818588257,
      "learning_rate": 0.00011992887308290732,
      "loss": 1.7181,
      "step": 18022
    },
    {
      "epoch": 0.4005111111111111,
      "grad_norm": 1.2239229679107666,
      "learning_rate": 0.00011992442765058903,
      "loss": 0.6467,
      "step": 18023
    },
    {
      "epoch": 0.40053333333333335,
      "grad_norm": 1.4232462644577026,
      "learning_rate": 0.00011991998221827075,
      "loss": 1.8059,
      "step": 18024
    },
    {
      "epoch": 0.40055555555555555,
      "grad_norm": 1.5227380990982056,
      "learning_rate": 0.00011991553678595245,
      "loss": 1.9393,
      "step": 18025
    },
    {
      "epoch": 0.40057777777777775,
      "grad_norm": 1.5716259479522705,
      "learning_rate": 0.00011991109135363414,
      "loss": 2.2398,
      "step": 18026
    },
    {
      "epoch": 0.4006,
      "grad_norm": 1.8386883735656738,
      "learning_rate": 0.00011990664592131586,
      "loss": 2.1828,
      "step": 18027
    },
    {
      "epoch": 0.4006222222222222,
      "grad_norm": 1.7327579259872437,
      "learning_rate": 0.00011990220048899756,
      "loss": 2.1665,
      "step": 18028
    },
    {
      "epoch": 0.40064444444444447,
      "grad_norm": 1.7956833839416504,
      "learning_rate": 0.00011989775505667926,
      "loss": 1.8549,
      "step": 18029
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 1.5629684925079346,
      "learning_rate": 0.00011989330962436098,
      "loss": 2.2146,
      "step": 18030
    },
    {
      "epoch": 0.40068888888888887,
      "grad_norm": 1.7500561475753784,
      "learning_rate": 0.00011988886419204268,
      "loss": 1.7607,
      "step": 18031
    },
    {
      "epoch": 0.40071111111111113,
      "grad_norm": 1.6047941446304321,
      "learning_rate": 0.00011988441875972439,
      "loss": 1.5363,
      "step": 18032
    },
    {
      "epoch": 0.40073333333333333,
      "grad_norm": 2.085020065307617,
      "learning_rate": 0.00011987997332740611,
      "loss": 0.0357,
      "step": 18033
    },
    {
      "epoch": 0.40075555555555553,
      "grad_norm": 1.772294044494629,
      "learning_rate": 0.0001198755278950878,
      "loss": 1.814,
      "step": 18034
    },
    {
      "epoch": 0.4007777777777778,
      "grad_norm": 2.0948879718780518,
      "learning_rate": 0.0001198710824627695,
      "loss": 2.1307,
      "step": 18035
    },
    {
      "epoch": 0.4008,
      "grad_norm": 1.6160341501235962,
      "learning_rate": 0.00011986663703045122,
      "loss": 1.6706,
      "step": 18036
    },
    {
      "epoch": 0.40082222222222225,
      "grad_norm": 1.7973750829696655,
      "learning_rate": 0.00011986219159813292,
      "loss": 1.8106,
      "step": 18037
    },
    {
      "epoch": 0.40084444444444445,
      "grad_norm": 2.1538660526275635,
      "learning_rate": 0.00011985774616581462,
      "loss": 2.3611,
      "step": 18038
    },
    {
      "epoch": 0.40086666666666665,
      "grad_norm": 1.8171292543411255,
      "learning_rate": 0.00011985330073349634,
      "loss": 1.8154,
      "step": 18039
    },
    {
      "epoch": 0.4008888888888889,
      "grad_norm": 1.3862558603286743,
      "learning_rate": 0.00011984885530117805,
      "loss": 1.4792,
      "step": 18040
    },
    {
      "epoch": 0.4009111111111111,
      "grad_norm": 1.8106716871261597,
      "learning_rate": 0.00011984440986885974,
      "loss": 1.6287,
      "step": 18041
    },
    {
      "epoch": 0.4009333333333333,
      "grad_norm": 2.0834078788757324,
      "learning_rate": 0.00011983996443654147,
      "loss": 2.0947,
      "step": 18042
    },
    {
      "epoch": 0.40095555555555557,
      "grad_norm": 1.9616291522979736,
      "learning_rate": 0.00011983551900422316,
      "loss": 2.0819,
      "step": 18043
    },
    {
      "epoch": 0.40097777777777777,
      "grad_norm": 1.7019290924072266,
      "learning_rate": 0.00011983107357190489,
      "loss": 1.6523,
      "step": 18044
    },
    {
      "epoch": 0.401,
      "grad_norm": 1.8368265628814697,
      "learning_rate": 0.00011982662813958658,
      "loss": 2.026,
      "step": 18045
    },
    {
      "epoch": 0.4010222222222222,
      "grad_norm": 1.506022334098816,
      "learning_rate": 0.00011982218270726828,
      "loss": 1.6283,
      "step": 18046
    },
    {
      "epoch": 0.4010444444444444,
      "grad_norm": 1.5680142641067505,
      "learning_rate": 0.00011981773727495,
      "loss": 1.7906,
      "step": 18047
    },
    {
      "epoch": 0.4010666666666667,
      "grad_norm": 1.5953437089920044,
      "learning_rate": 0.0001198132918426317,
      "loss": 1.7074,
      "step": 18048
    },
    {
      "epoch": 0.4010888888888889,
      "grad_norm": 2.072061777114868,
      "learning_rate": 0.00011980884641031341,
      "loss": 1.2647,
      "step": 18049
    },
    {
      "epoch": 0.4011111111111111,
      "grad_norm": 2.229374885559082,
      "learning_rate": 0.00011980440097799512,
      "loss": 1.8417,
      "step": 18050
    },
    {
      "epoch": 0.40113333333333334,
      "grad_norm": 1.2130869626998901,
      "learning_rate": 0.00011979995554567683,
      "loss": 1.8838,
      "step": 18051
    },
    {
      "epoch": 0.40115555555555554,
      "grad_norm": 1.4682894945144653,
      "learning_rate": 0.00011979551011335852,
      "loss": 2.31,
      "step": 18052
    },
    {
      "epoch": 0.4011777777777778,
      "grad_norm": 1.3007551431655884,
      "learning_rate": 0.00011979106468104025,
      "loss": 2.3711,
      "step": 18053
    },
    {
      "epoch": 0.4012,
      "grad_norm": 1.3468624353408813,
      "learning_rate": 0.00011978661924872194,
      "loss": 1.3278,
      "step": 18054
    },
    {
      "epoch": 0.4012222222222222,
      "grad_norm": 1.4068583250045776,
      "learning_rate": 0.00011978217381640364,
      "loss": 1.9215,
      "step": 18055
    },
    {
      "epoch": 0.40124444444444446,
      "grad_norm": 1.5831583738327026,
      "learning_rate": 0.00011977772838408536,
      "loss": 2.1958,
      "step": 18056
    },
    {
      "epoch": 0.40126666666666666,
      "grad_norm": 1.8264644145965576,
      "learning_rate": 0.00011977328295176706,
      "loss": 2.2755,
      "step": 18057
    },
    {
      "epoch": 0.40128888888888886,
      "grad_norm": 1.6187665462493896,
      "learning_rate": 0.00011976883751944877,
      "loss": 1.9874,
      "step": 18058
    },
    {
      "epoch": 0.4013111111111111,
      "grad_norm": 1.6921436786651611,
      "learning_rate": 0.00011976439208713048,
      "loss": 1.84,
      "step": 18059
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 1.7320297956466675,
      "learning_rate": 0.00011975994665481219,
      "loss": 2.0458,
      "step": 18060
    },
    {
      "epoch": 0.4013555555555556,
      "grad_norm": 1.5822429656982422,
      "learning_rate": 0.00011975550122249391,
      "loss": 2.2076,
      "step": 18061
    },
    {
      "epoch": 0.4013777777777778,
      "grad_norm": 1.7434240579605103,
      "learning_rate": 0.0001197510557901756,
      "loss": 2.4675,
      "step": 18062
    },
    {
      "epoch": 0.4014,
      "grad_norm": 1.7172845602035522,
      "learning_rate": 0.0001197466103578573,
      "loss": 1.9372,
      "step": 18063
    },
    {
      "epoch": 0.40142222222222224,
      "grad_norm": 1.6787724494934082,
      "learning_rate": 0.00011974216492553903,
      "loss": 2.1869,
      "step": 18064
    },
    {
      "epoch": 0.40144444444444444,
      "grad_norm": 1.5552269220352173,
      "learning_rate": 0.00011973771949322072,
      "loss": 2.0735,
      "step": 18065
    },
    {
      "epoch": 0.4014666666666667,
      "grad_norm": 1.3571754693984985,
      "learning_rate": 0.00011973327406090242,
      "loss": 1.6716,
      "step": 18066
    },
    {
      "epoch": 0.4014888888888889,
      "grad_norm": 1.7054500579833984,
      "learning_rate": 0.00011972882862858414,
      "loss": 2.3974,
      "step": 18067
    },
    {
      "epoch": 0.4015111111111111,
      "grad_norm": 1.5934990644454956,
      "learning_rate": 0.00011972438319626584,
      "loss": 2.2967,
      "step": 18068
    },
    {
      "epoch": 0.40153333333333335,
      "grad_norm": 1.376381754875183,
      "learning_rate": 0.00011971993776394755,
      "loss": 1.9358,
      "step": 18069
    },
    {
      "epoch": 0.40155555555555555,
      "grad_norm": 1.593932032585144,
      "learning_rate": 0.00011971549233162927,
      "loss": 1.8217,
      "step": 18070
    },
    {
      "epoch": 0.40157777777777776,
      "grad_norm": 1.1265692710876465,
      "learning_rate": 0.00011971104689931097,
      "loss": 1.0331,
      "step": 18071
    },
    {
      "epoch": 0.4016,
      "grad_norm": 1.6046419143676758,
      "learning_rate": 0.00011970660146699266,
      "loss": 1.9682,
      "step": 18072
    },
    {
      "epoch": 0.4016222222222222,
      "grad_norm": 1.7092795372009277,
      "learning_rate": 0.00011970215603467438,
      "loss": 2.1254,
      "step": 18073
    },
    {
      "epoch": 0.40164444444444447,
      "grad_norm": 1.6252802610397339,
      "learning_rate": 0.00011969771060235608,
      "loss": 2.1897,
      "step": 18074
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 1.7025991678237915,
      "learning_rate": 0.00011969326517003778,
      "loss": 2.1114,
      "step": 18075
    },
    {
      "epoch": 0.4016888888888889,
      "grad_norm": 1.6580690145492554,
      "learning_rate": 0.0001196888197377195,
      "loss": 1.5641,
      "step": 18076
    },
    {
      "epoch": 0.40171111111111113,
      "grad_norm": 1.480156660079956,
      "learning_rate": 0.00011968437430540121,
      "loss": 1.9006,
      "step": 18077
    },
    {
      "epoch": 0.40173333333333333,
      "grad_norm": 1.886646032333374,
      "learning_rate": 0.0001196799288730829,
      "loss": 2.293,
      "step": 18078
    },
    {
      "epoch": 0.40175555555555553,
      "grad_norm": 2.5004732608795166,
      "learning_rate": 0.00011967548344076463,
      "loss": 1.6164,
      "step": 18079
    },
    {
      "epoch": 0.4017777777777778,
      "grad_norm": 1.6990140676498413,
      "learning_rate": 0.00011967103800844633,
      "loss": 2.1753,
      "step": 18080
    },
    {
      "epoch": 0.4018,
      "grad_norm": 1.5187971591949463,
      "learning_rate": 0.00011966659257612805,
      "loss": 1.8405,
      "step": 18081
    },
    {
      "epoch": 0.40182222222222225,
      "grad_norm": 1.8888059854507446,
      "learning_rate": 0.00011966214714380974,
      "loss": 2.0216,
      "step": 18082
    },
    {
      "epoch": 0.40184444444444445,
      "grad_norm": 1.5297170877456665,
      "learning_rate": 0.00011965770171149144,
      "loss": 1.7067,
      "step": 18083
    },
    {
      "epoch": 0.40186666666666665,
      "grad_norm": 1.5961421728134155,
      "learning_rate": 0.00011965325627917316,
      "loss": 1.916,
      "step": 18084
    },
    {
      "epoch": 0.4018888888888889,
      "grad_norm": 1.5407088994979858,
      "learning_rate": 0.00011964881084685486,
      "loss": 2.1698,
      "step": 18085
    },
    {
      "epoch": 0.4019111111111111,
      "grad_norm": 1.725656270980835,
      "learning_rate": 0.00011964436541453657,
      "loss": 1.5499,
      "step": 18086
    },
    {
      "epoch": 0.4019333333333333,
      "grad_norm": 1.872480869293213,
      "learning_rate": 0.00011963991998221828,
      "loss": 1.9842,
      "step": 18087
    },
    {
      "epoch": 0.40195555555555557,
      "grad_norm": 1.3533295392990112,
      "learning_rate": 0.00011963547454989999,
      "loss": 1.579,
      "step": 18088
    },
    {
      "epoch": 0.40197777777777777,
      "grad_norm": 1.6875172853469849,
      "learning_rate": 0.00011963102911758168,
      "loss": 2.0791,
      "step": 18089
    },
    {
      "epoch": 0.402,
      "grad_norm": 2.209214448928833,
      "learning_rate": 0.00011962658368526341,
      "loss": 1.6409,
      "step": 18090
    },
    {
      "epoch": 0.4020222222222222,
      "grad_norm": 1.6581228971481323,
      "learning_rate": 0.0001196221382529451,
      "loss": 1.6571,
      "step": 18091
    },
    {
      "epoch": 0.4020444444444444,
      "grad_norm": 1.9623249769210815,
      "learning_rate": 0.0001196176928206268,
      "loss": 2.0215,
      "step": 18092
    },
    {
      "epoch": 0.4020666666666667,
      "grad_norm": 1.8677716255187988,
      "learning_rate": 0.00011961324738830852,
      "loss": 2.1244,
      "step": 18093
    },
    {
      "epoch": 0.4020888888888889,
      "grad_norm": 1.8757848739624023,
      "learning_rate": 0.00011960880195599022,
      "loss": 2.0108,
      "step": 18094
    },
    {
      "epoch": 0.4021111111111111,
      "grad_norm": 1.6127065420150757,
      "learning_rate": 0.00011960435652367193,
      "loss": 2.155,
      "step": 18095
    },
    {
      "epoch": 0.40213333333333334,
      "grad_norm": 1.8418183326721191,
      "learning_rate": 0.00011959991109135364,
      "loss": 2.0369,
      "step": 18096
    },
    {
      "epoch": 0.40215555555555554,
      "grad_norm": 2.1175537109375,
      "learning_rate": 0.00011959546565903535,
      "loss": 1.8177,
      "step": 18097
    },
    {
      "epoch": 0.4021777777777778,
      "grad_norm": 1.9399269819259644,
      "learning_rate": 0.00011959102022671704,
      "loss": 2.2432,
      "step": 18098
    },
    {
      "epoch": 0.4022,
      "grad_norm": 2.14343523979187,
      "learning_rate": 0.00011958657479439877,
      "loss": 1.9251,
      "step": 18099
    },
    {
      "epoch": 0.4022222222222222,
      "grad_norm": 1.5725328922271729,
      "learning_rate": 0.00011958212936208046,
      "loss": 1.5555,
      "step": 18100
    },
    {
      "epoch": 0.40224444444444446,
      "grad_norm": 1.3806750774383545,
      "learning_rate": 0.00011957768392976219,
      "loss": 2.4011,
      "step": 18101
    },
    {
      "epoch": 0.40226666666666666,
      "grad_norm": 1.200755000114441,
      "learning_rate": 0.00011957323849744388,
      "loss": 2.4762,
      "step": 18102
    },
    {
      "epoch": 0.40228888888888886,
      "grad_norm": 1.2696233987808228,
      "learning_rate": 0.00011956879306512558,
      "loss": 2.4495,
      "step": 18103
    },
    {
      "epoch": 0.4023111111111111,
      "grad_norm": 1.3307079076766968,
      "learning_rate": 0.0001195643476328073,
      "loss": 2.1695,
      "step": 18104
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 1.5454823970794678,
      "learning_rate": 0.000119559902200489,
      "loss": 1.2697,
      "step": 18105
    },
    {
      "epoch": 0.4023555555555556,
      "grad_norm": 1.538532018661499,
      "learning_rate": 0.00011955545676817071,
      "loss": 2.4739,
      "step": 18106
    },
    {
      "epoch": 0.4023777777777778,
      "grad_norm": 1.3240232467651367,
      "learning_rate": 0.00011955101133585243,
      "loss": 1.8346,
      "step": 18107
    },
    {
      "epoch": 0.4024,
      "grad_norm": 1.1893514394760132,
      "learning_rate": 0.00011954656590353413,
      "loss": 1.1487,
      "step": 18108
    },
    {
      "epoch": 0.40242222222222224,
      "grad_norm": 1.0349321365356445,
      "learning_rate": 0.00011954212047121582,
      "loss": 0.9711,
      "step": 18109
    },
    {
      "epoch": 0.40244444444444444,
      "grad_norm": 1.4985828399658203,
      "learning_rate": 0.00011953767503889755,
      "loss": 2.1839,
      "step": 18110
    },
    {
      "epoch": 0.40246666666666664,
      "grad_norm": 1.68613600730896,
      "learning_rate": 0.00011953322960657924,
      "loss": 2.9233,
      "step": 18111
    },
    {
      "epoch": 0.4024888888888889,
      "grad_norm": 1.3930524587631226,
      "learning_rate": 0.00011952878417426094,
      "loss": 1.9911,
      "step": 18112
    },
    {
      "epoch": 0.4025111111111111,
      "grad_norm": 1.3086308240890503,
      "learning_rate": 0.00011952433874194266,
      "loss": 0.9505,
      "step": 18113
    },
    {
      "epoch": 0.40253333333333335,
      "grad_norm": 1.6603248119354248,
      "learning_rate": 0.00011951989330962437,
      "loss": 1.8859,
      "step": 18114
    },
    {
      "epoch": 0.40255555555555556,
      "grad_norm": 1.4479504823684692,
      "learning_rate": 0.00011951544787730607,
      "loss": 2.457,
      "step": 18115
    },
    {
      "epoch": 0.40257777777777776,
      "grad_norm": 1.6972934007644653,
      "learning_rate": 0.00011951100244498779,
      "loss": 2.3355,
      "step": 18116
    },
    {
      "epoch": 0.4026,
      "grad_norm": 1.4288554191589355,
      "learning_rate": 0.00011950655701266949,
      "loss": 1.8191,
      "step": 18117
    },
    {
      "epoch": 0.4026222222222222,
      "grad_norm": 1.4746460914611816,
      "learning_rate": 0.00011950211158035121,
      "loss": 1.3361,
      "step": 18118
    },
    {
      "epoch": 0.40264444444444447,
      "grad_norm": 1.6602452993392944,
      "learning_rate": 0.0001194976661480329,
      "loss": 2.4233,
      "step": 18119
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 1.3953908681869507,
      "learning_rate": 0.0001194932207157146,
      "loss": 2.0049,
      "step": 18120
    },
    {
      "epoch": 0.4026888888888889,
      "grad_norm": 1.7504401206970215,
      "learning_rate": 0.00011948877528339632,
      "loss": 2.4134,
      "step": 18121
    },
    {
      "epoch": 0.40271111111111113,
      "grad_norm": 1.7067310810089111,
      "learning_rate": 0.00011948432985107802,
      "loss": 1.9372,
      "step": 18122
    },
    {
      "epoch": 0.40273333333333333,
      "grad_norm": 1.621787428855896,
      "learning_rate": 0.00011947988441875973,
      "loss": 1.6917,
      "step": 18123
    },
    {
      "epoch": 0.40275555555555553,
      "grad_norm": 1.622211217880249,
      "learning_rate": 0.00011947543898644144,
      "loss": 2.229,
      "step": 18124
    },
    {
      "epoch": 0.4027777777777778,
      "grad_norm": 1.8894155025482178,
      "learning_rate": 0.00011947099355412315,
      "loss": 2.2742,
      "step": 18125
    },
    {
      "epoch": 0.4028,
      "grad_norm": 1.822871208190918,
      "learning_rate": 0.00011946654812180485,
      "loss": 2.2175,
      "step": 18126
    },
    {
      "epoch": 0.40282222222222225,
      "grad_norm": 1.4891762733459473,
      "learning_rate": 0.00011946210268948657,
      "loss": 2.0586,
      "step": 18127
    },
    {
      "epoch": 0.40284444444444445,
      "grad_norm": 1.4815679788589478,
      "learning_rate": 0.00011945765725716826,
      "loss": 2.0711,
      "step": 18128
    },
    {
      "epoch": 0.40286666666666665,
      "grad_norm": 1.8854411840438843,
      "learning_rate": 0.00011945321182484996,
      "loss": 2.3568,
      "step": 18129
    },
    {
      "epoch": 0.4028888888888889,
      "grad_norm": 1.8731838464736938,
      "learning_rate": 0.00011944876639253168,
      "loss": 2.0369,
      "step": 18130
    },
    {
      "epoch": 0.4029111111111111,
      "grad_norm": 1.6548223495483398,
      "learning_rate": 0.00011944432096021338,
      "loss": 1.8909,
      "step": 18131
    },
    {
      "epoch": 0.4029333333333333,
      "grad_norm": 1.966589093208313,
      "learning_rate": 0.00011943987552789509,
      "loss": 2.2229,
      "step": 18132
    },
    {
      "epoch": 0.40295555555555557,
      "grad_norm": 1.4795522689819336,
      "learning_rate": 0.0001194354300955768,
      "loss": 1.8375,
      "step": 18133
    },
    {
      "epoch": 0.40297777777777777,
      "grad_norm": 1.6057037115097046,
      "learning_rate": 0.00011943098466325851,
      "loss": 1.8866,
      "step": 18134
    },
    {
      "epoch": 0.403,
      "grad_norm": 1.7656596899032593,
      "learning_rate": 0.0001194265392309402,
      "loss": 1.6776,
      "step": 18135
    },
    {
      "epoch": 0.4030222222222222,
      "grad_norm": 1.4139279127120972,
      "learning_rate": 0.00011942209379862193,
      "loss": 1.8249,
      "step": 18136
    },
    {
      "epoch": 0.4030444444444444,
      "grad_norm": 1.6980832815170288,
      "learning_rate": 0.00011941764836630362,
      "loss": 2.0133,
      "step": 18137
    },
    {
      "epoch": 0.4030666666666667,
      "grad_norm": 1.5509936809539795,
      "learning_rate": 0.00011941320293398535,
      "loss": 1.8658,
      "step": 18138
    },
    {
      "epoch": 0.4030888888888889,
      "grad_norm": 1.3170214891433716,
      "learning_rate": 0.00011940875750166704,
      "loss": 1.3461,
      "step": 18139
    },
    {
      "epoch": 0.4031111111111111,
      "grad_norm": 1.5894389152526855,
      "learning_rate": 0.00011940431206934874,
      "loss": 1.7272,
      "step": 18140
    },
    {
      "epoch": 0.40313333333333334,
      "grad_norm": 1.7598214149475098,
      "learning_rate": 0.00011939986663703046,
      "loss": 2.1676,
      "step": 18141
    },
    {
      "epoch": 0.40315555555555554,
      "grad_norm": 1.6034704446792603,
      "learning_rate": 0.00011939542120471217,
      "loss": 1.3623,
      "step": 18142
    },
    {
      "epoch": 0.4031777777777778,
      "grad_norm": 1.8344818353652954,
      "learning_rate": 0.00011939097577239387,
      "loss": 1.9429,
      "step": 18143
    },
    {
      "epoch": 0.4032,
      "grad_norm": 1.6641074419021606,
      "learning_rate": 0.00011938653034007559,
      "loss": 2.2357,
      "step": 18144
    },
    {
      "epoch": 0.4032222222222222,
      "grad_norm": 1.7925218343734741,
      "learning_rate": 0.00011938208490775729,
      "loss": 2.4676,
      "step": 18145
    },
    {
      "epoch": 0.40324444444444446,
      "grad_norm": 1.4952282905578613,
      "learning_rate": 0.00011937763947543898,
      "loss": 1.6351,
      "step": 18146
    },
    {
      "epoch": 0.40326666666666666,
      "grad_norm": 1.2768548727035522,
      "learning_rate": 0.00011937319404312071,
      "loss": 0.8542,
      "step": 18147
    },
    {
      "epoch": 0.40328888888888886,
      "grad_norm": 1.9962166547775269,
      "learning_rate": 0.0001193687486108024,
      "loss": 1.8771,
      "step": 18148
    },
    {
      "epoch": 0.4033111111111111,
      "grad_norm": 2.0936288833618164,
      "learning_rate": 0.0001193643031784841,
      "loss": 2.0067,
      "step": 18149
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 1.9527779817581177,
      "learning_rate": 0.00011935985774616582,
      "loss": 1.6727,
      "step": 18150
    },
    {
      "epoch": 0.4033555555555556,
      "grad_norm": 1.3580671548843384,
      "learning_rate": 0.00011935541231384753,
      "loss": 2.1684,
      "step": 18151
    },
    {
      "epoch": 0.4033777777777778,
      "grad_norm": 1.3965795040130615,
      "learning_rate": 0.00011935096688152923,
      "loss": 2.3293,
      "step": 18152
    },
    {
      "epoch": 0.4034,
      "grad_norm": 1.338162899017334,
      "learning_rate": 0.00011934652144921095,
      "loss": 2.0042,
      "step": 18153
    },
    {
      "epoch": 0.40342222222222224,
      "grad_norm": 1.3934085369110107,
      "learning_rate": 0.00011934207601689265,
      "loss": 2.649,
      "step": 18154
    },
    {
      "epoch": 0.40344444444444444,
      "grad_norm": 1.4500089883804321,
      "learning_rate": 0.00011933763058457434,
      "loss": 2.2359,
      "step": 18155
    },
    {
      "epoch": 0.40346666666666664,
      "grad_norm": 1.4182273149490356,
      "learning_rate": 0.00011933318515225607,
      "loss": 2.11,
      "step": 18156
    },
    {
      "epoch": 0.4034888888888889,
      "grad_norm": 1.4938740730285645,
      "learning_rate": 0.00011932873971993776,
      "loss": 2.1826,
      "step": 18157
    },
    {
      "epoch": 0.4035111111111111,
      "grad_norm": 1.6345089673995972,
      "learning_rate": 0.00011932429428761949,
      "loss": 2.354,
      "step": 18158
    },
    {
      "epoch": 0.40353333333333335,
      "grad_norm": 1.478487253189087,
      "learning_rate": 0.00011931984885530118,
      "loss": 1.9868,
      "step": 18159
    },
    {
      "epoch": 0.40355555555555556,
      "grad_norm": 1.6419854164123535,
      "learning_rate": 0.00011931540342298289,
      "loss": 2.0422,
      "step": 18160
    },
    {
      "epoch": 0.40357777777777776,
      "grad_norm": 1.387342095375061,
      "learning_rate": 0.0001193109579906646,
      "loss": 2.0528,
      "step": 18161
    },
    {
      "epoch": 0.4036,
      "grad_norm": 0.9117947220802307,
      "learning_rate": 0.00011930651255834631,
      "loss": 0.4499,
      "step": 18162
    },
    {
      "epoch": 0.4036222222222222,
      "grad_norm": 1.6073830127716064,
      "learning_rate": 0.000119302067126028,
      "loss": 2.2897,
      "step": 18163
    },
    {
      "epoch": 0.4036444444444444,
      "grad_norm": 1.8757236003875732,
      "learning_rate": 0.00011929762169370973,
      "loss": 2.4557,
      "step": 18164
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 1.5698907375335693,
      "learning_rate": 0.00011929317626139143,
      "loss": 2.2447,
      "step": 18165
    },
    {
      "epoch": 0.4036888888888889,
      "grad_norm": 1.4813919067382812,
      "learning_rate": 0.00011928873082907312,
      "loss": 2.0727,
      "step": 18166
    },
    {
      "epoch": 0.40371111111111113,
      "grad_norm": 1.255660057067871,
      "learning_rate": 0.00011928428539675485,
      "loss": 1.4096,
      "step": 18167
    },
    {
      "epoch": 0.40373333333333333,
      "grad_norm": 1.814162015914917,
      "learning_rate": 0.00011927983996443654,
      "loss": 2.105,
      "step": 18168
    },
    {
      "epoch": 0.40375555555555553,
      "grad_norm": 1.7398508787155151,
      "learning_rate": 0.00011927539453211825,
      "loss": 1.9516,
      "step": 18169
    },
    {
      "epoch": 0.4037777777777778,
      "grad_norm": 1.9574308395385742,
      "learning_rate": 0.00011927094909979996,
      "loss": 2.3112,
      "step": 18170
    },
    {
      "epoch": 0.4038,
      "grad_norm": 1.7747098207473755,
      "learning_rate": 0.00011926650366748167,
      "loss": 2.2001,
      "step": 18171
    },
    {
      "epoch": 0.40382222222222225,
      "grad_norm": 1.6039096117019653,
      "learning_rate": 0.00011926205823516337,
      "loss": 2.0484,
      "step": 18172
    },
    {
      "epoch": 0.40384444444444445,
      "grad_norm": 1.7876720428466797,
      "learning_rate": 0.00011925761280284509,
      "loss": 2.2813,
      "step": 18173
    },
    {
      "epoch": 0.40386666666666665,
      "grad_norm": 1.4330644607543945,
      "learning_rate": 0.00011925316737052679,
      "loss": 1.6873,
      "step": 18174
    },
    {
      "epoch": 0.4038888888888889,
      "grad_norm": 1.661274790763855,
      "learning_rate": 0.00011924872193820851,
      "loss": 2.1526,
      "step": 18175
    },
    {
      "epoch": 0.4039111111111111,
      "grad_norm": 1.6883121728897095,
      "learning_rate": 0.0001192442765058902,
      "loss": 1.869,
      "step": 18176
    },
    {
      "epoch": 0.4039333333333333,
      "grad_norm": 1.4526169300079346,
      "learning_rate": 0.0001192398310735719,
      "loss": 1.659,
      "step": 18177
    },
    {
      "epoch": 0.40395555555555557,
      "grad_norm": 1.6045536994934082,
      "learning_rate": 0.00011923538564125362,
      "loss": 2.2137,
      "step": 18178
    },
    {
      "epoch": 0.40397777777777777,
      "grad_norm": 1.7263412475585938,
      "learning_rate": 0.00011923094020893533,
      "loss": 1.9472,
      "step": 18179
    },
    {
      "epoch": 0.404,
      "grad_norm": 1.591740608215332,
      "learning_rate": 0.00011922649477661703,
      "loss": 1.9771,
      "step": 18180
    },
    {
      "epoch": 0.4040222222222222,
      "grad_norm": 1.4597697257995605,
      "learning_rate": 0.00011922204934429875,
      "loss": 1.7045,
      "step": 18181
    },
    {
      "epoch": 0.40404444444444443,
      "grad_norm": 1.5470978021621704,
      "learning_rate": 0.00011921760391198045,
      "loss": 1.7124,
      "step": 18182
    },
    {
      "epoch": 0.4040666666666667,
      "grad_norm": 1.7897844314575195,
      "learning_rate": 0.00011921315847966214,
      "loss": 2.0365,
      "step": 18183
    },
    {
      "epoch": 0.4040888888888889,
      "grad_norm": 1.8384076356887817,
      "learning_rate": 0.00011920871304734387,
      "loss": 2.0803,
      "step": 18184
    },
    {
      "epoch": 0.4041111111111111,
      "grad_norm": 1.6948463916778564,
      "learning_rate": 0.00011920426761502556,
      "loss": 1.7058,
      "step": 18185
    },
    {
      "epoch": 0.40413333333333334,
      "grad_norm": 1.4953293800354004,
      "learning_rate": 0.00011919982218270726,
      "loss": 1.7881,
      "step": 18186
    },
    {
      "epoch": 0.40415555555555555,
      "grad_norm": 1.4180347919464111,
      "learning_rate": 0.00011919537675038898,
      "loss": 1.4439,
      "step": 18187
    },
    {
      "epoch": 0.4041777777777778,
      "grad_norm": 1.170483946800232,
      "learning_rate": 0.00011919093131807069,
      "loss": 1.0609,
      "step": 18188
    },
    {
      "epoch": 0.4042,
      "grad_norm": 1.9359896183013916,
      "learning_rate": 0.00011918648588575239,
      "loss": 2.0905,
      "step": 18189
    },
    {
      "epoch": 0.4042222222222222,
      "grad_norm": 1.3505561351776123,
      "learning_rate": 0.00011918204045343411,
      "loss": 1.2821,
      "step": 18190
    },
    {
      "epoch": 0.40424444444444446,
      "grad_norm": 1.5842376947402954,
      "learning_rate": 0.00011917759502111581,
      "loss": 1.8804,
      "step": 18191
    },
    {
      "epoch": 0.40426666666666666,
      "grad_norm": 1.72828209400177,
      "learning_rate": 0.0001191731495887975,
      "loss": 1.7735,
      "step": 18192
    },
    {
      "epoch": 0.40428888888888886,
      "grad_norm": 1.702847957611084,
      "learning_rate": 0.00011916870415647923,
      "loss": 2.0182,
      "step": 18193
    },
    {
      "epoch": 0.4043111111111111,
      "grad_norm": 1.5730551481246948,
      "learning_rate": 0.00011916425872416092,
      "loss": 2.0833,
      "step": 18194
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 1.9011549949645996,
      "learning_rate": 0.00011915981329184265,
      "loss": 2.0215,
      "step": 18195
    },
    {
      "epoch": 0.4043555555555556,
      "grad_norm": 1.4714125394821167,
      "learning_rate": 0.00011915536785952434,
      "loss": 1.5166,
      "step": 18196
    },
    {
      "epoch": 0.4043777777777778,
      "grad_norm": 1.4855742454528809,
      "learning_rate": 0.00011915092242720605,
      "loss": 1.6217,
      "step": 18197
    },
    {
      "epoch": 0.4044,
      "grad_norm": 1.9896841049194336,
      "learning_rate": 0.00011914647699488776,
      "loss": 2.2441,
      "step": 18198
    },
    {
      "epoch": 0.40442222222222224,
      "grad_norm": 1.1669923067092896,
      "learning_rate": 0.00011914203156256947,
      "loss": 0.7544,
      "step": 18199
    },
    {
      "epoch": 0.40444444444444444,
      "grad_norm": 1.745063066482544,
      "learning_rate": 0.00011913758613025117,
      "loss": 1.9002,
      "step": 18200
    },
    {
      "epoch": 0.40446666666666664,
      "grad_norm": 3.632737398147583,
      "learning_rate": 0.00011913314069793289,
      "loss": 2.2709,
      "step": 18201
    },
    {
      "epoch": 0.4044888888888889,
      "grad_norm": 1.2910038232803345,
      "learning_rate": 0.00011912869526561459,
      "loss": 2.0885,
      "step": 18202
    },
    {
      "epoch": 0.4045111111111111,
      "grad_norm": 1.4786535501480103,
      "learning_rate": 0.00011912424983329628,
      "loss": 2.2345,
      "step": 18203
    },
    {
      "epoch": 0.40453333333333336,
      "grad_norm": 1.6671767234802246,
      "learning_rate": 0.000119119804400978,
      "loss": 2.1685,
      "step": 18204
    },
    {
      "epoch": 0.40455555555555556,
      "grad_norm": 1.436065673828125,
      "learning_rate": 0.0001191153589686597,
      "loss": 1.7228,
      "step": 18205
    },
    {
      "epoch": 0.40457777777777776,
      "grad_norm": 1.3912395238876343,
      "learning_rate": 0.00011911091353634141,
      "loss": 2.1666,
      "step": 18206
    },
    {
      "epoch": 0.4046,
      "grad_norm": 1.2622642517089844,
      "learning_rate": 0.00011910646810402312,
      "loss": 1.982,
      "step": 18207
    },
    {
      "epoch": 0.4046222222222222,
      "grad_norm": 1.4129036664962769,
      "learning_rate": 0.00011910202267170483,
      "loss": 2.0431,
      "step": 18208
    },
    {
      "epoch": 0.4046444444444444,
      "grad_norm": 1.4629384279251099,
      "learning_rate": 0.00011909757723938653,
      "loss": 2.5121,
      "step": 18209
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 0.40152913331985474,
      "learning_rate": 0.00011909313180706825,
      "loss": 0.0217,
      "step": 18210
    },
    {
      "epoch": 0.4046888888888889,
      "grad_norm": 1.663925051689148,
      "learning_rate": 0.00011908868637474995,
      "loss": 2.6971,
      "step": 18211
    },
    {
      "epoch": 0.40471111111111113,
      "grad_norm": 1.4911085367202759,
      "learning_rate": 0.00011908424094243164,
      "loss": 2.1454,
      "step": 18212
    },
    {
      "epoch": 0.40473333333333333,
      "grad_norm": 1.5409842729568481,
      "learning_rate": 0.00011907979551011337,
      "loss": 2.1828,
      "step": 18213
    },
    {
      "epoch": 0.40475555555555554,
      "grad_norm": 1.2249994277954102,
      "learning_rate": 0.00011907535007779506,
      "loss": 1.4302,
      "step": 18214
    },
    {
      "epoch": 0.4047777777777778,
      "grad_norm": 1.5915207862854004,
      "learning_rate": 0.00011907090464547678,
      "loss": 2.4778,
      "step": 18215
    },
    {
      "epoch": 0.4048,
      "grad_norm": 1.4868204593658447,
      "learning_rate": 0.0001190664592131585,
      "loss": 1.9385,
      "step": 18216
    },
    {
      "epoch": 0.40482222222222225,
      "grad_norm": 1.3515928983688354,
      "learning_rate": 0.00011906201378084019,
      "loss": 1.8914,
      "step": 18217
    },
    {
      "epoch": 0.40484444444444445,
      "grad_norm": 1.560031771659851,
      "learning_rate": 0.00011905756834852191,
      "loss": 2.0712,
      "step": 18218
    },
    {
      "epoch": 0.40486666666666665,
      "grad_norm": 1.740299940109253,
      "learning_rate": 0.00011905312291620361,
      "loss": 2.3052,
      "step": 18219
    },
    {
      "epoch": 0.4048888888888889,
      "grad_norm": 1.5395324230194092,
      "learning_rate": 0.0001190486774838853,
      "loss": 2.0386,
      "step": 18220
    },
    {
      "epoch": 0.4049111111111111,
      "grad_norm": 1.5877485275268555,
      "learning_rate": 0.00011904423205156703,
      "loss": 0.04,
      "step": 18221
    },
    {
      "epoch": 0.4049333333333333,
      "grad_norm": 1.3332451581954956,
      "learning_rate": 0.00011903978661924873,
      "loss": 1.6058,
      "step": 18222
    },
    {
      "epoch": 0.40495555555555557,
      "grad_norm": 1.144763469696045,
      "learning_rate": 0.00011903534118693042,
      "loss": 1.1397,
      "step": 18223
    },
    {
      "epoch": 0.40497777777777777,
      "grad_norm": 1.7462438344955444,
      "learning_rate": 0.00011903089575461214,
      "loss": 2.3006,
      "step": 18224
    },
    {
      "epoch": 0.405,
      "grad_norm": 1.7219743728637695,
      "learning_rate": 0.00011902645032229385,
      "loss": 1.7731,
      "step": 18225
    },
    {
      "epoch": 0.40502222222222223,
      "grad_norm": 1.570325255393982,
      "learning_rate": 0.00011902200488997555,
      "loss": 2.0488,
      "step": 18226
    },
    {
      "epoch": 0.40504444444444443,
      "grad_norm": 1.6483135223388672,
      "learning_rate": 0.00011901755945765727,
      "loss": 1.7872,
      "step": 18227
    },
    {
      "epoch": 0.4050666666666667,
      "grad_norm": 1.6197253465652466,
      "learning_rate": 0.00011901311402533897,
      "loss": 2.1223,
      "step": 18228
    },
    {
      "epoch": 0.4050888888888889,
      "grad_norm": 2.3528482913970947,
      "learning_rate": 0.00011900866859302067,
      "loss": 2.0731,
      "step": 18229
    },
    {
      "epoch": 0.4051111111111111,
      "grad_norm": 1.4950696229934692,
      "learning_rate": 0.00011900422316070239,
      "loss": 2.1669,
      "step": 18230
    },
    {
      "epoch": 0.40513333333333335,
      "grad_norm": 1.9048789739608765,
      "learning_rate": 0.00011899977772838408,
      "loss": 2.1555,
      "step": 18231
    },
    {
      "epoch": 0.40515555555555555,
      "grad_norm": 2.28265643119812,
      "learning_rate": 0.00011899533229606581,
      "loss": 1.6046,
      "step": 18232
    },
    {
      "epoch": 0.4051777777777778,
      "grad_norm": 1.3964709043502808,
      "learning_rate": 0.0001189908868637475,
      "loss": 1.2159,
      "step": 18233
    },
    {
      "epoch": 0.4052,
      "grad_norm": 1.5677235126495361,
      "learning_rate": 0.00011898644143142921,
      "loss": 1.628,
      "step": 18234
    },
    {
      "epoch": 0.4052222222222222,
      "grad_norm": 1.7439329624176025,
      "learning_rate": 0.00011898199599911092,
      "loss": 2.2096,
      "step": 18235
    },
    {
      "epoch": 0.40524444444444446,
      "grad_norm": 1.5984026193618774,
      "learning_rate": 0.00011897755056679263,
      "loss": 1.8184,
      "step": 18236
    },
    {
      "epoch": 0.40526666666666666,
      "grad_norm": 1.6311813592910767,
      "learning_rate": 0.00011897310513447433,
      "loss": 2.0313,
      "step": 18237
    },
    {
      "epoch": 0.40528888888888887,
      "grad_norm": 1.6732701063156128,
      "learning_rate": 0.00011896865970215605,
      "loss": 2.2072,
      "step": 18238
    },
    {
      "epoch": 0.4053111111111111,
      "grad_norm": 1.944547414779663,
      "learning_rate": 0.00011896421426983775,
      "loss": 1.8654,
      "step": 18239
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 1.8813560009002686,
      "learning_rate": 0.00011895976883751944,
      "loss": 1.973,
      "step": 18240
    },
    {
      "epoch": 0.4053555555555556,
      "grad_norm": 1.3945178985595703,
      "learning_rate": 0.00011895532340520117,
      "loss": 1.4721,
      "step": 18241
    },
    {
      "epoch": 0.4053777777777778,
      "grad_norm": 1.5629310607910156,
      "learning_rate": 0.00011895087797288286,
      "loss": 2.1093,
      "step": 18242
    },
    {
      "epoch": 0.4054,
      "grad_norm": 1.7030160427093506,
      "learning_rate": 0.00011894643254056457,
      "loss": 1.4167,
      "step": 18243
    },
    {
      "epoch": 0.40542222222222224,
      "grad_norm": 1.444106101989746,
      "learning_rate": 0.00011894198710824628,
      "loss": 1.6756,
      "step": 18244
    },
    {
      "epoch": 0.40544444444444444,
      "grad_norm": 1.8063217401504517,
      "learning_rate": 0.00011893754167592799,
      "loss": 1.9331,
      "step": 18245
    },
    {
      "epoch": 0.40546666666666664,
      "grad_norm": 2.077916383743286,
      "learning_rate": 0.00011893309624360969,
      "loss": 1.8576,
      "step": 18246
    },
    {
      "epoch": 0.4054888888888889,
      "grad_norm": 1.6482841968536377,
      "learning_rate": 0.00011892865081129141,
      "loss": 1.574,
      "step": 18247
    },
    {
      "epoch": 0.4055111111111111,
      "grad_norm": 1.3979231119155884,
      "learning_rate": 0.00011892420537897311,
      "loss": 1.5773,
      "step": 18248
    },
    {
      "epoch": 0.40553333333333336,
      "grad_norm": 0.948693573474884,
      "learning_rate": 0.0001189197599466548,
      "loss": 0.0563,
      "step": 18249
    },
    {
      "epoch": 0.40555555555555556,
      "grad_norm": 1.406809687614441,
      "learning_rate": 0.00011891531451433653,
      "loss": 0.9537,
      "step": 18250
    },
    {
      "epoch": 0.40557777777777776,
      "grad_norm": 1.5645028352737427,
      "learning_rate": 0.00011891086908201822,
      "loss": 2.146,
      "step": 18251
    },
    {
      "epoch": 0.4056,
      "grad_norm": 1.2597970962524414,
      "learning_rate": 0.00011890642364969995,
      "loss": 2.098,
      "step": 18252
    },
    {
      "epoch": 0.4056222222222222,
      "grad_norm": 1.4889237880706787,
      "learning_rate": 0.00011890197821738166,
      "loss": 2.1564,
      "step": 18253
    },
    {
      "epoch": 0.4056444444444444,
      "grad_norm": 1.4485690593719482,
      "learning_rate": 0.00011889753278506335,
      "loss": 2.2273,
      "step": 18254
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 1.26249361038208,
      "learning_rate": 0.00011889308735274507,
      "loss": 2.1376,
      "step": 18255
    },
    {
      "epoch": 0.4056888888888889,
      "grad_norm": 1.7725685834884644,
      "learning_rate": 0.00011888864192042677,
      "loss": 2.2669,
      "step": 18256
    },
    {
      "epoch": 0.40571111111111113,
      "grad_norm": 1.4836219549179077,
      "learning_rate": 0.00011888419648810847,
      "loss": 1.9057,
      "step": 18257
    },
    {
      "epoch": 0.40573333333333333,
      "grad_norm": 0.9402803778648376,
      "learning_rate": 0.00011887975105579019,
      "loss": 1.076,
      "step": 18258
    },
    {
      "epoch": 0.40575555555555554,
      "grad_norm": 1.9474564790725708,
      "learning_rate": 0.00011887530562347189,
      "loss": 2.9111,
      "step": 18259
    },
    {
      "epoch": 0.4057777777777778,
      "grad_norm": 1.6059342622756958,
      "learning_rate": 0.00011887086019115358,
      "loss": 2.2168,
      "step": 18260
    },
    {
      "epoch": 0.4058,
      "grad_norm": 1.4673147201538086,
      "learning_rate": 0.0001188664147588353,
      "loss": 1.6725,
      "step": 18261
    },
    {
      "epoch": 0.4058222222222222,
      "grad_norm": 1.6334761381149292,
      "learning_rate": 0.00011886196932651701,
      "loss": 2.3697,
      "step": 18262
    },
    {
      "epoch": 0.40584444444444445,
      "grad_norm": 1.7637455463409424,
      "learning_rate": 0.00011885752389419871,
      "loss": 2.4317,
      "step": 18263
    },
    {
      "epoch": 0.40586666666666665,
      "grad_norm": 1.3630495071411133,
      "learning_rate": 0.00011885307846188043,
      "loss": 1.385,
      "step": 18264
    },
    {
      "epoch": 0.4058888888888889,
      "grad_norm": 1.7942962646484375,
      "learning_rate": 0.00011884863302956213,
      "loss": 2.4603,
      "step": 18265
    },
    {
      "epoch": 0.4059111111111111,
      "grad_norm": 1.817543864250183,
      "learning_rate": 0.00011884418759724383,
      "loss": 2.498,
      "step": 18266
    },
    {
      "epoch": 0.4059333333333333,
      "grad_norm": 1.7877477407455444,
      "learning_rate": 0.00011883974216492555,
      "loss": 1.102,
      "step": 18267
    },
    {
      "epoch": 0.40595555555555557,
      "grad_norm": 1.7063651084899902,
      "learning_rate": 0.00011883529673260725,
      "loss": 2.1244,
      "step": 18268
    },
    {
      "epoch": 0.40597777777777777,
      "grad_norm": 1.481486201286316,
      "learning_rate": 0.00011883085130028894,
      "loss": 2.2369,
      "step": 18269
    },
    {
      "epoch": 0.406,
      "grad_norm": 1.8921163082122803,
      "learning_rate": 0.00011882640586797066,
      "loss": 1.8919,
      "step": 18270
    },
    {
      "epoch": 0.40602222222222223,
      "grad_norm": 1.6709208488464355,
      "learning_rate": 0.00011882196043565237,
      "loss": 2.161,
      "step": 18271
    },
    {
      "epoch": 0.40604444444444443,
      "grad_norm": 1.5115690231323242,
      "learning_rate": 0.00011881751500333408,
      "loss": 2.4067,
      "step": 18272
    },
    {
      "epoch": 0.4060666666666667,
      "grad_norm": 1.6130493879318237,
      "learning_rate": 0.0001188130695710158,
      "loss": 1.748,
      "step": 18273
    },
    {
      "epoch": 0.4060888888888889,
      "grad_norm": 1.6236677169799805,
      "learning_rate": 0.00011880862413869749,
      "loss": 1.9555,
      "step": 18274
    },
    {
      "epoch": 0.4061111111111111,
      "grad_norm": 1.5908842086791992,
      "learning_rate": 0.00011880417870637921,
      "loss": 1.9969,
      "step": 18275
    },
    {
      "epoch": 0.40613333333333335,
      "grad_norm": 1.7402973175048828,
      "learning_rate": 0.00011879973327406091,
      "loss": 1.7133,
      "step": 18276
    },
    {
      "epoch": 0.40615555555555555,
      "grad_norm": 1.49334716796875,
      "learning_rate": 0.0001187952878417426,
      "loss": 1.8736,
      "step": 18277
    },
    {
      "epoch": 0.4061777777777778,
      "grad_norm": 1.5122689008712769,
      "learning_rate": 0.00011879084240942433,
      "loss": 2.085,
      "step": 18278
    },
    {
      "epoch": 0.4062,
      "grad_norm": 1.507084846496582,
      "learning_rate": 0.00011878639697710602,
      "loss": 2.2335,
      "step": 18279
    },
    {
      "epoch": 0.4062222222222222,
      "grad_norm": 1.7164816856384277,
      "learning_rate": 0.00011878195154478773,
      "loss": 1.806,
      "step": 18280
    },
    {
      "epoch": 0.40624444444444446,
      "grad_norm": 1.3856956958770752,
      "learning_rate": 0.00011877750611246944,
      "loss": 1.763,
      "step": 18281
    },
    {
      "epoch": 0.40626666666666666,
      "grad_norm": 2.074124336242676,
      "learning_rate": 0.00011877306068015115,
      "loss": 1.8302,
      "step": 18282
    },
    {
      "epoch": 0.40628888888888887,
      "grad_norm": 1.5221619606018066,
      "learning_rate": 0.00011876861524783285,
      "loss": 1.8459,
      "step": 18283
    },
    {
      "epoch": 0.4063111111111111,
      "grad_norm": 1.532131314277649,
      "learning_rate": 0.00011876416981551457,
      "loss": 2.0245,
      "step": 18284
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 1.8057657480239868,
      "learning_rate": 0.00011875972438319627,
      "loss": 1.7435,
      "step": 18285
    },
    {
      "epoch": 0.4063555555555556,
      "grad_norm": 1.754274606704712,
      "learning_rate": 0.00011875527895087796,
      "loss": 1.7916,
      "step": 18286
    },
    {
      "epoch": 0.4063777777777778,
      "grad_norm": 1.8141182661056519,
      "learning_rate": 0.00011875083351855969,
      "loss": 1.779,
      "step": 18287
    },
    {
      "epoch": 0.4064,
      "grad_norm": 1.7444121837615967,
      "learning_rate": 0.00011874638808624138,
      "loss": 2.0078,
      "step": 18288
    },
    {
      "epoch": 0.40642222222222224,
      "grad_norm": 1.5812971591949463,
      "learning_rate": 0.00011874194265392311,
      "loss": 1.563,
      "step": 18289
    },
    {
      "epoch": 0.40644444444444444,
      "grad_norm": 1.3307442665100098,
      "learning_rate": 0.00011873749722160482,
      "loss": 1.6411,
      "step": 18290
    },
    {
      "epoch": 0.40646666666666664,
      "grad_norm": 1.8188961744308472,
      "learning_rate": 0.00011873305178928651,
      "loss": 2.144,
      "step": 18291
    },
    {
      "epoch": 0.4064888888888889,
      "grad_norm": 1.7973947525024414,
      "learning_rate": 0.00011872860635696824,
      "loss": 1.9232,
      "step": 18292
    },
    {
      "epoch": 0.4065111111111111,
      "grad_norm": 1.7301462888717651,
      "learning_rate": 0.00011872416092464993,
      "loss": 1.8777,
      "step": 18293
    },
    {
      "epoch": 0.40653333333333336,
      "grad_norm": 2.172051191329956,
      "learning_rate": 0.00011871971549233163,
      "loss": 2.0684,
      "step": 18294
    },
    {
      "epoch": 0.40655555555555556,
      "grad_norm": 1.8668184280395508,
      "learning_rate": 0.00011871527006001335,
      "loss": 1.7567,
      "step": 18295
    },
    {
      "epoch": 0.40657777777777776,
      "grad_norm": 1.6467583179473877,
      "learning_rate": 0.00011871082462769505,
      "loss": 1.8998,
      "step": 18296
    },
    {
      "epoch": 0.4066,
      "grad_norm": 1.5594199895858765,
      "learning_rate": 0.00011870637919537674,
      "loss": 1.697,
      "step": 18297
    },
    {
      "epoch": 0.4066222222222222,
      "grad_norm": 2.0225024223327637,
      "learning_rate": 0.00011870193376305847,
      "loss": 1.8382,
      "step": 18298
    },
    {
      "epoch": 0.4066444444444444,
      "grad_norm": 1.6836086511611938,
      "learning_rate": 0.00011869748833074018,
      "loss": 1.8154,
      "step": 18299
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 1.3426727056503296,
      "learning_rate": 0.00011869304289842187,
      "loss": 0.8994,
      "step": 18300
    },
    {
      "epoch": 0.4066888888888889,
      "grad_norm": 1.525103211402893,
      "learning_rate": 0.0001186885974661036,
      "loss": 2.2973,
      "step": 18301
    },
    {
      "epoch": 0.40671111111111113,
      "grad_norm": 1.2482104301452637,
      "learning_rate": 0.00011868415203378529,
      "loss": 2.2429,
      "step": 18302
    },
    {
      "epoch": 0.40673333333333334,
      "grad_norm": 1.3542413711547852,
      "learning_rate": 0.00011867970660146699,
      "loss": 2.3917,
      "step": 18303
    },
    {
      "epoch": 0.40675555555555554,
      "grad_norm": 1.3620736598968506,
      "learning_rate": 0.00011867526116914871,
      "loss": 2.0563,
      "step": 18304
    },
    {
      "epoch": 0.4067777777777778,
      "grad_norm": 1.232704758644104,
      "learning_rate": 0.0001186708157368304,
      "loss": 1.0528,
      "step": 18305
    },
    {
      "epoch": 0.4068,
      "grad_norm": 1.3780325651168823,
      "learning_rate": 0.0001186663703045121,
      "loss": 2.0687,
      "step": 18306
    },
    {
      "epoch": 0.4068222222222222,
      "grad_norm": 1.3442492485046387,
      "learning_rate": 0.00011866192487219383,
      "loss": 2.2855,
      "step": 18307
    },
    {
      "epoch": 0.40684444444444445,
      "grad_norm": 1.6147594451904297,
      "learning_rate": 0.00011865747943987554,
      "loss": 2.1321,
      "step": 18308
    },
    {
      "epoch": 0.40686666666666665,
      "grad_norm": 1.4173080921173096,
      "learning_rate": 0.00011865303400755725,
      "loss": 2.1615,
      "step": 18309
    },
    {
      "epoch": 0.4068888888888889,
      "grad_norm": 1.3885114192962646,
      "learning_rate": 0.00011864858857523895,
      "loss": 2.3822,
      "step": 18310
    },
    {
      "epoch": 0.4069111111111111,
      "grad_norm": 1.7090438604354858,
      "learning_rate": 0.00011864414314292065,
      "loss": 2.2369,
      "step": 18311
    },
    {
      "epoch": 0.4069333333333333,
      "grad_norm": 1.4115911722183228,
      "learning_rate": 0.00011863969771060237,
      "loss": 2.3729,
      "step": 18312
    },
    {
      "epoch": 0.40695555555555557,
      "grad_norm": 1.579321026802063,
      "learning_rate": 0.00011863525227828407,
      "loss": 2.3666,
      "step": 18313
    },
    {
      "epoch": 0.40697777777777777,
      "grad_norm": 0.8840075731277466,
      "learning_rate": 0.00011863080684596577,
      "loss": 0.8593,
      "step": 18314
    },
    {
      "epoch": 0.407,
      "grad_norm": 1.612958312034607,
      "learning_rate": 0.00011862636141364749,
      "loss": 1.9756,
      "step": 18315
    },
    {
      "epoch": 0.40702222222222223,
      "grad_norm": 1.5006320476531982,
      "learning_rate": 0.00011862191598132919,
      "loss": 1.8177,
      "step": 18316
    },
    {
      "epoch": 0.40704444444444443,
      "grad_norm": 1.7685210704803467,
      "learning_rate": 0.0001186174705490109,
      "loss": 2.61,
      "step": 18317
    },
    {
      "epoch": 0.4070666666666667,
      "grad_norm": 1.3945064544677734,
      "learning_rate": 0.0001186130251166926,
      "loss": 2.2805,
      "step": 18318
    },
    {
      "epoch": 0.4070888888888889,
      "grad_norm": 1.3785061836242676,
      "learning_rate": 0.00011860857968437431,
      "loss": 1.8531,
      "step": 18319
    },
    {
      "epoch": 0.4071111111111111,
      "grad_norm": 1.6502935886383057,
      "learning_rate": 0.00011860413425205601,
      "loss": 2.148,
      "step": 18320
    },
    {
      "epoch": 0.40713333333333335,
      "grad_norm": 1.765188217163086,
      "learning_rate": 0.00011859968881973773,
      "loss": 2.2911,
      "step": 18321
    },
    {
      "epoch": 0.40715555555555555,
      "grad_norm": 1.623776912689209,
      "learning_rate": 0.00011859524338741943,
      "loss": 2.0197,
      "step": 18322
    },
    {
      "epoch": 0.4071777777777778,
      "grad_norm": 1.6480404138565063,
      "learning_rate": 0.00011859079795510113,
      "loss": 2.4175,
      "step": 18323
    },
    {
      "epoch": 0.4072,
      "grad_norm": 1.4183921813964844,
      "learning_rate": 0.00011858635252278285,
      "loss": 2.1645,
      "step": 18324
    },
    {
      "epoch": 0.4072222222222222,
      "grad_norm": 1.9926460981369019,
      "learning_rate": 0.00011858190709046454,
      "loss": 2.4488,
      "step": 18325
    },
    {
      "epoch": 0.40724444444444446,
      "grad_norm": 1.4074591398239136,
      "learning_rate": 0.00011857746165814625,
      "loss": 1.7604,
      "step": 18326
    },
    {
      "epoch": 0.40726666666666667,
      "grad_norm": 1.542858362197876,
      "learning_rate": 0.00011857301622582798,
      "loss": 1.8299,
      "step": 18327
    },
    {
      "epoch": 0.40728888888888887,
      "grad_norm": 1.5779011249542236,
      "learning_rate": 0.00011856857079350967,
      "loss": 2.0079,
      "step": 18328
    },
    {
      "epoch": 0.4073111111111111,
      "grad_norm": 1.8314589262008667,
      "learning_rate": 0.0001185641253611914,
      "loss": 1.9725,
      "step": 18329
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 1.8180900812149048,
      "learning_rate": 0.00011855967992887309,
      "loss": 2.3495,
      "step": 18330
    },
    {
      "epoch": 0.4073555555555556,
      "grad_norm": 1.3180170059204102,
      "learning_rate": 0.00011855523449655479,
      "loss": 1.4815,
      "step": 18331
    },
    {
      "epoch": 0.4073777777777778,
      "grad_norm": 1.672060489654541,
      "learning_rate": 0.00011855078906423651,
      "loss": 2.3694,
      "step": 18332
    },
    {
      "epoch": 0.4074,
      "grad_norm": 1.5374871492385864,
      "learning_rate": 0.00011854634363191821,
      "loss": 1.9338,
      "step": 18333
    },
    {
      "epoch": 0.40742222222222224,
      "grad_norm": 1.511668086051941,
      "learning_rate": 0.0001185418981995999,
      "loss": 2.0134,
      "step": 18334
    },
    {
      "epoch": 0.40744444444444444,
      "grad_norm": 0.1844966858625412,
      "learning_rate": 0.00011853745276728163,
      "loss": 0.0322,
      "step": 18335
    },
    {
      "epoch": 0.40746666666666664,
      "grad_norm": 1.342575192451477,
      "learning_rate": 0.00011853300733496334,
      "loss": 1.3895,
      "step": 18336
    },
    {
      "epoch": 0.4074888888888889,
      "grad_norm": 1.8523614406585693,
      "learning_rate": 0.00011852856190264503,
      "loss": 2.4441,
      "step": 18337
    },
    {
      "epoch": 0.4075111111111111,
      "grad_norm": 2.0720596313476562,
      "learning_rate": 0.00011852411647032676,
      "loss": 1.645,
      "step": 18338
    },
    {
      "epoch": 0.40753333333333336,
      "grad_norm": 1.600732445716858,
      "learning_rate": 0.00011851967103800845,
      "loss": 1.8338,
      "step": 18339
    },
    {
      "epoch": 0.40755555555555556,
      "grad_norm": 0.9698682427406311,
      "learning_rate": 0.00011851522560569015,
      "loss": 0.5724,
      "step": 18340
    },
    {
      "epoch": 0.40757777777777776,
      "grad_norm": 1.6510275602340698,
      "learning_rate": 0.00011851078017337187,
      "loss": 1.8291,
      "step": 18341
    },
    {
      "epoch": 0.4076,
      "grad_norm": 1.7450324296951294,
      "learning_rate": 0.00011850633474105357,
      "loss": 2.0296,
      "step": 18342
    },
    {
      "epoch": 0.4076222222222222,
      "grad_norm": 1.5960859060287476,
      "learning_rate": 0.00011850188930873526,
      "loss": 1.5418,
      "step": 18343
    },
    {
      "epoch": 0.4076444444444444,
      "grad_norm": 1.678398609161377,
      "learning_rate": 0.00011849744387641699,
      "loss": 1.6619,
      "step": 18344
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 1.6656380891799927,
      "learning_rate": 0.0001184929984440987,
      "loss": 1.5601,
      "step": 18345
    },
    {
      "epoch": 0.4076888888888889,
      "grad_norm": 1.6934525966644287,
      "learning_rate": 0.0001184885530117804,
      "loss": 1.6845,
      "step": 18346
    },
    {
      "epoch": 0.40771111111111114,
      "grad_norm": 1.977484941482544,
      "learning_rate": 0.00011848410757946212,
      "loss": 1.8332,
      "step": 18347
    },
    {
      "epoch": 0.40773333333333334,
      "grad_norm": 1.7366583347320557,
      "learning_rate": 0.00011847966214714381,
      "loss": 1.5317,
      "step": 18348
    },
    {
      "epoch": 0.40775555555555554,
      "grad_norm": 1.9014544486999512,
      "learning_rate": 0.00011847521671482553,
      "loss": 1.9425,
      "step": 18349
    },
    {
      "epoch": 0.4077777777777778,
      "grad_norm": 1.669359564781189,
      "learning_rate": 0.00011847077128250723,
      "loss": 1.6117,
      "step": 18350
    },
    {
      "epoch": 0.4078,
      "grad_norm": 1.4618183374404907,
      "learning_rate": 0.00011846632585018893,
      "loss": 2.5029,
      "step": 18351
    },
    {
      "epoch": 0.4078222222222222,
      "grad_norm": 1.6119920015335083,
      "learning_rate": 0.00011846188041787065,
      "loss": 3.005,
      "step": 18352
    },
    {
      "epoch": 0.40784444444444445,
      "grad_norm": 1.1675701141357422,
      "learning_rate": 0.00011845743498555235,
      "loss": 2.0798,
      "step": 18353
    },
    {
      "epoch": 0.40786666666666666,
      "grad_norm": 1.4864598512649536,
      "learning_rate": 0.00011845298955323406,
      "loss": 2.5566,
      "step": 18354
    },
    {
      "epoch": 0.4078888888888889,
      "grad_norm": 1.2138233184814453,
      "learning_rate": 0.00011844854412091577,
      "loss": 1.1377,
      "step": 18355
    },
    {
      "epoch": 0.4079111111111111,
      "grad_norm": 1.2766743898391724,
      "learning_rate": 0.00011844409868859748,
      "loss": 1.8778,
      "step": 18356
    },
    {
      "epoch": 0.4079333333333333,
      "grad_norm": 1.4717050790786743,
      "learning_rate": 0.00011843965325627917,
      "loss": 2.0998,
      "step": 18357
    },
    {
      "epoch": 0.40795555555555557,
      "grad_norm": 1.301331877708435,
      "learning_rate": 0.0001184352078239609,
      "loss": 2.0003,
      "step": 18358
    },
    {
      "epoch": 0.4079777777777778,
      "grad_norm": 1.3794567584991455,
      "learning_rate": 0.00011843076239164259,
      "loss": 1.9469,
      "step": 18359
    },
    {
      "epoch": 0.408,
      "grad_norm": 1.7025985717773438,
      "learning_rate": 0.00011842631695932429,
      "loss": 2.4856,
      "step": 18360
    },
    {
      "epoch": 0.40802222222222223,
      "grad_norm": 1.4430817365646362,
      "learning_rate": 0.00011842187152700601,
      "loss": 2.0413,
      "step": 18361
    },
    {
      "epoch": 0.40804444444444443,
      "grad_norm": 1.3339545726776123,
      "learning_rate": 0.0001184174260946877,
      "loss": 2.1122,
      "step": 18362
    },
    {
      "epoch": 0.4080666666666667,
      "grad_norm": 1.87492036819458,
      "learning_rate": 0.00011841298066236942,
      "loss": 2.3991,
      "step": 18363
    },
    {
      "epoch": 0.4080888888888889,
      "grad_norm": 1.3804986476898193,
      "learning_rate": 0.00011840853523005114,
      "loss": 1.857,
      "step": 18364
    },
    {
      "epoch": 0.4081111111111111,
      "grad_norm": 1.4091072082519531,
      "learning_rate": 0.00011840408979773283,
      "loss": 1.7249,
      "step": 18365
    },
    {
      "epoch": 0.40813333333333335,
      "grad_norm": 1.6864361763000488,
      "learning_rate": 0.00011839964436541456,
      "loss": 1.6781,
      "step": 18366
    },
    {
      "epoch": 0.40815555555555555,
      "grad_norm": 1.6946038007736206,
      "learning_rate": 0.00011839519893309625,
      "loss": 2.2542,
      "step": 18367
    },
    {
      "epoch": 0.40817777777777775,
      "grad_norm": 2.2899723052978516,
      "learning_rate": 0.00011839075350077795,
      "loss": 2.0671,
      "step": 18368
    },
    {
      "epoch": 0.4082,
      "grad_norm": 1.9431887865066528,
      "learning_rate": 0.00011838630806845967,
      "loss": 2.1649,
      "step": 18369
    },
    {
      "epoch": 0.4082222222222222,
      "grad_norm": 1.651944637298584,
      "learning_rate": 0.00011838186263614137,
      "loss": 1.773,
      "step": 18370
    },
    {
      "epoch": 0.40824444444444447,
      "grad_norm": 1.6819660663604736,
      "learning_rate": 0.00011837741720382307,
      "loss": 2.0361,
      "step": 18371
    },
    {
      "epoch": 0.40826666666666667,
      "grad_norm": 1.6483231782913208,
      "learning_rate": 0.00011837297177150479,
      "loss": 1.7164,
      "step": 18372
    },
    {
      "epoch": 0.40828888888888887,
      "grad_norm": 1.4523004293441772,
      "learning_rate": 0.0001183685263391865,
      "loss": 1.7078,
      "step": 18373
    },
    {
      "epoch": 0.4083111111111111,
      "grad_norm": 1.3939298391342163,
      "learning_rate": 0.0001183640809068682,
      "loss": 1.5014,
      "step": 18374
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 0.4794381558895111,
      "learning_rate": 0.00011835963547454992,
      "loss": 0.0287,
      "step": 18375
    },
    {
      "epoch": 0.4083555555555556,
      "grad_norm": 0.9191429018974304,
      "learning_rate": 0.00011835519004223161,
      "loss": 0.6623,
      "step": 18376
    },
    {
      "epoch": 0.4083777777777778,
      "grad_norm": 1.7009660005569458,
      "learning_rate": 0.00011835074460991331,
      "loss": 2.3212,
      "step": 18377
    },
    {
      "epoch": 0.4084,
      "grad_norm": 1.4076311588287354,
      "learning_rate": 0.00011834629917759503,
      "loss": 1.4489,
      "step": 18378
    },
    {
      "epoch": 0.40842222222222224,
      "grad_norm": 1.5252432823181152,
      "learning_rate": 0.00011834185374527673,
      "loss": 1.808,
      "step": 18379
    },
    {
      "epoch": 0.40844444444444444,
      "grad_norm": 1.9566701650619507,
      "learning_rate": 0.00011833740831295842,
      "loss": 2.1169,
      "step": 18380
    },
    {
      "epoch": 0.40846666666666664,
      "grad_norm": 1.7198154926300049,
      "learning_rate": 0.00011833296288064015,
      "loss": 1.4721,
      "step": 18381
    },
    {
      "epoch": 0.4084888888888889,
      "grad_norm": 1.9957112073898315,
      "learning_rate": 0.00011832851744832186,
      "loss": 2.0052,
      "step": 18382
    },
    {
      "epoch": 0.4085111111111111,
      "grad_norm": 1.814899206161499,
      "learning_rate": 0.00011832407201600355,
      "loss": 1.9837,
      "step": 18383
    },
    {
      "epoch": 0.40853333333333336,
      "grad_norm": 1.520550012588501,
      "learning_rate": 0.00011831962658368528,
      "loss": 1.6244,
      "step": 18384
    },
    {
      "epoch": 0.40855555555555556,
      "grad_norm": 1.6634738445281982,
      "learning_rate": 0.00011831518115136697,
      "loss": 1.7701,
      "step": 18385
    },
    {
      "epoch": 0.40857777777777776,
      "grad_norm": 2.139153242111206,
      "learning_rate": 0.0001183107357190487,
      "loss": 1.8853,
      "step": 18386
    },
    {
      "epoch": 0.4086,
      "grad_norm": 2.200853109359741,
      "learning_rate": 0.00011830629028673039,
      "loss": 1.8097,
      "step": 18387
    },
    {
      "epoch": 0.4086222222222222,
      "grad_norm": 1.6376217603683472,
      "learning_rate": 0.00011830184485441209,
      "loss": 2.131,
      "step": 18388
    },
    {
      "epoch": 0.4086444444444444,
      "grad_norm": 1.8557112216949463,
      "learning_rate": 0.00011829739942209381,
      "loss": 2.1602,
      "step": 18389
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 1.8171626329421997,
      "learning_rate": 0.00011829295398977551,
      "loss": 2.1976,
      "step": 18390
    },
    {
      "epoch": 0.4086888888888889,
      "grad_norm": 1.7009801864624023,
      "learning_rate": 0.00011828850855745722,
      "loss": 1.8555,
      "step": 18391
    },
    {
      "epoch": 0.40871111111111114,
      "grad_norm": 1.4784177541732788,
      "learning_rate": 0.00011828406312513893,
      "loss": 1.728,
      "step": 18392
    },
    {
      "epoch": 0.40873333333333334,
      "grad_norm": 1.6340728998184204,
      "learning_rate": 0.00011827961769282064,
      "loss": 1.9123,
      "step": 18393
    },
    {
      "epoch": 0.40875555555555554,
      "grad_norm": 1.4581674337387085,
      "learning_rate": 0.00011827517226050233,
      "loss": 1.5597,
      "step": 18394
    },
    {
      "epoch": 0.4087777777777778,
      "grad_norm": 1.6353780031204224,
      "learning_rate": 0.00011827072682818406,
      "loss": 1.5538,
      "step": 18395
    },
    {
      "epoch": 0.4088,
      "grad_norm": 1.8970401287078857,
      "learning_rate": 0.00011826628139586575,
      "loss": 1.8954,
      "step": 18396
    },
    {
      "epoch": 0.4088222222222222,
      "grad_norm": 1.9160720109939575,
      "learning_rate": 0.00011826183596354745,
      "loss": 1.7728,
      "step": 18397
    },
    {
      "epoch": 0.40884444444444445,
      "grad_norm": 1.4677019119262695,
      "learning_rate": 0.00011825739053122917,
      "loss": 1.3766,
      "step": 18398
    },
    {
      "epoch": 0.40886666666666666,
      "grad_norm": 1.6081147193908691,
      "learning_rate": 0.00011825294509891087,
      "loss": 1.4297,
      "step": 18399
    },
    {
      "epoch": 0.4088888888888889,
      "grad_norm": 1.0639289617538452,
      "learning_rate": 0.00011824849966659258,
      "loss": 0.5783,
      "step": 18400
    },
    {
      "epoch": 0.4089111111111111,
      "grad_norm": 1.413482427597046,
      "learning_rate": 0.0001182440542342743,
      "loss": 2.324,
      "step": 18401
    },
    {
      "epoch": 0.4089333333333333,
      "grad_norm": 1.2655062675476074,
      "learning_rate": 0.000118239608801956,
      "loss": 2.1117,
      "step": 18402
    },
    {
      "epoch": 0.40895555555555557,
      "grad_norm": 1.463973879814148,
      "learning_rate": 0.00011823516336963772,
      "loss": 2.5518,
      "step": 18403
    },
    {
      "epoch": 0.4089777777777778,
      "grad_norm": 1.2922981977462769,
      "learning_rate": 0.00011823071793731941,
      "loss": 2.3057,
      "step": 18404
    },
    {
      "epoch": 0.409,
      "grad_norm": 1.8920314311981201,
      "learning_rate": 0.00011822627250500111,
      "loss": 2.8473,
      "step": 18405
    },
    {
      "epoch": 0.40902222222222223,
      "grad_norm": 1.4573845863342285,
      "learning_rate": 0.00011822182707268283,
      "loss": 2.4794,
      "step": 18406
    },
    {
      "epoch": 0.40904444444444443,
      "grad_norm": 1.407702088356018,
      "learning_rate": 0.00011821738164036453,
      "loss": 2.4204,
      "step": 18407
    },
    {
      "epoch": 0.4090666666666667,
      "grad_norm": 1.5909392833709717,
      "learning_rate": 0.00011821293620804623,
      "loss": 2.0683,
      "step": 18408
    },
    {
      "epoch": 0.4090888888888889,
      "grad_norm": 1.859241008758545,
      "learning_rate": 0.00011820849077572795,
      "loss": 3.0661,
      "step": 18409
    },
    {
      "epoch": 0.4091111111111111,
      "grad_norm": 1.1718732118606567,
      "learning_rate": 0.00011820404534340966,
      "loss": 1.6549,
      "step": 18410
    },
    {
      "epoch": 0.40913333333333335,
      "grad_norm": 1.440180778503418,
      "learning_rate": 0.00011819959991109136,
      "loss": 2.1215,
      "step": 18411
    },
    {
      "epoch": 0.40915555555555555,
      "grad_norm": 1.5984948873519897,
      "learning_rate": 0.00011819515447877308,
      "loss": 2.097,
      "step": 18412
    },
    {
      "epoch": 0.40917777777777775,
      "grad_norm": 1.516494870185852,
      "learning_rate": 0.00011819070904645477,
      "loss": 2.1819,
      "step": 18413
    },
    {
      "epoch": 0.4092,
      "grad_norm": 1.4467741250991821,
      "learning_rate": 0.00011818626361413647,
      "loss": 2.1314,
      "step": 18414
    },
    {
      "epoch": 0.4092222222222222,
      "grad_norm": 1.530544400215149,
      "learning_rate": 0.0001181818181818182,
      "loss": 2.0324,
      "step": 18415
    },
    {
      "epoch": 0.40924444444444447,
      "grad_norm": 1.3753135204315186,
      "learning_rate": 0.00011817737274949989,
      "loss": 1.955,
      "step": 18416
    },
    {
      "epoch": 0.40926666666666667,
      "grad_norm": 1.5168464183807373,
      "learning_rate": 0.00011817292731718159,
      "loss": 2.2762,
      "step": 18417
    },
    {
      "epoch": 0.40928888888888887,
      "grad_norm": 2.112318754196167,
      "learning_rate": 0.00011816848188486331,
      "loss": 1.7964,
      "step": 18418
    },
    {
      "epoch": 0.4093111111111111,
      "grad_norm": 1.900315523147583,
      "learning_rate": 0.00011816403645254502,
      "loss": 2.523,
      "step": 18419
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 1.4354534149169922,
      "learning_rate": 0.00011815959102022671,
      "loss": 1.8844,
      "step": 18420
    },
    {
      "epoch": 0.40935555555555553,
      "grad_norm": 1.6895445585250854,
      "learning_rate": 0.00011815514558790844,
      "loss": 1.7114,
      "step": 18421
    },
    {
      "epoch": 0.4093777777777778,
      "grad_norm": 1.3732024431228638,
      "learning_rate": 0.00011815070015559013,
      "loss": 1.9093,
      "step": 18422
    },
    {
      "epoch": 0.4094,
      "grad_norm": 1.9062386751174927,
      "learning_rate": 0.00011814625472327186,
      "loss": 2.5046,
      "step": 18423
    },
    {
      "epoch": 0.40942222222222224,
      "grad_norm": 1.3855046033859253,
      "learning_rate": 0.00011814180929095355,
      "loss": 1.1945,
      "step": 18424
    },
    {
      "epoch": 0.40944444444444444,
      "grad_norm": 1.5326356887817383,
      "learning_rate": 0.00011813736385863525,
      "loss": 2.0732,
      "step": 18425
    },
    {
      "epoch": 0.40946666666666665,
      "grad_norm": 1.5706757307052612,
      "learning_rate": 0.00011813291842631697,
      "loss": 1.7673,
      "step": 18426
    },
    {
      "epoch": 0.4094888888888889,
      "grad_norm": 1.667769193649292,
      "learning_rate": 0.00011812847299399867,
      "loss": 1.939,
      "step": 18427
    },
    {
      "epoch": 0.4095111111111111,
      "grad_norm": 1.510274887084961,
      "learning_rate": 0.00011812402756168038,
      "loss": 1.8481,
      "step": 18428
    },
    {
      "epoch": 0.40953333333333336,
      "grad_norm": 1.5736885070800781,
      "learning_rate": 0.00011811958212936209,
      "loss": 2.0042,
      "step": 18429
    },
    {
      "epoch": 0.40955555555555556,
      "grad_norm": 1.6422621011734009,
      "learning_rate": 0.0001181151366970438,
      "loss": 2.3783,
      "step": 18430
    },
    {
      "epoch": 0.40957777777777776,
      "grad_norm": 1.7187978029251099,
      "learning_rate": 0.0001181106912647255,
      "loss": 1.7224,
      "step": 18431
    },
    {
      "epoch": 0.4096,
      "grad_norm": 1.6207703351974487,
      "learning_rate": 0.00011810624583240722,
      "loss": 1.9324,
      "step": 18432
    },
    {
      "epoch": 0.4096222222222222,
      "grad_norm": 1.775390863418579,
      "learning_rate": 0.00011810180040008891,
      "loss": 2.0412,
      "step": 18433
    },
    {
      "epoch": 0.4096444444444444,
      "grad_norm": 1.5107530355453491,
      "learning_rate": 0.00011809735496777061,
      "loss": 1.6012,
      "step": 18434
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 2.712892532348633,
      "learning_rate": 0.00011809290953545233,
      "loss": 1.8045,
      "step": 18435
    },
    {
      "epoch": 0.4096888888888889,
      "grad_norm": 1.3269516229629517,
      "learning_rate": 0.00011808846410313403,
      "loss": 1.0941,
      "step": 18436
    },
    {
      "epoch": 0.40971111111111114,
      "grad_norm": 1.835160732269287,
      "learning_rate": 0.00011808401867081574,
      "loss": 2.241,
      "step": 18437
    },
    {
      "epoch": 0.40973333333333334,
      "grad_norm": 1.630861520767212,
      "learning_rate": 0.00011807957323849746,
      "loss": 1.6428,
      "step": 18438
    },
    {
      "epoch": 0.40975555555555554,
      "grad_norm": 1.836391806602478,
      "learning_rate": 0.00011807512780617916,
      "loss": 1.8208,
      "step": 18439
    },
    {
      "epoch": 0.4097777777777778,
      "grad_norm": 1.3915598392486572,
      "learning_rate": 0.00011807068237386088,
      "loss": 1.2205,
      "step": 18440
    },
    {
      "epoch": 0.4098,
      "grad_norm": 1.734250783920288,
      "learning_rate": 0.00011806623694154258,
      "loss": 2.132,
      "step": 18441
    },
    {
      "epoch": 0.4098222222222222,
      "grad_norm": 1.4715423583984375,
      "learning_rate": 0.00011806179150922427,
      "loss": 1.847,
      "step": 18442
    },
    {
      "epoch": 0.40984444444444446,
      "grad_norm": 2.106935739517212,
      "learning_rate": 0.000118057346076906,
      "loss": 2.01,
      "step": 18443
    },
    {
      "epoch": 0.40986666666666666,
      "grad_norm": 2.024690628051758,
      "learning_rate": 0.00011805290064458769,
      "loss": 1.9225,
      "step": 18444
    },
    {
      "epoch": 0.4098888888888889,
      "grad_norm": 1.666432499885559,
      "learning_rate": 0.00011804845521226939,
      "loss": 1.5905,
      "step": 18445
    },
    {
      "epoch": 0.4099111111111111,
      "grad_norm": 1.8798251152038574,
      "learning_rate": 0.00011804400977995111,
      "loss": 1.8374,
      "step": 18446
    },
    {
      "epoch": 0.4099333333333333,
      "grad_norm": 1.8124405145645142,
      "learning_rate": 0.00011803956434763282,
      "loss": 1.8036,
      "step": 18447
    },
    {
      "epoch": 0.4099555555555556,
      "grad_norm": 1.7156263589859009,
      "learning_rate": 0.00011803511891531452,
      "loss": 1.4734,
      "step": 18448
    },
    {
      "epoch": 0.4099777777777778,
      "grad_norm": 1.1975871324539185,
      "learning_rate": 0.00011803067348299624,
      "loss": 0.8735,
      "step": 18449
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8238627910614014,
      "learning_rate": 0.00011802622805067794,
      "loss": 1.6926,
      "step": 18450
    },
    {
      "epoch": 0.41002222222222223,
      "grad_norm": 1.5499584674835205,
      "learning_rate": 0.00011802178261835963,
      "loss": 2.0912,
      "step": 18451
    },
    {
      "epoch": 0.41004444444444443,
      "grad_norm": 1.815173625946045,
      "learning_rate": 0.00011801733718604135,
      "loss": 2.5251,
      "step": 18452
    },
    {
      "epoch": 0.4100666666666667,
      "grad_norm": 1.521712064743042,
      "learning_rate": 0.00011801289175372305,
      "loss": 2.3179,
      "step": 18453
    },
    {
      "epoch": 0.4100888888888889,
      "grad_norm": 1.4520137310028076,
      "learning_rate": 0.00011800844632140475,
      "loss": 1.5516,
      "step": 18454
    },
    {
      "epoch": 0.4101111111111111,
      "grad_norm": 1.84188711643219,
      "learning_rate": 0.00011800400088908647,
      "loss": 2.0068,
      "step": 18455
    },
    {
      "epoch": 0.41013333333333335,
      "grad_norm": 1.342811942100525,
      "learning_rate": 0.00011799955545676818,
      "loss": 1.4565,
      "step": 18456
    },
    {
      "epoch": 0.41015555555555555,
      "grad_norm": 1.6450711488723755,
      "learning_rate": 0.00011799511002444988,
      "loss": 1.9984,
      "step": 18457
    },
    {
      "epoch": 0.41017777777777775,
      "grad_norm": 1.5988608598709106,
      "learning_rate": 0.0001179906645921316,
      "loss": 2.1534,
      "step": 18458
    },
    {
      "epoch": 0.4102,
      "grad_norm": 1.186970829963684,
      "learning_rate": 0.0001179862191598133,
      "loss": 1.8404,
      "step": 18459
    },
    {
      "epoch": 0.4102222222222222,
      "grad_norm": 1.6903460025787354,
      "learning_rate": 0.00011798177372749502,
      "loss": 1.9557,
      "step": 18460
    },
    {
      "epoch": 0.41024444444444447,
      "grad_norm": 1.6584855318069458,
      "learning_rate": 0.00011797732829517671,
      "loss": 2.1801,
      "step": 18461
    },
    {
      "epoch": 0.41026666666666667,
      "grad_norm": 1.249369502067566,
      "learning_rate": 0.00011797288286285841,
      "loss": 1.5161,
      "step": 18462
    },
    {
      "epoch": 0.41028888888888887,
      "grad_norm": 0.9328354001045227,
      "learning_rate": 0.00011796843743054013,
      "loss": 1.0767,
      "step": 18463
    },
    {
      "epoch": 0.4103111111111111,
      "grad_norm": 2.3732190132141113,
      "learning_rate": 0.00011796399199822183,
      "loss": 1.5536,
      "step": 18464
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 1.4917049407958984,
      "learning_rate": 0.00011795954656590354,
      "loss": 2.017,
      "step": 18465
    },
    {
      "epoch": 0.41035555555555553,
      "grad_norm": 1.6412872076034546,
      "learning_rate": 0.00011795510113358525,
      "loss": 2.3069,
      "step": 18466
    },
    {
      "epoch": 0.4103777777777778,
      "grad_norm": 1.613083839416504,
      "learning_rate": 0.00011795065570126696,
      "loss": 1.8939,
      "step": 18467
    },
    {
      "epoch": 0.4104,
      "grad_norm": 1.7094889879226685,
      "learning_rate": 0.00011794621026894865,
      "loss": 1.7841,
      "step": 18468
    },
    {
      "epoch": 0.41042222222222224,
      "grad_norm": 1.6006293296813965,
      "learning_rate": 0.00011794176483663038,
      "loss": 2.1144,
      "step": 18469
    },
    {
      "epoch": 0.41044444444444445,
      "grad_norm": 1.9099452495574951,
      "learning_rate": 0.00011793731940431207,
      "loss": 2.2569,
      "step": 18470
    },
    {
      "epoch": 0.41046666666666665,
      "grad_norm": 1.5784419775009155,
      "learning_rate": 0.00011793287397199377,
      "loss": 2.2955,
      "step": 18471
    },
    {
      "epoch": 0.4104888888888889,
      "grad_norm": 1.9805691242218018,
      "learning_rate": 0.00011792842853967549,
      "loss": 2.4143,
      "step": 18472
    },
    {
      "epoch": 0.4105111111111111,
      "grad_norm": 1.8465454578399658,
      "learning_rate": 0.00011792398310735719,
      "loss": 1.9426,
      "step": 18473
    },
    {
      "epoch": 0.4105333333333333,
      "grad_norm": 1.8125659227371216,
      "learning_rate": 0.0001179195376750389,
      "loss": 1.5065,
      "step": 18474
    },
    {
      "epoch": 0.41055555555555556,
      "grad_norm": 1.4854846000671387,
      "learning_rate": 0.00011791509224272062,
      "loss": 1.7559,
      "step": 18475
    },
    {
      "epoch": 0.41057777777777776,
      "grad_norm": 1.1876436471939087,
      "learning_rate": 0.00011791064681040232,
      "loss": 1.2739,
      "step": 18476
    },
    {
      "epoch": 0.4106,
      "grad_norm": 1.5677703619003296,
      "learning_rate": 0.00011790620137808401,
      "loss": 2.0595,
      "step": 18477
    },
    {
      "epoch": 0.4106222222222222,
      "grad_norm": 1.6644108295440674,
      "learning_rate": 0.00011790175594576574,
      "loss": 1.872,
      "step": 18478
    },
    {
      "epoch": 0.4106444444444444,
      "grad_norm": 1.7607243061065674,
      "learning_rate": 0.00011789731051344743,
      "loss": 2.0395,
      "step": 18479
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 1.7294921875,
      "learning_rate": 0.00011789286508112916,
      "loss": 2.2491,
      "step": 18480
    },
    {
      "epoch": 0.4106888888888889,
      "grad_norm": 1.870247483253479,
      "learning_rate": 0.00011788841964881085,
      "loss": 1.9949,
      "step": 18481
    },
    {
      "epoch": 0.41071111111111114,
      "grad_norm": 1.7349920272827148,
      "learning_rate": 0.00011788397421649255,
      "loss": 2.1838,
      "step": 18482
    },
    {
      "epoch": 0.41073333333333334,
      "grad_norm": 1.6500873565673828,
      "learning_rate": 0.00011787952878417427,
      "loss": 1.6313,
      "step": 18483
    },
    {
      "epoch": 0.41075555555555554,
      "grad_norm": 1.7158466577529907,
      "learning_rate": 0.00011787508335185598,
      "loss": 2.0724,
      "step": 18484
    },
    {
      "epoch": 0.4107777777777778,
      "grad_norm": 1.620129942893982,
      "learning_rate": 0.00011787063791953768,
      "loss": 1.3694,
      "step": 18485
    },
    {
      "epoch": 0.4108,
      "grad_norm": 1.594887375831604,
      "learning_rate": 0.0001178661924872194,
      "loss": 1.7802,
      "step": 18486
    },
    {
      "epoch": 0.4108222222222222,
      "grad_norm": 1.5186810493469238,
      "learning_rate": 0.0001178617470549011,
      "loss": 1.9046,
      "step": 18487
    },
    {
      "epoch": 0.41084444444444446,
      "grad_norm": 1.3183075189590454,
      "learning_rate": 0.00011785730162258279,
      "loss": 1.5097,
      "step": 18488
    },
    {
      "epoch": 0.41086666666666666,
      "grad_norm": 1.7677839994430542,
      "learning_rate": 0.00011785285619026452,
      "loss": 1.9276,
      "step": 18489
    },
    {
      "epoch": 0.4108888888888889,
      "grad_norm": 2.0606911182403564,
      "learning_rate": 0.00011784841075794621,
      "loss": 2.0647,
      "step": 18490
    },
    {
      "epoch": 0.4109111111111111,
      "grad_norm": 1.520918607711792,
      "learning_rate": 0.00011784396532562791,
      "loss": 1.5903,
      "step": 18491
    },
    {
      "epoch": 0.4109333333333333,
      "grad_norm": 1.8353317975997925,
      "learning_rate": 0.00011783951989330963,
      "loss": 2.4298,
      "step": 18492
    },
    {
      "epoch": 0.4109555555555556,
      "grad_norm": 1.8450075387954712,
      "learning_rate": 0.00011783507446099134,
      "loss": 2.0907,
      "step": 18493
    },
    {
      "epoch": 0.4109777777777778,
      "grad_norm": 1.9115077257156372,
      "learning_rate": 0.00011783062902867304,
      "loss": 2.097,
      "step": 18494
    },
    {
      "epoch": 0.411,
      "grad_norm": 1.4245799779891968,
      "learning_rate": 0.00011782618359635476,
      "loss": 1.4062,
      "step": 18495
    },
    {
      "epoch": 0.41102222222222223,
      "grad_norm": 1.4767420291900635,
      "learning_rate": 0.00011782173816403646,
      "loss": 1.6801,
      "step": 18496
    },
    {
      "epoch": 0.41104444444444443,
      "grad_norm": 1.4587711095809937,
      "learning_rate": 0.00011781729273171818,
      "loss": 1.6244,
      "step": 18497
    },
    {
      "epoch": 0.4110666666666667,
      "grad_norm": 1.5470449924468994,
      "learning_rate": 0.00011781284729939988,
      "loss": 1.5883,
      "step": 18498
    },
    {
      "epoch": 0.4110888888888889,
      "grad_norm": 1.9064191579818726,
      "learning_rate": 0.00011780840186708157,
      "loss": 2.1776,
      "step": 18499
    },
    {
      "epoch": 0.4111111111111111,
      "grad_norm": 1.5889946222305298,
      "learning_rate": 0.0001178039564347633,
      "loss": 0.9054,
      "step": 18500
    },
    {
      "epoch": 0.41113333333333335,
      "grad_norm": 1.331571340560913,
      "learning_rate": 0.00011779951100244499,
      "loss": 2.427,
      "step": 18501
    },
    {
      "epoch": 0.41115555555555555,
      "grad_norm": 0.4945358633995056,
      "learning_rate": 0.0001177950655701267,
      "loss": 0.0229,
      "step": 18502
    },
    {
      "epoch": 0.41117777777777775,
      "grad_norm": 1.2107466459274292,
      "learning_rate": 0.00011779062013780841,
      "loss": 1.7608,
      "step": 18503
    },
    {
      "epoch": 0.4112,
      "grad_norm": 1.664318323135376,
      "learning_rate": 0.00011778617470549012,
      "loss": 2.3024,
      "step": 18504
    },
    {
      "epoch": 0.4112222222222222,
      "grad_norm": 1.2683212757110596,
      "learning_rate": 0.00011778172927317182,
      "loss": 1.9729,
      "step": 18505
    },
    {
      "epoch": 0.41124444444444447,
      "grad_norm": 1.372962236404419,
      "learning_rate": 0.00011777728384085354,
      "loss": 2.3975,
      "step": 18506
    },
    {
      "epoch": 0.41126666666666667,
      "grad_norm": 1.5102176666259766,
      "learning_rate": 0.00011777283840853523,
      "loss": 1.8483,
      "step": 18507
    },
    {
      "epoch": 0.41128888888888887,
      "grad_norm": 1.495532512664795,
      "learning_rate": 0.00011776839297621693,
      "loss": 2.3342,
      "step": 18508
    },
    {
      "epoch": 0.4113111111111111,
      "grad_norm": 2.07324481010437,
      "learning_rate": 0.00011776394754389865,
      "loss": 2.1963,
      "step": 18509
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 1.6690462827682495,
      "learning_rate": 0.00011775950211158035,
      "loss": 1.9935,
      "step": 18510
    },
    {
      "epoch": 0.41135555555555553,
      "grad_norm": 1.7621996402740479,
      "learning_rate": 0.00011775505667926206,
      "loss": 2.4209,
      "step": 18511
    },
    {
      "epoch": 0.4113777777777778,
      "grad_norm": 1.6338911056518555,
      "learning_rate": 0.00011775061124694378,
      "loss": 1.5099,
      "step": 18512
    },
    {
      "epoch": 0.4114,
      "grad_norm": 1.6516920328140259,
      "learning_rate": 0.00011774616581462548,
      "loss": 2.2767,
      "step": 18513
    },
    {
      "epoch": 0.41142222222222224,
      "grad_norm": 1.8834131956100464,
      "learning_rate": 0.00011774172038230717,
      "loss": 2.6716,
      "step": 18514
    },
    {
      "epoch": 0.41144444444444445,
      "grad_norm": 1.744078516960144,
      "learning_rate": 0.0001177372749499889,
      "loss": 2.6364,
      "step": 18515
    },
    {
      "epoch": 0.41146666666666665,
      "grad_norm": 1.5743610858917236,
      "learning_rate": 0.0001177328295176706,
      "loss": 1.5311,
      "step": 18516
    },
    {
      "epoch": 0.4114888888888889,
      "grad_norm": 1.11452054977417,
      "learning_rate": 0.00011772838408535232,
      "loss": 0.8855,
      "step": 18517
    },
    {
      "epoch": 0.4115111111111111,
      "grad_norm": 1.5978715419769287,
      "learning_rate": 0.00011772393865303401,
      "loss": 2.0788,
      "step": 18518
    },
    {
      "epoch": 0.4115333333333333,
      "grad_norm": 1.65200936794281,
      "learning_rate": 0.00011771949322071571,
      "loss": 2.0996,
      "step": 18519
    },
    {
      "epoch": 0.41155555555555556,
      "grad_norm": 1.6284292936325073,
      "learning_rate": 0.00011771504778839743,
      "loss": 2.2147,
      "step": 18520
    },
    {
      "epoch": 0.41157777777777776,
      "grad_norm": 1.6951029300689697,
      "learning_rate": 0.00011771060235607914,
      "loss": 1.6832,
      "step": 18521
    },
    {
      "epoch": 0.4116,
      "grad_norm": 1.5201750993728638,
      "learning_rate": 0.00011770615692376084,
      "loss": 1.805,
      "step": 18522
    },
    {
      "epoch": 0.4116222222222222,
      "grad_norm": 1.4969987869262695,
      "learning_rate": 0.00011770171149144256,
      "loss": 1.713,
      "step": 18523
    },
    {
      "epoch": 0.4116444444444444,
      "grad_norm": 1.6653317213058472,
      "learning_rate": 0.00011769726605912426,
      "loss": 2.0328,
      "step": 18524
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 1.7669659852981567,
      "learning_rate": 0.00011769282062680595,
      "loss": 2.3195,
      "step": 18525
    },
    {
      "epoch": 0.4116888888888889,
      "grad_norm": 1.336695671081543,
      "learning_rate": 0.00011768837519448768,
      "loss": 1.241,
      "step": 18526
    },
    {
      "epoch": 0.41171111111111114,
      "grad_norm": 1.505576252937317,
      "learning_rate": 0.00011768392976216937,
      "loss": 1.8091,
      "step": 18527
    },
    {
      "epoch": 0.41173333333333334,
      "grad_norm": 1.1521576642990112,
      "learning_rate": 0.00011767948432985107,
      "loss": 0.8877,
      "step": 18528
    },
    {
      "epoch": 0.41175555555555554,
      "grad_norm": 1.5610935688018799,
      "learning_rate": 0.00011767503889753279,
      "loss": 1.8412,
      "step": 18529
    },
    {
      "epoch": 0.4117777777777778,
      "grad_norm": 1.3148787021636963,
      "learning_rate": 0.0001176705934652145,
      "loss": 1.6248,
      "step": 18530
    },
    {
      "epoch": 0.4118,
      "grad_norm": 1.3281363248825073,
      "learning_rate": 0.0001176661480328962,
      "loss": 1.5566,
      "step": 18531
    },
    {
      "epoch": 0.4118222222222222,
      "grad_norm": 1.2077624797821045,
      "learning_rate": 0.00011766170260057792,
      "loss": 0.8844,
      "step": 18532
    },
    {
      "epoch": 0.41184444444444446,
      "grad_norm": 1.4292962551116943,
      "learning_rate": 0.00011765725716825962,
      "loss": 1.5879,
      "step": 18533
    },
    {
      "epoch": 0.41186666666666666,
      "grad_norm": 1.5631009340286255,
      "learning_rate": 0.00011765281173594131,
      "loss": 1.7194,
      "step": 18534
    },
    {
      "epoch": 0.4118888888888889,
      "grad_norm": 1.987947702407837,
      "learning_rate": 0.00011764836630362304,
      "loss": 2.5483,
      "step": 18535
    },
    {
      "epoch": 0.4119111111111111,
      "grad_norm": 1.7841472625732422,
      "learning_rate": 0.00011764392087130473,
      "loss": 1.7602,
      "step": 18536
    },
    {
      "epoch": 0.4119333333333333,
      "grad_norm": 1.9834253787994385,
      "learning_rate": 0.00011763947543898646,
      "loss": 1.8274,
      "step": 18537
    },
    {
      "epoch": 0.4119555555555556,
      "grad_norm": 1.6981700658798218,
      "learning_rate": 0.00011763503000666815,
      "loss": 1.808,
      "step": 18538
    },
    {
      "epoch": 0.4119777777777778,
      "grad_norm": 1.9666041135787964,
      "learning_rate": 0.00011763058457434986,
      "loss": 1.8639,
      "step": 18539
    },
    {
      "epoch": 0.412,
      "grad_norm": 1.6753135919570923,
      "learning_rate": 0.00011762613914203157,
      "loss": 1.534,
      "step": 18540
    },
    {
      "epoch": 0.41202222222222223,
      "grad_norm": 1.9777870178222656,
      "learning_rate": 0.00011762169370971328,
      "loss": 2.0807,
      "step": 18541
    },
    {
      "epoch": 0.41204444444444444,
      "grad_norm": 2.305868625640869,
      "learning_rate": 0.00011761724827739498,
      "loss": 1.9292,
      "step": 18542
    },
    {
      "epoch": 0.4120666666666667,
      "grad_norm": 1.978863000869751,
      "learning_rate": 0.0001176128028450767,
      "loss": 1.9275,
      "step": 18543
    },
    {
      "epoch": 0.4120888888888889,
      "grad_norm": 1.8734909296035767,
      "learning_rate": 0.0001176083574127584,
      "loss": 1.6291,
      "step": 18544
    },
    {
      "epoch": 0.4121111111111111,
      "grad_norm": 1.640887975692749,
      "learning_rate": 0.00011760391198044009,
      "loss": 1.7783,
      "step": 18545
    },
    {
      "epoch": 0.41213333333333335,
      "grad_norm": 1.7628427743911743,
      "learning_rate": 0.00011759946654812181,
      "loss": 1.6569,
      "step": 18546
    },
    {
      "epoch": 0.41215555555555555,
      "grad_norm": 1.7889505624771118,
      "learning_rate": 0.00011759502111580351,
      "loss": 1.842,
      "step": 18547
    },
    {
      "epoch": 0.41217777777777775,
      "grad_norm": 1.7680177688598633,
      "learning_rate": 0.00011759057568348522,
      "loss": 1.6377,
      "step": 18548
    },
    {
      "epoch": 0.4122,
      "grad_norm": 1.9431339502334595,
      "learning_rate": 0.00011758613025116694,
      "loss": 1.811,
      "step": 18549
    },
    {
      "epoch": 0.4122222222222222,
      "grad_norm": 1.1135458946228027,
      "learning_rate": 0.00011758168481884864,
      "loss": 0.7477,
      "step": 18550
    },
    {
      "epoch": 0.41224444444444447,
      "grad_norm": 1.3076730966567993,
      "learning_rate": 0.00011757723938653034,
      "loss": 2.6463,
      "step": 18551
    },
    {
      "epoch": 0.41226666666666667,
      "grad_norm": 0.9717200994491577,
      "learning_rate": 0.00011757279395421206,
      "loss": 1.1519,
      "step": 18552
    },
    {
      "epoch": 0.41228888888888887,
      "grad_norm": 1.344522476196289,
      "learning_rate": 0.00011756834852189376,
      "loss": 2.1832,
      "step": 18553
    },
    {
      "epoch": 0.41231111111111113,
      "grad_norm": 1.5532432794570923,
      "learning_rate": 0.00011756390308957548,
      "loss": 2.0026,
      "step": 18554
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 1.6225354671478271,
      "learning_rate": 0.00011755945765725717,
      "loss": 2.5762,
      "step": 18555
    },
    {
      "epoch": 0.41235555555555553,
      "grad_norm": 1.459293007850647,
      "learning_rate": 0.00011755501222493887,
      "loss": 2.3452,
      "step": 18556
    },
    {
      "epoch": 0.4123777777777778,
      "grad_norm": 1.7145899534225464,
      "learning_rate": 0.0001175505667926206,
      "loss": 2.3707,
      "step": 18557
    },
    {
      "epoch": 0.4124,
      "grad_norm": 1.6232500076293945,
      "learning_rate": 0.0001175461213603023,
      "loss": 2.0284,
      "step": 18558
    },
    {
      "epoch": 0.41242222222222225,
      "grad_norm": 1.0508613586425781,
      "learning_rate": 0.000117541675927984,
      "loss": 1.1195,
      "step": 18559
    },
    {
      "epoch": 0.41244444444444445,
      "grad_norm": 1.6033049821853638,
      "learning_rate": 0.00011753723049566572,
      "loss": 2.3417,
      "step": 18560
    },
    {
      "epoch": 0.41246666666666665,
      "grad_norm": 1.5531916618347168,
      "learning_rate": 0.00011753278506334742,
      "loss": 1.407,
      "step": 18561
    },
    {
      "epoch": 0.4124888888888889,
      "grad_norm": 1.6124718189239502,
      "learning_rate": 0.00011752833963102911,
      "loss": 1.6335,
      "step": 18562
    },
    {
      "epoch": 0.4125111111111111,
      "grad_norm": 1.6630996465682983,
      "learning_rate": 0.00011752389419871084,
      "loss": 1.9315,
      "step": 18563
    },
    {
      "epoch": 0.4125333333333333,
      "grad_norm": 1.5429270267486572,
      "learning_rate": 0.00011751944876639253,
      "loss": 2.0112,
      "step": 18564
    },
    {
      "epoch": 0.41255555555555556,
      "grad_norm": 1.7345242500305176,
      "learning_rate": 0.00011751500333407423,
      "loss": 2.8096,
      "step": 18565
    },
    {
      "epoch": 0.41257777777777777,
      "grad_norm": 1.4659790992736816,
      "learning_rate": 0.00011751055790175595,
      "loss": 1.744,
      "step": 18566
    },
    {
      "epoch": 0.4126,
      "grad_norm": 1.351326584815979,
      "learning_rate": 0.00011750611246943766,
      "loss": 2.1708,
      "step": 18567
    },
    {
      "epoch": 0.4126222222222222,
      "grad_norm": 1.7881965637207031,
      "learning_rate": 0.00011750166703711936,
      "loss": 1.8161,
      "step": 18568
    },
    {
      "epoch": 0.4126444444444444,
      "grad_norm": 1.509986400604248,
      "learning_rate": 0.00011749722160480108,
      "loss": 1.9902,
      "step": 18569
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 1.4782136678695679,
      "learning_rate": 0.00011749277617248278,
      "loss": 1.6748,
      "step": 18570
    },
    {
      "epoch": 0.4126888888888889,
      "grad_norm": 1.582719087600708,
      "learning_rate": 0.00011748833074016447,
      "loss": 1.9531,
      "step": 18571
    },
    {
      "epoch": 0.4127111111111111,
      "grad_norm": 1.7885613441467285,
      "learning_rate": 0.0001174838853078462,
      "loss": 2.3336,
      "step": 18572
    },
    {
      "epoch": 0.41273333333333334,
      "grad_norm": 1.3774968385696411,
      "learning_rate": 0.0001174794398755279,
      "loss": 1.7384,
      "step": 18573
    },
    {
      "epoch": 0.41275555555555554,
      "grad_norm": 1.6750245094299316,
      "learning_rate": 0.00011747499444320962,
      "loss": 1.9042,
      "step": 18574
    },
    {
      "epoch": 0.4127777777777778,
      "grad_norm": 1.4585583209991455,
      "learning_rate": 0.00011747054901089131,
      "loss": 1.536,
      "step": 18575
    },
    {
      "epoch": 0.4128,
      "grad_norm": 1.9982792139053345,
      "learning_rate": 0.00011746610357857302,
      "loss": 2.0854,
      "step": 18576
    },
    {
      "epoch": 0.4128222222222222,
      "grad_norm": 1.9562302827835083,
      "learning_rate": 0.00011746165814625473,
      "loss": 2.4656,
      "step": 18577
    },
    {
      "epoch": 0.41284444444444446,
      "grad_norm": 1.6355438232421875,
      "learning_rate": 0.00011745721271393644,
      "loss": 2.0393,
      "step": 18578
    },
    {
      "epoch": 0.41286666666666666,
      "grad_norm": 1.8827391862869263,
      "learning_rate": 0.00011745276728161814,
      "loss": 2.2474,
      "step": 18579
    },
    {
      "epoch": 0.4128888888888889,
      "grad_norm": 1.2091562747955322,
      "learning_rate": 0.00011744832184929986,
      "loss": 0.966,
      "step": 18580
    },
    {
      "epoch": 0.4129111111111111,
      "grad_norm": 1.4829652309417725,
      "learning_rate": 0.00011744387641698156,
      "loss": 1.7934,
      "step": 18581
    },
    {
      "epoch": 0.4129333333333333,
      "grad_norm": 1.5095059871673584,
      "learning_rate": 0.00011743943098466325,
      "loss": 1.6611,
      "step": 18582
    },
    {
      "epoch": 0.4129555555555556,
      "grad_norm": 1.7099593877792358,
      "learning_rate": 0.00011743498555234498,
      "loss": 1.7318,
      "step": 18583
    },
    {
      "epoch": 0.4129777777777778,
      "grad_norm": 2.030484676361084,
      "learning_rate": 0.00011743054012002667,
      "loss": 1.7591,
      "step": 18584
    },
    {
      "epoch": 0.413,
      "grad_norm": 2.069241523742676,
      "learning_rate": 0.00011742609468770838,
      "loss": 1.8842,
      "step": 18585
    },
    {
      "epoch": 0.41302222222222224,
      "grad_norm": 1.4089535474777222,
      "learning_rate": 0.0001174216492553901,
      "loss": 0.9821,
      "step": 18586
    },
    {
      "epoch": 0.41304444444444444,
      "grad_norm": 1.8436914682388306,
      "learning_rate": 0.0001174172038230718,
      "loss": 2.3498,
      "step": 18587
    },
    {
      "epoch": 0.4130666666666667,
      "grad_norm": 1.9584994316101074,
      "learning_rate": 0.0001174127583907535,
      "loss": 1.9775,
      "step": 18588
    },
    {
      "epoch": 0.4130888888888889,
      "grad_norm": 1.875734806060791,
      "learning_rate": 0.00011740831295843522,
      "loss": 1.8871,
      "step": 18589
    },
    {
      "epoch": 0.4131111111111111,
      "grad_norm": 1.9291667938232422,
      "learning_rate": 0.00011740386752611692,
      "loss": 2.026,
      "step": 18590
    },
    {
      "epoch": 0.41313333333333335,
      "grad_norm": 1.6335995197296143,
      "learning_rate": 0.00011739942209379861,
      "loss": 1.8192,
      "step": 18591
    },
    {
      "epoch": 0.41315555555555555,
      "grad_norm": 2.0475716590881348,
      "learning_rate": 0.00011739497666148034,
      "loss": 2.0111,
      "step": 18592
    },
    {
      "epoch": 0.41317777777777775,
      "grad_norm": 1.7000775337219238,
      "learning_rate": 0.00011739053122916203,
      "loss": 1.9629,
      "step": 18593
    },
    {
      "epoch": 0.4132,
      "grad_norm": 1.5860058069229126,
      "learning_rate": 0.00011738608579684375,
      "loss": 1.7598,
      "step": 18594
    },
    {
      "epoch": 0.4132222222222222,
      "grad_norm": 1.5332322120666504,
      "learning_rate": 0.00011738164036452546,
      "loss": 1.7362,
      "step": 18595
    },
    {
      "epoch": 0.41324444444444447,
      "grad_norm": 1.915136456489563,
      "learning_rate": 0.00011737719493220716,
      "loss": 1.874,
      "step": 18596
    },
    {
      "epoch": 0.41326666666666667,
      "grad_norm": 1.6870194673538208,
      "learning_rate": 0.00011737274949988888,
      "loss": 1.9572,
      "step": 18597
    },
    {
      "epoch": 0.4132888888888889,
      "grad_norm": 2.997318744659424,
      "learning_rate": 0.00011736830406757058,
      "loss": 0.0688,
      "step": 18598
    },
    {
      "epoch": 0.41331111111111113,
      "grad_norm": 1.637237548828125,
      "learning_rate": 0.00011736385863525228,
      "loss": 1.7035,
      "step": 18599
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 1.7394100427627563,
      "learning_rate": 0.000117359413202934,
      "loss": 1.5885,
      "step": 18600
    },
    {
      "epoch": 0.41335555555555553,
      "grad_norm": 1.5803179740905762,
      "learning_rate": 0.0001173549677706157,
      "loss": 2.8107,
      "step": 18601
    },
    {
      "epoch": 0.4133777777777778,
      "grad_norm": 1.2022387981414795,
      "learning_rate": 0.00011735052233829739,
      "loss": 2.3847,
      "step": 18602
    },
    {
      "epoch": 0.4134,
      "grad_norm": 0.994484007358551,
      "learning_rate": 0.00011734607690597911,
      "loss": 1.4135,
      "step": 18603
    },
    {
      "epoch": 0.41342222222222225,
      "grad_norm": 1.2971528768539429,
      "learning_rate": 0.00011734163147366082,
      "loss": 1.8952,
      "step": 18604
    },
    {
      "epoch": 0.41344444444444445,
      "grad_norm": 1.4522573947906494,
      "learning_rate": 0.00011733718604134252,
      "loss": 2.5163,
      "step": 18605
    },
    {
      "epoch": 0.41346666666666665,
      "grad_norm": 1.7071232795715332,
      "learning_rate": 0.00011733274060902424,
      "loss": 2.4692,
      "step": 18606
    },
    {
      "epoch": 0.4134888888888889,
      "grad_norm": 1.4911290407180786,
      "learning_rate": 0.00011732829517670594,
      "loss": 1.5007,
      "step": 18607
    },
    {
      "epoch": 0.4135111111111111,
      "grad_norm": 1.3164271116256714,
      "learning_rate": 0.00011732384974438764,
      "loss": 2.0955,
      "step": 18608
    },
    {
      "epoch": 0.4135333333333333,
      "grad_norm": 1.6960269212722778,
      "learning_rate": 0.00011731940431206936,
      "loss": 2.381,
      "step": 18609
    },
    {
      "epoch": 0.41355555555555557,
      "grad_norm": 1.4452593326568604,
      "learning_rate": 0.00011731495887975105,
      "loss": 2.0889,
      "step": 18610
    },
    {
      "epoch": 0.41357777777777777,
      "grad_norm": 1.5392998456954956,
      "learning_rate": 0.00011731051344743278,
      "loss": 2.1698,
      "step": 18611
    },
    {
      "epoch": 0.4136,
      "grad_norm": 1.5717495679855347,
      "learning_rate": 0.00011730606801511447,
      "loss": 2.2125,
      "step": 18612
    },
    {
      "epoch": 0.4136222222222222,
      "grad_norm": 1.4334434270858765,
      "learning_rate": 0.00011730162258279618,
      "loss": 1.8498,
      "step": 18613
    },
    {
      "epoch": 0.4136444444444444,
      "grad_norm": 1.4696757793426514,
      "learning_rate": 0.00011729717715047789,
      "loss": 1.6787,
      "step": 18614
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 1.6810425519943237,
      "learning_rate": 0.0001172927317181596,
      "loss": 2.2107,
      "step": 18615
    },
    {
      "epoch": 0.4136888888888889,
      "grad_norm": 1.526070475578308,
      "learning_rate": 0.0001172882862858413,
      "loss": 2.0681,
      "step": 18616
    },
    {
      "epoch": 0.4137111111111111,
      "grad_norm": 1.7379683256149292,
      "learning_rate": 0.00011728384085352302,
      "loss": 1.6422,
      "step": 18617
    },
    {
      "epoch": 0.41373333333333334,
      "grad_norm": 1.853924036026001,
      "learning_rate": 0.00011727939542120472,
      "loss": 2.0866,
      "step": 18618
    },
    {
      "epoch": 0.41375555555555554,
      "grad_norm": 1.6676396131515503,
      "learning_rate": 0.00011727494998888641,
      "loss": 1.9233,
      "step": 18619
    },
    {
      "epoch": 0.4137777777777778,
      "grad_norm": 1.5223274230957031,
      "learning_rate": 0.00011727050455656814,
      "loss": 1.8128,
      "step": 18620
    },
    {
      "epoch": 0.4138,
      "grad_norm": 1.982680082321167,
      "learning_rate": 0.00011726605912424983,
      "loss": 1.8347,
      "step": 18621
    },
    {
      "epoch": 0.4138222222222222,
      "grad_norm": 1.5029131174087524,
      "learning_rate": 0.00011726161369193154,
      "loss": 2.0718,
      "step": 18622
    },
    {
      "epoch": 0.41384444444444446,
      "grad_norm": 1.4940568208694458,
      "learning_rate": 0.00011725716825961327,
      "loss": 1.9838,
      "step": 18623
    },
    {
      "epoch": 0.41386666666666666,
      "grad_norm": 1.4655834436416626,
      "learning_rate": 0.00011725272282729496,
      "loss": 2.2521,
      "step": 18624
    },
    {
      "epoch": 0.41388888888888886,
      "grad_norm": 1.7725341320037842,
      "learning_rate": 0.00011724827739497666,
      "loss": 2.0926,
      "step": 18625
    },
    {
      "epoch": 0.4139111111111111,
      "grad_norm": 1.6398017406463623,
      "learning_rate": 0.00011724383196265838,
      "loss": 2.2182,
      "step": 18626
    },
    {
      "epoch": 0.4139333333333333,
      "grad_norm": 1.5358964204788208,
      "learning_rate": 0.00011723938653034008,
      "loss": 2.42,
      "step": 18627
    },
    {
      "epoch": 0.4139555555555556,
      "grad_norm": 1.7231252193450928,
      "learning_rate": 0.00011723494109802177,
      "loss": 2.4575,
      "step": 18628
    },
    {
      "epoch": 0.4139777777777778,
      "grad_norm": 1.6194937229156494,
      "learning_rate": 0.0001172304956657035,
      "loss": 1.9179,
      "step": 18629
    },
    {
      "epoch": 0.414,
      "grad_norm": 1.7467591762542725,
      "learning_rate": 0.00011722605023338519,
      "loss": 1.792,
      "step": 18630
    },
    {
      "epoch": 0.41402222222222224,
      "grad_norm": 1.571220874786377,
      "learning_rate": 0.00011722160480106692,
      "loss": 2.3321,
      "step": 18631
    },
    {
      "epoch": 0.41404444444444444,
      "grad_norm": 1.7366777658462524,
      "learning_rate": 0.00011721715936874863,
      "loss": 1.7926,
      "step": 18632
    },
    {
      "epoch": 0.4140666666666667,
      "grad_norm": 1.5308512449264526,
      "learning_rate": 0.00011721271393643032,
      "loss": 1.8722,
      "step": 18633
    },
    {
      "epoch": 0.4140888888888889,
      "grad_norm": 1.8004636764526367,
      "learning_rate": 0.00011720826850411204,
      "loss": 2.1726,
      "step": 18634
    },
    {
      "epoch": 0.4141111111111111,
      "grad_norm": 1.112557053565979,
      "learning_rate": 0.00011720382307179374,
      "loss": 0.8292,
      "step": 18635
    },
    {
      "epoch": 0.41413333333333335,
      "grad_norm": 1.9865328073501587,
      "learning_rate": 0.00011719937763947544,
      "loss": 2.2273,
      "step": 18636
    },
    {
      "epoch": 0.41415555555555555,
      "grad_norm": 1.3656495809555054,
      "learning_rate": 0.00011719493220715716,
      "loss": 1.41,
      "step": 18637
    },
    {
      "epoch": 0.41417777777777776,
      "grad_norm": 1.7528618574142456,
      "learning_rate": 0.00011719048677483886,
      "loss": 1.8212,
      "step": 18638
    },
    {
      "epoch": 0.4142,
      "grad_norm": 1.6131833791732788,
      "learning_rate": 0.00011718604134252055,
      "loss": 2.0369,
      "step": 18639
    },
    {
      "epoch": 0.4142222222222222,
      "grad_norm": 1.6968867778778076,
      "learning_rate": 0.00011718159591020228,
      "loss": 2.2542,
      "step": 18640
    },
    {
      "epoch": 0.41424444444444447,
      "grad_norm": 1.5292967557907104,
      "learning_rate": 0.00011717715047788398,
      "loss": 1.8576,
      "step": 18641
    },
    {
      "epoch": 0.41426666666666667,
      "grad_norm": 1.6922754049301147,
      "learning_rate": 0.00011717270504556568,
      "loss": 1.8801,
      "step": 18642
    },
    {
      "epoch": 0.4142888888888889,
      "grad_norm": 1.4154647588729858,
      "learning_rate": 0.0001171682596132474,
      "loss": 1.5832,
      "step": 18643
    },
    {
      "epoch": 0.41431111111111113,
      "grad_norm": 2.1493723392486572,
      "learning_rate": 0.0001171638141809291,
      "loss": 2.172,
      "step": 18644
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 2.2708873748779297,
      "learning_rate": 0.0001171593687486108,
      "loss": 2.0852,
      "step": 18645
    },
    {
      "epoch": 0.41435555555555553,
      "grad_norm": 1.757243275642395,
      "learning_rate": 0.00011715492331629252,
      "loss": 1.8496,
      "step": 18646
    },
    {
      "epoch": 0.4143777777777778,
      "grad_norm": 1.5213571786880493,
      "learning_rate": 0.00011715047788397422,
      "loss": 1.4548,
      "step": 18647
    },
    {
      "epoch": 0.4144,
      "grad_norm": 1.4838817119598389,
      "learning_rate": 0.00011714603245165592,
      "loss": 1.5884,
      "step": 18648
    },
    {
      "epoch": 0.41442222222222225,
      "grad_norm": 1.7331554889678955,
      "learning_rate": 0.00011714158701933763,
      "loss": 1.7684,
      "step": 18649
    },
    {
      "epoch": 0.41444444444444445,
      "grad_norm": 1.6320418119430542,
      "learning_rate": 0.00011713714158701934,
      "loss": 1.6641,
      "step": 18650
    },
    {
      "epoch": 0.41446666666666665,
      "grad_norm": 1.4632563591003418,
      "learning_rate": 0.00011713269615470105,
      "loss": 2.4906,
      "step": 18651
    },
    {
      "epoch": 0.4144888888888889,
      "grad_norm": 1.1993964910507202,
      "learning_rate": 0.00011712825072238276,
      "loss": 2.3326,
      "step": 18652
    },
    {
      "epoch": 0.4145111111111111,
      "grad_norm": 1.3338239192962646,
      "learning_rate": 0.00011712380529006446,
      "loss": 2.682,
      "step": 18653
    },
    {
      "epoch": 0.4145333333333333,
      "grad_norm": 1.168402910232544,
      "learning_rate": 0.00011711935985774618,
      "loss": 1.1637,
      "step": 18654
    },
    {
      "epoch": 0.41455555555555557,
      "grad_norm": 1.4640886783599854,
      "learning_rate": 0.00011711491442542788,
      "loss": 2.2033,
      "step": 18655
    },
    {
      "epoch": 0.41457777777777777,
      "grad_norm": 1.4057486057281494,
      "learning_rate": 0.00011711046899310957,
      "loss": 2.0169,
      "step": 18656
    },
    {
      "epoch": 0.4146,
      "grad_norm": 1.4456257820129395,
      "learning_rate": 0.0001171060235607913,
      "loss": 1.0034,
      "step": 18657
    },
    {
      "epoch": 0.4146222222222222,
      "grad_norm": 1.2021325826644897,
      "learning_rate": 0.000117101578128473,
      "loss": 1.3172,
      "step": 18658
    },
    {
      "epoch": 0.4146444444444444,
      "grad_norm": 1.6155763864517212,
      "learning_rate": 0.0001170971326961547,
      "loss": 2.3751,
      "step": 18659
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 1.5001872777938843,
      "learning_rate": 0.00011709268726383643,
      "loss": 2.2858,
      "step": 18660
    },
    {
      "epoch": 0.4146888888888889,
      "grad_norm": 1.468576431274414,
      "learning_rate": 0.00011708824183151812,
      "loss": 2.2161,
      "step": 18661
    },
    {
      "epoch": 0.4147111111111111,
      "grad_norm": 1.4662811756134033,
      "learning_rate": 0.00011708379639919982,
      "loss": 2.5581,
      "step": 18662
    },
    {
      "epoch": 0.41473333333333334,
      "grad_norm": 1.5209280252456665,
      "learning_rate": 0.00011707935096688154,
      "loss": 1.7059,
      "step": 18663
    },
    {
      "epoch": 0.41475555555555554,
      "grad_norm": 1.6561779975891113,
      "learning_rate": 0.00011707490553456324,
      "loss": 2.6377,
      "step": 18664
    },
    {
      "epoch": 0.4147777777777778,
      "grad_norm": 1.049466609954834,
      "learning_rate": 0.00011707046010224493,
      "loss": 1.0117,
      "step": 18665
    },
    {
      "epoch": 0.4148,
      "grad_norm": 1.353124976158142,
      "learning_rate": 0.00011706601466992666,
      "loss": 1.4467,
      "step": 18666
    },
    {
      "epoch": 0.4148222222222222,
      "grad_norm": 1.5941057205200195,
      "learning_rate": 0.00011706156923760835,
      "loss": 2.3914,
      "step": 18667
    },
    {
      "epoch": 0.41484444444444446,
      "grad_norm": 1.5737864971160889,
      "learning_rate": 0.00011705712380529008,
      "loss": 1.9964,
      "step": 18668
    },
    {
      "epoch": 0.41486666666666666,
      "grad_norm": 1.5828973054885864,
      "learning_rate": 0.00011705267837297179,
      "loss": 1.7201,
      "step": 18669
    },
    {
      "epoch": 0.41488888888888886,
      "grad_norm": 1.6104906797409058,
      "learning_rate": 0.00011704823294065348,
      "loss": 2.1735,
      "step": 18670
    },
    {
      "epoch": 0.4149111111111111,
      "grad_norm": 1.4715152978897095,
      "learning_rate": 0.0001170437875083352,
      "loss": 1.9127,
      "step": 18671
    },
    {
      "epoch": 0.4149333333333333,
      "grad_norm": 1.4852358102798462,
      "learning_rate": 0.0001170393420760169,
      "loss": 1.7736,
      "step": 18672
    },
    {
      "epoch": 0.4149555555555556,
      "grad_norm": 1.7904422283172607,
      "learning_rate": 0.0001170348966436986,
      "loss": 1.9496,
      "step": 18673
    },
    {
      "epoch": 0.4149777777777778,
      "grad_norm": 2.7840704917907715,
      "learning_rate": 0.00011703045121138032,
      "loss": 1.7349,
      "step": 18674
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.6095356941223145,
      "learning_rate": 0.00011702600577906202,
      "loss": 1.5667,
      "step": 18675
    },
    {
      "epoch": 0.41502222222222224,
      "grad_norm": 1.868424415588379,
      "learning_rate": 0.00011702156034674371,
      "loss": 2.054,
      "step": 18676
    },
    {
      "epoch": 0.41504444444444444,
      "grad_norm": 1.7360584735870361,
      "learning_rate": 0.00011701711491442544,
      "loss": 1.9139,
      "step": 18677
    },
    {
      "epoch": 0.41506666666666664,
      "grad_norm": 1.7792563438415527,
      "learning_rate": 0.00011701266948210715,
      "loss": 1.8949,
      "step": 18678
    },
    {
      "epoch": 0.4150888888888889,
      "grad_norm": 1.6141148805618286,
      "learning_rate": 0.00011700822404978884,
      "loss": 1.8755,
      "step": 18679
    },
    {
      "epoch": 0.4151111111111111,
      "grad_norm": 1.4563610553741455,
      "learning_rate": 0.00011700377861747057,
      "loss": 1.1031,
      "step": 18680
    },
    {
      "epoch": 0.41513333333333335,
      "grad_norm": 1.5713815689086914,
      "learning_rate": 0.00011699933318515226,
      "loss": 1.9444,
      "step": 18681
    },
    {
      "epoch": 0.41515555555555556,
      "grad_norm": 1.958416223526001,
      "learning_rate": 0.00011699488775283396,
      "loss": 1.9276,
      "step": 18682
    },
    {
      "epoch": 0.41517777777777776,
      "grad_norm": 1.6878867149353027,
      "learning_rate": 0.00011699044232051568,
      "loss": 1.9699,
      "step": 18683
    },
    {
      "epoch": 0.4152,
      "grad_norm": 1.6017227172851562,
      "learning_rate": 0.00011698599688819738,
      "loss": 1.7035,
      "step": 18684
    },
    {
      "epoch": 0.4152222222222222,
      "grad_norm": 1.766877293586731,
      "learning_rate": 0.00011698155145587909,
      "loss": 2.1417,
      "step": 18685
    },
    {
      "epoch": 0.41524444444444447,
      "grad_norm": 1.546599268913269,
      "learning_rate": 0.0001169771060235608,
      "loss": 2.0397,
      "step": 18686
    },
    {
      "epoch": 0.4152666666666667,
      "grad_norm": 1.2206764221191406,
      "learning_rate": 0.0001169726605912425,
      "loss": 0.8843,
      "step": 18687
    },
    {
      "epoch": 0.4152888888888889,
      "grad_norm": 1.5548545122146606,
      "learning_rate": 0.00011696821515892421,
      "loss": 1.6731,
      "step": 18688
    },
    {
      "epoch": 0.41531111111111113,
      "grad_norm": 1.6563912630081177,
      "learning_rate": 0.00011696376972660592,
      "loss": 1.6042,
      "step": 18689
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 1.6257774829864502,
      "learning_rate": 0.00011695932429428762,
      "loss": 1.6756,
      "step": 18690
    },
    {
      "epoch": 0.41535555555555553,
      "grad_norm": 2.0408616065979004,
      "learning_rate": 0.00011695487886196934,
      "loss": 2.0983,
      "step": 18691
    },
    {
      "epoch": 0.4153777777777778,
      "grad_norm": 1.7268210649490356,
      "learning_rate": 0.00011695043342965104,
      "loss": 1.6141,
      "step": 18692
    },
    {
      "epoch": 0.4154,
      "grad_norm": 1.521958589553833,
      "learning_rate": 0.00011694598799733274,
      "loss": 1.7765,
      "step": 18693
    },
    {
      "epoch": 0.41542222222222225,
      "grad_norm": 1.7167528867721558,
      "learning_rate": 0.00011694154256501446,
      "loss": 1.8374,
      "step": 18694
    },
    {
      "epoch": 0.41544444444444445,
      "grad_norm": 1.7470403909683228,
      "learning_rate": 0.00011693709713269616,
      "loss": 1.764,
      "step": 18695
    },
    {
      "epoch": 0.41546666666666665,
      "grad_norm": 2.387495756149292,
      "learning_rate": 0.00011693265170037786,
      "loss": 1.8248,
      "step": 18696
    },
    {
      "epoch": 0.4154888888888889,
      "grad_norm": 1.4308160543441772,
      "learning_rate": 0.00011692820626805959,
      "loss": 1.5278,
      "step": 18697
    },
    {
      "epoch": 0.4155111111111111,
      "grad_norm": 1.6355454921722412,
      "learning_rate": 0.00011692376083574128,
      "loss": 1.4538,
      "step": 18698
    },
    {
      "epoch": 0.4155333333333333,
      "grad_norm": 1.672490119934082,
      "learning_rate": 0.00011691931540342298,
      "loss": 2.0654,
      "step": 18699
    },
    {
      "epoch": 0.41555555555555557,
      "grad_norm": 1.9494457244873047,
      "learning_rate": 0.0001169148699711047,
      "loss": 1.8963,
      "step": 18700
    },
    {
      "epoch": 0.41557777777777777,
      "grad_norm": 1.3174668550491333,
      "learning_rate": 0.0001169104245387864,
      "loss": 1.0574,
      "step": 18701
    },
    {
      "epoch": 0.4156,
      "grad_norm": 0.9974801540374756,
      "learning_rate": 0.0001169059791064681,
      "loss": 1.3245,
      "step": 18702
    },
    {
      "epoch": 0.4156222222222222,
      "grad_norm": 1.4795169830322266,
      "learning_rate": 0.00011690153367414982,
      "loss": 2.2394,
      "step": 18703
    },
    {
      "epoch": 0.4156444444444444,
      "grad_norm": 1.565788984298706,
      "learning_rate": 0.00011689708824183151,
      "loss": 1.6778,
      "step": 18704
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 1.7124626636505127,
      "learning_rate": 0.00011689264280951322,
      "loss": 2.3762,
      "step": 18705
    },
    {
      "epoch": 0.4156888888888889,
      "grad_norm": 1.7648824453353882,
      "learning_rate": 0.00011688819737719495,
      "loss": 2.4221,
      "step": 18706
    },
    {
      "epoch": 0.4157111111111111,
      "grad_norm": 1.2680480480194092,
      "learning_rate": 0.00011688375194487664,
      "loss": 1.4925,
      "step": 18707
    },
    {
      "epoch": 0.41573333333333334,
      "grad_norm": 1.6964493989944458,
      "learning_rate": 0.00011687930651255837,
      "loss": 2.2159,
      "step": 18708
    },
    {
      "epoch": 0.41575555555555554,
      "grad_norm": 1.3302985429763794,
      "learning_rate": 0.00011687486108024006,
      "loss": 1.9637,
      "step": 18709
    },
    {
      "epoch": 0.4157777777777778,
      "grad_norm": 1.6102194786071777,
      "learning_rate": 0.00011687041564792176,
      "loss": 1.9152,
      "step": 18710
    },
    {
      "epoch": 0.4158,
      "grad_norm": 1.5587007999420166,
      "learning_rate": 0.00011686597021560348,
      "loss": 2.2037,
      "step": 18711
    },
    {
      "epoch": 0.4158222222222222,
      "grad_norm": 1.3075534105300903,
      "learning_rate": 0.00011686152478328518,
      "loss": 0.811,
      "step": 18712
    },
    {
      "epoch": 0.41584444444444446,
      "grad_norm": 1.787878155708313,
      "learning_rate": 0.00011685707935096687,
      "loss": 1.9581,
      "step": 18713
    },
    {
      "epoch": 0.41586666666666666,
      "grad_norm": 1.6297099590301514,
      "learning_rate": 0.0001168526339186486,
      "loss": 2.3209,
      "step": 18714
    },
    {
      "epoch": 0.41588888888888886,
      "grad_norm": 2.111783504486084,
      "learning_rate": 0.00011684818848633031,
      "loss": 1.9984,
      "step": 18715
    },
    {
      "epoch": 0.4159111111111111,
      "grad_norm": 1.592872977256775,
      "learning_rate": 0.000116843743054012,
      "loss": 1.9893,
      "step": 18716
    },
    {
      "epoch": 0.4159333333333333,
      "grad_norm": 1.5121662616729736,
      "learning_rate": 0.00011683929762169373,
      "loss": 1.9269,
      "step": 18717
    },
    {
      "epoch": 0.4159555555555556,
      "grad_norm": 1.7693461179733276,
      "learning_rate": 0.00011683485218937542,
      "loss": 2.1362,
      "step": 18718
    },
    {
      "epoch": 0.4159777777777778,
      "grad_norm": 1.6985034942626953,
      "learning_rate": 0.00011683040675705712,
      "loss": 2.0537,
      "step": 18719
    },
    {
      "epoch": 0.416,
      "grad_norm": 1.3853874206542969,
      "learning_rate": 0.00011682596132473884,
      "loss": 1.3823,
      "step": 18720
    },
    {
      "epoch": 0.41602222222222224,
      "grad_norm": 1.410485029220581,
      "learning_rate": 0.00011682151589242054,
      "loss": 1.1882,
      "step": 18721
    },
    {
      "epoch": 0.41604444444444444,
      "grad_norm": 2.1024837493896484,
      "learning_rate": 0.00011681707046010225,
      "loss": 0.9463,
      "step": 18722
    },
    {
      "epoch": 0.41606666666666664,
      "grad_norm": 1.8315491676330566,
      "learning_rate": 0.00011681262502778396,
      "loss": 1.8537,
      "step": 18723
    },
    {
      "epoch": 0.4160888888888889,
      "grad_norm": 1.4819457530975342,
      "learning_rate": 0.00011680817959546567,
      "loss": 1.6935,
      "step": 18724
    },
    {
      "epoch": 0.4161111111111111,
      "grad_norm": 2.0934009552001953,
      "learning_rate": 0.00011680373416314738,
      "loss": 1.7965,
      "step": 18725
    },
    {
      "epoch": 0.41613333333333336,
      "grad_norm": 1.3861559629440308,
      "learning_rate": 0.00011679928873082909,
      "loss": 1.3548,
      "step": 18726
    },
    {
      "epoch": 0.41615555555555556,
      "grad_norm": 1.5228312015533447,
      "learning_rate": 0.00011679484329851078,
      "loss": 1.3585,
      "step": 18727
    },
    {
      "epoch": 0.41617777777777776,
      "grad_norm": 1.7447097301483154,
      "learning_rate": 0.0001167903978661925,
      "loss": 2.3135,
      "step": 18728
    },
    {
      "epoch": 0.4162,
      "grad_norm": 1.8664547204971313,
      "learning_rate": 0.0001167859524338742,
      "loss": 1.9741,
      "step": 18729
    },
    {
      "epoch": 0.4162222222222222,
      "grad_norm": 1.666250467300415,
      "learning_rate": 0.0001167815070015559,
      "loss": 1.6428,
      "step": 18730
    },
    {
      "epoch": 0.4162444444444444,
      "grad_norm": 1.4453585147857666,
      "learning_rate": 0.00011677706156923762,
      "loss": 1.5833,
      "step": 18731
    },
    {
      "epoch": 0.4162666666666667,
      "grad_norm": 1.9070230722427368,
      "learning_rate": 0.00011677261613691932,
      "loss": 2.221,
      "step": 18732
    },
    {
      "epoch": 0.4162888888888889,
      "grad_norm": 1.7176496982574463,
      "learning_rate": 0.00011676817070460103,
      "loss": 2.4686,
      "step": 18733
    },
    {
      "epoch": 0.41631111111111113,
      "grad_norm": 1.3270909786224365,
      "learning_rate": 0.00011676372527228275,
      "loss": 1.4089,
      "step": 18734
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 1.3695334196090698,
      "learning_rate": 0.00011675927983996444,
      "loss": 1.4397,
      "step": 18735
    },
    {
      "epoch": 0.41635555555555553,
      "grad_norm": 1.1386234760284424,
      "learning_rate": 0.00011675483440764614,
      "loss": 1.0255,
      "step": 18736
    },
    {
      "epoch": 0.4163777777777778,
      "grad_norm": 1.7616175413131714,
      "learning_rate": 0.00011675038897532786,
      "loss": 1.6369,
      "step": 18737
    },
    {
      "epoch": 0.4164,
      "grad_norm": 1.9618068933486938,
      "learning_rate": 0.00011674594354300956,
      "loss": 1.9105,
      "step": 18738
    },
    {
      "epoch": 0.41642222222222225,
      "grad_norm": 1.7035318613052368,
      "learning_rate": 0.00011674149811069126,
      "loss": 1.6961,
      "step": 18739
    },
    {
      "epoch": 0.41644444444444445,
      "grad_norm": 1.644608974456787,
      "learning_rate": 0.00011673705267837298,
      "loss": 2.0968,
      "step": 18740
    },
    {
      "epoch": 0.41646666666666665,
      "grad_norm": 1.8958945274353027,
      "learning_rate": 0.00011673260724605468,
      "loss": 2.1942,
      "step": 18741
    },
    {
      "epoch": 0.4164888888888889,
      "grad_norm": 1.8985718488693237,
      "learning_rate": 0.00011672816181373639,
      "loss": 1.6947,
      "step": 18742
    },
    {
      "epoch": 0.4165111111111111,
      "grad_norm": 2.107440948486328,
      "learning_rate": 0.00011672371638141811,
      "loss": 1.874,
      "step": 18743
    },
    {
      "epoch": 0.4165333333333333,
      "grad_norm": 1.6627789735794067,
      "learning_rate": 0.0001167192709490998,
      "loss": 1.7421,
      "step": 18744
    },
    {
      "epoch": 0.41655555555555557,
      "grad_norm": 1.8905212879180908,
      "learning_rate": 0.00011671482551678153,
      "loss": 2.0879,
      "step": 18745
    },
    {
      "epoch": 0.41657777777777777,
      "grad_norm": 1.6249533891677856,
      "learning_rate": 0.00011671038008446322,
      "loss": 2.083,
      "step": 18746
    },
    {
      "epoch": 0.4166,
      "grad_norm": 1.6817139387130737,
      "learning_rate": 0.00011670593465214492,
      "loss": 1.6565,
      "step": 18747
    },
    {
      "epoch": 0.4166222222222222,
      "grad_norm": 1.6977823972702026,
      "learning_rate": 0.00011670148921982664,
      "loss": 1.8882,
      "step": 18748
    },
    {
      "epoch": 0.41664444444444443,
      "grad_norm": 1.9597395658493042,
      "learning_rate": 0.00011669704378750834,
      "loss": 2.1643,
      "step": 18749
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 1.332969307899475,
      "learning_rate": 0.00011669259835519004,
      "loss": 0.6339,
      "step": 18750
    },
    {
      "epoch": 0.4166888888888889,
      "grad_norm": 1.4934394359588623,
      "learning_rate": 0.00011668815292287176,
      "loss": 2.8452,
      "step": 18751
    },
    {
      "epoch": 0.4167111111111111,
      "grad_norm": 1.5710622072219849,
      "learning_rate": 0.00011668370749055347,
      "loss": 2.9094,
      "step": 18752
    },
    {
      "epoch": 0.41673333333333334,
      "grad_norm": 1.5559481382369995,
      "learning_rate": 0.00011667926205823516,
      "loss": 2.4981,
      "step": 18753
    },
    {
      "epoch": 0.41675555555555555,
      "grad_norm": 1.1258667707443237,
      "learning_rate": 0.00011667481662591689,
      "loss": 2.0485,
      "step": 18754
    },
    {
      "epoch": 0.4167777777777778,
      "grad_norm": 1.3114107847213745,
      "learning_rate": 0.00011667037119359858,
      "loss": 2.1541,
      "step": 18755
    },
    {
      "epoch": 0.4168,
      "grad_norm": 1.4907327890396118,
      "learning_rate": 0.00011666592576128028,
      "loss": 2.7023,
      "step": 18756
    },
    {
      "epoch": 0.4168222222222222,
      "grad_norm": 1.5014158487319946,
      "learning_rate": 0.000116661480328962,
      "loss": 2.3357,
      "step": 18757
    },
    {
      "epoch": 0.41684444444444446,
      "grad_norm": 1.3812252283096313,
      "learning_rate": 0.0001166570348966437,
      "loss": 2.0141,
      "step": 18758
    },
    {
      "epoch": 0.41686666666666666,
      "grad_norm": 0.9647113680839539,
      "learning_rate": 0.00011665258946432541,
      "loss": 0.8811,
      "step": 18759
    },
    {
      "epoch": 0.41688888888888886,
      "grad_norm": 1.4146006107330322,
      "learning_rate": 0.00011664814403200712,
      "loss": 2.2919,
      "step": 18760
    },
    {
      "epoch": 0.4169111111111111,
      "grad_norm": 1.9312270879745483,
      "learning_rate": 0.00011664369859968883,
      "loss": 2.2106,
      "step": 18761
    },
    {
      "epoch": 0.4169333333333333,
      "grad_norm": 1.382874846458435,
      "learning_rate": 0.00011663925316737052,
      "loss": 1.9844,
      "step": 18762
    },
    {
      "epoch": 0.4169555555555556,
      "grad_norm": 1.3445383310317993,
      "learning_rate": 0.00011663480773505225,
      "loss": 1.5894,
      "step": 18763
    },
    {
      "epoch": 0.4169777777777778,
      "grad_norm": 1.735509991645813,
      "learning_rate": 0.00011663036230273394,
      "loss": 2.1605,
      "step": 18764
    },
    {
      "epoch": 0.417,
      "grad_norm": 1.5514599084854126,
      "learning_rate": 0.00011662591687041567,
      "loss": 2.0572,
      "step": 18765
    },
    {
      "epoch": 0.41702222222222224,
      "grad_norm": 2.042107105255127,
      "learning_rate": 0.00011662147143809736,
      "loss": 2.5113,
      "step": 18766
    },
    {
      "epoch": 0.41704444444444444,
      "grad_norm": 1.5127516984939575,
      "learning_rate": 0.00011661702600577906,
      "loss": 1.7095,
      "step": 18767
    },
    {
      "epoch": 0.41706666666666664,
      "grad_norm": 0.8252056241035461,
      "learning_rate": 0.00011661258057346078,
      "loss": 0.9102,
      "step": 18768
    },
    {
      "epoch": 0.4170888888888889,
      "grad_norm": 1.4692927598953247,
      "learning_rate": 0.00011660813514114248,
      "loss": 1.8549,
      "step": 18769
    },
    {
      "epoch": 0.4171111111111111,
      "grad_norm": 1.2454822063446045,
      "learning_rate": 0.00011660368970882419,
      "loss": 1.2676,
      "step": 18770
    },
    {
      "epoch": 0.41713333333333336,
      "grad_norm": 0.5179601311683655,
      "learning_rate": 0.00011659924427650591,
      "loss": 0.0308,
      "step": 18771
    },
    {
      "epoch": 0.41715555555555556,
      "grad_norm": 1.4037573337554932,
      "learning_rate": 0.0001165947988441876,
      "loss": 2.0614,
      "step": 18772
    },
    {
      "epoch": 0.41717777777777776,
      "grad_norm": 1.4923005104064941,
      "learning_rate": 0.0001165903534118693,
      "loss": 1.8951,
      "step": 18773
    },
    {
      "epoch": 0.4172,
      "grad_norm": 1.4857184886932373,
      "learning_rate": 0.00011658590797955103,
      "loss": 1.8805,
      "step": 18774
    },
    {
      "epoch": 0.4172222222222222,
      "grad_norm": 1.4416956901550293,
      "learning_rate": 0.00011658146254723272,
      "loss": 1.6038,
      "step": 18775
    },
    {
      "epoch": 0.4172444444444444,
      "grad_norm": 1.645087718963623,
      "learning_rate": 0.00011657701711491442,
      "loss": 1.9303,
      "step": 18776
    },
    {
      "epoch": 0.4172666666666667,
      "grad_norm": 1.6747281551361084,
      "learning_rate": 0.00011657257168259614,
      "loss": 1.9304,
      "step": 18777
    },
    {
      "epoch": 0.4172888888888889,
      "grad_norm": 1.7951676845550537,
      "learning_rate": 0.00011656812625027784,
      "loss": 1.9554,
      "step": 18778
    },
    {
      "epoch": 0.41731111111111113,
      "grad_norm": 1.5542374849319458,
      "learning_rate": 0.00011656368081795955,
      "loss": 1.7873,
      "step": 18779
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 1.597090244293213,
      "learning_rate": 0.00011655923538564127,
      "loss": 1.7727,
      "step": 18780
    },
    {
      "epoch": 0.41735555555555554,
      "grad_norm": 1.5744874477386475,
      "learning_rate": 0.00011655478995332297,
      "loss": 2.0025,
      "step": 18781
    },
    {
      "epoch": 0.4173777777777778,
      "grad_norm": 1.4372354745864868,
      "learning_rate": 0.00011655034452100469,
      "loss": 1.5834,
      "step": 18782
    },
    {
      "epoch": 0.4174,
      "grad_norm": 2.0516903400421143,
      "learning_rate": 0.00011654589908868638,
      "loss": 2.445,
      "step": 18783
    },
    {
      "epoch": 0.4174222222222222,
      "grad_norm": 1.7660640478134155,
      "learning_rate": 0.00011654145365636808,
      "loss": 2.0424,
      "step": 18784
    },
    {
      "epoch": 0.41744444444444445,
      "grad_norm": 1.6971222162246704,
      "learning_rate": 0.0001165370082240498,
      "loss": 2.0727,
      "step": 18785
    },
    {
      "epoch": 0.41746666666666665,
      "grad_norm": 1.6264668703079224,
      "learning_rate": 0.0001165325627917315,
      "loss": 2.0096,
      "step": 18786
    },
    {
      "epoch": 0.4174888888888889,
      "grad_norm": 1.5859174728393555,
      "learning_rate": 0.0001165281173594132,
      "loss": 1.8588,
      "step": 18787
    },
    {
      "epoch": 0.4175111111111111,
      "grad_norm": 1.9480525255203247,
      "learning_rate": 0.00011652367192709492,
      "loss": 1.9574,
      "step": 18788
    },
    {
      "epoch": 0.4175333333333333,
      "grad_norm": 1.648982286453247,
      "learning_rate": 0.00011651922649477663,
      "loss": 2.1161,
      "step": 18789
    },
    {
      "epoch": 0.41755555555555557,
      "grad_norm": 0.1654689759016037,
      "learning_rate": 0.00011651478106245832,
      "loss": 0.0274,
      "step": 18790
    },
    {
      "epoch": 0.41757777777777777,
      "grad_norm": 1.7999721765518188,
      "learning_rate": 0.00011651033563014005,
      "loss": 2.1486,
      "step": 18791
    },
    {
      "epoch": 0.4176,
      "grad_norm": 1.9667530059814453,
      "learning_rate": 0.00011650589019782174,
      "loss": 1.7238,
      "step": 18792
    },
    {
      "epoch": 0.41762222222222223,
      "grad_norm": 1.5180964469909668,
      "learning_rate": 0.00011650144476550344,
      "loss": 2.0099,
      "step": 18793
    },
    {
      "epoch": 0.41764444444444443,
      "grad_norm": 1.8909897804260254,
      "learning_rate": 0.00011649699933318516,
      "loss": 2.0688,
      "step": 18794
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 1.695409893989563,
      "learning_rate": 0.00011649255390086686,
      "loss": 1.6397,
      "step": 18795
    },
    {
      "epoch": 0.4176888888888889,
      "grad_norm": 1.6789305210113525,
      "learning_rate": 0.00011648810846854857,
      "loss": 1.7058,
      "step": 18796
    },
    {
      "epoch": 0.4177111111111111,
      "grad_norm": 1.8879390954971313,
      "learning_rate": 0.00011648366303623028,
      "loss": 2.0686,
      "step": 18797
    },
    {
      "epoch": 0.41773333333333335,
      "grad_norm": 1.6374871730804443,
      "learning_rate": 0.00011647921760391199,
      "loss": 1.8357,
      "step": 18798
    },
    {
      "epoch": 0.41775555555555555,
      "grad_norm": 1.7909965515136719,
      "learning_rate": 0.00011647477217159368,
      "loss": 1.6236,
      "step": 18799
    },
    {
      "epoch": 0.4177777777777778,
      "grad_norm": 1.8979120254516602,
      "learning_rate": 0.00011647032673927541,
      "loss": 1.8922,
      "step": 18800
    },
    {
      "epoch": 0.4178,
      "grad_norm": 1.5257350206375122,
      "learning_rate": 0.0001164658813069571,
      "loss": 2.909,
      "step": 18801
    },
    {
      "epoch": 0.4178222222222222,
      "grad_norm": 1.4153259992599487,
      "learning_rate": 0.00011646143587463883,
      "loss": 2.6065,
      "step": 18802
    },
    {
      "epoch": 0.41784444444444446,
      "grad_norm": 1.81950044631958,
      "learning_rate": 0.00011645699044232052,
      "loss": 2.5275,
      "step": 18803
    },
    {
      "epoch": 0.41786666666666666,
      "grad_norm": 0.1730036735534668,
      "learning_rate": 0.00011645254501000222,
      "loss": 0.0184,
      "step": 18804
    },
    {
      "epoch": 0.41788888888888887,
      "grad_norm": 1.4862819910049438,
      "learning_rate": 0.00011644809957768394,
      "loss": 2.1529,
      "step": 18805
    },
    {
      "epoch": 0.4179111111111111,
      "grad_norm": 1.594354510307312,
      "learning_rate": 0.00011644365414536564,
      "loss": 2.6763,
      "step": 18806
    },
    {
      "epoch": 0.4179333333333333,
      "grad_norm": 1.6717535257339478,
      "learning_rate": 0.00011643920871304735,
      "loss": 1.7905,
      "step": 18807
    },
    {
      "epoch": 0.4179555555555556,
      "grad_norm": 1.5441697835922241,
      "learning_rate": 0.00011643476328072907,
      "loss": 2.453,
      "step": 18808
    },
    {
      "epoch": 0.4179777777777778,
      "grad_norm": 1.367656946182251,
      "learning_rate": 0.00011643031784841077,
      "loss": 1.9589,
      "step": 18809
    },
    {
      "epoch": 0.418,
      "grad_norm": 1.0951271057128906,
      "learning_rate": 0.00011642587241609246,
      "loss": 1.1481,
      "step": 18810
    },
    {
      "epoch": 0.41802222222222224,
      "grad_norm": 1.3829363584518433,
      "learning_rate": 0.00011642142698377419,
      "loss": 1.8502,
      "step": 18811
    },
    {
      "epoch": 0.41804444444444444,
      "grad_norm": 1.3607819080352783,
      "learning_rate": 0.00011641698155145588,
      "loss": 2.1627,
      "step": 18812
    },
    {
      "epoch": 0.41806666666666664,
      "grad_norm": 1.4655601978302002,
      "learning_rate": 0.00011641253611913758,
      "loss": 2.2757,
      "step": 18813
    },
    {
      "epoch": 0.4180888888888889,
      "grad_norm": 1.465579867362976,
      "learning_rate": 0.0001164080906868193,
      "loss": 1.8421,
      "step": 18814
    },
    {
      "epoch": 0.4181111111111111,
      "grad_norm": 1.441678524017334,
      "learning_rate": 0.000116403645254501,
      "loss": 1.9852,
      "step": 18815
    },
    {
      "epoch": 0.41813333333333336,
      "grad_norm": 1.3076629638671875,
      "learning_rate": 0.00011639919982218271,
      "loss": 1.6717,
      "step": 18816
    },
    {
      "epoch": 0.41815555555555556,
      "grad_norm": 1.5020177364349365,
      "learning_rate": 0.00011639475438986443,
      "loss": 1.7545,
      "step": 18817
    },
    {
      "epoch": 0.41817777777777776,
      "grad_norm": 1.690680980682373,
      "learning_rate": 0.00011639030895754613,
      "loss": 2.4268,
      "step": 18818
    },
    {
      "epoch": 0.4182,
      "grad_norm": 1.5646820068359375,
      "learning_rate": 0.00011638586352522782,
      "loss": 1.9116,
      "step": 18819
    },
    {
      "epoch": 0.4182222222222222,
      "grad_norm": 1.914111852645874,
      "learning_rate": 0.00011638141809290955,
      "loss": 2.1773,
      "step": 18820
    },
    {
      "epoch": 0.4182444444444444,
      "grad_norm": 1.6232129335403442,
      "learning_rate": 0.00011637697266059124,
      "loss": 1.8681,
      "step": 18821
    },
    {
      "epoch": 0.4182666666666667,
      "grad_norm": 1.579146146774292,
      "learning_rate": 0.00011637252722827297,
      "loss": 1.9786,
      "step": 18822
    },
    {
      "epoch": 0.4182888888888889,
      "grad_norm": 1.5661169290542603,
      "learning_rate": 0.00011636808179595466,
      "loss": 1.7896,
      "step": 18823
    },
    {
      "epoch": 0.41831111111111113,
      "grad_norm": 1.7026678323745728,
      "learning_rate": 0.00011636363636363636,
      "loss": 1.3661,
      "step": 18824
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 1.4919400215148926,
      "learning_rate": 0.00011635919093131808,
      "loss": 1.8886,
      "step": 18825
    },
    {
      "epoch": 0.41835555555555554,
      "grad_norm": 1.594973087310791,
      "learning_rate": 0.00011635474549899979,
      "loss": 2.1522,
      "step": 18826
    },
    {
      "epoch": 0.4183777777777778,
      "grad_norm": 1.719316005706787,
      "learning_rate": 0.00011635030006668149,
      "loss": 1.8164,
      "step": 18827
    },
    {
      "epoch": 0.4184,
      "grad_norm": 1.158083200454712,
      "learning_rate": 0.00011634585463436321,
      "loss": 1.0045,
      "step": 18828
    },
    {
      "epoch": 0.4184222222222222,
      "grad_norm": 1.5009289979934692,
      "learning_rate": 0.0001163414092020449,
      "loss": 1.8599,
      "step": 18829
    },
    {
      "epoch": 0.41844444444444445,
      "grad_norm": 1.6659553050994873,
      "learning_rate": 0.0001163369637697266,
      "loss": 2.2194,
      "step": 18830
    },
    {
      "epoch": 0.41846666666666665,
      "grad_norm": 1.3867318630218506,
      "learning_rate": 0.00011633251833740832,
      "loss": 1.7026,
      "step": 18831
    },
    {
      "epoch": 0.4184888888888889,
      "grad_norm": 1.9251971244812012,
      "learning_rate": 0.00011632807290509002,
      "loss": 1.951,
      "step": 18832
    },
    {
      "epoch": 0.4185111111111111,
      "grad_norm": 1.0181976556777954,
      "learning_rate": 0.00011632362747277173,
      "loss": 0.9503,
      "step": 18833
    },
    {
      "epoch": 0.4185333333333333,
      "grad_norm": 1.6723108291625977,
      "learning_rate": 0.00011631918204045344,
      "loss": 2.1142,
      "step": 18834
    },
    {
      "epoch": 0.41855555555555557,
      "grad_norm": 1.5658364295959473,
      "learning_rate": 0.00011631473660813515,
      "loss": 2.1144,
      "step": 18835
    },
    {
      "epoch": 0.41857777777777777,
      "grad_norm": 1.7554177045822144,
      "learning_rate": 0.00011631029117581685,
      "loss": 2.0161,
      "step": 18836
    },
    {
      "epoch": 0.4186,
      "grad_norm": 1.467237949371338,
      "learning_rate": 0.00011630584574349857,
      "loss": 1.8931,
      "step": 18837
    },
    {
      "epoch": 0.41862222222222223,
      "grad_norm": 1.821707010269165,
      "learning_rate": 0.00011630140031118026,
      "loss": 1.8406,
      "step": 18838
    },
    {
      "epoch": 0.41864444444444443,
      "grad_norm": 2.174616813659668,
      "learning_rate": 0.00011629695487886199,
      "loss": 1.9327,
      "step": 18839
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 1.5763119459152222,
      "learning_rate": 0.00011629250944654368,
      "loss": 1.8592,
      "step": 18840
    },
    {
      "epoch": 0.4186888888888889,
      "grad_norm": 1.5958049297332764,
      "learning_rate": 0.00011628806401422538,
      "loss": 1.9607,
      "step": 18841
    },
    {
      "epoch": 0.4187111111111111,
      "grad_norm": 1.4729138612747192,
      "learning_rate": 0.0001162836185819071,
      "loss": 1.4567,
      "step": 18842
    },
    {
      "epoch": 0.41873333333333335,
      "grad_norm": 1.2437655925750732,
      "learning_rate": 0.0001162791731495888,
      "loss": 1.1484,
      "step": 18843
    },
    {
      "epoch": 0.41875555555555555,
      "grad_norm": 1.8933064937591553,
      "learning_rate": 0.00011627472771727051,
      "loss": 1.7973,
      "step": 18844
    },
    {
      "epoch": 0.4187777777777778,
      "grad_norm": 1.4171746969223022,
      "learning_rate": 0.00011627028228495223,
      "loss": 1.4836,
      "step": 18845
    },
    {
      "epoch": 0.4188,
      "grad_norm": 1.860448956489563,
      "learning_rate": 0.00011626583685263393,
      "loss": 1.7967,
      "step": 18846
    },
    {
      "epoch": 0.4188222222222222,
      "grad_norm": 1.2969119548797607,
      "learning_rate": 0.00011626139142031562,
      "loss": 1.1946,
      "step": 18847
    },
    {
      "epoch": 0.41884444444444446,
      "grad_norm": 1.705994725227356,
      "learning_rate": 0.00011625694598799735,
      "loss": 1.9802,
      "step": 18848
    },
    {
      "epoch": 0.41886666666666666,
      "grad_norm": 2.0049209594726562,
      "learning_rate": 0.00011625250055567904,
      "loss": 1.5049,
      "step": 18849
    },
    {
      "epoch": 0.41888888888888887,
      "grad_norm": 1.08893620967865,
      "learning_rate": 0.00011624805512336074,
      "loss": 0.6265,
      "step": 18850
    },
    {
      "epoch": 0.4189111111111111,
      "grad_norm": 1.3047553300857544,
      "learning_rate": 0.00011624360969104246,
      "loss": 2.2759,
      "step": 18851
    },
    {
      "epoch": 0.4189333333333333,
      "grad_norm": 1.656137466430664,
      "learning_rate": 0.00011623916425872416,
      "loss": 2.9516,
      "step": 18852
    },
    {
      "epoch": 0.4189555555555556,
      "grad_norm": 1.2157591581344604,
      "learning_rate": 0.00011623471882640587,
      "loss": 1.8522,
      "step": 18853
    },
    {
      "epoch": 0.4189777777777778,
      "grad_norm": 1.5023940801620483,
      "learning_rate": 0.00011623027339408759,
      "loss": 2.592,
      "step": 18854
    },
    {
      "epoch": 0.419,
      "grad_norm": 1.5368177890777588,
      "learning_rate": 0.00011622582796176929,
      "loss": 2.9389,
      "step": 18855
    },
    {
      "epoch": 0.41902222222222224,
      "grad_norm": 1.4214524030685425,
      "learning_rate": 0.00011622138252945098,
      "loss": 1.904,
      "step": 18856
    },
    {
      "epoch": 0.41904444444444444,
      "grad_norm": 1.6069034337997437,
      "learning_rate": 0.00011621693709713271,
      "loss": 2.1683,
      "step": 18857
    },
    {
      "epoch": 0.41906666666666664,
      "grad_norm": 1.3437039852142334,
      "learning_rate": 0.0001162124916648144,
      "loss": 2.1433,
      "step": 18858
    },
    {
      "epoch": 0.4190888888888889,
      "grad_norm": 1.3475350141525269,
      "learning_rate": 0.00011620804623249613,
      "loss": 2.1015,
      "step": 18859
    },
    {
      "epoch": 0.4191111111111111,
      "grad_norm": 1.3639122247695923,
      "learning_rate": 0.00011620360080017782,
      "loss": 1.8033,
      "step": 18860
    },
    {
      "epoch": 0.41913333333333336,
      "grad_norm": 1.6493232250213623,
      "learning_rate": 0.00011619915536785952,
      "loss": 2.2395,
      "step": 18861
    },
    {
      "epoch": 0.41915555555555556,
      "grad_norm": 1.5188064575195312,
      "learning_rate": 0.00011619470993554124,
      "loss": 2.1871,
      "step": 18862
    },
    {
      "epoch": 0.41917777777777776,
      "grad_norm": 1.7908477783203125,
      "learning_rate": 0.00011619026450322295,
      "loss": 2.0049,
      "step": 18863
    },
    {
      "epoch": 0.4192,
      "grad_norm": 1.6153271198272705,
      "learning_rate": 0.00011618581907090465,
      "loss": 2.4195,
      "step": 18864
    },
    {
      "epoch": 0.4192222222222222,
      "grad_norm": 1.5314549207687378,
      "learning_rate": 0.00011618137363858637,
      "loss": 2.1183,
      "step": 18865
    },
    {
      "epoch": 0.4192444444444444,
      "grad_norm": 1.5667849779129028,
      "learning_rate": 0.00011617692820626807,
      "loss": 2.4648,
      "step": 18866
    },
    {
      "epoch": 0.4192666666666667,
      "grad_norm": 2.001443862915039,
      "learning_rate": 0.00011617248277394976,
      "loss": 2.1717,
      "step": 18867
    },
    {
      "epoch": 0.4192888888888889,
      "grad_norm": 1.7579305171966553,
      "learning_rate": 0.00011616803734163149,
      "loss": 2.5589,
      "step": 18868
    },
    {
      "epoch": 0.41931111111111113,
      "grad_norm": 1.5388234853744507,
      "learning_rate": 0.00011616359190931318,
      "loss": 1.8061,
      "step": 18869
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 1.238968849182129,
      "learning_rate": 0.00011615914647699489,
      "loss": 1.2526,
      "step": 18870
    },
    {
      "epoch": 0.41935555555555554,
      "grad_norm": 1.5544315576553345,
      "learning_rate": 0.0001161547010446766,
      "loss": 1.9113,
      "step": 18871
    },
    {
      "epoch": 0.4193777777777778,
      "grad_norm": 1.545871615409851,
      "learning_rate": 0.00011615025561235831,
      "loss": 2.2551,
      "step": 18872
    },
    {
      "epoch": 0.4194,
      "grad_norm": 1.4748704433441162,
      "learning_rate": 0.00011614581018004,
      "loss": 1.8505,
      "step": 18873
    },
    {
      "epoch": 0.4194222222222222,
      "grad_norm": 1.6399681568145752,
      "learning_rate": 0.00011614136474772173,
      "loss": 2.0841,
      "step": 18874
    },
    {
      "epoch": 0.41944444444444445,
      "grad_norm": 4.066193103790283,
      "learning_rate": 0.00011613691931540343,
      "loss": 1.9681,
      "step": 18875
    },
    {
      "epoch": 0.41946666666666665,
      "grad_norm": 1.4118447303771973,
      "learning_rate": 0.00011613247388308515,
      "loss": 1.6778,
      "step": 18876
    },
    {
      "epoch": 0.4194888888888889,
      "grad_norm": 1.6537774801254272,
      "learning_rate": 0.00011612802845076684,
      "loss": 2.0948,
      "step": 18877
    },
    {
      "epoch": 0.4195111111111111,
      "grad_norm": 1.7825852632522583,
      "learning_rate": 0.00011612358301844854,
      "loss": 1.9904,
      "step": 18878
    },
    {
      "epoch": 0.4195333333333333,
      "grad_norm": 2.131260633468628,
      "learning_rate": 0.00011611913758613026,
      "loss": 2.4245,
      "step": 18879
    },
    {
      "epoch": 0.41955555555555557,
      "grad_norm": 1.4864832162857056,
      "learning_rate": 0.00011611469215381196,
      "loss": 1.966,
      "step": 18880
    },
    {
      "epoch": 0.41957777777777777,
      "grad_norm": 2.0752744674682617,
      "learning_rate": 0.00011611024672149367,
      "loss": 1.6483,
      "step": 18881
    },
    {
      "epoch": 0.4196,
      "grad_norm": 1.1505106687545776,
      "learning_rate": 0.00011610580128917539,
      "loss": 1.1715,
      "step": 18882
    },
    {
      "epoch": 0.41962222222222223,
      "grad_norm": 1.5484929084777832,
      "learning_rate": 0.00011610135585685709,
      "loss": 1.8669,
      "step": 18883
    },
    {
      "epoch": 0.41964444444444443,
      "grad_norm": 1.386061191558838,
      "learning_rate": 0.00011609691042453879,
      "loss": 0.9753,
      "step": 18884
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 1.5661249160766602,
      "learning_rate": 0.00011609246499222051,
      "loss": 1.8316,
      "step": 18885
    },
    {
      "epoch": 0.4196888888888889,
      "grad_norm": 2.14746356010437,
      "learning_rate": 0.0001160880195599022,
      "loss": 2.2799,
      "step": 18886
    },
    {
      "epoch": 0.4197111111111111,
      "grad_norm": 1.4609959125518799,
      "learning_rate": 0.0001160835741275839,
      "loss": 1.5144,
      "step": 18887
    },
    {
      "epoch": 0.41973333333333335,
      "grad_norm": 2.05226993560791,
      "learning_rate": 0.00011607912869526562,
      "loss": 1.3367,
      "step": 18888
    },
    {
      "epoch": 0.41975555555555555,
      "grad_norm": 1.8052431344985962,
      "learning_rate": 0.00011607468326294732,
      "loss": 2.2421,
      "step": 18889
    },
    {
      "epoch": 0.4197777777777778,
      "grad_norm": 1.4138551950454712,
      "learning_rate": 0.00011607023783062903,
      "loss": 1.4689,
      "step": 18890
    },
    {
      "epoch": 0.4198,
      "grad_norm": 2.183077096939087,
      "learning_rate": 0.00011606579239831075,
      "loss": 1.9111,
      "step": 18891
    },
    {
      "epoch": 0.4198222222222222,
      "grad_norm": 1.8737174272537231,
      "learning_rate": 0.00011606134696599245,
      "loss": 1.8892,
      "step": 18892
    },
    {
      "epoch": 0.41984444444444446,
      "grad_norm": 1.4476593732833862,
      "learning_rate": 0.00011605690153367414,
      "loss": 1.5378,
      "step": 18893
    },
    {
      "epoch": 0.41986666666666667,
      "grad_norm": 1.6342495679855347,
      "learning_rate": 0.00011605245610135587,
      "loss": 1.7936,
      "step": 18894
    },
    {
      "epoch": 0.41988888888888887,
      "grad_norm": 1.563407301902771,
      "learning_rate": 0.00011604801066903756,
      "loss": 1.6709,
      "step": 18895
    },
    {
      "epoch": 0.4199111111111111,
      "grad_norm": 2.2239372730255127,
      "learning_rate": 0.00011604356523671929,
      "loss": 1.7923,
      "step": 18896
    },
    {
      "epoch": 0.4199333333333333,
      "grad_norm": 1.5397011041641235,
      "learning_rate": 0.00011603911980440098,
      "loss": 1.3654,
      "step": 18897
    },
    {
      "epoch": 0.4199555555555556,
      "grad_norm": 2.033888101577759,
      "learning_rate": 0.00011603467437208268,
      "loss": 2.1005,
      "step": 18898
    },
    {
      "epoch": 0.4199777777777778,
      "grad_norm": 1.5163546800613403,
      "learning_rate": 0.0001160302289397644,
      "loss": 1.5858,
      "step": 18899
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.936899185180664,
      "learning_rate": 0.00011602578350744611,
      "loss": 2.0525,
      "step": 18900
    },
    {
      "epoch": 0.42002222222222224,
      "grad_norm": 1.4973820447921753,
      "learning_rate": 0.00011602133807512781,
      "loss": 1.3873,
      "step": 18901
    },
    {
      "epoch": 0.42004444444444444,
      "grad_norm": 1.6963222026824951,
      "learning_rate": 0.00011601689264280953,
      "loss": 2.4079,
      "step": 18902
    },
    {
      "epoch": 0.42006666666666664,
      "grad_norm": 1.418062448501587,
      "learning_rate": 0.00011601244721049123,
      "loss": 2.1563,
      "step": 18903
    },
    {
      "epoch": 0.4200888888888889,
      "grad_norm": 1.4347048997879028,
      "learning_rate": 0.00011600800177817292,
      "loss": 2.3164,
      "step": 18904
    },
    {
      "epoch": 0.4201111111111111,
      "grad_norm": 1.3986244201660156,
      "learning_rate": 0.00011600355634585465,
      "loss": 2.291,
      "step": 18905
    },
    {
      "epoch": 0.42013333333333336,
      "grad_norm": 1.2549645900726318,
      "learning_rate": 0.00011599911091353634,
      "loss": 2.1775,
      "step": 18906
    },
    {
      "epoch": 0.42015555555555556,
      "grad_norm": 1.5143239498138428,
      "learning_rate": 0.00011599466548121805,
      "loss": 2.0047,
      "step": 18907
    },
    {
      "epoch": 0.42017777777777776,
      "grad_norm": 1.5327318906784058,
      "learning_rate": 0.00011599022004889976,
      "loss": 2.1304,
      "step": 18908
    },
    {
      "epoch": 0.4202,
      "grad_norm": 1.6719871759414673,
      "learning_rate": 0.00011598577461658147,
      "loss": 2.548,
      "step": 18909
    },
    {
      "epoch": 0.4202222222222222,
      "grad_norm": 2.178006649017334,
      "learning_rate": 0.00011598132918426317,
      "loss": 2.2229,
      "step": 18910
    },
    {
      "epoch": 0.4202444444444444,
      "grad_norm": 1.423624873161316,
      "learning_rate": 0.00011597688375194489,
      "loss": 1.7939,
      "step": 18911
    },
    {
      "epoch": 0.4202666666666667,
      "grad_norm": 1.7202011346817017,
      "learning_rate": 0.00011597243831962659,
      "loss": 2.1384,
      "step": 18912
    },
    {
      "epoch": 0.4202888888888889,
      "grad_norm": 1.8061612844467163,
      "learning_rate": 0.00011596799288730828,
      "loss": 2.4066,
      "step": 18913
    },
    {
      "epoch": 0.42031111111111114,
      "grad_norm": 1.5437366962432861,
      "learning_rate": 0.00011596354745499,
      "loss": 1.6072,
      "step": 18914
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 1.5318485498428345,
      "learning_rate": 0.0001159591020226717,
      "loss": 1.6719,
      "step": 18915
    },
    {
      "epoch": 0.42035555555555554,
      "grad_norm": 1.639481544494629,
      "learning_rate": 0.00011595465659035343,
      "loss": 1.881,
      "step": 18916
    },
    {
      "epoch": 0.4203777777777778,
      "grad_norm": 1.3179399967193604,
      "learning_rate": 0.00011595021115803512,
      "loss": 1.6942,
      "step": 18917
    },
    {
      "epoch": 0.4204,
      "grad_norm": 1.6306476593017578,
      "learning_rate": 0.00011594576572571683,
      "loss": 1.8273,
      "step": 18918
    },
    {
      "epoch": 0.4204222222222222,
      "grad_norm": 1.5979804992675781,
      "learning_rate": 0.00011594132029339855,
      "loss": 1.9863,
      "step": 18919
    },
    {
      "epoch": 0.42044444444444445,
      "grad_norm": 1.684645414352417,
      "learning_rate": 0.00011593687486108025,
      "loss": 2.1271,
      "step": 18920
    },
    {
      "epoch": 0.42046666666666666,
      "grad_norm": 1.73444402217865,
      "learning_rate": 0.00011593242942876195,
      "loss": 1.9065,
      "step": 18921
    },
    {
      "epoch": 0.4204888888888889,
      "grad_norm": 1.5965992212295532,
      "learning_rate": 0.00011592798399644367,
      "loss": 1.9633,
      "step": 18922
    },
    {
      "epoch": 0.4205111111111111,
      "grad_norm": 1.6667791604995728,
      "learning_rate": 0.00011592353856412537,
      "loss": 1.9801,
      "step": 18923
    },
    {
      "epoch": 0.4205333333333333,
      "grad_norm": 1.2787350416183472,
      "learning_rate": 0.00011591909313180706,
      "loss": 1.1451,
      "step": 18924
    },
    {
      "epoch": 0.42055555555555557,
      "grad_norm": 1.263906478881836,
      "learning_rate": 0.00011591464769948878,
      "loss": 1.0755,
      "step": 18925
    },
    {
      "epoch": 0.4205777777777778,
      "grad_norm": 1.4825756549835205,
      "learning_rate": 0.00011591020226717048,
      "loss": 1.8085,
      "step": 18926
    },
    {
      "epoch": 0.4206,
      "grad_norm": 1.498361587524414,
      "learning_rate": 0.00011590575683485219,
      "loss": 2.0158,
      "step": 18927
    },
    {
      "epoch": 0.42062222222222223,
      "grad_norm": 1.3808753490447998,
      "learning_rate": 0.00011590131140253391,
      "loss": 1.3195,
      "step": 18928
    },
    {
      "epoch": 0.42064444444444443,
      "grad_norm": 0.995017945766449,
      "learning_rate": 0.00011589686597021561,
      "loss": 0.8005,
      "step": 18929
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 1.6761263608932495,
      "learning_rate": 0.0001158924205378973,
      "loss": 2.2634,
      "step": 18930
    },
    {
      "epoch": 0.4206888888888889,
      "grad_norm": 1.5474393367767334,
      "learning_rate": 0.00011588797510557903,
      "loss": 1.9394,
      "step": 18931
    },
    {
      "epoch": 0.4207111111111111,
      "grad_norm": 1.3447532653808594,
      "learning_rate": 0.00011588352967326072,
      "loss": 1.3542,
      "step": 18932
    },
    {
      "epoch": 0.42073333333333335,
      "grad_norm": 1.7263046503067017,
      "learning_rate": 0.00011587908424094245,
      "loss": 2.2491,
      "step": 18933
    },
    {
      "epoch": 0.42075555555555555,
      "grad_norm": 1.8468174934387207,
      "learning_rate": 0.00011587463880862414,
      "loss": 2.3395,
      "step": 18934
    },
    {
      "epoch": 0.42077777777777775,
      "grad_norm": 1.6990647315979004,
      "learning_rate": 0.00011587019337630584,
      "loss": 1.9858,
      "step": 18935
    },
    {
      "epoch": 0.4208,
      "grad_norm": 1.691690444946289,
      "learning_rate": 0.00011586574794398756,
      "loss": 1.9534,
      "step": 18936
    },
    {
      "epoch": 0.4208222222222222,
      "grad_norm": 1.5349279642105103,
      "learning_rate": 0.00011586130251166927,
      "loss": 1.8966,
      "step": 18937
    },
    {
      "epoch": 0.42084444444444447,
      "grad_norm": 1.5821869373321533,
      "learning_rate": 0.00011585685707935097,
      "loss": 2.0162,
      "step": 18938
    },
    {
      "epoch": 0.42086666666666667,
      "grad_norm": 1.683176040649414,
      "learning_rate": 0.00011585241164703269,
      "loss": 2.0868,
      "step": 18939
    },
    {
      "epoch": 0.42088888888888887,
      "grad_norm": 1.5185242891311646,
      "learning_rate": 0.00011584796621471439,
      "loss": 1.8867,
      "step": 18940
    },
    {
      "epoch": 0.4209111111111111,
      "grad_norm": 1.9063414335250854,
      "learning_rate": 0.00011584352078239608,
      "loss": 1.7519,
      "step": 18941
    },
    {
      "epoch": 0.4209333333333333,
      "grad_norm": 1.8524001836776733,
      "learning_rate": 0.00011583907535007781,
      "loss": 1.9217,
      "step": 18942
    },
    {
      "epoch": 0.4209555555555556,
      "grad_norm": 2.306251287460327,
      "learning_rate": 0.0001158346299177595,
      "loss": 2.0353,
      "step": 18943
    },
    {
      "epoch": 0.4209777777777778,
      "grad_norm": 1.5796904563903809,
      "learning_rate": 0.00011583018448544121,
      "loss": 1.6605,
      "step": 18944
    },
    {
      "epoch": 0.421,
      "grad_norm": 2.259002685546875,
      "learning_rate": 0.00011582573905312292,
      "loss": 2.1066,
      "step": 18945
    },
    {
      "epoch": 0.42102222222222224,
      "grad_norm": 2.0487701892852783,
      "learning_rate": 0.00011582129362080463,
      "loss": 1.9837,
      "step": 18946
    },
    {
      "epoch": 0.42104444444444444,
      "grad_norm": 1.8946690559387207,
      "learning_rate": 0.00011581684818848633,
      "loss": 2.166,
      "step": 18947
    },
    {
      "epoch": 0.42106666666666664,
      "grad_norm": 1.7824127674102783,
      "learning_rate": 0.00011581240275616805,
      "loss": 1.6665,
      "step": 18948
    },
    {
      "epoch": 0.4210888888888889,
      "grad_norm": 1.9130204916000366,
      "learning_rate": 0.00011580795732384975,
      "loss": 1.443,
      "step": 18949
    },
    {
      "epoch": 0.4211111111111111,
      "grad_norm": 1.7427407503128052,
      "learning_rate": 0.00011580351189153144,
      "loss": 1.5307,
      "step": 18950
    },
    {
      "epoch": 0.42113333333333336,
      "grad_norm": 1.3488562107086182,
      "learning_rate": 0.00011579906645921317,
      "loss": 2.4459,
      "step": 18951
    },
    {
      "epoch": 0.42115555555555556,
      "grad_norm": 1.5290985107421875,
      "learning_rate": 0.00011579462102689486,
      "loss": 2.31,
      "step": 18952
    },
    {
      "epoch": 0.42117777777777776,
      "grad_norm": 1.3036510944366455,
      "learning_rate": 0.00011579017559457659,
      "loss": 1.527,
      "step": 18953
    },
    {
      "epoch": 0.4212,
      "grad_norm": 1.7100249528884888,
      "learning_rate": 0.00011578573016225828,
      "loss": 2.2809,
      "step": 18954
    },
    {
      "epoch": 0.4212222222222222,
      "grad_norm": 1.462088704109192,
      "learning_rate": 0.00011578128472993999,
      "loss": 2.4876,
      "step": 18955
    },
    {
      "epoch": 0.4212444444444444,
      "grad_norm": 1.4450968503952026,
      "learning_rate": 0.00011577683929762172,
      "loss": 2.1132,
      "step": 18956
    },
    {
      "epoch": 0.4212666666666667,
      "grad_norm": 1.4390116930007935,
      "learning_rate": 0.00011577239386530341,
      "loss": 2.4112,
      "step": 18957
    },
    {
      "epoch": 0.4212888888888889,
      "grad_norm": 1.2014031410217285,
      "learning_rate": 0.00011576794843298511,
      "loss": 1.738,
      "step": 18958
    },
    {
      "epoch": 0.42131111111111114,
      "grad_norm": 1.5730279684066772,
      "learning_rate": 0.00011576350300066683,
      "loss": 2.1579,
      "step": 18959
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 1.402262568473816,
      "learning_rate": 0.00011575905756834853,
      "loss": 1.9344,
      "step": 18960
    },
    {
      "epoch": 0.42135555555555554,
      "grad_norm": 1.5300002098083496,
      "learning_rate": 0.00011575461213603022,
      "loss": 1.8513,
      "step": 18961
    },
    {
      "epoch": 0.4213777777777778,
      "grad_norm": 1.7642199993133545,
      "learning_rate": 0.00011575016670371195,
      "loss": 2.4308,
      "step": 18962
    },
    {
      "epoch": 0.4214,
      "grad_norm": 1.6522427797317505,
      "learning_rate": 0.00011574572127139364,
      "loss": 2.363,
      "step": 18963
    },
    {
      "epoch": 0.4214222222222222,
      "grad_norm": 1.7607449293136597,
      "learning_rate": 0.00011574127583907535,
      "loss": 2.367,
      "step": 18964
    },
    {
      "epoch": 0.42144444444444445,
      "grad_norm": 1.5000141859054565,
      "learning_rate": 0.00011573683040675707,
      "loss": 1.9588,
      "step": 18965
    },
    {
      "epoch": 0.42146666666666666,
      "grad_norm": 1.6308441162109375,
      "learning_rate": 0.00011573238497443877,
      "loss": 2.4236,
      "step": 18966
    },
    {
      "epoch": 0.4214888888888889,
      "grad_norm": 1.6830885410308838,
      "learning_rate": 0.00011572793954212047,
      "loss": 2.4764,
      "step": 18967
    },
    {
      "epoch": 0.4215111111111111,
      "grad_norm": 1.6285451650619507,
      "learning_rate": 0.00011572349410980219,
      "loss": 2.2444,
      "step": 18968
    },
    {
      "epoch": 0.4215333333333333,
      "grad_norm": 1.5828193426132202,
      "learning_rate": 0.00011571904867748389,
      "loss": 2.1334,
      "step": 18969
    },
    {
      "epoch": 0.42155555555555557,
      "grad_norm": 1.6485669612884521,
      "learning_rate": 0.00011571460324516558,
      "loss": 2.1026,
      "step": 18970
    },
    {
      "epoch": 0.4215777777777778,
      "grad_norm": 1.9492822885513306,
      "learning_rate": 0.0001157101578128473,
      "loss": 2.2045,
      "step": 18971
    },
    {
      "epoch": 0.4216,
      "grad_norm": 1.1892130374908447,
      "learning_rate": 0.000115705712380529,
      "loss": 1.0848,
      "step": 18972
    },
    {
      "epoch": 0.42162222222222223,
      "grad_norm": 1.5203086137771606,
      "learning_rate": 0.00011570126694821072,
      "loss": 2.1387,
      "step": 18973
    },
    {
      "epoch": 0.42164444444444443,
      "grad_norm": 1.5755115747451782,
      "learning_rate": 0.00011569682151589243,
      "loss": 1.8768,
      "step": 18974
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 1.3520092964172363,
      "learning_rate": 0.00011569237608357413,
      "loss": 1.4766,
      "step": 18975
    },
    {
      "epoch": 0.4216888888888889,
      "grad_norm": 1.4489412307739258,
      "learning_rate": 0.00011568793065125585,
      "loss": 1.7693,
      "step": 18976
    },
    {
      "epoch": 0.4217111111111111,
      "grad_norm": 1.6728459596633911,
      "learning_rate": 0.00011568348521893755,
      "loss": 2.1575,
      "step": 18977
    },
    {
      "epoch": 0.42173333333333335,
      "grad_norm": 1.905936360359192,
      "learning_rate": 0.00011567903978661925,
      "loss": 1.593,
      "step": 18978
    },
    {
      "epoch": 0.42175555555555555,
      "grad_norm": 1.2029531002044678,
      "learning_rate": 0.00011567459435430097,
      "loss": 1.0546,
      "step": 18979
    },
    {
      "epoch": 0.42177777777777775,
      "grad_norm": 1.5947637557983398,
      "learning_rate": 0.00011567014892198266,
      "loss": 1.8063,
      "step": 18980
    },
    {
      "epoch": 0.4218,
      "grad_norm": 1.580354928970337,
      "learning_rate": 0.00011566570348966437,
      "loss": 1.9091,
      "step": 18981
    },
    {
      "epoch": 0.4218222222222222,
      "grad_norm": 1.6004905700683594,
      "learning_rate": 0.00011566125805734608,
      "loss": 1.8216,
      "step": 18982
    },
    {
      "epoch": 0.42184444444444447,
      "grad_norm": 1.722008466720581,
      "learning_rate": 0.0001156568126250278,
      "loss": 1.9964,
      "step": 18983
    },
    {
      "epoch": 0.42186666666666667,
      "grad_norm": 1.732046365737915,
      "learning_rate": 0.00011565236719270949,
      "loss": 1.8712,
      "step": 18984
    },
    {
      "epoch": 0.42188888888888887,
      "grad_norm": 1.2611955404281616,
      "learning_rate": 0.00011564792176039121,
      "loss": 1.2856,
      "step": 18985
    },
    {
      "epoch": 0.4219111111111111,
      "grad_norm": 1.6789671182632446,
      "learning_rate": 0.00011564347632807291,
      "loss": 2.2965,
      "step": 18986
    },
    {
      "epoch": 0.4219333333333333,
      "grad_norm": 1.0359679460525513,
      "learning_rate": 0.0001156390308957546,
      "loss": 0.6772,
      "step": 18987
    },
    {
      "epoch": 0.42195555555555553,
      "grad_norm": 1.4843367338180542,
      "learning_rate": 0.00011563458546343633,
      "loss": 1.3377,
      "step": 18988
    },
    {
      "epoch": 0.4219777777777778,
      "grad_norm": 1.9700511693954468,
      "learning_rate": 0.00011563014003111802,
      "loss": 1.9543,
      "step": 18989
    },
    {
      "epoch": 0.422,
      "grad_norm": 1.5468335151672363,
      "learning_rate": 0.00011562569459879975,
      "loss": 1.5578,
      "step": 18990
    },
    {
      "epoch": 0.42202222222222224,
      "grad_norm": 1.6611485481262207,
      "learning_rate": 0.00011562124916648144,
      "loss": 2.0338,
      "step": 18991
    },
    {
      "epoch": 0.42204444444444444,
      "grad_norm": 1.749590277671814,
      "learning_rate": 0.00011561680373416315,
      "loss": 1.9696,
      "step": 18992
    },
    {
      "epoch": 0.42206666666666665,
      "grad_norm": 2.378162145614624,
      "learning_rate": 0.00011561235830184488,
      "loss": 2.2383,
      "step": 18993
    },
    {
      "epoch": 0.4220888888888889,
      "grad_norm": 1.8626965284347534,
      "learning_rate": 0.00011560791286952657,
      "loss": 1.641,
      "step": 18994
    },
    {
      "epoch": 0.4221111111111111,
      "grad_norm": 1.5893099308013916,
      "learning_rate": 0.00011560346743720827,
      "loss": 1.9306,
      "step": 18995
    },
    {
      "epoch": 0.42213333333333336,
      "grad_norm": 1.8003044128417969,
      "learning_rate": 0.00011559902200488999,
      "loss": 2.0397,
      "step": 18996
    },
    {
      "epoch": 0.42215555555555556,
      "grad_norm": 1.6107367277145386,
      "learning_rate": 0.00011559457657257169,
      "loss": 1.7802,
      "step": 18997
    },
    {
      "epoch": 0.42217777777777776,
      "grad_norm": 1.915835976600647,
      "learning_rate": 0.00011559013114025338,
      "loss": 2.063,
      "step": 18998
    },
    {
      "epoch": 0.4222,
      "grad_norm": 1.4255746603012085,
      "learning_rate": 0.0001155856857079351,
      "loss": 0.927,
      "step": 18999
    },
    {
      "epoch": 0.4222222222222222,
      "grad_norm": 2.1875061988830566,
      "learning_rate": 0.0001155812402756168,
      "loss": 2.3675,
      "step": 19000
    },
    {
      "epoch": 0.4222444444444444,
      "grad_norm": 1.4036664962768555,
      "learning_rate": 0.00011557679484329851,
      "loss": 1.917,
      "step": 19001
    },
    {
      "epoch": 0.4222666666666667,
      "grad_norm": 1.6640105247497559,
      "learning_rate": 0.00011557234941098024,
      "loss": 1.0158,
      "step": 19002
    },
    {
      "epoch": 0.4222888888888889,
      "grad_norm": 1.5912303924560547,
      "learning_rate": 0.00011556790397866193,
      "loss": 2.3604,
      "step": 19003
    },
    {
      "epoch": 0.42231111111111114,
      "grad_norm": 1.3912112712860107,
      "learning_rate": 0.00011556345854634363,
      "loss": 1.9856,
      "step": 19004
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 1.5997051000595093,
      "learning_rate": 0.00011555901311402535,
      "loss": 1.0133,
      "step": 19005
    },
    {
      "epoch": 0.42235555555555554,
      "grad_norm": 1.731119155883789,
      "learning_rate": 0.00011555456768170705,
      "loss": 2.1271,
      "step": 19006
    },
    {
      "epoch": 0.4223777777777778,
      "grad_norm": 1.5957845449447632,
      "learning_rate": 0.00011555012224938874,
      "loss": 2.603,
      "step": 19007
    },
    {
      "epoch": 0.4224,
      "grad_norm": 1.5339264869689941,
      "learning_rate": 0.00011554567681707047,
      "loss": 2.4104,
      "step": 19008
    },
    {
      "epoch": 0.4224222222222222,
      "grad_norm": 1.0562644004821777,
      "learning_rate": 0.00011554123138475216,
      "loss": 1.0999,
      "step": 19009
    },
    {
      "epoch": 0.42244444444444446,
      "grad_norm": 1.3965409994125366,
      "learning_rate": 0.00011553678595243389,
      "loss": 2.0947,
      "step": 19010
    },
    {
      "epoch": 0.42246666666666666,
      "grad_norm": 1.557966709136963,
      "learning_rate": 0.0001155323405201156,
      "loss": 1.4536,
      "step": 19011
    },
    {
      "epoch": 0.4224888888888889,
      "grad_norm": 1.4867591857910156,
      "learning_rate": 0.00011552789508779729,
      "loss": 1.959,
      "step": 19012
    },
    {
      "epoch": 0.4225111111111111,
      "grad_norm": 1.693838119506836,
      "learning_rate": 0.00011552344965547901,
      "loss": 2.6004,
      "step": 19013
    },
    {
      "epoch": 0.4225333333333333,
      "grad_norm": 1.6400518417358398,
      "learning_rate": 0.00011551900422316071,
      "loss": 2.144,
      "step": 19014
    },
    {
      "epoch": 0.4225555555555556,
      "grad_norm": 1.9594639539718628,
      "learning_rate": 0.0001155145587908424,
      "loss": 2.0684,
      "step": 19015
    },
    {
      "epoch": 0.4225777777777778,
      "grad_norm": 1.5433224439620972,
      "learning_rate": 0.00011551011335852413,
      "loss": 2.0522,
      "step": 19016
    },
    {
      "epoch": 0.4226,
      "grad_norm": 1.462204098701477,
      "learning_rate": 0.00011550566792620583,
      "loss": 1.3914,
      "step": 19017
    },
    {
      "epoch": 0.42262222222222223,
      "grad_norm": 1.5327837467193604,
      "learning_rate": 0.00011550122249388754,
      "loss": 1.666,
      "step": 19018
    },
    {
      "epoch": 0.42264444444444443,
      "grad_norm": 1.414299488067627,
      "learning_rate": 0.00011549677706156924,
      "loss": 1.3954,
      "step": 19019
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 1.530638575553894,
      "learning_rate": 0.00011549233162925095,
      "loss": 1.7553,
      "step": 19020
    },
    {
      "epoch": 0.4226888888888889,
      "grad_norm": 1.4669570922851562,
      "learning_rate": 0.00011548788619693265,
      "loss": 1.5525,
      "step": 19021
    },
    {
      "epoch": 0.4227111111111111,
      "grad_norm": 1.631217360496521,
      "learning_rate": 0.00011548344076461437,
      "loss": 2.0271,
      "step": 19022
    },
    {
      "epoch": 0.42273333333333335,
      "grad_norm": 1.8498175144195557,
      "learning_rate": 0.00011547899533229607,
      "loss": 2.0802,
      "step": 19023
    },
    {
      "epoch": 0.42275555555555555,
      "grad_norm": 1.6086645126342773,
      "learning_rate": 0.00011547454989997777,
      "loss": 1.9483,
      "step": 19024
    },
    {
      "epoch": 0.42277777777777775,
      "grad_norm": 1.5248730182647705,
      "learning_rate": 0.00011547010446765949,
      "loss": 2.0688,
      "step": 19025
    },
    {
      "epoch": 0.4228,
      "grad_norm": 1.653845191001892,
      "learning_rate": 0.00011546565903534119,
      "loss": 1.8131,
      "step": 19026
    },
    {
      "epoch": 0.4228222222222222,
      "grad_norm": 1.5042911767959595,
      "learning_rate": 0.0001154612136030229,
      "loss": 2.1348,
      "step": 19027
    },
    {
      "epoch": 0.42284444444444447,
      "grad_norm": 1.798606514930725,
      "learning_rate": 0.0001154567681707046,
      "loss": 1.942,
      "step": 19028
    },
    {
      "epoch": 0.42286666666666667,
      "grad_norm": 1.6721364259719849,
      "learning_rate": 0.00011545232273838631,
      "loss": 1.9559,
      "step": 19029
    },
    {
      "epoch": 0.42288888888888887,
      "grad_norm": 1.9061449766159058,
      "learning_rate": 0.00011544787730606804,
      "loss": 1.8364,
      "step": 19030
    },
    {
      "epoch": 0.4229111111111111,
      "grad_norm": 1.6918113231658936,
      "learning_rate": 0.00011544343187374973,
      "loss": 1.8451,
      "step": 19031
    },
    {
      "epoch": 0.42293333333333333,
      "grad_norm": 2.8164167404174805,
      "learning_rate": 0.00011543898644143143,
      "loss": 2.0163,
      "step": 19032
    },
    {
      "epoch": 0.42295555555555553,
      "grad_norm": 1.9047881364822388,
      "learning_rate": 0.00011543454100911315,
      "loss": 2.2634,
      "step": 19033
    },
    {
      "epoch": 0.4229777777777778,
      "grad_norm": 1.7132506370544434,
      "learning_rate": 0.00011543009557679485,
      "loss": 1.8332,
      "step": 19034
    },
    {
      "epoch": 0.423,
      "grad_norm": 1.584872841835022,
      "learning_rate": 0.00011542565014447654,
      "loss": 2.1958,
      "step": 19035
    },
    {
      "epoch": 0.42302222222222224,
      "grad_norm": 2.206059217453003,
      "learning_rate": 0.00011542120471215827,
      "loss": 1.4391,
      "step": 19036
    },
    {
      "epoch": 0.42304444444444445,
      "grad_norm": 1.9480154514312744,
      "learning_rate": 0.00011541675927983996,
      "loss": 1.9329,
      "step": 19037
    },
    {
      "epoch": 0.42306666666666665,
      "grad_norm": 2.2325923442840576,
      "learning_rate": 0.00011541231384752167,
      "loss": 2.1883,
      "step": 19038
    },
    {
      "epoch": 0.4230888888888889,
      "grad_norm": 1.9399337768554688,
      "learning_rate": 0.0001154078684152034,
      "loss": 2.0716,
      "step": 19039
    },
    {
      "epoch": 0.4231111111111111,
      "grad_norm": 1.9893544912338257,
      "learning_rate": 0.00011540342298288509,
      "loss": 1.6984,
      "step": 19040
    },
    {
      "epoch": 0.4231333333333333,
      "grad_norm": 1.5252876281738281,
      "learning_rate": 0.00011539897755056679,
      "loss": 1.9167,
      "step": 19041
    },
    {
      "epoch": 0.42315555555555556,
      "grad_norm": 2.374702215194702,
      "learning_rate": 0.00011539453211824851,
      "loss": 2.1118,
      "step": 19042
    },
    {
      "epoch": 0.42317777777777776,
      "grad_norm": 1.637773871421814,
      "learning_rate": 0.00011539008668593021,
      "loss": 1.8411,
      "step": 19043
    },
    {
      "epoch": 0.4232,
      "grad_norm": 1.6322404146194458,
      "learning_rate": 0.0001153856412536119,
      "loss": 2.0976,
      "step": 19044
    },
    {
      "epoch": 0.4232222222222222,
      "grad_norm": 1.4237644672393799,
      "learning_rate": 0.00011538119582129363,
      "loss": 1.6672,
      "step": 19045
    },
    {
      "epoch": 0.4232444444444444,
      "grad_norm": 1.8956457376480103,
      "learning_rate": 0.00011537675038897532,
      "loss": 2.0499,
      "step": 19046
    },
    {
      "epoch": 0.4232666666666667,
      "grad_norm": 1.5631425380706787,
      "learning_rate": 0.00011537230495665705,
      "loss": 1.866,
      "step": 19047
    },
    {
      "epoch": 0.4232888888888889,
      "grad_norm": 1.9371016025543213,
      "learning_rate": 0.00011536785952433876,
      "loss": 2.2704,
      "step": 19048
    },
    {
      "epoch": 0.42331111111111114,
      "grad_norm": 0.3109017312526703,
      "learning_rate": 0.00011536341409202045,
      "loss": 0.0507,
      "step": 19049
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 2.143085479736328,
      "learning_rate": 0.00011535896865970218,
      "loss": 1.9292,
      "step": 19050
    },
    {
      "epoch": 0.42335555555555554,
      "grad_norm": 1.2534552812576294,
      "learning_rate": 0.00011535452322738387,
      "loss": 2.4145,
      "step": 19051
    },
    {
      "epoch": 0.4233777777777778,
      "grad_norm": 1.714016318321228,
      "learning_rate": 0.00011535007779506557,
      "loss": 2.9136,
      "step": 19052
    },
    {
      "epoch": 0.4234,
      "grad_norm": 1.3437952995300293,
      "learning_rate": 0.00011534563236274729,
      "loss": 1.78,
      "step": 19053
    },
    {
      "epoch": 0.4234222222222222,
      "grad_norm": 0.19259607791900635,
      "learning_rate": 0.00011534118693042899,
      "loss": 0.0212,
      "step": 19054
    },
    {
      "epoch": 0.42344444444444446,
      "grad_norm": 1.3720296621322632,
      "learning_rate": 0.0001153367414981107,
      "loss": 2.2834,
      "step": 19055
    },
    {
      "epoch": 0.42346666666666666,
      "grad_norm": 1.8213305473327637,
      "learning_rate": 0.0001153322960657924,
      "loss": 2.1276,
      "step": 19056
    },
    {
      "epoch": 0.4234888888888889,
      "grad_norm": 1.382738471031189,
      "learning_rate": 0.00011532785063347412,
      "loss": 2.1631,
      "step": 19057
    },
    {
      "epoch": 0.4235111111111111,
      "grad_norm": 1.5807466506958008,
      "learning_rate": 0.00011532340520115581,
      "loss": 2.316,
      "step": 19058
    },
    {
      "epoch": 0.4235333333333333,
      "grad_norm": 1.306753158569336,
      "learning_rate": 0.00011531895976883753,
      "loss": 2.0669,
      "step": 19059
    },
    {
      "epoch": 0.4235555555555556,
      "grad_norm": 1.7025463581085205,
      "learning_rate": 0.00011531451433651923,
      "loss": 1.7553,
      "step": 19060
    },
    {
      "epoch": 0.4235777777777778,
      "grad_norm": 1.1804567575454712,
      "learning_rate": 0.00011531006890420093,
      "loss": 1.0501,
      "step": 19061
    },
    {
      "epoch": 0.4236,
      "grad_norm": 1.6393688917160034,
      "learning_rate": 0.00011530562347188265,
      "loss": 1.8419,
      "step": 19062
    },
    {
      "epoch": 0.42362222222222223,
      "grad_norm": 1.513403296470642,
      "learning_rate": 0.00011530117803956435,
      "loss": 2.3465,
      "step": 19063
    },
    {
      "epoch": 0.42364444444444443,
      "grad_norm": 1.9148430824279785,
      "learning_rate": 0.00011529673260724606,
      "loss": 2.1169,
      "step": 19064
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 1.5892951488494873,
      "learning_rate": 0.00011529228717492777,
      "loss": 2.2955,
      "step": 19065
    },
    {
      "epoch": 0.4236888888888889,
      "grad_norm": 1.54563307762146,
      "learning_rate": 0.00011528784174260948,
      "loss": 2.2802,
      "step": 19066
    },
    {
      "epoch": 0.4237111111111111,
      "grad_norm": 1.644220232963562,
      "learning_rate": 0.0001152833963102912,
      "loss": 1.1361,
      "step": 19067
    },
    {
      "epoch": 0.42373333333333335,
      "grad_norm": 1.7161595821380615,
      "learning_rate": 0.0001152789508779729,
      "loss": 2.56,
      "step": 19068
    },
    {
      "epoch": 0.42375555555555555,
      "grad_norm": 1.7650693655014038,
      "learning_rate": 0.00011527450544565459,
      "loss": 1.9793,
      "step": 19069
    },
    {
      "epoch": 0.42377777777777775,
      "grad_norm": 1.4208427667617798,
      "learning_rate": 0.00011527006001333631,
      "loss": 1.7051,
      "step": 19070
    },
    {
      "epoch": 0.4238,
      "grad_norm": 1.7600700855255127,
      "learning_rate": 0.00011526561458101801,
      "loss": 2.0193,
      "step": 19071
    },
    {
      "epoch": 0.4238222222222222,
      "grad_norm": 1.6855344772338867,
      "learning_rate": 0.0001152611691486997,
      "loss": 2.1353,
      "step": 19072
    },
    {
      "epoch": 0.42384444444444447,
      "grad_norm": 1.6055454015731812,
      "learning_rate": 0.00011525672371638143,
      "loss": 2.0438,
      "step": 19073
    },
    {
      "epoch": 0.42386666666666667,
      "grad_norm": 1.6775206327438354,
      "learning_rate": 0.00011525227828406312,
      "loss": 1.7209,
      "step": 19074
    },
    {
      "epoch": 0.42388888888888887,
      "grad_norm": 1.5493935346603394,
      "learning_rate": 0.00011524783285174483,
      "loss": 2.1844,
      "step": 19075
    },
    {
      "epoch": 0.4239111111111111,
      "grad_norm": 1.6559840440750122,
      "learning_rate": 0.00011524338741942656,
      "loss": 2.6148,
      "step": 19076
    },
    {
      "epoch": 0.42393333333333333,
      "grad_norm": 1.397918939590454,
      "learning_rate": 0.00011523894198710825,
      "loss": 1.8272,
      "step": 19077
    },
    {
      "epoch": 0.42395555555555553,
      "grad_norm": 1.9135061502456665,
      "learning_rate": 0.00011523449655478995,
      "loss": 2.1656,
      "step": 19078
    },
    {
      "epoch": 0.4239777777777778,
      "grad_norm": 1.7200005054473877,
      "learning_rate": 0.00011523005112247167,
      "loss": 1.9459,
      "step": 19079
    },
    {
      "epoch": 0.424,
      "grad_norm": 1.4391791820526123,
      "learning_rate": 0.00011522560569015337,
      "loss": 1.5021,
      "step": 19080
    },
    {
      "epoch": 0.42402222222222224,
      "grad_norm": 1.6096022129058838,
      "learning_rate": 0.00011522116025783507,
      "loss": 1.8935,
      "step": 19081
    },
    {
      "epoch": 0.42404444444444445,
      "grad_norm": 1.9861794710159302,
      "learning_rate": 0.00011521671482551679,
      "loss": 2.0324,
      "step": 19082
    },
    {
      "epoch": 0.42406666666666665,
      "grad_norm": 1.6982824802398682,
      "learning_rate": 0.00011521226939319848,
      "loss": 2.2187,
      "step": 19083
    },
    {
      "epoch": 0.4240888888888889,
      "grad_norm": 1.6989580392837524,
      "learning_rate": 0.0001152078239608802,
      "loss": 2.1584,
      "step": 19084
    },
    {
      "epoch": 0.4241111111111111,
      "grad_norm": 1.824129343032837,
      "learning_rate": 0.00011520337852856192,
      "loss": 1.644,
      "step": 19085
    },
    {
      "epoch": 0.4241333333333333,
      "grad_norm": 1.4996086359024048,
      "learning_rate": 0.00011519893309624361,
      "loss": 1.7985,
      "step": 19086
    },
    {
      "epoch": 0.42415555555555556,
      "grad_norm": 1.6450605392456055,
      "learning_rate": 0.00011519448766392534,
      "loss": 1.9133,
      "step": 19087
    },
    {
      "epoch": 0.42417777777777776,
      "grad_norm": 1.6137415170669556,
      "learning_rate": 0.00011519004223160703,
      "loss": 1.8793,
      "step": 19088
    },
    {
      "epoch": 0.4242,
      "grad_norm": 1.877808690071106,
      "learning_rate": 0.00011518559679928873,
      "loss": 2.1965,
      "step": 19089
    },
    {
      "epoch": 0.4242222222222222,
      "grad_norm": 1.2775366306304932,
      "learning_rate": 0.00011518115136697045,
      "loss": 1.0178,
      "step": 19090
    },
    {
      "epoch": 0.4242444444444444,
      "grad_norm": 1.3765217065811157,
      "learning_rate": 0.00011517670593465215,
      "loss": 1.7405,
      "step": 19091
    },
    {
      "epoch": 0.4242666666666667,
      "grad_norm": 1.7700929641723633,
      "learning_rate": 0.00011517226050233386,
      "loss": 1.913,
      "step": 19092
    },
    {
      "epoch": 0.4242888888888889,
      "grad_norm": 1.522374153137207,
      "learning_rate": 0.00011516781507001557,
      "loss": 1.644,
      "step": 19093
    },
    {
      "epoch": 0.4243111111111111,
      "grad_norm": 1.7927700281143188,
      "learning_rate": 0.00011516336963769728,
      "loss": 1.8766,
      "step": 19094
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 1.374216079711914,
      "learning_rate": 0.00011515892420537897,
      "loss": 1.5653,
      "step": 19095
    },
    {
      "epoch": 0.42435555555555554,
      "grad_norm": 1.7389403581619263,
      "learning_rate": 0.0001151544787730607,
      "loss": 2.077,
      "step": 19096
    },
    {
      "epoch": 0.4243777777777778,
      "grad_norm": 1.4620195627212524,
      "learning_rate": 0.00011515003334074239,
      "loss": 1.7993,
      "step": 19097
    },
    {
      "epoch": 0.4244,
      "grad_norm": 1.3711445331573486,
      "learning_rate": 0.00011514558790842409,
      "loss": 0.7603,
      "step": 19098
    },
    {
      "epoch": 0.4244222222222222,
      "grad_norm": 0.2896820604801178,
      "learning_rate": 0.00011514114247610581,
      "loss": 0.038,
      "step": 19099
    },
    {
      "epoch": 0.42444444444444446,
      "grad_norm": 1.9577677249908447,
      "learning_rate": 0.00011513669704378751,
      "loss": 1.785,
      "step": 19100
    },
    {
      "epoch": 0.42446666666666666,
      "grad_norm": 1.5040225982666016,
      "learning_rate": 0.00011513225161146922,
      "loss": 2.7778,
      "step": 19101
    },
    {
      "epoch": 0.4244888888888889,
      "grad_norm": 1.1671663522720337,
      "learning_rate": 0.00011512780617915093,
      "loss": 2.2483,
      "step": 19102
    },
    {
      "epoch": 0.4245111111111111,
      "grad_norm": 1.5019367933273315,
      "learning_rate": 0.00011512336074683264,
      "loss": 2.2774,
      "step": 19103
    },
    {
      "epoch": 0.4245333333333333,
      "grad_norm": 1.361039161682129,
      "learning_rate": 0.00011511891531451436,
      "loss": 2.4173,
      "step": 19104
    },
    {
      "epoch": 0.4245555555555556,
      "grad_norm": 1.543857216835022,
      "learning_rate": 0.00011511446988219606,
      "loss": 2.3238,
      "step": 19105
    },
    {
      "epoch": 0.4245777777777778,
      "grad_norm": 1.1654105186462402,
      "learning_rate": 0.00011511002444987775,
      "loss": 1.3531,
      "step": 19106
    },
    {
      "epoch": 0.4246,
      "grad_norm": 1.210581660270691,
      "learning_rate": 0.00011510557901755947,
      "loss": 1.9604,
      "step": 19107
    },
    {
      "epoch": 0.42462222222222223,
      "grad_norm": 1.3812648057937622,
      "learning_rate": 0.00011510113358524117,
      "loss": 1.9142,
      "step": 19108
    },
    {
      "epoch": 0.42464444444444444,
      "grad_norm": 1.7320986986160278,
      "learning_rate": 0.00011509668815292287,
      "loss": 2.5641,
      "step": 19109
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 1.6872025728225708,
      "learning_rate": 0.00011509224272060459,
      "loss": 2.0024,
      "step": 19110
    },
    {
      "epoch": 0.4246888888888889,
      "grad_norm": 1.4391628503799438,
      "learning_rate": 0.00011508779728828629,
      "loss": 2.1465,
      "step": 19111
    },
    {
      "epoch": 0.4247111111111111,
      "grad_norm": 1.249480128288269,
      "learning_rate": 0.000115083351855968,
      "loss": 1.1543,
      "step": 19112
    },
    {
      "epoch": 0.42473333333333335,
      "grad_norm": 1.5581177473068237,
      "learning_rate": 0.00011507890642364972,
      "loss": 1.988,
      "step": 19113
    },
    {
      "epoch": 0.42475555555555555,
      "grad_norm": 1.3867125511169434,
      "learning_rate": 0.00011507446099133141,
      "loss": 2.1585,
      "step": 19114
    },
    {
      "epoch": 0.42477777777777775,
      "grad_norm": 1.591291904449463,
      "learning_rate": 0.00011507001555901311,
      "loss": 2.0727,
      "step": 19115
    },
    {
      "epoch": 0.4248,
      "grad_norm": 1.6105680465698242,
      "learning_rate": 0.00011506557012669483,
      "loss": 1.9172,
      "step": 19116
    },
    {
      "epoch": 0.4248222222222222,
      "grad_norm": 1.506477952003479,
      "learning_rate": 0.00011506112469437653,
      "loss": 2.0164,
      "step": 19117
    },
    {
      "epoch": 0.42484444444444447,
      "grad_norm": 1.087145209312439,
      "learning_rate": 0.00011505667926205823,
      "loss": 1.1534,
      "step": 19118
    },
    {
      "epoch": 0.42486666666666667,
      "grad_norm": 1.687611699104309,
      "learning_rate": 0.00011505223382973995,
      "loss": 2.3122,
      "step": 19119
    },
    {
      "epoch": 0.42488888888888887,
      "grad_norm": 1.5329222679138184,
      "learning_rate": 0.00011504778839742165,
      "loss": 1.903,
      "step": 19120
    },
    {
      "epoch": 0.42491111111111113,
      "grad_norm": 1.6846857070922852,
      "learning_rate": 0.00011504334296510336,
      "loss": 2.1226,
      "step": 19121
    },
    {
      "epoch": 0.42493333333333333,
      "grad_norm": 1.8555535078048706,
      "learning_rate": 0.00011503889753278508,
      "loss": 1.9493,
      "step": 19122
    },
    {
      "epoch": 0.42495555555555553,
      "grad_norm": 1.8865654468536377,
      "learning_rate": 0.00011503445210046677,
      "loss": 2.3269,
      "step": 19123
    },
    {
      "epoch": 0.4249777777777778,
      "grad_norm": 1.7071304321289062,
      "learning_rate": 0.0001150300066681485,
      "loss": 1.9345,
      "step": 19124
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.8587443828582764,
      "learning_rate": 0.0001150255612358302,
      "loss": 1.4843,
      "step": 19125
    },
    {
      "epoch": 0.42502222222222225,
      "grad_norm": 1.504604458808899,
      "learning_rate": 0.00011502111580351189,
      "loss": 1.8136,
      "step": 19126
    },
    {
      "epoch": 0.42504444444444445,
      "grad_norm": 1.7824949026107788,
      "learning_rate": 0.00011501667037119361,
      "loss": 2.007,
      "step": 19127
    },
    {
      "epoch": 0.42506666666666665,
      "grad_norm": 1.7389421463012695,
      "learning_rate": 0.00011501222493887531,
      "loss": 2.2794,
      "step": 19128
    },
    {
      "epoch": 0.4250888888888889,
      "grad_norm": 1.578334093093872,
      "learning_rate": 0.00011500777950655702,
      "loss": 1.6325,
      "step": 19129
    },
    {
      "epoch": 0.4251111111111111,
      "grad_norm": 1.0484802722930908,
      "learning_rate": 0.00011500333407423873,
      "loss": 0.6495,
      "step": 19130
    },
    {
      "epoch": 0.4251333333333333,
      "grad_norm": 1.7048654556274414,
      "learning_rate": 0.00011499888864192044,
      "loss": 1.691,
      "step": 19131
    },
    {
      "epoch": 0.42515555555555556,
      "grad_norm": 1.620321273803711,
      "learning_rate": 0.00011499444320960213,
      "loss": 1.971,
      "step": 19132
    },
    {
      "epoch": 0.42517777777777777,
      "grad_norm": 1.7830122709274292,
      "learning_rate": 0.00011498999777728386,
      "loss": 2.1009,
      "step": 19133
    },
    {
      "epoch": 0.4252,
      "grad_norm": 2.102456569671631,
      "learning_rate": 0.00011498555234496555,
      "loss": 2.2669,
      "step": 19134
    },
    {
      "epoch": 0.4252222222222222,
      "grad_norm": 1.5353459119796753,
      "learning_rate": 0.00011498110691264725,
      "loss": 1.4334,
      "step": 19135
    },
    {
      "epoch": 0.4252444444444444,
      "grad_norm": 1.7791200876235962,
      "learning_rate": 0.00011497666148032897,
      "loss": 1.9627,
      "step": 19136
    },
    {
      "epoch": 0.4252666666666667,
      "grad_norm": 1.6365755796432495,
      "learning_rate": 0.00011497221604801067,
      "loss": 1.9484,
      "step": 19137
    },
    {
      "epoch": 0.4252888888888889,
      "grad_norm": 2.0082709789276123,
      "learning_rate": 0.00011496777061569238,
      "loss": 2.0479,
      "step": 19138
    },
    {
      "epoch": 0.4253111111111111,
      "grad_norm": 1.8067610263824463,
      "learning_rate": 0.00011496332518337409,
      "loss": 1.9431,
      "step": 19139
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 1.7338451147079468,
      "learning_rate": 0.0001149588797510558,
      "loss": 1.8601,
      "step": 19140
    },
    {
      "epoch": 0.42535555555555554,
      "grad_norm": 1.5503854751586914,
      "learning_rate": 0.00011495443431873749,
      "loss": 1.8924,
      "step": 19141
    },
    {
      "epoch": 0.4253777777777778,
      "grad_norm": 1.694105625152588,
      "learning_rate": 0.00011494998888641922,
      "loss": 2.0048,
      "step": 19142
    },
    {
      "epoch": 0.4254,
      "grad_norm": 1.7423095703125,
      "learning_rate": 0.00011494554345410091,
      "loss": 1.9172,
      "step": 19143
    },
    {
      "epoch": 0.4254222222222222,
      "grad_norm": 1.9063141345977783,
      "learning_rate": 0.00011494109802178264,
      "loss": 1.9946,
      "step": 19144
    },
    {
      "epoch": 0.42544444444444446,
      "grad_norm": 1.7045941352844238,
      "learning_rate": 0.00011493665258946433,
      "loss": 1.9253,
      "step": 19145
    },
    {
      "epoch": 0.42546666666666666,
      "grad_norm": 1.6629924774169922,
      "learning_rate": 0.00011493220715714603,
      "loss": 2.0128,
      "step": 19146
    },
    {
      "epoch": 0.4254888888888889,
      "grad_norm": 2.858731508255005,
      "learning_rate": 0.00011492776172482775,
      "loss": 1.082,
      "step": 19147
    },
    {
      "epoch": 0.4255111111111111,
      "grad_norm": 2.0153956413269043,
      "learning_rate": 0.00011492331629250945,
      "loss": 2.3823,
      "step": 19148
    },
    {
      "epoch": 0.4255333333333333,
      "grad_norm": 1.3547837734222412,
      "learning_rate": 0.00011491887086019116,
      "loss": 1.0682,
      "step": 19149
    },
    {
      "epoch": 0.4255555555555556,
      "grad_norm": 1.5853934288024902,
      "learning_rate": 0.00011491442542787288,
      "loss": 0.9857,
      "step": 19150
    },
    {
      "epoch": 0.4255777777777778,
      "grad_norm": 1.377123236656189,
      "learning_rate": 0.00011490997999555458,
      "loss": 2.8401,
      "step": 19151
    },
    {
      "epoch": 0.4256,
      "grad_norm": 1.075698733329773,
      "learning_rate": 0.00011490553456323627,
      "loss": 1.282,
      "step": 19152
    },
    {
      "epoch": 0.42562222222222224,
      "grad_norm": 1.3187499046325684,
      "learning_rate": 0.000114901089130918,
      "loss": 2.3468,
      "step": 19153
    },
    {
      "epoch": 0.42564444444444444,
      "grad_norm": 1.4931460618972778,
      "learning_rate": 0.00011489664369859969,
      "loss": 2.3214,
      "step": 19154
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 1.5607751607894897,
      "learning_rate": 0.00011489219826628139,
      "loss": 1.8394,
      "step": 19155
    },
    {
      "epoch": 0.4256888888888889,
      "grad_norm": 1.4015339612960815,
      "learning_rate": 0.00011488775283396311,
      "loss": 2.0854,
      "step": 19156
    },
    {
      "epoch": 0.4257111111111111,
      "grad_norm": 1.741378903388977,
      "learning_rate": 0.0001148833074016448,
      "loss": 2.38,
      "step": 19157
    },
    {
      "epoch": 0.42573333333333335,
      "grad_norm": 1.377771258354187,
      "learning_rate": 0.00011487886196932652,
      "loss": 1.8743,
      "step": 19158
    },
    {
      "epoch": 0.42575555555555555,
      "grad_norm": 1.635329246520996,
      "learning_rate": 0.00011487441653700824,
      "loss": 1.3581,
      "step": 19159
    },
    {
      "epoch": 0.42577777777777776,
      "grad_norm": 1.6235332489013672,
      "learning_rate": 0.00011486997110468994,
      "loss": 1.9087,
      "step": 19160
    },
    {
      "epoch": 0.4258,
      "grad_norm": 1.9861021041870117,
      "learning_rate": 0.00011486552567237166,
      "loss": 2.4358,
      "step": 19161
    },
    {
      "epoch": 0.4258222222222222,
      "grad_norm": 1.5928187370300293,
      "learning_rate": 0.00011486108024005335,
      "loss": 1.9429,
      "step": 19162
    },
    {
      "epoch": 0.42584444444444447,
      "grad_norm": 1.4601701498031616,
      "learning_rate": 0.00011485663480773505,
      "loss": 2.1397,
      "step": 19163
    },
    {
      "epoch": 0.42586666666666667,
      "grad_norm": 1.4793182611465454,
      "learning_rate": 0.00011485218937541677,
      "loss": 1.8919,
      "step": 19164
    },
    {
      "epoch": 0.4258888888888889,
      "grad_norm": 1.4107587337493896,
      "learning_rate": 0.00011484774394309847,
      "loss": 1.5602,
      "step": 19165
    },
    {
      "epoch": 0.42591111111111113,
      "grad_norm": 1.4711730480194092,
      "learning_rate": 0.00011484329851078018,
      "loss": 1.6984,
      "step": 19166
    },
    {
      "epoch": 0.42593333333333333,
      "grad_norm": 1.257060170173645,
      "learning_rate": 0.00011483885307846189,
      "loss": 1.2592,
      "step": 19167
    },
    {
      "epoch": 0.42595555555555553,
      "grad_norm": 1.7474826574325562,
      "learning_rate": 0.0001148344076461436,
      "loss": 2.1633,
      "step": 19168
    },
    {
      "epoch": 0.4259777777777778,
      "grad_norm": 1.6699564456939697,
      "learning_rate": 0.0001148299622138253,
      "loss": 2.3798,
      "step": 19169
    },
    {
      "epoch": 0.426,
      "grad_norm": 1.535931944847107,
      "learning_rate": 0.00011482551678150702,
      "loss": 1.8181,
      "step": 19170
    },
    {
      "epoch": 0.42602222222222225,
      "grad_norm": 1.5955169200897217,
      "learning_rate": 0.00011482107134918871,
      "loss": 2.069,
      "step": 19171
    },
    {
      "epoch": 0.42604444444444445,
      "grad_norm": 1.8747503757476807,
      "learning_rate": 0.00011481662591687041,
      "loss": 2.0234,
      "step": 19172
    },
    {
      "epoch": 0.42606666666666665,
      "grad_norm": 1.5953052043914795,
      "learning_rate": 0.00011481218048455213,
      "loss": 1.9623,
      "step": 19173
    },
    {
      "epoch": 0.4260888888888889,
      "grad_norm": 1.7143633365631104,
      "learning_rate": 0.00011480773505223383,
      "loss": 1.5188,
      "step": 19174
    },
    {
      "epoch": 0.4261111111111111,
      "grad_norm": 1.7425036430358887,
      "learning_rate": 0.00011480328961991554,
      "loss": 1.9931,
      "step": 19175
    },
    {
      "epoch": 0.4261333333333333,
      "grad_norm": 1.4680296182632446,
      "learning_rate": 0.00011479884418759725,
      "loss": 2.0074,
      "step": 19176
    },
    {
      "epoch": 0.42615555555555557,
      "grad_norm": 1.9057804346084595,
      "learning_rate": 0.00011479439875527896,
      "loss": 2.0578,
      "step": 19177
    },
    {
      "epoch": 0.42617777777777777,
      "grad_norm": 1.5612530708312988,
      "learning_rate": 0.00011478995332296065,
      "loss": 1.8135,
      "step": 19178
    },
    {
      "epoch": 0.4262,
      "grad_norm": 1.5574958324432373,
      "learning_rate": 0.00011478550789064238,
      "loss": 1.6808,
      "step": 19179
    },
    {
      "epoch": 0.4262222222222222,
      "grad_norm": 0.9890498518943787,
      "learning_rate": 0.00011478106245832407,
      "loss": 0.7271,
      "step": 19180
    },
    {
      "epoch": 0.4262444444444444,
      "grad_norm": 1.6514869928359985,
      "learning_rate": 0.0001147766170260058,
      "loss": 1.7133,
      "step": 19181
    },
    {
      "epoch": 0.4262666666666667,
      "grad_norm": 1.8950273990631104,
      "learning_rate": 0.00011477217159368749,
      "loss": 2.2668,
      "step": 19182
    },
    {
      "epoch": 0.4262888888888889,
      "grad_norm": 1.1379774808883667,
      "learning_rate": 0.00011476772616136919,
      "loss": 0.8357,
      "step": 19183
    },
    {
      "epoch": 0.4263111111111111,
      "grad_norm": 1.6765729188919067,
      "learning_rate": 0.00011476328072905091,
      "loss": 1.648,
      "step": 19184
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 1.6717735528945923,
      "learning_rate": 0.00011475883529673261,
      "loss": 1.7419,
      "step": 19185
    },
    {
      "epoch": 0.42635555555555554,
      "grad_norm": 1.575608491897583,
      "learning_rate": 0.00011475438986441432,
      "loss": 1.5853,
      "step": 19186
    },
    {
      "epoch": 0.4263777777777778,
      "grad_norm": 1.0665779113769531,
      "learning_rate": 0.00011474994443209604,
      "loss": 0.9346,
      "step": 19187
    },
    {
      "epoch": 0.4264,
      "grad_norm": 1.6324968338012695,
      "learning_rate": 0.00011474549899977774,
      "loss": 1.6972,
      "step": 19188
    },
    {
      "epoch": 0.4264222222222222,
      "grad_norm": 1.9326180219650269,
      "learning_rate": 0.00011474105356745943,
      "loss": 2.1945,
      "step": 19189
    },
    {
      "epoch": 0.42644444444444446,
      "grad_norm": 1.6521586179733276,
      "learning_rate": 0.00011473660813514116,
      "loss": 1.8584,
      "step": 19190
    },
    {
      "epoch": 0.42646666666666666,
      "grad_norm": 1.7275391817092896,
      "learning_rate": 0.00011473216270282285,
      "loss": 1.9201,
      "step": 19191
    },
    {
      "epoch": 0.42648888888888886,
      "grad_norm": 2.0016510486602783,
      "learning_rate": 0.00011472771727050455,
      "loss": 2.1955,
      "step": 19192
    },
    {
      "epoch": 0.4265111111111111,
      "grad_norm": 2.1262834072113037,
      "learning_rate": 0.00011472327183818627,
      "loss": 1.7233,
      "step": 19193
    },
    {
      "epoch": 0.4265333333333333,
      "grad_norm": 1.8161391019821167,
      "learning_rate": 0.00011471882640586797,
      "loss": 1.8656,
      "step": 19194
    },
    {
      "epoch": 0.4265555555555556,
      "grad_norm": 1.5334968566894531,
      "learning_rate": 0.00011471438097354968,
      "loss": 1.7896,
      "step": 19195
    },
    {
      "epoch": 0.4265777777777778,
      "grad_norm": 0.1983795166015625,
      "learning_rate": 0.0001147099355412314,
      "loss": 0.0318,
      "step": 19196
    },
    {
      "epoch": 0.4266,
      "grad_norm": 2.13464617729187,
      "learning_rate": 0.0001147054901089131,
      "loss": 2.0145,
      "step": 19197
    },
    {
      "epoch": 0.42662222222222224,
      "grad_norm": 1.7600040435791016,
      "learning_rate": 0.00011470104467659479,
      "loss": 1.9207,
      "step": 19198
    },
    {
      "epoch": 0.42664444444444444,
      "grad_norm": 1.8897809982299805,
      "learning_rate": 0.00011469659924427652,
      "loss": 1.9667,
      "step": 19199
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 1.1279867887496948,
      "learning_rate": 0.00011469215381195821,
      "loss": 0.6021,
      "step": 19200
    },
    {
      "epoch": 0.4266888888888889,
      "grad_norm": 1.3461657762527466,
      "learning_rate": 0.00011468770837963993,
      "loss": 2.3621,
      "step": 19201
    },
    {
      "epoch": 0.4267111111111111,
      "grad_norm": 1.3780449628829956,
      "learning_rate": 0.00011468326294732163,
      "loss": 2.5892,
      "step": 19202
    },
    {
      "epoch": 0.42673333333333335,
      "grad_norm": 1.3917704820632935,
      "learning_rate": 0.00011467881751500334,
      "loss": 2.1264,
      "step": 19203
    },
    {
      "epoch": 0.42675555555555555,
      "grad_norm": 1.0689167976379395,
      "learning_rate": 0.00011467437208268505,
      "loss": 1.1403,
      "step": 19204
    },
    {
      "epoch": 0.42677777777777776,
      "grad_norm": 1.6230353116989136,
      "learning_rate": 0.00011466992665036676,
      "loss": 2.0223,
      "step": 19205
    },
    {
      "epoch": 0.4268,
      "grad_norm": 1.5154536962509155,
      "learning_rate": 0.00011466548121804846,
      "loss": 2.7084,
      "step": 19206
    },
    {
      "epoch": 0.4268222222222222,
      "grad_norm": 1.4324967861175537,
      "learning_rate": 0.00011466103578573018,
      "loss": 2.2132,
      "step": 19207
    },
    {
      "epoch": 0.42684444444444447,
      "grad_norm": 1.2784453630447388,
      "learning_rate": 0.00011465659035341188,
      "loss": 1.9714,
      "step": 19208
    },
    {
      "epoch": 0.42686666666666667,
      "grad_norm": 1.3745033740997314,
      "learning_rate": 0.00011465214492109357,
      "loss": 1.9422,
      "step": 19209
    },
    {
      "epoch": 0.4268888888888889,
      "grad_norm": 1.3559706211090088,
      "learning_rate": 0.0001146476994887753,
      "loss": 2.1053,
      "step": 19210
    },
    {
      "epoch": 0.42691111111111113,
      "grad_norm": 1.3642300367355347,
      "learning_rate": 0.00011464325405645699,
      "loss": 1.6745,
      "step": 19211
    },
    {
      "epoch": 0.42693333333333333,
      "grad_norm": 1.38153076171875,
      "learning_rate": 0.0001146388086241387,
      "loss": 2.0067,
      "step": 19212
    },
    {
      "epoch": 0.42695555555555553,
      "grad_norm": 1.2252393960952759,
      "learning_rate": 0.00011463436319182041,
      "loss": 1.4326,
      "step": 19213
    },
    {
      "epoch": 0.4269777777777778,
      "grad_norm": 1.591413974761963,
      "learning_rate": 0.00011462991775950212,
      "loss": 2.5073,
      "step": 19214
    },
    {
      "epoch": 0.427,
      "grad_norm": 1.259526252746582,
      "learning_rate": 0.00011462547232718382,
      "loss": 1.511,
      "step": 19215
    },
    {
      "epoch": 0.42702222222222225,
      "grad_norm": 1.4324594736099243,
      "learning_rate": 0.00011462102689486554,
      "loss": 2.0713,
      "step": 19216
    },
    {
      "epoch": 0.42704444444444445,
      "grad_norm": 1.535199522972107,
      "learning_rate": 0.00011461658146254723,
      "loss": 2.2017,
      "step": 19217
    },
    {
      "epoch": 0.42706666666666665,
      "grad_norm": 1.388966679573059,
      "learning_rate": 0.00011461213603022896,
      "loss": 1.6525,
      "step": 19218
    },
    {
      "epoch": 0.4270888888888889,
      "grad_norm": 1.4941259622573853,
      "learning_rate": 0.00011460769059791065,
      "loss": 1.9084,
      "step": 19219
    },
    {
      "epoch": 0.4271111111111111,
      "grad_norm": 1.5180612802505493,
      "learning_rate": 0.00011460324516559235,
      "loss": 2.0458,
      "step": 19220
    },
    {
      "epoch": 0.4271333333333333,
      "grad_norm": 1.6284914016723633,
      "learning_rate": 0.00011459879973327407,
      "loss": 2.0355,
      "step": 19221
    },
    {
      "epoch": 0.42715555555555557,
      "grad_norm": 1.6291241645812988,
      "learning_rate": 0.00011459435430095577,
      "loss": 2.1502,
      "step": 19222
    },
    {
      "epoch": 0.42717777777777777,
      "grad_norm": 1.32160222530365,
      "learning_rate": 0.00011458990886863748,
      "loss": 1.3519,
      "step": 19223
    },
    {
      "epoch": 0.4272,
      "grad_norm": 1.1378140449523926,
      "learning_rate": 0.0001145854634363192,
      "loss": 1.186,
      "step": 19224
    },
    {
      "epoch": 0.4272222222222222,
      "grad_norm": 1.4738093614578247,
      "learning_rate": 0.0001145810180040009,
      "loss": 1.8027,
      "step": 19225
    },
    {
      "epoch": 0.4272444444444444,
      "grad_norm": 1.708244800567627,
      "learning_rate": 0.0001145765725716826,
      "loss": 2.5289,
      "step": 19226
    },
    {
      "epoch": 0.4272666666666667,
      "grad_norm": 1.9437716007232666,
      "learning_rate": 0.00011457212713936432,
      "loss": 1.7833,
      "step": 19227
    },
    {
      "epoch": 0.4272888888888889,
      "grad_norm": 1.7185204029083252,
      "learning_rate": 0.00011456768170704601,
      "loss": 2.0097,
      "step": 19228
    },
    {
      "epoch": 0.4273111111111111,
      "grad_norm": 1.5885368585586548,
      "learning_rate": 0.00011456323627472771,
      "loss": 1.9076,
      "step": 19229
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 1.9011040925979614,
      "learning_rate": 0.00011455879084240943,
      "loss": 2.0352,
      "step": 19230
    },
    {
      "epoch": 0.42735555555555554,
      "grad_norm": 1.4528487920761108,
      "learning_rate": 0.00011455434541009113,
      "loss": 1.416,
      "step": 19231
    },
    {
      "epoch": 0.4273777777777778,
      "grad_norm": 1.5611143112182617,
      "learning_rate": 0.00011454989997777284,
      "loss": 1.6605,
      "step": 19232
    },
    {
      "epoch": 0.4274,
      "grad_norm": 1.4933617115020752,
      "learning_rate": 0.00011454545454545456,
      "loss": 1.9865,
      "step": 19233
    },
    {
      "epoch": 0.4274222222222222,
      "grad_norm": 1.5220645666122437,
      "learning_rate": 0.00011454100911313626,
      "loss": 1.8281,
      "step": 19234
    },
    {
      "epoch": 0.42744444444444446,
      "grad_norm": 1.5712751150131226,
      "learning_rate": 0.00011453656368081795,
      "loss": 2.0721,
      "step": 19235
    },
    {
      "epoch": 0.42746666666666666,
      "grad_norm": 1.5526578426361084,
      "learning_rate": 0.00011453211824849968,
      "loss": 1.6521,
      "step": 19236
    },
    {
      "epoch": 0.42748888888888886,
      "grad_norm": 1.6702502965927124,
      "learning_rate": 0.00011452767281618137,
      "loss": 2.3588,
      "step": 19237
    },
    {
      "epoch": 0.4275111111111111,
      "grad_norm": 1.9368218183517456,
      "learning_rate": 0.0001145232273838631,
      "loss": 1.9576,
      "step": 19238
    },
    {
      "epoch": 0.4275333333333333,
      "grad_norm": 1.433102011680603,
      "learning_rate": 0.00011451878195154479,
      "loss": 1.376,
      "step": 19239
    },
    {
      "epoch": 0.4275555555555556,
      "grad_norm": 1.5154672861099243,
      "learning_rate": 0.0001145143365192265,
      "loss": 1.5894,
      "step": 19240
    },
    {
      "epoch": 0.4275777777777778,
      "grad_norm": 1.8086830377578735,
      "learning_rate": 0.00011450989108690821,
      "loss": 1.9198,
      "step": 19241
    },
    {
      "epoch": 0.4276,
      "grad_norm": 1.558602213859558,
      "learning_rate": 0.00011450544565458992,
      "loss": 2.0065,
      "step": 19242
    },
    {
      "epoch": 0.42762222222222224,
      "grad_norm": 1.648033618927002,
      "learning_rate": 0.00011450100022227162,
      "loss": 1.6389,
      "step": 19243
    },
    {
      "epoch": 0.42764444444444444,
      "grad_norm": 1.6058790683746338,
      "learning_rate": 0.00011449655478995334,
      "loss": 1.8872,
      "step": 19244
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 1.7069228887557983,
      "learning_rate": 0.00011449210935763504,
      "loss": 1.7953,
      "step": 19245
    },
    {
      "epoch": 0.4276888888888889,
      "grad_norm": 1.8602464199066162,
      "learning_rate": 0.00011448766392531673,
      "loss": 1.5546,
      "step": 19246
    },
    {
      "epoch": 0.4277111111111111,
      "grad_norm": 2.178906202316284,
      "learning_rate": 0.00011448321849299846,
      "loss": 1.8613,
      "step": 19247
    },
    {
      "epoch": 0.42773333333333335,
      "grad_norm": 1.2349700927734375,
      "learning_rate": 0.00011447877306068015,
      "loss": 1.0608,
      "step": 19248
    },
    {
      "epoch": 0.42775555555555556,
      "grad_norm": 1.7064610719680786,
      "learning_rate": 0.00011447432762836186,
      "loss": 1.708,
      "step": 19249
    },
    {
      "epoch": 0.42777777777777776,
      "grad_norm": 1.7567694187164307,
      "learning_rate": 0.00011446988219604357,
      "loss": 1.3392,
      "step": 19250
    },
    {
      "epoch": 0.4278,
      "grad_norm": 1.2079769372940063,
      "learning_rate": 0.00011446543676372528,
      "loss": 1.9022,
      "step": 19251
    },
    {
      "epoch": 0.4278222222222222,
      "grad_norm": 1.2690027952194214,
      "learning_rate": 0.00011446099133140698,
      "loss": 2.319,
      "step": 19252
    },
    {
      "epoch": 0.42784444444444447,
      "grad_norm": 1.321995735168457,
      "learning_rate": 0.0001144565458990887,
      "loss": 1.3343,
      "step": 19253
    },
    {
      "epoch": 0.4278666666666667,
      "grad_norm": 1.7742644548416138,
      "learning_rate": 0.0001144521004667704,
      "loss": 2.3441,
      "step": 19254
    },
    {
      "epoch": 0.4278888888888889,
      "grad_norm": 1.232372522354126,
      "learning_rate": 0.00011444765503445212,
      "loss": 1.3582,
      "step": 19255
    },
    {
      "epoch": 0.42791111111111113,
      "grad_norm": 1.5803120136260986,
      "learning_rate": 0.00011444320960213381,
      "loss": 2.1213,
      "step": 19256
    },
    {
      "epoch": 0.42793333333333333,
      "grad_norm": 1.5804338455200195,
      "learning_rate": 0.00011443876416981551,
      "loss": 2.0869,
      "step": 19257
    },
    {
      "epoch": 0.42795555555555553,
      "grad_norm": 1.63105309009552,
      "learning_rate": 0.00011443431873749723,
      "loss": 2.091,
      "step": 19258
    },
    {
      "epoch": 0.4279777777777778,
      "grad_norm": 1.4087884426116943,
      "learning_rate": 0.00011442987330517893,
      "loss": 1.8985,
      "step": 19259
    },
    {
      "epoch": 0.428,
      "grad_norm": 1.710752010345459,
      "learning_rate": 0.00011442542787286064,
      "loss": 1.7094,
      "step": 19260
    },
    {
      "epoch": 0.42802222222222225,
      "grad_norm": 1.474567174911499,
      "learning_rate": 0.00011442098244054236,
      "loss": 2.0182,
      "step": 19261
    },
    {
      "epoch": 0.42804444444444445,
      "grad_norm": 1.6106468439102173,
      "learning_rate": 0.00011441653700822406,
      "loss": 2.1904,
      "step": 19262
    },
    {
      "epoch": 0.42806666666666665,
      "grad_norm": 1.751563549041748,
      "learning_rate": 0.00011441209157590575,
      "loss": 2.3329,
      "step": 19263
    },
    {
      "epoch": 0.4280888888888889,
      "grad_norm": 1.5719660520553589,
      "learning_rate": 0.00011440764614358748,
      "loss": 0.9516,
      "step": 19264
    },
    {
      "epoch": 0.4281111111111111,
      "grad_norm": 1.4380441904067993,
      "learning_rate": 0.00011440320071126917,
      "loss": 1.9446,
      "step": 19265
    },
    {
      "epoch": 0.4281333333333333,
      "grad_norm": 1.4563446044921875,
      "learning_rate": 0.00011439875527895087,
      "loss": 2.1022,
      "step": 19266
    },
    {
      "epoch": 0.42815555555555557,
      "grad_norm": 1.930851936340332,
      "learning_rate": 0.0001143943098466326,
      "loss": 2.4117,
      "step": 19267
    },
    {
      "epoch": 0.42817777777777777,
      "grad_norm": 1.5012245178222656,
      "learning_rate": 0.00011438986441431429,
      "loss": 2.1212,
      "step": 19268
    },
    {
      "epoch": 0.4282,
      "grad_norm": 1.6929253339767456,
      "learning_rate": 0.000114385418981996,
      "loss": 1.9538,
      "step": 19269
    },
    {
      "epoch": 0.4282222222222222,
      "grad_norm": 1.6771961450576782,
      "learning_rate": 0.00011438097354967772,
      "loss": 2.1198,
      "step": 19270
    },
    {
      "epoch": 0.4282444444444444,
      "grad_norm": 1.3510578870773315,
      "learning_rate": 0.00011437652811735942,
      "loss": 1.8684,
      "step": 19271
    },
    {
      "epoch": 0.4282666666666667,
      "grad_norm": 1.7532925605773926,
      "learning_rate": 0.00011437208268504111,
      "loss": 2.0524,
      "step": 19272
    },
    {
      "epoch": 0.4282888888888889,
      "grad_norm": 1.555501937866211,
      "learning_rate": 0.00011436763725272284,
      "loss": 2.0139,
      "step": 19273
    },
    {
      "epoch": 0.4283111111111111,
      "grad_norm": 1.7581740617752075,
      "learning_rate": 0.00011436319182040453,
      "loss": 1.9248,
      "step": 19274
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 1.6779073476791382,
      "learning_rate": 0.00011435874638808626,
      "loss": 1.9107,
      "step": 19275
    },
    {
      "epoch": 0.42835555555555554,
      "grad_norm": 1.4439380168914795,
      "learning_rate": 0.00011435430095576795,
      "loss": 2.3863,
      "step": 19276
    },
    {
      "epoch": 0.4283777777777778,
      "grad_norm": 1.8085858821868896,
      "learning_rate": 0.00011434985552344966,
      "loss": 2.2848,
      "step": 19277
    },
    {
      "epoch": 0.4284,
      "grad_norm": 1.6983338594436646,
      "learning_rate": 0.00011434541009113137,
      "loss": 2.2847,
      "step": 19278
    },
    {
      "epoch": 0.4284222222222222,
      "grad_norm": 1.8791756629943848,
      "learning_rate": 0.00011434096465881308,
      "loss": 2.4844,
      "step": 19279
    },
    {
      "epoch": 0.42844444444444446,
      "grad_norm": 1.3913190364837646,
      "learning_rate": 0.00011433651922649478,
      "loss": 1.8477,
      "step": 19280
    },
    {
      "epoch": 0.42846666666666666,
      "grad_norm": 1.5102401971817017,
      "learning_rate": 0.0001143320737941765,
      "loss": 1.4549,
      "step": 19281
    },
    {
      "epoch": 0.42848888888888886,
      "grad_norm": 1.7270159721374512,
      "learning_rate": 0.0001143276283618582,
      "loss": 1.8254,
      "step": 19282
    },
    {
      "epoch": 0.4285111111111111,
      "grad_norm": 1.5788315534591675,
      "learning_rate": 0.00011432318292953989,
      "loss": 1.6569,
      "step": 19283
    },
    {
      "epoch": 0.4285333333333333,
      "grad_norm": 1.4712105989456177,
      "learning_rate": 0.00011431873749722162,
      "loss": 1.697,
      "step": 19284
    },
    {
      "epoch": 0.4285555555555556,
      "grad_norm": 1.3474371433258057,
      "learning_rate": 0.00011431429206490331,
      "loss": 1.7573,
      "step": 19285
    },
    {
      "epoch": 0.4285777777777778,
      "grad_norm": 1.5014201402664185,
      "learning_rate": 0.00011430984663258502,
      "loss": 1.5803,
      "step": 19286
    },
    {
      "epoch": 0.4286,
      "grad_norm": 1.301684856414795,
      "learning_rate": 0.00011430540120026673,
      "loss": 1.5774,
      "step": 19287
    },
    {
      "epoch": 0.42862222222222224,
      "grad_norm": 1.505046010017395,
      "learning_rate": 0.00011430095576794844,
      "loss": 1.7018,
      "step": 19288
    },
    {
      "epoch": 0.42864444444444444,
      "grad_norm": 1.5753945112228394,
      "learning_rate": 0.00011429651033563014,
      "loss": 2.0581,
      "step": 19289
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 1.668363332748413,
      "learning_rate": 0.00011429206490331186,
      "loss": 1.5426,
      "step": 19290
    },
    {
      "epoch": 0.4286888888888889,
      "grad_norm": 1.8381379842758179,
      "learning_rate": 0.00011428761947099356,
      "loss": 2.0695,
      "step": 19291
    },
    {
      "epoch": 0.4287111111111111,
      "grad_norm": 1.4940603971481323,
      "learning_rate": 0.00011428317403867525,
      "loss": 1.6983,
      "step": 19292
    },
    {
      "epoch": 0.42873333333333336,
      "grad_norm": 1.7582695484161377,
      "learning_rate": 0.00011427872860635698,
      "loss": 2.1554,
      "step": 19293
    },
    {
      "epoch": 0.42875555555555556,
      "grad_norm": 1.5312920808792114,
      "learning_rate": 0.00011427428317403867,
      "loss": 1.6715,
      "step": 19294
    },
    {
      "epoch": 0.42877777777777776,
      "grad_norm": 1.8015633821487427,
      "learning_rate": 0.0001142698377417204,
      "loss": 1.8127,
      "step": 19295
    },
    {
      "epoch": 0.4288,
      "grad_norm": 1.8561376333236694,
      "learning_rate": 0.00011426539230940209,
      "loss": 1.8162,
      "step": 19296
    },
    {
      "epoch": 0.4288222222222222,
      "grad_norm": 1.5097899436950684,
      "learning_rate": 0.0001142609468770838,
      "loss": 1.6111,
      "step": 19297
    },
    {
      "epoch": 0.4288444444444444,
      "grad_norm": 1.7930173873901367,
      "learning_rate": 0.00011425650144476552,
      "loss": 1.3938,
      "step": 19298
    },
    {
      "epoch": 0.4288666666666667,
      "grad_norm": 1.8850473165512085,
      "learning_rate": 0.00011425205601244722,
      "loss": 1.9588,
      "step": 19299
    },
    {
      "epoch": 0.4288888888888889,
      "grad_norm": 1.8572602272033691,
      "learning_rate": 0.00011424761058012892,
      "loss": 1.4852,
      "step": 19300
    },
    {
      "epoch": 0.42891111111111113,
      "grad_norm": 1.3729749917984009,
      "learning_rate": 0.00011424316514781064,
      "loss": 2.0932,
      "step": 19301
    },
    {
      "epoch": 0.42893333333333333,
      "grad_norm": 1.4872684478759766,
      "learning_rate": 0.00011423871971549234,
      "loss": 2.1424,
      "step": 19302
    },
    {
      "epoch": 0.42895555555555553,
      "grad_norm": 2.076674699783325,
      "learning_rate": 0.00011423427428317403,
      "loss": 2.0811,
      "step": 19303
    },
    {
      "epoch": 0.4289777777777778,
      "grad_norm": 1.8690582513809204,
      "learning_rate": 0.00011422982885085575,
      "loss": 2.3043,
      "step": 19304
    },
    {
      "epoch": 0.429,
      "grad_norm": 1.7851240634918213,
      "learning_rate": 0.00011422538341853745,
      "loss": 1.5271,
      "step": 19305
    },
    {
      "epoch": 0.42902222222222225,
      "grad_norm": 1.6387062072753906,
      "learning_rate": 0.00011422093798621916,
      "loss": 2.0103,
      "step": 19306
    },
    {
      "epoch": 0.42904444444444445,
      "grad_norm": 1.4391810894012451,
      "learning_rate": 0.00011421649255390088,
      "loss": 1.8369,
      "step": 19307
    },
    {
      "epoch": 0.42906666666666665,
      "grad_norm": 1.4956883192062378,
      "learning_rate": 0.00011421204712158258,
      "loss": 2.0228,
      "step": 19308
    },
    {
      "epoch": 0.4290888888888889,
      "grad_norm": 1.5307583808898926,
      "learning_rate": 0.00011420760168926428,
      "loss": 1.8817,
      "step": 19309
    },
    {
      "epoch": 0.4291111111111111,
      "grad_norm": 1.800058126449585,
      "learning_rate": 0.000114203156256946,
      "loss": 2.3045,
      "step": 19310
    },
    {
      "epoch": 0.4291333333333333,
      "grad_norm": 1.6716305017471313,
      "learning_rate": 0.0001141987108246277,
      "loss": 1.8762,
      "step": 19311
    },
    {
      "epoch": 0.42915555555555557,
      "grad_norm": 1.7175577878952026,
      "learning_rate": 0.00011419426539230942,
      "loss": 2.2536,
      "step": 19312
    },
    {
      "epoch": 0.42917777777777777,
      "grad_norm": 1.5459492206573486,
      "learning_rate": 0.00011418981995999111,
      "loss": 2.3487,
      "step": 19313
    },
    {
      "epoch": 0.4292,
      "grad_norm": 2.170039176940918,
      "learning_rate": 0.00011418537452767282,
      "loss": 2.2082,
      "step": 19314
    },
    {
      "epoch": 0.4292222222222222,
      "grad_norm": 1.6319795846939087,
      "learning_rate": 0.00011418092909535453,
      "loss": 2.5043,
      "step": 19315
    },
    {
      "epoch": 0.42924444444444443,
      "grad_norm": 1.6744807958602905,
      "learning_rate": 0.00011417648366303624,
      "loss": 2.3002,
      "step": 19316
    },
    {
      "epoch": 0.4292666666666667,
      "grad_norm": 1.674529790878296,
      "learning_rate": 0.00011417203823071794,
      "loss": 1.9425,
      "step": 19317
    },
    {
      "epoch": 0.4292888888888889,
      "grad_norm": 1.5987075567245483,
      "learning_rate": 0.00011416759279839966,
      "loss": 2.4037,
      "step": 19318
    },
    {
      "epoch": 0.4293111111111111,
      "grad_norm": 1.7805256843566895,
      "learning_rate": 0.00011416314736608136,
      "loss": 1.9675,
      "step": 19319
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 1.9165738821029663,
      "learning_rate": 0.00011415870193376305,
      "loss": 1.9954,
      "step": 19320
    },
    {
      "epoch": 0.42935555555555555,
      "grad_norm": 1.5320240259170532,
      "learning_rate": 0.00011415425650144478,
      "loss": 2.165,
      "step": 19321
    },
    {
      "epoch": 0.4293777777777778,
      "grad_norm": 1.8071213960647583,
      "learning_rate": 0.00011414981106912647,
      "loss": 1.8637,
      "step": 19322
    },
    {
      "epoch": 0.4294,
      "grad_norm": 1.7652826309204102,
      "learning_rate": 0.00011414536563680818,
      "loss": 1.6467,
      "step": 19323
    },
    {
      "epoch": 0.4294222222222222,
      "grad_norm": 1.6401960849761963,
      "learning_rate": 0.00011414092020448989,
      "loss": 2.021,
      "step": 19324
    },
    {
      "epoch": 0.42944444444444446,
      "grad_norm": 2.15862774848938,
      "learning_rate": 0.0001141364747721716,
      "loss": 2.1831,
      "step": 19325
    },
    {
      "epoch": 0.42946666666666666,
      "grad_norm": 1.839149832725525,
      "learning_rate": 0.0001141320293398533,
      "loss": 2.2985,
      "step": 19326
    },
    {
      "epoch": 0.42948888888888886,
      "grad_norm": 1.469455599784851,
      "learning_rate": 0.00011412758390753502,
      "loss": 1.934,
      "step": 19327
    },
    {
      "epoch": 0.4295111111111111,
      "grad_norm": 1.6359766721725464,
      "learning_rate": 0.00011412313847521672,
      "loss": 2.0257,
      "step": 19328
    },
    {
      "epoch": 0.4295333333333333,
      "grad_norm": 1.9649481773376465,
      "learning_rate": 0.00011411869304289841,
      "loss": 2.103,
      "step": 19329
    },
    {
      "epoch": 0.4295555555555556,
      "grad_norm": 1.609757661819458,
      "learning_rate": 0.00011411424761058014,
      "loss": 1.7407,
      "step": 19330
    },
    {
      "epoch": 0.4295777777777778,
      "grad_norm": 2.2422521114349365,
      "learning_rate": 0.00011410980217826183,
      "loss": 2.606,
      "step": 19331
    },
    {
      "epoch": 0.4296,
      "grad_norm": 1.6828988790512085,
      "learning_rate": 0.00011410535674594356,
      "loss": 2.0083,
      "step": 19332
    },
    {
      "epoch": 0.42962222222222224,
      "grad_norm": 1.7439005374908447,
      "learning_rate": 0.00011410091131362525,
      "loss": 1.8431,
      "step": 19333
    },
    {
      "epoch": 0.42964444444444444,
      "grad_norm": 1.5927979946136475,
      "learning_rate": 0.00011409646588130696,
      "loss": 1.7717,
      "step": 19334
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 1.5552897453308105,
      "learning_rate": 0.00011409202044898868,
      "loss": 1.8445,
      "step": 19335
    },
    {
      "epoch": 0.4296888888888889,
      "grad_norm": 1.6736668348312378,
      "learning_rate": 0.00011408757501667038,
      "loss": 1.6669,
      "step": 19336
    },
    {
      "epoch": 0.4297111111111111,
      "grad_norm": 1.9940818548202515,
      "learning_rate": 0.00011408312958435208,
      "loss": 1.6298,
      "step": 19337
    },
    {
      "epoch": 0.42973333333333336,
      "grad_norm": 2.110398054122925,
      "learning_rate": 0.0001140786841520338,
      "loss": 1.5546,
      "step": 19338
    },
    {
      "epoch": 0.42975555555555556,
      "grad_norm": 1.903100609779358,
      "learning_rate": 0.0001140742387197155,
      "loss": 1.454,
      "step": 19339
    },
    {
      "epoch": 0.42977777777777776,
      "grad_norm": 1.765387773513794,
      "learning_rate": 0.00011406979328739719,
      "loss": 1.7859,
      "step": 19340
    },
    {
      "epoch": 0.4298,
      "grad_norm": 1.3263635635375977,
      "learning_rate": 0.00011406534785507892,
      "loss": 1.3958,
      "step": 19341
    },
    {
      "epoch": 0.4298222222222222,
      "grad_norm": 1.341681957244873,
      "learning_rate": 0.00011406090242276061,
      "loss": 1.5886,
      "step": 19342
    },
    {
      "epoch": 0.4298444444444444,
      "grad_norm": 2.041520833969116,
      "learning_rate": 0.00011405645699044232,
      "loss": 2.2592,
      "step": 19343
    },
    {
      "epoch": 0.4298666666666667,
      "grad_norm": 2.014659881591797,
      "learning_rate": 0.00011405201155812404,
      "loss": 2.0084,
      "step": 19344
    },
    {
      "epoch": 0.4298888888888889,
      "grad_norm": 2.096513509750366,
      "learning_rate": 0.00011404756612580574,
      "loss": 2.1022,
      "step": 19345
    },
    {
      "epoch": 0.42991111111111113,
      "grad_norm": 1.8490869998931885,
      "learning_rate": 0.00011404312069348744,
      "loss": 2.12,
      "step": 19346
    },
    {
      "epoch": 0.42993333333333333,
      "grad_norm": 1.7374680042266846,
      "learning_rate": 0.00011403867526116916,
      "loss": 1.687,
      "step": 19347
    },
    {
      "epoch": 0.42995555555555554,
      "grad_norm": 1.6211574077606201,
      "learning_rate": 0.00011403422982885086,
      "loss": 1.7193,
      "step": 19348
    },
    {
      "epoch": 0.4299777777777778,
      "grad_norm": 1.9372485876083374,
      "learning_rate": 0.00011402978439653255,
      "loss": 1.5478,
      "step": 19349
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4279879331588745,
      "learning_rate": 0.00011402533896421428,
      "loss": 1.1275,
      "step": 19350
    },
    {
      "epoch": 0.4300222222222222,
      "grad_norm": 1.3217405080795288,
      "learning_rate": 0.00011402089353189598,
      "loss": 3.0541,
      "step": 19351
    },
    {
      "epoch": 0.43004444444444445,
      "grad_norm": 1.4267513751983643,
      "learning_rate": 0.0001140164480995777,
      "loss": 3.1188,
      "step": 19352
    },
    {
      "epoch": 0.43006666666666665,
      "grad_norm": 1.4213495254516602,
      "learning_rate": 0.0001140120026672594,
      "loss": 2.4367,
      "step": 19353
    },
    {
      "epoch": 0.4300888888888889,
      "grad_norm": 1.17178213596344,
      "learning_rate": 0.0001140075572349411,
      "loss": 2.1311,
      "step": 19354
    },
    {
      "epoch": 0.4301111111111111,
      "grad_norm": 1.3137129545211792,
      "learning_rate": 0.00011400311180262282,
      "loss": 2.2515,
      "step": 19355
    },
    {
      "epoch": 0.4301333333333333,
      "grad_norm": 1.5020666122436523,
      "learning_rate": 0.00011399866637030452,
      "loss": 2.5722,
      "step": 19356
    },
    {
      "epoch": 0.43015555555555557,
      "grad_norm": 1.1038497686386108,
      "learning_rate": 0.00011399422093798622,
      "loss": 0.8579,
      "step": 19357
    },
    {
      "epoch": 0.43017777777777777,
      "grad_norm": 1.4099279642105103,
      "learning_rate": 0.00011398977550566794,
      "loss": 1.1086,
      "step": 19358
    },
    {
      "epoch": 0.4302,
      "grad_norm": 1.6145237684249878,
      "learning_rate": 0.00011398533007334963,
      "loss": 2.0415,
      "step": 19359
    },
    {
      "epoch": 0.43022222222222223,
      "grad_norm": 1.2959338426589966,
      "learning_rate": 0.00011398088464103134,
      "loss": 2.2035,
      "step": 19360
    },
    {
      "epoch": 0.43024444444444443,
      "grad_norm": 1.2233283519744873,
      "learning_rate": 0.00011397643920871305,
      "loss": 1.9952,
      "step": 19361
    },
    {
      "epoch": 0.4302666666666667,
      "grad_norm": 1.4436283111572266,
      "learning_rate": 0.00011397199377639476,
      "loss": 1.83,
      "step": 19362
    },
    {
      "epoch": 0.4302888888888889,
      "grad_norm": 1.4483360052108765,
      "learning_rate": 0.00011396754834407646,
      "loss": 2.3619,
      "step": 19363
    },
    {
      "epoch": 0.4303111111111111,
      "grad_norm": 1.587784767150879,
      "learning_rate": 0.00011396310291175818,
      "loss": 2.387,
      "step": 19364
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 1.4578964710235596,
      "learning_rate": 0.00011395865747943988,
      "loss": 1.8013,
      "step": 19365
    },
    {
      "epoch": 0.43035555555555555,
      "grad_norm": 1.4490145444869995,
      "learning_rate": 0.00011395421204712157,
      "loss": 1.8093,
      "step": 19366
    },
    {
      "epoch": 0.4303777777777778,
      "grad_norm": 1.508893609046936,
      "learning_rate": 0.0001139497666148033,
      "loss": 2.3408,
      "step": 19367
    },
    {
      "epoch": 0.4304,
      "grad_norm": 0.9109175205230713,
      "learning_rate": 0.000113945321182485,
      "loss": 0.9668,
      "step": 19368
    },
    {
      "epoch": 0.4304222222222222,
      "grad_norm": 1.290130853652954,
      "learning_rate": 0.00011394087575016672,
      "loss": 0.8848,
      "step": 19369
    },
    {
      "epoch": 0.43044444444444446,
      "grad_norm": 1.4491671323776245,
      "learning_rate": 0.00011393643031784841,
      "loss": 1.7205,
      "step": 19370
    },
    {
      "epoch": 0.43046666666666666,
      "grad_norm": 1.53315269947052,
      "learning_rate": 0.00011393198488553012,
      "loss": 1.2511,
      "step": 19371
    },
    {
      "epoch": 0.43048888888888887,
      "grad_norm": 2.164250612258911,
      "learning_rate": 0.00011392753945321185,
      "loss": 2.1299,
      "step": 19372
    },
    {
      "epoch": 0.4305111111111111,
      "grad_norm": 1.4042067527770996,
      "learning_rate": 0.00011392309402089354,
      "loss": 1.7922,
      "step": 19373
    },
    {
      "epoch": 0.4305333333333333,
      "grad_norm": 1.5138611793518066,
      "learning_rate": 0.00011391864858857524,
      "loss": 2.0194,
      "step": 19374
    },
    {
      "epoch": 0.4305555555555556,
      "grad_norm": 1.3929208517074585,
      "learning_rate": 0.00011391420315625696,
      "loss": 1.6613,
      "step": 19375
    },
    {
      "epoch": 0.4305777777777778,
      "grad_norm": 1.703086256980896,
      "learning_rate": 0.00011390975772393866,
      "loss": 1.9499,
      "step": 19376
    },
    {
      "epoch": 0.4306,
      "grad_norm": 1.6039519309997559,
      "learning_rate": 0.00011390531229162035,
      "loss": 1.9318,
      "step": 19377
    },
    {
      "epoch": 0.43062222222222224,
      "grad_norm": 1.5389152765274048,
      "learning_rate": 0.00011390086685930208,
      "loss": 1.6692,
      "step": 19378
    },
    {
      "epoch": 0.43064444444444444,
      "grad_norm": 1.5015124082565308,
      "learning_rate": 0.00011389642142698377,
      "loss": 1.6263,
      "step": 19379
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 1.3833913803100586,
      "learning_rate": 0.00011389197599466548,
      "loss": 1.2519,
      "step": 19380
    },
    {
      "epoch": 0.4306888888888889,
      "grad_norm": 1.2839266061782837,
      "learning_rate": 0.0001138875305623472,
      "loss": 1.0519,
      "step": 19381
    },
    {
      "epoch": 0.4307111111111111,
      "grad_norm": 1.6141027212142944,
      "learning_rate": 0.0001138830851300289,
      "loss": 2.5917,
      "step": 19382
    },
    {
      "epoch": 0.43073333333333336,
      "grad_norm": 2.2066235542297363,
      "learning_rate": 0.0001138786396977106,
      "loss": 1.9677,
      "step": 19383
    },
    {
      "epoch": 0.43075555555555556,
      "grad_norm": 0.17265306413173676,
      "learning_rate": 0.00011387419426539232,
      "loss": 0.0286,
      "step": 19384
    },
    {
      "epoch": 0.43077777777777776,
      "grad_norm": 1.90028715133667,
      "learning_rate": 0.00011386974883307402,
      "loss": 2.1981,
      "step": 19385
    },
    {
      "epoch": 0.4308,
      "grad_norm": 1.7247239351272583,
      "learning_rate": 0.00011386530340075571,
      "loss": 1.9956,
      "step": 19386
    },
    {
      "epoch": 0.4308222222222222,
      "grad_norm": 1.6245070695877075,
      "learning_rate": 0.00011386085796843744,
      "loss": 1.8938,
      "step": 19387
    },
    {
      "epoch": 0.4308444444444444,
      "grad_norm": 1.6656559705734253,
      "learning_rate": 0.00011385641253611915,
      "loss": 1.9437,
      "step": 19388
    },
    {
      "epoch": 0.4308666666666667,
      "grad_norm": 1.874845027923584,
      "learning_rate": 0.00011385196710380086,
      "loss": 1.9794,
      "step": 19389
    },
    {
      "epoch": 0.4308888888888889,
      "grad_norm": 1.649471402168274,
      "learning_rate": 0.00011384752167148256,
      "loss": 2.013,
      "step": 19390
    },
    {
      "epoch": 0.43091111111111113,
      "grad_norm": 1.7411175966262817,
      "learning_rate": 0.00011384307623916426,
      "loss": 1.936,
      "step": 19391
    },
    {
      "epoch": 0.43093333333333333,
      "grad_norm": 1.273374080657959,
      "learning_rate": 0.00011383863080684598,
      "loss": 1.4379,
      "step": 19392
    },
    {
      "epoch": 0.43095555555555554,
      "grad_norm": 1.7195743322372437,
      "learning_rate": 0.00011383418537452768,
      "loss": 1.7574,
      "step": 19393
    },
    {
      "epoch": 0.4309777777777778,
      "grad_norm": 1.6668459177017212,
      "learning_rate": 0.00011382973994220938,
      "loss": 1.8563,
      "step": 19394
    },
    {
      "epoch": 0.431,
      "grad_norm": 1.776271939277649,
      "learning_rate": 0.0001138252945098911,
      "loss": 1.5572,
      "step": 19395
    },
    {
      "epoch": 0.4310222222222222,
      "grad_norm": 1.864273190498352,
      "learning_rate": 0.0001138208490775728,
      "loss": 2.0403,
      "step": 19396
    },
    {
      "epoch": 0.43104444444444445,
      "grad_norm": 1.7515193223953247,
      "learning_rate": 0.0001138164036452545,
      "loss": 2.0705,
      "step": 19397
    },
    {
      "epoch": 0.43106666666666665,
      "grad_norm": 1.5208371877670288,
      "learning_rate": 0.00011381195821293621,
      "loss": 1.7169,
      "step": 19398
    },
    {
      "epoch": 0.4310888888888889,
      "grad_norm": 1.7417738437652588,
      "learning_rate": 0.00011380751278061792,
      "loss": 1.6478,
      "step": 19399
    },
    {
      "epoch": 0.4311111111111111,
      "grad_norm": 0.29658249020576477,
      "learning_rate": 0.00011380306734829962,
      "loss": 0.0549,
      "step": 19400
    },
    {
      "epoch": 0.4311333333333333,
      "grad_norm": 1.527937412261963,
      "learning_rate": 0.00011379862191598134,
      "loss": 2.5739,
      "step": 19401
    },
    {
      "epoch": 0.43115555555555557,
      "grad_norm": 1.3488026857376099,
      "learning_rate": 0.00011379417648366304,
      "loss": 2.7297,
      "step": 19402
    },
    {
      "epoch": 0.43117777777777777,
      "grad_norm": 1.0674649477005005,
      "learning_rate": 0.00011378973105134474,
      "loss": 1.1456,
      "step": 19403
    },
    {
      "epoch": 0.4312,
      "grad_norm": 1.4463741779327393,
      "learning_rate": 0.00011378528561902646,
      "loss": 2.028,
      "step": 19404
    },
    {
      "epoch": 0.43122222222222223,
      "grad_norm": 1.657589316368103,
      "learning_rate": 0.00011378084018670815,
      "loss": 2.0765,
      "step": 19405
    },
    {
      "epoch": 0.43124444444444443,
      "grad_norm": 1.5156660079956055,
      "learning_rate": 0.00011377639475438986,
      "loss": 2.2623,
      "step": 19406
    },
    {
      "epoch": 0.4312666666666667,
      "grad_norm": 1.413248896598816,
      "learning_rate": 0.00011377194932207157,
      "loss": 2.0443,
      "step": 19407
    },
    {
      "epoch": 0.4312888888888889,
      "grad_norm": 1.4490680694580078,
      "learning_rate": 0.00011376750388975328,
      "loss": 2.277,
      "step": 19408
    },
    {
      "epoch": 0.4313111111111111,
      "grad_norm": 1.8382267951965332,
      "learning_rate": 0.00011376305845743501,
      "loss": 2.1327,
      "step": 19409
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 1.5029288530349731,
      "learning_rate": 0.0001137586130251167,
      "loss": 2.3979,
      "step": 19410
    },
    {
      "epoch": 0.43135555555555555,
      "grad_norm": 1.5136704444885254,
      "learning_rate": 0.0001137541675927984,
      "loss": 2.1442,
      "step": 19411
    },
    {
      "epoch": 0.4313777777777778,
      "grad_norm": 1.5142954587936401,
      "learning_rate": 0.00011374972216048012,
      "loss": 2.2443,
      "step": 19412
    },
    {
      "epoch": 0.4314,
      "grad_norm": 1.568793535232544,
      "learning_rate": 0.00011374527672816182,
      "loss": 1.9521,
      "step": 19413
    },
    {
      "epoch": 0.4314222222222222,
      "grad_norm": 1.386620283126831,
      "learning_rate": 0.00011374083129584351,
      "loss": 2.0282,
      "step": 19414
    },
    {
      "epoch": 0.43144444444444446,
      "grad_norm": 1.6135004758834839,
      "learning_rate": 0.00011373638586352524,
      "loss": 2.33,
      "step": 19415
    },
    {
      "epoch": 0.43146666666666667,
      "grad_norm": 1.4860173463821411,
      "learning_rate": 0.00011373194043120693,
      "loss": 1.7219,
      "step": 19416
    },
    {
      "epoch": 0.43148888888888887,
      "grad_norm": 1.4759459495544434,
      "learning_rate": 0.00011372749499888864,
      "loss": 1.732,
      "step": 19417
    },
    {
      "epoch": 0.4315111111111111,
      "grad_norm": 1.4331473112106323,
      "learning_rate": 0.00011372304956657037,
      "loss": 1.3003,
      "step": 19418
    },
    {
      "epoch": 0.4315333333333333,
      "grad_norm": 1.6019223928451538,
      "learning_rate": 0.00011371860413425206,
      "loss": 2.1883,
      "step": 19419
    },
    {
      "epoch": 0.4315555555555556,
      "grad_norm": 1.4920377731323242,
      "learning_rate": 0.00011371415870193376,
      "loss": 2.0762,
      "step": 19420
    },
    {
      "epoch": 0.4315777777777778,
      "grad_norm": 1.591533899307251,
      "learning_rate": 0.00011370971326961548,
      "loss": 1.6657,
      "step": 19421
    },
    {
      "epoch": 0.4316,
      "grad_norm": 1.6809661388397217,
      "learning_rate": 0.00011370526783729718,
      "loss": 2.0505,
      "step": 19422
    },
    {
      "epoch": 0.43162222222222224,
      "grad_norm": 1.4977457523345947,
      "learning_rate": 0.00011370082240497887,
      "loss": 1.9102,
      "step": 19423
    },
    {
      "epoch": 0.43164444444444444,
      "grad_norm": 1.4878008365631104,
      "learning_rate": 0.0001136963769726606,
      "loss": 2.3836,
      "step": 19424
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 1.2635835409164429,
      "learning_rate": 0.0001136919315403423,
      "loss": 1.6391,
      "step": 19425
    },
    {
      "epoch": 0.4316888888888889,
      "grad_norm": 1.6144323348999023,
      "learning_rate": 0.00011368748610802402,
      "loss": 2.193,
      "step": 19426
    },
    {
      "epoch": 0.4317111111111111,
      "grad_norm": 1.3600221872329712,
      "learning_rate": 0.00011368304067570573,
      "loss": 1.864,
      "step": 19427
    },
    {
      "epoch": 0.43173333333333336,
      "grad_norm": 1.680535912513733,
      "learning_rate": 0.00011367859524338742,
      "loss": 2.504,
      "step": 19428
    },
    {
      "epoch": 0.43175555555555556,
      "grad_norm": 1.493422269821167,
      "learning_rate": 0.00011367414981106915,
      "loss": 2.2822,
      "step": 19429
    },
    {
      "epoch": 0.43177777777777776,
      "grad_norm": 1.4275519847869873,
      "learning_rate": 0.00011366970437875084,
      "loss": 1.7683,
      "step": 19430
    },
    {
      "epoch": 0.4318,
      "grad_norm": 1.6076301336288452,
      "learning_rate": 0.00011366525894643254,
      "loss": 1.7329,
      "step": 19431
    },
    {
      "epoch": 0.4318222222222222,
      "grad_norm": 1.262422800064087,
      "learning_rate": 0.00011366081351411426,
      "loss": 1.6535,
      "step": 19432
    },
    {
      "epoch": 0.4318444444444444,
      "grad_norm": 2.0723299980163574,
      "learning_rate": 0.00011365636808179596,
      "loss": 2.4058,
      "step": 19433
    },
    {
      "epoch": 0.4318666666666667,
      "grad_norm": 1.945332646369934,
      "learning_rate": 0.00011365192264947767,
      "loss": 2.164,
      "step": 19434
    },
    {
      "epoch": 0.4318888888888889,
      "grad_norm": 1.7236666679382324,
      "learning_rate": 0.00011364747721715938,
      "loss": 2.0184,
      "step": 19435
    },
    {
      "epoch": 0.43191111111111113,
      "grad_norm": 1.8985369205474854,
      "learning_rate": 0.00011364303178484109,
      "loss": 1.721,
      "step": 19436
    },
    {
      "epoch": 0.43193333333333334,
      "grad_norm": 1.818992257118225,
      "learning_rate": 0.00011363858635252278,
      "loss": 2.116,
      "step": 19437
    },
    {
      "epoch": 0.43195555555555554,
      "grad_norm": 1.474890947341919,
      "learning_rate": 0.0001136341409202045,
      "loss": 1.7064,
      "step": 19438
    },
    {
      "epoch": 0.4319777777777778,
      "grad_norm": 1.8375523090362549,
      "learning_rate": 0.0001136296954878862,
      "loss": 1.8545,
      "step": 19439
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.3267544507980347,
      "learning_rate": 0.0001136252500555679,
      "loss": 1.0196,
      "step": 19440
    },
    {
      "epoch": 0.4320222222222222,
      "grad_norm": 1.601594090461731,
      "learning_rate": 0.00011362080462324962,
      "loss": 1.7459,
      "step": 19441
    },
    {
      "epoch": 0.43204444444444445,
      "grad_norm": 1.9435144662857056,
      "learning_rate": 0.00011361635919093132,
      "loss": 1.8505,
      "step": 19442
    },
    {
      "epoch": 0.43206666666666665,
      "grad_norm": 1.735211730003357,
      "learning_rate": 0.00011361191375861303,
      "loss": 1.6012,
      "step": 19443
    },
    {
      "epoch": 0.4320888888888889,
      "grad_norm": 1.5779982805252075,
      "learning_rate": 0.00011360746832629474,
      "loss": 1.233,
      "step": 19444
    },
    {
      "epoch": 0.4321111111111111,
      "grad_norm": 2.096440553665161,
      "learning_rate": 0.00011360302289397644,
      "loss": 1.5466,
      "step": 19445
    },
    {
      "epoch": 0.4321333333333333,
      "grad_norm": 1.8900458812713623,
      "learning_rate": 0.00011359857746165817,
      "loss": 2.0511,
      "step": 19446
    },
    {
      "epoch": 0.43215555555555557,
      "grad_norm": 1.7040634155273438,
      "learning_rate": 0.00011359413202933986,
      "loss": 1.6351,
      "step": 19447
    },
    {
      "epoch": 0.43217777777777777,
      "grad_norm": 1.688287615776062,
      "learning_rate": 0.00011358968659702156,
      "loss": 1.7936,
      "step": 19448
    },
    {
      "epoch": 0.4322,
      "grad_norm": 1.2381867170333862,
      "learning_rate": 0.00011358524116470328,
      "loss": 1.001,
      "step": 19449
    },
    {
      "epoch": 0.43222222222222223,
      "grad_norm": 2.0041096210479736,
      "learning_rate": 0.00011358079573238498,
      "loss": 1.8372,
      "step": 19450
    },
    {
      "epoch": 0.43224444444444443,
      "grad_norm": 1.4921259880065918,
      "learning_rate": 0.00011357635030006668,
      "loss": 2.0825,
      "step": 19451
    },
    {
      "epoch": 0.4322666666666667,
      "grad_norm": 1.5880751609802246,
      "learning_rate": 0.0001135719048677484,
      "loss": 2.5701,
      "step": 19452
    },
    {
      "epoch": 0.4322888888888889,
      "grad_norm": 1.276099681854248,
      "learning_rate": 0.0001135674594354301,
      "loss": 1.2794,
      "step": 19453
    },
    {
      "epoch": 0.4323111111111111,
      "grad_norm": 1.278417944908142,
      "learning_rate": 0.0001135630140031118,
      "loss": 2.2963,
      "step": 19454
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 1.3259841203689575,
      "learning_rate": 0.00011355856857079353,
      "loss": 2.2468,
      "step": 19455
    },
    {
      "epoch": 0.43235555555555555,
      "grad_norm": 1.2311551570892334,
      "learning_rate": 0.00011355412313847522,
      "loss": 1.8794,
      "step": 19456
    },
    {
      "epoch": 0.4323777777777778,
      "grad_norm": 1.490429401397705,
      "learning_rate": 0.00011354967770615692,
      "loss": 1.9875,
      "step": 19457
    },
    {
      "epoch": 0.4324,
      "grad_norm": 1.5991941690444946,
      "learning_rate": 0.00011354523227383864,
      "loss": 2.2585,
      "step": 19458
    },
    {
      "epoch": 0.4324222222222222,
      "grad_norm": 1.4909104108810425,
      "learning_rate": 0.00011354078684152034,
      "loss": 2.1946,
      "step": 19459
    },
    {
      "epoch": 0.43244444444444446,
      "grad_norm": 1.614665150642395,
      "learning_rate": 0.00011353634140920203,
      "loss": 1.7289,
      "step": 19460
    },
    {
      "epoch": 0.43246666666666667,
      "grad_norm": 1.5423862934112549,
      "learning_rate": 0.00011353189597688376,
      "loss": 2.4768,
      "step": 19461
    },
    {
      "epoch": 0.43248888888888887,
      "grad_norm": 1.4717127084732056,
      "learning_rate": 0.00011352745054456547,
      "loss": 2.4315,
      "step": 19462
    },
    {
      "epoch": 0.4325111111111111,
      "grad_norm": 1.6091601848602295,
      "learning_rate": 0.00011352300511224716,
      "loss": 2.1868,
      "step": 19463
    },
    {
      "epoch": 0.4325333333333333,
      "grad_norm": 1.2903586626052856,
      "learning_rate": 0.00011351855967992889,
      "loss": 1.6255,
      "step": 19464
    },
    {
      "epoch": 0.4325555555555556,
      "grad_norm": 1.7966445684432983,
      "learning_rate": 0.00011351411424761058,
      "loss": 1.8876,
      "step": 19465
    },
    {
      "epoch": 0.4325777777777778,
      "grad_norm": 1.6731747388839722,
      "learning_rate": 0.0001135096688152923,
      "loss": 2.335,
      "step": 19466
    },
    {
      "epoch": 0.4326,
      "grad_norm": 1.9529179334640503,
      "learning_rate": 0.000113505223382974,
      "loss": 2.2397,
      "step": 19467
    },
    {
      "epoch": 0.43262222222222224,
      "grad_norm": 2.150099992752075,
      "learning_rate": 0.0001135007779506557,
      "loss": 2.5848,
      "step": 19468
    },
    {
      "epoch": 0.43264444444444444,
      "grad_norm": 1.924545407295227,
      "learning_rate": 0.00011349633251833742,
      "loss": 2.2751,
      "step": 19469
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 1.5731909275054932,
      "learning_rate": 0.00011349188708601912,
      "loss": 1.8115,
      "step": 19470
    },
    {
      "epoch": 0.4326888888888889,
      "grad_norm": 1.9689748287200928,
      "learning_rate": 0.00011348744165370083,
      "loss": 2.0274,
      "step": 19471
    },
    {
      "epoch": 0.4327111111111111,
      "grad_norm": 1.780218243598938,
      "learning_rate": 0.00011348299622138254,
      "loss": 1.5975,
      "step": 19472
    },
    {
      "epoch": 0.43273333333333336,
      "grad_norm": 1.7937793731689453,
      "learning_rate": 0.00011347855078906425,
      "loss": 2.2067,
      "step": 19473
    },
    {
      "epoch": 0.43275555555555556,
      "grad_norm": 1.446790099143982,
      "learning_rate": 0.00011347410535674594,
      "loss": 1.7974,
      "step": 19474
    },
    {
      "epoch": 0.43277777777777776,
      "grad_norm": 1.8321044445037842,
      "learning_rate": 0.00011346965992442767,
      "loss": 1.9114,
      "step": 19475
    },
    {
      "epoch": 0.4328,
      "grad_norm": 1.8892312049865723,
      "learning_rate": 0.00011346521449210936,
      "loss": 1.9919,
      "step": 19476
    },
    {
      "epoch": 0.4328222222222222,
      "grad_norm": 1.6371147632598877,
      "learning_rate": 0.00011346076905979106,
      "loss": 1.5745,
      "step": 19477
    },
    {
      "epoch": 0.4328444444444444,
      "grad_norm": 0.15813478827476501,
      "learning_rate": 0.00011345632362747278,
      "loss": 0.026,
      "step": 19478
    },
    {
      "epoch": 0.4328666666666667,
      "grad_norm": 1.6193867921829224,
      "learning_rate": 0.00011345187819515448,
      "loss": 2.2418,
      "step": 19479
    },
    {
      "epoch": 0.4328888888888889,
      "grad_norm": 1.7214710712432861,
      "learning_rate": 0.00011344743276283619,
      "loss": 2.1673,
      "step": 19480
    },
    {
      "epoch": 0.43291111111111114,
      "grad_norm": 1.7006778717041016,
      "learning_rate": 0.0001134429873305179,
      "loss": 1.6687,
      "step": 19481
    },
    {
      "epoch": 0.43293333333333334,
      "grad_norm": 1.6951239109039307,
      "learning_rate": 0.0001134385418981996,
      "loss": 2.0236,
      "step": 19482
    },
    {
      "epoch": 0.43295555555555554,
      "grad_norm": 1.7579299211502075,
      "learning_rate": 0.00011343409646588133,
      "loss": 1.9552,
      "step": 19483
    },
    {
      "epoch": 0.4329777777777778,
      "grad_norm": 1.5620986223220825,
      "learning_rate": 0.00011342965103356303,
      "loss": 1.542,
      "step": 19484
    },
    {
      "epoch": 0.433,
      "grad_norm": 2.2946996688842773,
      "learning_rate": 0.00011342520560124472,
      "loss": 2.2385,
      "step": 19485
    },
    {
      "epoch": 0.4330222222222222,
      "grad_norm": 1.8717890977859497,
      "learning_rate": 0.00011342076016892644,
      "loss": 2.2742,
      "step": 19486
    },
    {
      "epoch": 0.43304444444444445,
      "grad_norm": 1.5127590894699097,
      "learning_rate": 0.00011341631473660814,
      "loss": 1.6234,
      "step": 19487
    },
    {
      "epoch": 0.43306666666666666,
      "grad_norm": 1.7778290510177612,
      "learning_rate": 0.00011341186930428984,
      "loss": 1.7755,
      "step": 19488
    },
    {
      "epoch": 0.4330888888888889,
      "grad_norm": 1.5338850021362305,
      "learning_rate": 0.00011340742387197156,
      "loss": 1.6187,
      "step": 19489
    },
    {
      "epoch": 0.4331111111111111,
      "grad_norm": 1.6983633041381836,
      "learning_rate": 0.00011340297843965326,
      "loss": 2.3794,
      "step": 19490
    },
    {
      "epoch": 0.4331333333333333,
      "grad_norm": 1.8019310235977173,
      "learning_rate": 0.00011339853300733497,
      "loss": 1.8957,
      "step": 19491
    },
    {
      "epoch": 0.43315555555555557,
      "grad_norm": 1.5919036865234375,
      "learning_rate": 0.00011339408757501669,
      "loss": 1.6154,
      "step": 19492
    },
    {
      "epoch": 0.4331777777777778,
      "grad_norm": 1.917608618736267,
      "learning_rate": 0.00011338964214269838,
      "loss": 1.908,
      "step": 19493
    },
    {
      "epoch": 0.4332,
      "grad_norm": 1.6695895195007324,
      "learning_rate": 0.00011338519671038008,
      "loss": 1.705,
      "step": 19494
    },
    {
      "epoch": 0.43322222222222223,
      "grad_norm": 1.3741182088851929,
      "learning_rate": 0.0001133807512780618,
      "loss": 1.7671,
      "step": 19495
    },
    {
      "epoch": 0.43324444444444443,
      "grad_norm": 1.7158704996109009,
      "learning_rate": 0.0001133763058457435,
      "loss": 1.6754,
      "step": 19496
    },
    {
      "epoch": 0.4332666666666667,
      "grad_norm": 1.224617838859558,
      "learning_rate": 0.0001133718604134252,
      "loss": 0.9894,
      "step": 19497
    },
    {
      "epoch": 0.4332888888888889,
      "grad_norm": 1.6953216791152954,
      "learning_rate": 0.00011336741498110692,
      "loss": 1.7959,
      "step": 19498
    },
    {
      "epoch": 0.4333111111111111,
      "grad_norm": 1.7753760814666748,
      "learning_rate": 0.00011336296954878863,
      "loss": 1.707,
      "step": 19499
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 1.541529655456543,
      "learning_rate": 0.00011335852411647032,
      "loss": 1.2312,
      "step": 19500
    },
    {
      "epoch": 0.43335555555555555,
      "grad_norm": 1.5259848833084106,
      "learning_rate": 0.00011335407868415205,
      "loss": 2.406,
      "step": 19501
    },
    {
      "epoch": 0.43337777777777775,
      "grad_norm": 1.4154962301254272,
      "learning_rate": 0.00011334963325183374,
      "loss": 2.3967,
      "step": 19502
    },
    {
      "epoch": 0.4334,
      "grad_norm": 1.3978703022003174,
      "learning_rate": 0.00011334518781951547,
      "loss": 2.3669,
      "step": 19503
    },
    {
      "epoch": 0.4334222222222222,
      "grad_norm": 1.5918841361999512,
      "learning_rate": 0.00011334074238719716,
      "loss": 2.2021,
      "step": 19504
    },
    {
      "epoch": 0.43344444444444447,
      "grad_norm": 1.4683165550231934,
      "learning_rate": 0.00011333629695487886,
      "loss": 2.2584,
      "step": 19505
    },
    {
      "epoch": 0.43346666666666667,
      "grad_norm": 1.6804131269454956,
      "learning_rate": 0.00011333185152256058,
      "loss": 2.0819,
      "step": 19506
    },
    {
      "epoch": 0.43348888888888887,
      "grad_norm": 1.3705589771270752,
      "learning_rate": 0.00011332740609024228,
      "loss": 1.7583,
      "step": 19507
    },
    {
      "epoch": 0.4335111111111111,
      "grad_norm": 1.4687211513519287,
      "learning_rate": 0.00011332296065792399,
      "loss": 2.0254,
      "step": 19508
    },
    {
      "epoch": 0.4335333333333333,
      "grad_norm": 1.4899601936340332,
      "learning_rate": 0.0001133185152256057,
      "loss": 2.0543,
      "step": 19509
    },
    {
      "epoch": 0.4335555555555556,
      "grad_norm": 1.5476279258728027,
      "learning_rate": 0.00011331406979328741,
      "loss": 2.0583,
      "step": 19510
    },
    {
      "epoch": 0.4335777777777778,
      "grad_norm": 1.6558879613876343,
      "learning_rate": 0.0001133096243609691,
      "loss": 1.8012,
      "step": 19511
    },
    {
      "epoch": 0.4336,
      "grad_norm": 1.5656200647354126,
      "learning_rate": 0.00011330517892865083,
      "loss": 2.3528,
      "step": 19512
    },
    {
      "epoch": 0.43362222222222224,
      "grad_norm": 1.8414478302001953,
      "learning_rate": 0.00011330073349633252,
      "loss": 1.4214,
      "step": 19513
    },
    {
      "epoch": 0.43364444444444444,
      "grad_norm": 1.6296683549880981,
      "learning_rate": 0.00011329628806401422,
      "loss": 1.5759,
      "step": 19514
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 1.6928421258926392,
      "learning_rate": 0.00011329184263169594,
      "loss": 1.8095,
      "step": 19515
    },
    {
      "epoch": 0.4336888888888889,
      "grad_norm": 1.3349937200546265,
      "learning_rate": 0.00011328739719937764,
      "loss": 1.4358,
      "step": 19516
    },
    {
      "epoch": 0.4337111111111111,
      "grad_norm": 1.4845316410064697,
      "learning_rate": 0.00011328295176705935,
      "loss": 1.9399,
      "step": 19517
    },
    {
      "epoch": 0.43373333333333336,
      "grad_norm": 2.077587366104126,
      "learning_rate": 0.00011327850633474106,
      "loss": 2.5326,
      "step": 19518
    },
    {
      "epoch": 0.43375555555555556,
      "grad_norm": 1.6863161325454712,
      "learning_rate": 0.00011327406090242277,
      "loss": 2.1777,
      "step": 19519
    },
    {
      "epoch": 0.43377777777777776,
      "grad_norm": 1.4825685024261475,
      "learning_rate": 0.00011326961547010446,
      "loss": 1.7044,
      "step": 19520
    },
    {
      "epoch": 0.4338,
      "grad_norm": 1.8016517162322998,
      "learning_rate": 0.00011326517003778619,
      "loss": 1.9822,
      "step": 19521
    },
    {
      "epoch": 0.4338222222222222,
      "grad_norm": 1.3477661609649658,
      "learning_rate": 0.00011326072460546788,
      "loss": 1.4839,
      "step": 19522
    },
    {
      "epoch": 0.4338444444444444,
      "grad_norm": 1.5594723224639893,
      "learning_rate": 0.0001132562791731496,
      "loss": 1.6493,
      "step": 19523
    },
    {
      "epoch": 0.4338666666666667,
      "grad_norm": 1.5206563472747803,
      "learning_rate": 0.0001132518337408313,
      "loss": 1.7446,
      "step": 19524
    },
    {
      "epoch": 0.4338888888888889,
      "grad_norm": 1.7818800210952759,
      "learning_rate": 0.000113247388308513,
      "loss": 2.0328,
      "step": 19525
    },
    {
      "epoch": 0.43391111111111114,
      "grad_norm": 1.5673028230667114,
      "learning_rate": 0.00011324294287619472,
      "loss": 1.5834,
      "step": 19526
    },
    {
      "epoch": 0.43393333333333334,
      "grad_norm": 1.9655662775039673,
      "learning_rate": 0.00011323849744387642,
      "loss": 2.1332,
      "step": 19527
    },
    {
      "epoch": 0.43395555555555554,
      "grad_norm": 1.564210295677185,
      "learning_rate": 0.00011323405201155813,
      "loss": 2.2105,
      "step": 19528
    },
    {
      "epoch": 0.4339777777777778,
      "grad_norm": 1.480340838432312,
      "learning_rate": 0.00011322960657923985,
      "loss": 1.7448,
      "step": 19529
    },
    {
      "epoch": 0.434,
      "grad_norm": 1.8014543056488037,
      "learning_rate": 0.00011322516114692155,
      "loss": 1.9427,
      "step": 19530
    },
    {
      "epoch": 0.4340222222222222,
      "grad_norm": 2.0488104820251465,
      "learning_rate": 0.00011322071571460324,
      "loss": 1.9617,
      "step": 19531
    },
    {
      "epoch": 0.43404444444444445,
      "grad_norm": 1.9583055973052979,
      "learning_rate": 0.00011321627028228496,
      "loss": 2.4678,
      "step": 19532
    },
    {
      "epoch": 0.43406666666666666,
      "grad_norm": 1.9484105110168457,
      "learning_rate": 0.00011321182484996666,
      "loss": 1.9823,
      "step": 19533
    },
    {
      "epoch": 0.4340888888888889,
      "grad_norm": 1.6612821817398071,
      "learning_rate": 0.00011320737941764836,
      "loss": 1.864,
      "step": 19534
    },
    {
      "epoch": 0.4341111111111111,
      "grad_norm": 1.499991774559021,
      "learning_rate": 0.00011320293398533008,
      "loss": 1.6667,
      "step": 19535
    },
    {
      "epoch": 0.4341333333333333,
      "grad_norm": 1.791271686553955,
      "learning_rate": 0.00011319848855301179,
      "loss": 2.0318,
      "step": 19536
    },
    {
      "epoch": 0.4341555555555556,
      "grad_norm": 1.6407028436660767,
      "learning_rate": 0.00011319404312069349,
      "loss": 1.831,
      "step": 19537
    },
    {
      "epoch": 0.4341777777777778,
      "grad_norm": 1.7075103521347046,
      "learning_rate": 0.00011318959768837521,
      "loss": 2.0494,
      "step": 19538
    },
    {
      "epoch": 0.4342,
      "grad_norm": 1.6390025615692139,
      "learning_rate": 0.0001131851522560569,
      "loss": 2.0712,
      "step": 19539
    },
    {
      "epoch": 0.43422222222222223,
      "grad_norm": 1.6396613121032715,
      "learning_rate": 0.00011318070682373863,
      "loss": 1.9759,
      "step": 19540
    },
    {
      "epoch": 0.43424444444444443,
      "grad_norm": 1.5223991870880127,
      "learning_rate": 0.00011317626139142032,
      "loss": 1.6279,
      "step": 19541
    },
    {
      "epoch": 0.4342666666666667,
      "grad_norm": 1.577794075012207,
      "learning_rate": 0.00011317181595910202,
      "loss": 1.5335,
      "step": 19542
    },
    {
      "epoch": 0.4342888888888889,
      "grad_norm": 1.8319861888885498,
      "learning_rate": 0.00011316737052678374,
      "loss": 2.1522,
      "step": 19543
    },
    {
      "epoch": 0.4343111111111111,
      "grad_norm": 1.63746976852417,
      "learning_rate": 0.00011316292509446544,
      "loss": 1.8917,
      "step": 19544
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 1.6305310726165771,
      "learning_rate": 0.00011315847966214715,
      "loss": 1.7475,
      "step": 19545
    },
    {
      "epoch": 0.43435555555555555,
      "grad_norm": 1.9417990446090698,
      "learning_rate": 0.00011315403422982886,
      "loss": 1.6419,
      "step": 19546
    },
    {
      "epoch": 0.43437777777777775,
      "grad_norm": 1.205275535583496,
      "learning_rate": 0.00011314958879751057,
      "loss": 0.8799,
      "step": 19547
    },
    {
      "epoch": 0.4344,
      "grad_norm": 1.5689921379089355,
      "learning_rate": 0.00011314514336519226,
      "loss": 1.7595,
      "step": 19548
    },
    {
      "epoch": 0.4344222222222222,
      "grad_norm": 1.9920110702514648,
      "learning_rate": 0.00011314069793287399,
      "loss": 2.1124,
      "step": 19549
    },
    {
      "epoch": 0.43444444444444447,
      "grad_norm": 1.1376632452011108,
      "learning_rate": 0.00011313625250055568,
      "loss": 0.8776,
      "step": 19550
    },
    {
      "epoch": 0.43446666666666667,
      "grad_norm": 1.0616652965545654,
      "learning_rate": 0.00011313180706823738,
      "loss": 1.1382,
      "step": 19551
    },
    {
      "epoch": 0.43448888888888887,
      "grad_norm": 1.3183019161224365,
      "learning_rate": 0.0001131273616359191,
      "loss": 2.3535,
      "step": 19552
    },
    {
      "epoch": 0.4345111111111111,
      "grad_norm": 2.0530247688293457,
      "learning_rate": 0.0001131229162036008,
      "loss": 1.8445,
      "step": 19553
    },
    {
      "epoch": 0.4345333333333333,
      "grad_norm": 1.4731428623199463,
      "learning_rate": 0.00011311847077128251,
      "loss": 2.2233,
      "step": 19554
    },
    {
      "epoch": 0.43455555555555553,
      "grad_norm": 1.6149150133132935,
      "learning_rate": 0.00011311402533896422,
      "loss": 2.3263,
      "step": 19555
    },
    {
      "epoch": 0.4345777777777778,
      "grad_norm": 1.6216819286346436,
      "learning_rate": 0.00011310957990664593,
      "loss": 2.3211,
      "step": 19556
    },
    {
      "epoch": 0.4346,
      "grad_norm": 1.6068936586380005,
      "learning_rate": 0.00011310513447432762,
      "loss": 2.3673,
      "step": 19557
    },
    {
      "epoch": 0.43462222222222224,
      "grad_norm": 1.5377607345581055,
      "learning_rate": 0.00011310068904200935,
      "loss": 2.145,
      "step": 19558
    },
    {
      "epoch": 0.43464444444444444,
      "grad_norm": 1.6516934633255005,
      "learning_rate": 0.00011309624360969104,
      "loss": 1.9791,
      "step": 19559
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 1.4563922882080078,
      "learning_rate": 0.00011309179817737277,
      "loss": 2.1163,
      "step": 19560
    },
    {
      "epoch": 0.4346888888888889,
      "grad_norm": 1.4797468185424805,
      "learning_rate": 0.00011308735274505446,
      "loss": 1.8577,
      "step": 19561
    },
    {
      "epoch": 0.4347111111111111,
      "grad_norm": 1.4901916980743408,
      "learning_rate": 0.00011308290731273616,
      "loss": 2.1261,
      "step": 19562
    },
    {
      "epoch": 0.43473333333333336,
      "grad_norm": 1.4900518655776978,
      "learning_rate": 0.00011307846188041788,
      "loss": 2.0814,
      "step": 19563
    },
    {
      "epoch": 0.43475555555555556,
      "grad_norm": 1.587468147277832,
      "learning_rate": 0.00011307401644809958,
      "loss": 1.9773,
      "step": 19564
    },
    {
      "epoch": 0.43477777777777776,
      "grad_norm": 1.4857653379440308,
      "learning_rate": 0.00011306957101578129,
      "loss": 1.2785,
      "step": 19565
    },
    {
      "epoch": 0.4348,
      "grad_norm": 1.3873412609100342,
      "learning_rate": 0.00011306512558346301,
      "loss": 1.7489,
      "step": 19566
    },
    {
      "epoch": 0.4348222222222222,
      "grad_norm": 1.3018174171447754,
      "learning_rate": 0.0001130606801511447,
      "loss": 1.6632,
      "step": 19567
    },
    {
      "epoch": 0.4348444444444444,
      "grad_norm": 1.589188575744629,
      "learning_rate": 0.0001130562347188264,
      "loss": 2.3656,
      "step": 19568
    },
    {
      "epoch": 0.4348666666666667,
      "grad_norm": 1.7667192220687866,
      "learning_rate": 0.00011305178928650813,
      "loss": 1.5265,
      "step": 19569
    },
    {
      "epoch": 0.4348888888888889,
      "grad_norm": 1.6474087238311768,
      "learning_rate": 0.00011304734385418982,
      "loss": 1.8733,
      "step": 19570
    },
    {
      "epoch": 0.43491111111111114,
      "grad_norm": 1.5112115144729614,
      "learning_rate": 0.00011304289842187152,
      "loss": 2.1982,
      "step": 19571
    },
    {
      "epoch": 0.43493333333333334,
      "grad_norm": 1.5882091522216797,
      "learning_rate": 0.00011303845298955324,
      "loss": 2.0217,
      "step": 19572
    },
    {
      "epoch": 0.43495555555555554,
      "grad_norm": 1.3581573963165283,
      "learning_rate": 0.00011303400755723495,
      "loss": 1.7028,
      "step": 19573
    },
    {
      "epoch": 0.4349777777777778,
      "grad_norm": 1.7286369800567627,
      "learning_rate": 0.00011302956212491665,
      "loss": 2.1601,
      "step": 19574
    },
    {
      "epoch": 0.435,
      "grad_norm": 1.860022783279419,
      "learning_rate": 0.00011302511669259837,
      "loss": 1.8022,
      "step": 19575
    },
    {
      "epoch": 0.4350222222222222,
      "grad_norm": 1.5178505182266235,
      "learning_rate": 0.00011302067126028007,
      "loss": 1.6036,
      "step": 19576
    },
    {
      "epoch": 0.43504444444444446,
      "grad_norm": 1.448806643486023,
      "learning_rate": 0.00011301622582796176,
      "loss": 1.276,
      "step": 19577
    },
    {
      "epoch": 0.43506666666666666,
      "grad_norm": 1.4835565090179443,
      "learning_rate": 0.00011301178039564349,
      "loss": 1.8939,
      "step": 19578
    },
    {
      "epoch": 0.4350888888888889,
      "grad_norm": 1.78822922706604,
      "learning_rate": 0.00011300733496332518,
      "loss": 2.1404,
      "step": 19579
    },
    {
      "epoch": 0.4351111111111111,
      "grad_norm": 1.5224226713180542,
      "learning_rate": 0.0001130028895310069,
      "loss": 1.919,
      "step": 19580
    },
    {
      "epoch": 0.4351333333333333,
      "grad_norm": 2.0019633769989014,
      "learning_rate": 0.0001129984440986886,
      "loss": 2.2031,
      "step": 19581
    },
    {
      "epoch": 0.4351555555555556,
      "grad_norm": 1.4888206720352173,
      "learning_rate": 0.00011299399866637031,
      "loss": 1.9284,
      "step": 19582
    },
    {
      "epoch": 0.4351777777777778,
      "grad_norm": 1.7296135425567627,
      "learning_rate": 0.00011298955323405202,
      "loss": 2.2075,
      "step": 19583
    },
    {
      "epoch": 0.4352,
      "grad_norm": 2.078094482421875,
      "learning_rate": 0.00011298510780173373,
      "loss": 2.092,
      "step": 19584
    },
    {
      "epoch": 0.43522222222222223,
      "grad_norm": 2.073030710220337,
      "learning_rate": 0.00011298066236941543,
      "loss": 2.0251,
      "step": 19585
    },
    {
      "epoch": 0.43524444444444443,
      "grad_norm": 1.8650456666946411,
      "learning_rate": 0.00011297621693709715,
      "loss": 2.2621,
      "step": 19586
    },
    {
      "epoch": 0.4352666666666667,
      "grad_norm": 1.6948186159133911,
      "learning_rate": 0.00011297177150477884,
      "loss": 1.6861,
      "step": 19587
    },
    {
      "epoch": 0.4352888888888889,
      "grad_norm": 1.4210033416748047,
      "learning_rate": 0.00011296732607246054,
      "loss": 1.8723,
      "step": 19588
    },
    {
      "epoch": 0.4353111111111111,
      "grad_norm": 1.4618210792541504,
      "learning_rate": 0.00011296288064014226,
      "loss": 1.7234,
      "step": 19589
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 2.1437201499938965,
      "learning_rate": 0.00011295843520782396,
      "loss": 2.3037,
      "step": 19590
    },
    {
      "epoch": 0.43535555555555555,
      "grad_norm": 1.8838990926742554,
      "learning_rate": 0.00011295398977550567,
      "loss": 2.0857,
      "step": 19591
    },
    {
      "epoch": 0.43537777777777775,
      "grad_norm": 1.961450219154358,
      "learning_rate": 0.00011294954434318738,
      "loss": 2.1034,
      "step": 19592
    },
    {
      "epoch": 0.4354,
      "grad_norm": 1.8762446641921997,
      "learning_rate": 0.00011294509891086909,
      "loss": 2.1197,
      "step": 19593
    },
    {
      "epoch": 0.4354222222222222,
      "grad_norm": 2.1346018314361572,
      "learning_rate": 0.00011294065347855079,
      "loss": 2.2862,
      "step": 19594
    },
    {
      "epoch": 0.43544444444444447,
      "grad_norm": 1.7187138795852661,
      "learning_rate": 0.00011293620804623251,
      "loss": 1.6721,
      "step": 19595
    },
    {
      "epoch": 0.43546666666666667,
      "grad_norm": 1.5619244575500488,
      "learning_rate": 0.0001129317626139142,
      "loss": 1.6618,
      "step": 19596
    },
    {
      "epoch": 0.43548888888888887,
      "grad_norm": 1.367300271987915,
      "learning_rate": 0.00011292731718159593,
      "loss": 1.6062,
      "step": 19597
    },
    {
      "epoch": 0.4355111111111111,
      "grad_norm": 1.8053789138793945,
      "learning_rate": 0.00011292287174927762,
      "loss": 2.0637,
      "step": 19598
    },
    {
      "epoch": 0.43553333333333333,
      "grad_norm": 0.8878509402275085,
      "learning_rate": 0.00011291842631695932,
      "loss": 0.5381,
      "step": 19599
    },
    {
      "epoch": 0.43555555555555553,
      "grad_norm": 1.590813398361206,
      "learning_rate": 0.00011291398088464104,
      "loss": 1.4768,
      "step": 19600
    },
    {
      "epoch": 0.4355777777777778,
      "grad_norm": 0.9614359736442566,
      "learning_rate": 0.00011290953545232274,
      "loss": 1.2413,
      "step": 19601
    },
    {
      "epoch": 0.4356,
      "grad_norm": 0.8782243132591248,
      "learning_rate": 0.00011290509002000445,
      "loss": 1.0367,
      "step": 19602
    },
    {
      "epoch": 0.43562222222222224,
      "grad_norm": 1.382110834121704,
      "learning_rate": 0.00011290064458768617,
      "loss": 1.9176,
      "step": 19603
    },
    {
      "epoch": 0.43564444444444445,
      "grad_norm": 1.2937883138656616,
      "learning_rate": 0.00011289619915536787,
      "loss": 2.0658,
      "step": 19604
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 1.8525941371917725,
      "learning_rate": 0.00011289175372304956,
      "loss": 2.101,
      "step": 19605
    },
    {
      "epoch": 0.4356888888888889,
      "grad_norm": 1.7020642757415771,
      "learning_rate": 0.00011288730829073129,
      "loss": 2.3197,
      "step": 19606
    },
    {
      "epoch": 0.4357111111111111,
      "grad_norm": 1.6291171312332153,
      "learning_rate": 0.00011288286285841298,
      "loss": 2.2118,
      "step": 19607
    },
    {
      "epoch": 0.4357333333333333,
      "grad_norm": 1.4666829109191895,
      "learning_rate": 0.00011287841742609468,
      "loss": 2.0812,
      "step": 19608
    },
    {
      "epoch": 0.43575555555555556,
      "grad_norm": 1.6163090467453003,
      "learning_rate": 0.0001128739719937764,
      "loss": 2.4034,
      "step": 19609
    },
    {
      "epoch": 0.43577777777777776,
      "grad_norm": 0.3703857958316803,
      "learning_rate": 0.00011286952656145811,
      "loss": 0.0249,
      "step": 19610
    },
    {
      "epoch": 0.4358,
      "grad_norm": 2.012392997741699,
      "learning_rate": 0.00011286508112913981,
      "loss": 2.0289,
      "step": 19611
    },
    {
      "epoch": 0.4358222222222222,
      "grad_norm": 1.569362998008728,
      "learning_rate": 0.00011286063569682153,
      "loss": 2.1112,
      "step": 19612
    },
    {
      "epoch": 0.4358444444444444,
      "grad_norm": 1.5258333683013916,
      "learning_rate": 0.00011285619026450323,
      "loss": 1.811,
      "step": 19613
    },
    {
      "epoch": 0.4358666666666667,
      "grad_norm": 1.4144995212554932,
      "learning_rate": 0.00011285174483218492,
      "loss": 2.0708,
      "step": 19614
    },
    {
      "epoch": 0.4358888888888889,
      "grad_norm": 1.6445777416229248,
      "learning_rate": 0.00011284729939986665,
      "loss": 2.1676,
      "step": 19615
    },
    {
      "epoch": 0.43591111111111114,
      "grad_norm": 1.949357509613037,
      "learning_rate": 0.00011284285396754834,
      "loss": 1.7873,
      "step": 19616
    },
    {
      "epoch": 0.43593333333333334,
      "grad_norm": 1.5036309957504272,
      "learning_rate": 0.00011283840853523007,
      "loss": 2.212,
      "step": 19617
    },
    {
      "epoch": 0.43595555555555554,
      "grad_norm": 1.7105299234390259,
      "learning_rate": 0.00011283396310291176,
      "loss": 2.446,
      "step": 19618
    },
    {
      "epoch": 0.4359777777777778,
      "grad_norm": 1.5843950510025024,
      "learning_rate": 0.00011282951767059347,
      "loss": 1.648,
      "step": 19619
    },
    {
      "epoch": 0.436,
      "grad_norm": 1.418212890625,
      "learning_rate": 0.00011282507223827518,
      "loss": 1.7997,
      "step": 19620
    },
    {
      "epoch": 0.4360222222222222,
      "grad_norm": 2.076335906982422,
      "learning_rate": 0.00011282062680595689,
      "loss": 2.6777,
      "step": 19621
    },
    {
      "epoch": 0.43604444444444446,
      "grad_norm": 1.5444437265396118,
      "learning_rate": 0.00011281618137363859,
      "loss": 2.159,
      "step": 19622
    },
    {
      "epoch": 0.43606666666666666,
      "grad_norm": 1.181937575340271,
      "learning_rate": 0.00011281173594132031,
      "loss": 1.4776,
      "step": 19623
    },
    {
      "epoch": 0.4360888888888889,
      "grad_norm": 1.8698419332504272,
      "learning_rate": 0.000112807290509002,
      "loss": 2.5571,
      "step": 19624
    },
    {
      "epoch": 0.4361111111111111,
      "grad_norm": 1.3704328536987305,
      "learning_rate": 0.0001128028450766837,
      "loss": 1.5122,
      "step": 19625
    },
    {
      "epoch": 0.4361333333333333,
      "grad_norm": 1.748787760734558,
      "learning_rate": 0.00011279839964436543,
      "loss": 2.2708,
      "step": 19626
    },
    {
      "epoch": 0.4361555555555556,
      "grad_norm": 1.1188184022903442,
      "learning_rate": 0.00011279395421204712,
      "loss": 0.7921,
      "step": 19627
    },
    {
      "epoch": 0.4361777777777778,
      "grad_norm": 2.0428760051727295,
      "learning_rate": 0.00011278950877972883,
      "loss": 2.4884,
      "step": 19628
    },
    {
      "epoch": 0.4362,
      "grad_norm": 1.7321256399154663,
      "learning_rate": 0.00011278506334741054,
      "loss": 1.9926,
      "step": 19629
    },
    {
      "epoch": 0.43622222222222223,
      "grad_norm": 1.438900113105774,
      "learning_rate": 0.00011278061791509225,
      "loss": 1.8879,
      "step": 19630
    },
    {
      "epoch": 0.43624444444444443,
      "grad_norm": 1.9174489974975586,
      "learning_rate": 0.00011277617248277395,
      "loss": 2.1207,
      "step": 19631
    },
    {
      "epoch": 0.4362666666666667,
      "grad_norm": 1.3009923696517944,
      "learning_rate": 0.00011277172705045567,
      "loss": 1.0516,
      "step": 19632
    },
    {
      "epoch": 0.4362888888888889,
      "grad_norm": 1.3011271953582764,
      "learning_rate": 0.00011276728161813737,
      "loss": 1.2455,
      "step": 19633
    },
    {
      "epoch": 0.4363111111111111,
      "grad_norm": 3.1305060386657715,
      "learning_rate": 0.00011276283618581909,
      "loss": 1.9925,
      "step": 19634
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 1.4627370834350586,
      "learning_rate": 0.00011275839075350078,
      "loss": 1.4675,
      "step": 19635
    },
    {
      "epoch": 0.43635555555555555,
      "grad_norm": 1.6210055351257324,
      "learning_rate": 0.00011275394532118248,
      "loss": 2.0108,
      "step": 19636
    },
    {
      "epoch": 0.43637777777777775,
      "grad_norm": 1.9717005491256714,
      "learning_rate": 0.0001127494998888642,
      "loss": 1.8234,
      "step": 19637
    },
    {
      "epoch": 0.4364,
      "grad_norm": 2.189389228820801,
      "learning_rate": 0.0001127450544565459,
      "loss": 2.0918,
      "step": 19638
    },
    {
      "epoch": 0.4364222222222222,
      "grad_norm": 1.6170650720596313,
      "learning_rate": 0.00011274060902422761,
      "loss": 1.6539,
      "step": 19639
    },
    {
      "epoch": 0.43644444444444447,
      "grad_norm": 1.9216477870941162,
      "learning_rate": 0.00011273616359190933,
      "loss": 1.9266,
      "step": 19640
    },
    {
      "epoch": 0.43646666666666667,
      "grad_norm": 1.3081918954849243,
      "learning_rate": 0.00011273171815959103,
      "loss": 1.5109,
      "step": 19641
    },
    {
      "epoch": 0.43648888888888887,
      "grad_norm": 1.7652889490127563,
      "learning_rate": 0.00011272727272727272,
      "loss": 1.8253,
      "step": 19642
    },
    {
      "epoch": 0.4365111111111111,
      "grad_norm": 1.6627532243728638,
      "learning_rate": 0.00011272282729495445,
      "loss": 2.0823,
      "step": 19643
    },
    {
      "epoch": 0.43653333333333333,
      "grad_norm": 2.8986735343933105,
      "learning_rate": 0.00011271838186263614,
      "loss": 2.0769,
      "step": 19644
    },
    {
      "epoch": 0.43655555555555553,
      "grad_norm": 1.7542750835418701,
      "learning_rate": 0.00011271393643031784,
      "loss": 1.6224,
      "step": 19645
    },
    {
      "epoch": 0.4365777777777778,
      "grad_norm": 1.553633213043213,
      "learning_rate": 0.00011270949099799956,
      "loss": 1.5184,
      "step": 19646
    },
    {
      "epoch": 0.4366,
      "grad_norm": 2.2313811779022217,
      "learning_rate": 0.00011270504556568127,
      "loss": 2.453,
      "step": 19647
    },
    {
      "epoch": 0.43662222222222224,
      "grad_norm": 1.950598120689392,
      "learning_rate": 0.00011270060013336297,
      "loss": 1.8747,
      "step": 19648
    },
    {
      "epoch": 0.43664444444444445,
      "grad_norm": 1.8956263065338135,
      "learning_rate": 0.00011269615470104469,
      "loss": 1.9215,
      "step": 19649
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 1.6327672004699707,
      "learning_rate": 0.00011269170926872639,
      "loss": 1.2394,
      "step": 19650
    },
    {
      "epoch": 0.4366888888888889,
      "grad_norm": 1.3957672119140625,
      "learning_rate": 0.00011268726383640808,
      "loss": 2.1342,
      "step": 19651
    },
    {
      "epoch": 0.4367111111111111,
      "grad_norm": 1.4322630167007446,
      "learning_rate": 0.00011268281840408981,
      "loss": 2.4301,
      "step": 19652
    },
    {
      "epoch": 0.4367333333333333,
      "grad_norm": 1.3726401329040527,
      "learning_rate": 0.0001126783729717715,
      "loss": 2.0821,
      "step": 19653
    },
    {
      "epoch": 0.43675555555555556,
      "grad_norm": 1.1165924072265625,
      "learning_rate": 0.00011267392753945323,
      "loss": 1.2455,
      "step": 19654
    },
    {
      "epoch": 0.43677777777777776,
      "grad_norm": 1.0397566556930542,
      "learning_rate": 0.00011266948210713492,
      "loss": 1.4199,
      "step": 19655
    },
    {
      "epoch": 0.4368,
      "grad_norm": 1.3438100814819336,
      "learning_rate": 0.00011266503667481663,
      "loss": 1.5833,
      "step": 19656
    },
    {
      "epoch": 0.4368222222222222,
      "grad_norm": 1.2796974182128906,
      "learning_rate": 0.00011266059124249834,
      "loss": 1.8318,
      "step": 19657
    },
    {
      "epoch": 0.4368444444444444,
      "grad_norm": 1.606650948524475,
      "learning_rate": 0.00011265614581018005,
      "loss": 2.4285,
      "step": 19658
    },
    {
      "epoch": 0.4368666666666667,
      "grad_norm": 1.3979648351669312,
      "learning_rate": 0.00011265170037786175,
      "loss": 2.3685,
      "step": 19659
    },
    {
      "epoch": 0.4368888888888889,
      "grad_norm": 1.3685616254806519,
      "learning_rate": 0.00011264725494554347,
      "loss": 2.2426,
      "step": 19660
    },
    {
      "epoch": 0.4369111111111111,
      "grad_norm": 1.3177111148834229,
      "learning_rate": 0.00011264280951322517,
      "loss": 2.056,
      "step": 19661
    },
    {
      "epoch": 0.43693333333333334,
      "grad_norm": 1.3988044261932373,
      "learning_rate": 0.00011263836408090686,
      "loss": 1.3313,
      "step": 19662
    },
    {
      "epoch": 0.43695555555555554,
      "grad_norm": 1.42946457862854,
      "learning_rate": 0.00011263391864858859,
      "loss": 1.8036,
      "step": 19663
    },
    {
      "epoch": 0.4369777777777778,
      "grad_norm": 1.5386011600494385,
      "learning_rate": 0.00011262947321627028,
      "loss": 2.0449,
      "step": 19664
    },
    {
      "epoch": 0.437,
      "grad_norm": 2.238933801651001,
      "learning_rate": 0.00011262502778395199,
      "loss": 1.9882,
      "step": 19665
    },
    {
      "epoch": 0.4370222222222222,
      "grad_norm": 1.5613806247711182,
      "learning_rate": 0.0001126205823516337,
      "loss": 2.1023,
      "step": 19666
    },
    {
      "epoch": 0.43704444444444446,
      "grad_norm": 1.746744990348816,
      "learning_rate": 0.00011261613691931541,
      "loss": 2.2326,
      "step": 19667
    },
    {
      "epoch": 0.43706666666666666,
      "grad_norm": 1.5402653217315674,
      "learning_rate": 0.00011261169148699711,
      "loss": 1.5707,
      "step": 19668
    },
    {
      "epoch": 0.4370888888888889,
      "grad_norm": 1.451838731765747,
      "learning_rate": 0.00011260724605467883,
      "loss": 1.8438,
      "step": 19669
    },
    {
      "epoch": 0.4371111111111111,
      "grad_norm": 1.4655728340148926,
      "learning_rate": 0.00011260280062236053,
      "loss": 1.8781,
      "step": 19670
    },
    {
      "epoch": 0.4371333333333333,
      "grad_norm": 1.789397120475769,
      "learning_rate": 0.00011259835519004222,
      "loss": 2.6219,
      "step": 19671
    },
    {
      "epoch": 0.4371555555555556,
      "grad_norm": 1.7559479475021362,
      "learning_rate": 0.00011259390975772395,
      "loss": 2.1662,
      "step": 19672
    },
    {
      "epoch": 0.4371777777777778,
      "grad_norm": 1.7939095497131348,
      "learning_rate": 0.00011258946432540564,
      "loss": 1.836,
      "step": 19673
    },
    {
      "epoch": 0.4372,
      "grad_norm": 1.5883938074111938,
      "learning_rate": 0.00011258501889308736,
      "loss": 2.1119,
      "step": 19674
    },
    {
      "epoch": 0.43722222222222223,
      "grad_norm": 1.6515799760818481,
      "learning_rate": 0.00011258057346076906,
      "loss": 1.8191,
      "step": 19675
    },
    {
      "epoch": 0.43724444444444444,
      "grad_norm": 1.726151466369629,
      "learning_rate": 0.00011257612802845077,
      "loss": 1.6649,
      "step": 19676
    },
    {
      "epoch": 0.4372666666666667,
      "grad_norm": 1.5585850477218628,
      "learning_rate": 0.0001125716825961325,
      "loss": 1.6985,
      "step": 19677
    },
    {
      "epoch": 0.4372888888888889,
      "grad_norm": 1.7416831254959106,
      "learning_rate": 0.00011256723716381419,
      "loss": 1.7643,
      "step": 19678
    },
    {
      "epoch": 0.4373111111111111,
      "grad_norm": 1.630952000617981,
      "learning_rate": 0.00011256279173149589,
      "loss": 2.0627,
      "step": 19679
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 1.6093553304672241,
      "learning_rate": 0.00011255834629917761,
      "loss": 2.2372,
      "step": 19680
    },
    {
      "epoch": 0.43735555555555555,
      "grad_norm": 1.8359265327453613,
      "learning_rate": 0.0001125539008668593,
      "loss": 2.0832,
      "step": 19681
    },
    {
      "epoch": 0.43737777777777775,
      "grad_norm": 1.9317169189453125,
      "learning_rate": 0.000112549455434541,
      "loss": 2.2376,
      "step": 19682
    },
    {
      "epoch": 0.4374,
      "grad_norm": 0.5112694501876831,
      "learning_rate": 0.00011254501000222272,
      "loss": 0.0292,
      "step": 19683
    },
    {
      "epoch": 0.4374222222222222,
      "grad_norm": 1.7628271579742432,
      "learning_rate": 0.00011254056456990443,
      "loss": 2.2677,
      "step": 19684
    },
    {
      "epoch": 0.43744444444444447,
      "grad_norm": 1.4774117469787598,
      "learning_rate": 0.00011253611913758613,
      "loss": 2.0796,
      "step": 19685
    },
    {
      "epoch": 0.43746666666666667,
      "grad_norm": 1.2947285175323486,
      "learning_rate": 0.00011253167370526785,
      "loss": 1.3732,
      "step": 19686
    },
    {
      "epoch": 0.43748888888888887,
      "grad_norm": 2.0232274532318115,
      "learning_rate": 0.00011252722827294955,
      "loss": 2.1349,
      "step": 19687
    },
    {
      "epoch": 0.43751111111111113,
      "grad_norm": 1.6763337850570679,
      "learning_rate": 0.00011252278284063125,
      "loss": 2.1608,
      "step": 19688
    },
    {
      "epoch": 0.43753333333333333,
      "grad_norm": 1.718428611755371,
      "learning_rate": 0.00011251833740831297,
      "loss": 1.8578,
      "step": 19689
    },
    {
      "epoch": 0.43755555555555553,
      "grad_norm": 1.6710830926895142,
      "learning_rate": 0.00011251389197599466,
      "loss": 1.9114,
      "step": 19690
    },
    {
      "epoch": 0.4375777777777778,
      "grad_norm": 1.3284348249435425,
      "learning_rate": 0.00011250944654367639,
      "loss": 1.433,
      "step": 19691
    },
    {
      "epoch": 0.4376,
      "grad_norm": 1.9089120626449585,
      "learning_rate": 0.00011250500111135808,
      "loss": 1.9436,
      "step": 19692
    },
    {
      "epoch": 0.43762222222222225,
      "grad_norm": 1.5801817178726196,
      "learning_rate": 0.0001125005556790398,
      "loss": 1.566,
      "step": 19693
    },
    {
      "epoch": 0.43764444444444445,
      "grad_norm": 1.9537534713745117,
      "learning_rate": 0.0001124961102467215,
      "loss": 1.91,
      "step": 19694
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 1.620795488357544,
      "learning_rate": 0.00011249166481440321,
      "loss": 1.6767,
      "step": 19695
    },
    {
      "epoch": 0.4376888888888889,
      "grad_norm": 1.6606861352920532,
      "learning_rate": 0.00011248721938208491,
      "loss": 1.7312,
      "step": 19696
    },
    {
      "epoch": 0.4377111111111111,
      "grad_norm": 1.7638415098190308,
      "learning_rate": 0.00011248277394976663,
      "loss": 2.0007,
      "step": 19697
    },
    {
      "epoch": 0.4377333333333333,
      "grad_norm": 1.6765103340148926,
      "learning_rate": 0.00011247832851744833,
      "loss": 1.7989,
      "step": 19698
    },
    {
      "epoch": 0.43775555555555556,
      "grad_norm": 1.917743444442749,
      "learning_rate": 0.00011247388308513002,
      "loss": 1.4985,
      "step": 19699
    },
    {
      "epoch": 0.43777777777777777,
      "grad_norm": 1.4131547212600708,
      "learning_rate": 0.00011246943765281175,
      "loss": 1.0485,
      "step": 19700
    },
    {
      "epoch": 0.4378,
      "grad_norm": 1.4924614429473877,
      "learning_rate": 0.00011246499222049344,
      "loss": 2.5661,
      "step": 19701
    },
    {
      "epoch": 0.4378222222222222,
      "grad_norm": 1.54249906539917,
      "learning_rate": 0.00011246054678817515,
      "loss": 2.5093,
      "step": 19702
    },
    {
      "epoch": 0.4378444444444444,
      "grad_norm": 1.3476567268371582,
      "learning_rate": 0.00011245610135585686,
      "loss": 2.5468,
      "step": 19703
    },
    {
      "epoch": 0.4378666666666667,
      "grad_norm": 1.4569554328918457,
      "learning_rate": 0.00011245165592353857,
      "loss": 2.4496,
      "step": 19704
    },
    {
      "epoch": 0.4378888888888889,
      "grad_norm": 1.3143831491470337,
      "learning_rate": 0.00011244721049122027,
      "loss": 1.9276,
      "step": 19705
    },
    {
      "epoch": 0.4379111111111111,
      "grad_norm": 1.6989282369613647,
      "learning_rate": 0.00011244276505890199,
      "loss": 1.9803,
      "step": 19706
    },
    {
      "epoch": 0.43793333333333334,
      "grad_norm": 1.6570192575454712,
      "learning_rate": 0.00011243831962658369,
      "loss": 2.2884,
      "step": 19707
    },
    {
      "epoch": 0.43795555555555554,
      "grad_norm": 1.6854751110076904,
      "learning_rate": 0.00011243387419426538,
      "loss": 2.3954,
      "step": 19708
    },
    {
      "epoch": 0.4379777777777778,
      "grad_norm": 1.6312233209609985,
      "learning_rate": 0.0001124294287619471,
      "loss": 2.0403,
      "step": 19709
    },
    {
      "epoch": 0.438,
      "grad_norm": 1.3652775287628174,
      "learning_rate": 0.0001124249833296288,
      "loss": 1.6419,
      "step": 19710
    },
    {
      "epoch": 0.4380222222222222,
      "grad_norm": 1.6540952920913696,
      "learning_rate": 0.00011242053789731053,
      "loss": 1.6367,
      "step": 19711
    },
    {
      "epoch": 0.43804444444444446,
      "grad_norm": 1.358756422996521,
      "learning_rate": 0.00011241609246499222,
      "loss": 1.518,
      "step": 19712
    },
    {
      "epoch": 0.43806666666666666,
      "grad_norm": 1.3976963758468628,
      "learning_rate": 0.00011241164703267393,
      "loss": 1.4733,
      "step": 19713
    },
    {
      "epoch": 0.4380888888888889,
      "grad_norm": 1.6397548913955688,
      "learning_rate": 0.00011240720160035565,
      "loss": 2.004,
      "step": 19714
    },
    {
      "epoch": 0.4381111111111111,
      "grad_norm": 1.4476549625396729,
      "learning_rate": 0.00011240275616803735,
      "loss": 1.9601,
      "step": 19715
    },
    {
      "epoch": 0.4381333333333333,
      "grad_norm": 1.5721019506454468,
      "learning_rate": 0.00011239831073571905,
      "loss": 1.8606,
      "step": 19716
    },
    {
      "epoch": 0.4381555555555556,
      "grad_norm": 1.7733311653137207,
      "learning_rate": 0.00011239386530340077,
      "loss": 2.2248,
      "step": 19717
    },
    {
      "epoch": 0.4381777777777778,
      "grad_norm": 1.3885124921798706,
      "learning_rate": 0.00011238941987108247,
      "loss": 1.4691,
      "step": 19718
    },
    {
      "epoch": 0.4382,
      "grad_norm": 1.782959222793579,
      "learning_rate": 0.00011238497443876416,
      "loss": 2.5824,
      "step": 19719
    },
    {
      "epoch": 0.43822222222222224,
      "grad_norm": 1.6029373407363892,
      "learning_rate": 0.00011238052900644589,
      "loss": 2.0296,
      "step": 19720
    },
    {
      "epoch": 0.43824444444444444,
      "grad_norm": 1.4509004354476929,
      "learning_rate": 0.0001123760835741276,
      "loss": 2.0274,
      "step": 19721
    },
    {
      "epoch": 0.4382666666666667,
      "grad_norm": 1.7097324132919312,
      "learning_rate": 0.00011237163814180929,
      "loss": 2.1683,
      "step": 19722
    },
    {
      "epoch": 0.4382888888888889,
      "grad_norm": 1.6050325632095337,
      "learning_rate": 0.00011236719270949101,
      "loss": 2.0343,
      "step": 19723
    },
    {
      "epoch": 0.4383111111111111,
      "grad_norm": 1.6141910552978516,
      "learning_rate": 0.00011236274727717271,
      "loss": 1.9826,
      "step": 19724
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 1.7352447509765625,
      "learning_rate": 0.0001123583018448544,
      "loss": 2.3165,
      "step": 19725
    },
    {
      "epoch": 0.43835555555555555,
      "grad_norm": 1.5045897960662842,
      "learning_rate": 0.00011235385641253613,
      "loss": 1.9633,
      "step": 19726
    },
    {
      "epoch": 0.43837777777777776,
      "grad_norm": 1.5495953559875488,
      "learning_rate": 0.00011234941098021783,
      "loss": 1.602,
      "step": 19727
    },
    {
      "epoch": 0.4384,
      "grad_norm": 2.730525255203247,
      "learning_rate": 0.00011234496554789952,
      "loss": 0.9935,
      "step": 19728
    },
    {
      "epoch": 0.4384222222222222,
      "grad_norm": 1.4852393865585327,
      "learning_rate": 0.00011234052011558124,
      "loss": 1.8499,
      "step": 19729
    },
    {
      "epoch": 0.43844444444444447,
      "grad_norm": 1.4339274168014526,
      "learning_rate": 0.00011233607468326295,
      "loss": 1.7318,
      "step": 19730
    },
    {
      "epoch": 0.43846666666666667,
      "grad_norm": 1.5937654972076416,
      "learning_rate": 0.00011233162925094466,
      "loss": 1.7391,
      "step": 19731
    },
    {
      "epoch": 0.4384888888888889,
      "grad_norm": 0.9690148830413818,
      "learning_rate": 0.00011232718381862637,
      "loss": 0.6588,
      "step": 19732
    },
    {
      "epoch": 0.43851111111111113,
      "grad_norm": 0.1360063999891281,
      "learning_rate": 0.00011232273838630807,
      "loss": 0.0247,
      "step": 19733
    },
    {
      "epoch": 0.43853333333333333,
      "grad_norm": 1.7774745225906372,
      "learning_rate": 0.00011231829295398979,
      "loss": 2.1214,
      "step": 19734
    },
    {
      "epoch": 0.43855555555555553,
      "grad_norm": 2.080610513687134,
      "learning_rate": 0.00011231384752167149,
      "loss": 2.1811,
      "step": 19735
    },
    {
      "epoch": 0.4385777777777778,
      "grad_norm": 1.5431703329086304,
      "learning_rate": 0.00011230940208935319,
      "loss": 1.823,
      "step": 19736
    },
    {
      "epoch": 0.4386,
      "grad_norm": 1.5377135276794434,
      "learning_rate": 0.00011230495665703491,
      "loss": 2.104,
      "step": 19737
    },
    {
      "epoch": 0.43862222222222225,
      "grad_norm": 1.6971559524536133,
      "learning_rate": 0.0001123005112247166,
      "loss": 2.2338,
      "step": 19738
    },
    {
      "epoch": 0.43864444444444445,
      "grad_norm": 2.0792431831359863,
      "learning_rate": 0.00011229606579239831,
      "loss": 2.0382,
      "step": 19739
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 1.851342797279358,
      "learning_rate": 0.00011229162036008002,
      "loss": 2.0466,
      "step": 19740
    },
    {
      "epoch": 0.4386888888888889,
      "grad_norm": 1.5667240619659424,
      "learning_rate": 0.00011228717492776173,
      "loss": 1.8494,
      "step": 19741
    },
    {
      "epoch": 0.4387111111111111,
      "grad_norm": 1.7678419351577759,
      "learning_rate": 0.00011228272949544343,
      "loss": 2.0051,
      "step": 19742
    },
    {
      "epoch": 0.4387333333333333,
      "grad_norm": 1.9583549499511719,
      "learning_rate": 0.00011227828406312515,
      "loss": 1.9297,
      "step": 19743
    },
    {
      "epoch": 0.43875555555555557,
      "grad_norm": 1.4045863151550293,
      "learning_rate": 0.00011227383863080685,
      "loss": 1.697,
      "step": 19744
    },
    {
      "epoch": 0.43877777777777777,
      "grad_norm": 1.6246466636657715,
      "learning_rate": 0.00011226939319848854,
      "loss": 1.931,
      "step": 19745
    },
    {
      "epoch": 0.4388,
      "grad_norm": 1.664565920829773,
      "learning_rate": 0.00011226494776617027,
      "loss": 1.8593,
      "step": 19746
    },
    {
      "epoch": 0.4388222222222222,
      "grad_norm": 1.5776931047439575,
      "learning_rate": 0.00011226050233385196,
      "loss": 1.7323,
      "step": 19747
    },
    {
      "epoch": 0.4388444444444444,
      "grad_norm": 1.7895152568817139,
      "learning_rate": 0.00011225605690153369,
      "loss": 2.139,
      "step": 19748
    },
    {
      "epoch": 0.4388666666666667,
      "grad_norm": 2.1528215408325195,
      "learning_rate": 0.00011225161146921538,
      "loss": 1.8076,
      "step": 19749
    },
    {
      "epoch": 0.4388888888888889,
      "grad_norm": 0.9768630862236023,
      "learning_rate": 0.00011224716603689709,
      "loss": 0.695,
      "step": 19750
    },
    {
      "epoch": 0.4389111111111111,
      "grad_norm": 1.6485041379928589,
      "learning_rate": 0.00011224272060457882,
      "loss": 2.2312,
      "step": 19751
    },
    {
      "epoch": 0.43893333333333334,
      "grad_norm": 1.074283242225647,
      "learning_rate": 0.00011223827517226051,
      "loss": 1.091,
      "step": 19752
    },
    {
      "epoch": 0.43895555555555554,
      "grad_norm": 1.9916647672653198,
      "learning_rate": 0.00011223382973994221,
      "loss": 2.1553,
      "step": 19753
    },
    {
      "epoch": 0.4389777777777778,
      "grad_norm": 1.5636905431747437,
      "learning_rate": 0.00011222938430762393,
      "loss": 2.2878,
      "step": 19754
    },
    {
      "epoch": 0.439,
      "grad_norm": 1.5810495615005493,
      "learning_rate": 0.00011222493887530563,
      "loss": 1.801,
      "step": 19755
    },
    {
      "epoch": 0.4390222222222222,
      "grad_norm": 1.5203626155853271,
      "learning_rate": 0.00011222049344298732,
      "loss": 2.2493,
      "step": 19756
    },
    {
      "epoch": 0.43904444444444446,
      "grad_norm": 2.4728453159332275,
      "learning_rate": 0.00011221604801066905,
      "loss": 1.7241,
      "step": 19757
    },
    {
      "epoch": 0.43906666666666666,
      "grad_norm": 1.6906317472457886,
      "learning_rate": 0.00011221160257835076,
      "loss": 1.8731,
      "step": 19758
    },
    {
      "epoch": 0.43908888888888886,
      "grad_norm": 1.475921869277954,
      "learning_rate": 0.00011220715714603245,
      "loss": 1.8096,
      "step": 19759
    },
    {
      "epoch": 0.4391111111111111,
      "grad_norm": 1.4845517873764038,
      "learning_rate": 0.00011220271171371418,
      "loss": 2.0507,
      "step": 19760
    },
    {
      "epoch": 0.4391333333333333,
      "grad_norm": 2.7341370582580566,
      "learning_rate": 0.00011219826628139587,
      "loss": 1.0875,
      "step": 19761
    },
    {
      "epoch": 0.4391555555555556,
      "grad_norm": 1.9946277141571045,
      "learning_rate": 0.00011219382084907757,
      "loss": 1.0653,
      "step": 19762
    },
    {
      "epoch": 0.4391777777777778,
      "grad_norm": 1.5619653463363647,
      "learning_rate": 0.00011218937541675929,
      "loss": 2.4022,
      "step": 19763
    },
    {
      "epoch": 0.4392,
      "grad_norm": 1.4565075635910034,
      "learning_rate": 0.00011218492998444099,
      "loss": 1.786,
      "step": 19764
    },
    {
      "epoch": 0.43922222222222224,
      "grad_norm": 2.2541396617889404,
      "learning_rate": 0.00011218048455212268,
      "loss": 2.5553,
      "step": 19765
    },
    {
      "epoch": 0.43924444444444444,
      "grad_norm": 1.4871782064437866,
      "learning_rate": 0.0001121760391198044,
      "loss": 1.9831,
      "step": 19766
    },
    {
      "epoch": 0.4392666666666667,
      "grad_norm": 1.5235984325408936,
      "learning_rate": 0.00011217159368748612,
      "loss": 1.6322,
      "step": 19767
    },
    {
      "epoch": 0.4392888888888889,
      "grad_norm": 1.6522752046585083,
      "learning_rate": 0.00011216714825516783,
      "loss": 2.2006,
      "step": 19768
    },
    {
      "epoch": 0.4393111111111111,
      "grad_norm": 1.634769082069397,
      "learning_rate": 0.00011216270282284953,
      "loss": 2.0537,
      "step": 19769
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 1.5981745719909668,
      "learning_rate": 0.00011215825739053123,
      "loss": 1.6537,
      "step": 19770
    },
    {
      "epoch": 0.43935555555555555,
      "grad_norm": 1.3827767372131348,
      "learning_rate": 0.00011215381195821295,
      "loss": 1.5338,
      "step": 19771
    },
    {
      "epoch": 0.43937777777777776,
      "grad_norm": 1.7391959428787231,
      "learning_rate": 0.00011214936652589465,
      "loss": 2.1797,
      "step": 19772
    },
    {
      "epoch": 0.4394,
      "grad_norm": 1.8847804069519043,
      "learning_rate": 0.00011214492109357635,
      "loss": 1.9675,
      "step": 19773
    },
    {
      "epoch": 0.4394222222222222,
      "grad_norm": 1.5792787075042725,
      "learning_rate": 0.00011214047566125807,
      "loss": 2.1242,
      "step": 19774
    },
    {
      "epoch": 0.43944444444444447,
      "grad_norm": 1.5194300413131714,
      "learning_rate": 0.00011213603022893977,
      "loss": 2.0091,
      "step": 19775
    },
    {
      "epoch": 0.43946666666666667,
      "grad_norm": 1.68218195438385,
      "learning_rate": 0.00011213158479662147,
      "loss": 2.3121,
      "step": 19776
    },
    {
      "epoch": 0.4394888888888889,
      "grad_norm": 1.6685600280761719,
      "learning_rate": 0.00011212713936430318,
      "loss": 1.7264,
      "step": 19777
    },
    {
      "epoch": 0.43951111111111113,
      "grad_norm": 1.3984534740447998,
      "learning_rate": 0.0001121226939319849,
      "loss": 1.5932,
      "step": 19778
    },
    {
      "epoch": 0.43953333333333333,
      "grad_norm": 1.556359052658081,
      "learning_rate": 0.00011211824849966659,
      "loss": 1.7381,
      "step": 19779
    },
    {
      "epoch": 0.43955555555555553,
      "grad_norm": 1.807715892791748,
      "learning_rate": 0.00011211380306734831,
      "loss": 1.7017,
      "step": 19780
    },
    {
      "epoch": 0.4395777777777778,
      "grad_norm": 1.574245572090149,
      "learning_rate": 0.00011210935763503001,
      "loss": 1.3928,
      "step": 19781
    },
    {
      "epoch": 0.4396,
      "grad_norm": 1.5084904432296753,
      "learning_rate": 0.0001121049122027117,
      "loss": 1.9107,
      "step": 19782
    },
    {
      "epoch": 0.43962222222222225,
      "grad_norm": 1.0519410371780396,
      "learning_rate": 0.00011210046677039343,
      "loss": 0.9273,
      "step": 19783
    },
    {
      "epoch": 0.43964444444444445,
      "grad_norm": 1.6322417259216309,
      "learning_rate": 0.00011209602133807512,
      "loss": 1.765,
      "step": 19784
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 1.9097775220870972,
      "learning_rate": 0.00011209157590575683,
      "loss": 1.9945,
      "step": 19785
    },
    {
      "epoch": 0.4396888888888889,
      "grad_norm": 1.68252432346344,
      "learning_rate": 0.00011208713047343856,
      "loss": 1.5342,
      "step": 19786
    },
    {
      "epoch": 0.4397111111111111,
      "grad_norm": 1.7198013067245483,
      "learning_rate": 0.00011208268504112025,
      "loss": 1.93,
      "step": 19787
    },
    {
      "epoch": 0.4397333333333333,
      "grad_norm": 1.7736934423446655,
      "learning_rate": 0.00011207823960880198,
      "loss": 1.9938,
      "step": 19788
    },
    {
      "epoch": 0.43975555555555557,
      "grad_norm": 1.8680133819580078,
      "learning_rate": 0.00011207379417648367,
      "loss": 1.9061,
      "step": 19789
    },
    {
      "epoch": 0.43977777777777777,
      "grad_norm": 2.2922213077545166,
      "learning_rate": 0.00011206934874416537,
      "loss": 2.425,
      "step": 19790
    },
    {
      "epoch": 0.4398,
      "grad_norm": 1.6170189380645752,
      "learning_rate": 0.00011206490331184709,
      "loss": 1.5064,
      "step": 19791
    },
    {
      "epoch": 0.4398222222222222,
      "grad_norm": 1.8189525604248047,
      "learning_rate": 0.00011206045787952879,
      "loss": 1.8665,
      "step": 19792
    },
    {
      "epoch": 0.4398444444444444,
      "grad_norm": 1.7996273040771484,
      "learning_rate": 0.00011205601244721048,
      "loss": 2.0965,
      "step": 19793
    },
    {
      "epoch": 0.4398666666666667,
      "grad_norm": 1.7181037664413452,
      "learning_rate": 0.00011205156701489221,
      "loss": 1.8825,
      "step": 19794
    },
    {
      "epoch": 0.4398888888888889,
      "grad_norm": 1.7690426111221313,
      "learning_rate": 0.00011204712158257392,
      "loss": 1.7097,
      "step": 19795
    },
    {
      "epoch": 0.4399111111111111,
      "grad_norm": 1.9584153890609741,
      "learning_rate": 0.00011204267615025561,
      "loss": 2.2813,
      "step": 19796
    },
    {
      "epoch": 0.43993333333333334,
      "grad_norm": 1.5910313129425049,
      "learning_rate": 0.00011203823071793734,
      "loss": 1.4443,
      "step": 19797
    },
    {
      "epoch": 0.43995555555555554,
      "grad_norm": 1.5835975408554077,
      "learning_rate": 0.00011203378528561903,
      "loss": 1.3255,
      "step": 19798
    },
    {
      "epoch": 0.4399777777777778,
      "grad_norm": 1.7382147312164307,
      "learning_rate": 0.00011202933985330073,
      "loss": 1.098,
      "step": 19799
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7554439306259155,
      "learning_rate": 0.00011202489442098245,
      "loss": 1.1376,
      "step": 19800
    },
    {
      "epoch": 0.4400222222222222,
      "grad_norm": 1.3791797161102295,
      "learning_rate": 0.00011202044898866415,
      "loss": 2.5513,
      "step": 19801
    },
    {
      "epoch": 0.44004444444444446,
      "grad_norm": 1.0930153131484985,
      "learning_rate": 0.00011201600355634584,
      "loss": 1.4868,
      "step": 19802
    },
    {
      "epoch": 0.44006666666666666,
      "grad_norm": 1.483755350112915,
      "learning_rate": 0.00011201155812402757,
      "loss": 2.4244,
      "step": 19803
    },
    {
      "epoch": 0.44008888888888886,
      "grad_norm": 1.4230273962020874,
      "learning_rate": 0.00011200711269170928,
      "loss": 2.3839,
      "step": 19804
    },
    {
      "epoch": 0.4401111111111111,
      "grad_norm": 1.4306970834732056,
      "learning_rate": 0.00011200266725939099,
      "loss": 2.224,
      "step": 19805
    },
    {
      "epoch": 0.4401333333333333,
      "grad_norm": 2.103151559829712,
      "learning_rate": 0.0001119982218270727,
      "loss": 2.1697,
      "step": 19806
    },
    {
      "epoch": 0.4401555555555556,
      "grad_norm": 1.317589521408081,
      "learning_rate": 0.00011199377639475439,
      "loss": 1.7335,
      "step": 19807
    },
    {
      "epoch": 0.4401777777777778,
      "grad_norm": 1.6378992795944214,
      "learning_rate": 0.00011198933096243611,
      "loss": 1.8895,
      "step": 19808
    },
    {
      "epoch": 0.4402,
      "grad_norm": 1.8306360244750977,
      "learning_rate": 0.00011198488553011781,
      "loss": 1.1009,
      "step": 19809
    },
    {
      "epoch": 0.44022222222222224,
      "grad_norm": 1.4251234531402588,
      "learning_rate": 0.00011198044009779951,
      "loss": 1.9469,
      "step": 19810
    },
    {
      "epoch": 0.44024444444444444,
      "grad_norm": 1.9569673538208008,
      "learning_rate": 0.00011197599466548123,
      "loss": 2.3232,
      "step": 19811
    },
    {
      "epoch": 0.44026666666666664,
      "grad_norm": 1.559576153755188,
      "learning_rate": 0.00011197154923316293,
      "loss": 1.6671,
      "step": 19812
    },
    {
      "epoch": 0.4402888888888889,
      "grad_norm": 1.747172474861145,
      "learning_rate": 0.00011196710380084464,
      "loss": 2.1991,
      "step": 19813
    },
    {
      "epoch": 0.4403111111111111,
      "grad_norm": 1.8478490114212036,
      "learning_rate": 0.00011196265836852635,
      "loss": 1.9379,
      "step": 19814
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 1.2678059339523315,
      "learning_rate": 0.00011195821293620806,
      "loss": 1.6397,
      "step": 19815
    },
    {
      "epoch": 0.44035555555555556,
      "grad_norm": 1.3895469903945923,
      "learning_rate": 0.00011195376750388975,
      "loss": 1.8664,
      "step": 19816
    },
    {
      "epoch": 0.44037777777777776,
      "grad_norm": 1.9523276090621948,
      "learning_rate": 0.00011194932207157147,
      "loss": 2.0375,
      "step": 19817
    },
    {
      "epoch": 0.4404,
      "grad_norm": 1.606934666633606,
      "learning_rate": 0.00011194487663925317,
      "loss": 1.8199,
      "step": 19818
    },
    {
      "epoch": 0.4404222222222222,
      "grad_norm": 1.8797849416732788,
      "learning_rate": 0.00011194043120693487,
      "loss": 2.1491,
      "step": 19819
    },
    {
      "epoch": 0.44044444444444447,
      "grad_norm": 1.651739239692688,
      "learning_rate": 0.00011193598577461659,
      "loss": 2.4279,
      "step": 19820
    },
    {
      "epoch": 0.4404666666666667,
      "grad_norm": 1.5144050121307373,
      "learning_rate": 0.00011193154034229829,
      "loss": 1.8218,
      "step": 19821
    },
    {
      "epoch": 0.4404888888888889,
      "grad_norm": 1.9421738386154175,
      "learning_rate": 0.00011192709490998,
      "loss": 2.1128,
      "step": 19822
    },
    {
      "epoch": 0.44051111111111113,
      "grad_norm": 2.1003077030181885,
      "learning_rate": 0.00011192264947766172,
      "loss": 1.868,
      "step": 19823
    },
    {
      "epoch": 0.44053333333333333,
      "grad_norm": 1.5351438522338867,
      "learning_rate": 0.00011191820404534341,
      "loss": 1.9439,
      "step": 19824
    },
    {
      "epoch": 0.44055555555555553,
      "grad_norm": 1.502660870552063,
      "learning_rate": 0.00011191375861302514,
      "loss": 1.7406,
      "step": 19825
    },
    {
      "epoch": 0.4405777777777778,
      "grad_norm": 1.3782755136489868,
      "learning_rate": 0.00011190931318070683,
      "loss": 1.9809,
      "step": 19826
    },
    {
      "epoch": 0.4406,
      "grad_norm": 1.8584671020507812,
      "learning_rate": 0.00011190486774838853,
      "loss": 2.1832,
      "step": 19827
    },
    {
      "epoch": 0.44062222222222225,
      "grad_norm": 1.2281384468078613,
      "learning_rate": 0.00011190042231607025,
      "loss": 1.2229,
      "step": 19828
    },
    {
      "epoch": 0.44064444444444445,
      "grad_norm": 1.167176365852356,
      "learning_rate": 0.00011189597688375195,
      "loss": 0.9479,
      "step": 19829
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 1.647436499595642,
      "learning_rate": 0.00011189153145143365,
      "loss": 1.8785,
      "step": 19830
    },
    {
      "epoch": 0.4406888888888889,
      "grad_norm": 1.6311458349227905,
      "learning_rate": 0.00011188708601911537,
      "loss": 2.0978,
      "step": 19831
    },
    {
      "epoch": 0.4407111111111111,
      "grad_norm": 1.7268458604812622,
      "learning_rate": 0.00011188264058679708,
      "loss": 1.8154,
      "step": 19832
    },
    {
      "epoch": 0.4407333333333333,
      "grad_norm": 1.9092795848846436,
      "learning_rate": 0.00011187819515447877,
      "loss": 2.232,
      "step": 19833
    },
    {
      "epoch": 0.44075555555555557,
      "grad_norm": 1.4355740547180176,
      "learning_rate": 0.0001118737497221605,
      "loss": 1.5522,
      "step": 19834
    },
    {
      "epoch": 0.44077777777777777,
      "grad_norm": 1.965439796447754,
      "learning_rate": 0.0001118693042898422,
      "loss": 1.8403,
      "step": 19835
    },
    {
      "epoch": 0.4408,
      "grad_norm": 1.8034703731536865,
      "learning_rate": 0.00011186485885752389,
      "loss": 1.7115,
      "step": 19836
    },
    {
      "epoch": 0.4408222222222222,
      "grad_norm": 1.2558379173278809,
      "learning_rate": 0.00011186041342520561,
      "loss": 1.3013,
      "step": 19837
    },
    {
      "epoch": 0.4408444444444444,
      "grad_norm": 0.9903227090835571,
      "learning_rate": 0.00011185596799288731,
      "loss": 0.6865,
      "step": 19838
    },
    {
      "epoch": 0.4408666666666667,
      "grad_norm": 1.9284857511520386,
      "learning_rate": 0.000111851522560569,
      "loss": 2.1825,
      "step": 19839
    },
    {
      "epoch": 0.4408888888888889,
      "grad_norm": 1.8416709899902344,
      "learning_rate": 0.00011184707712825073,
      "loss": 2.1129,
      "step": 19840
    },
    {
      "epoch": 0.4409111111111111,
      "grad_norm": 1.7305110692977905,
      "learning_rate": 0.00011184263169593244,
      "loss": 1.7591,
      "step": 19841
    },
    {
      "epoch": 0.44093333333333334,
      "grad_norm": 1.9162722826004028,
      "learning_rate": 0.00011183818626361413,
      "loss": 2.1786,
      "step": 19842
    },
    {
      "epoch": 0.44095555555555555,
      "grad_norm": 1.855035662651062,
      "learning_rate": 0.00011183374083129586,
      "loss": 1.9211,
      "step": 19843
    },
    {
      "epoch": 0.4409777777777778,
      "grad_norm": 1.7164744138717651,
      "learning_rate": 0.00011182929539897755,
      "loss": 1.9022,
      "step": 19844
    },
    {
      "epoch": 0.441,
      "grad_norm": 1.7211613655090332,
      "learning_rate": 0.00011182484996665928,
      "loss": 1.8937,
      "step": 19845
    },
    {
      "epoch": 0.4410222222222222,
      "grad_norm": 1.715834379196167,
      "learning_rate": 0.00011182040453434097,
      "loss": 1.7785,
      "step": 19846
    },
    {
      "epoch": 0.44104444444444446,
      "grad_norm": 1.696114420890808,
      "learning_rate": 0.00011181595910202267,
      "loss": 1.7082,
      "step": 19847
    },
    {
      "epoch": 0.44106666666666666,
      "grad_norm": 2.0599615573883057,
      "learning_rate": 0.00011181151366970439,
      "loss": 1.8917,
      "step": 19848
    },
    {
      "epoch": 0.44108888888888886,
      "grad_norm": 1.661435604095459,
      "learning_rate": 0.00011180706823738609,
      "loss": 1.6052,
      "step": 19849
    },
    {
      "epoch": 0.4411111111111111,
      "grad_norm": 2.011350631713867,
      "learning_rate": 0.0001118026228050678,
      "loss": 1.8707,
      "step": 19850
    },
    {
      "epoch": 0.4411333333333333,
      "grad_norm": 1.5034841299057007,
      "learning_rate": 0.0001117981773727495,
      "loss": 2.5624,
      "step": 19851
    },
    {
      "epoch": 0.4411555555555556,
      "grad_norm": 1.5469517707824707,
      "learning_rate": 0.00011179373194043122,
      "loss": 3.2266,
      "step": 19852
    },
    {
      "epoch": 0.4411777777777778,
      "grad_norm": 1.2824994325637817,
      "learning_rate": 0.00011178928650811291,
      "loss": 0.9412,
      "step": 19853
    },
    {
      "epoch": 0.4412,
      "grad_norm": 1.560455560684204,
      "learning_rate": 0.00011178484107579464,
      "loss": 2.372,
      "step": 19854
    },
    {
      "epoch": 0.44122222222222224,
      "grad_norm": 1.8421655893325806,
      "learning_rate": 0.00011178039564347633,
      "loss": 2.4421,
      "step": 19855
    },
    {
      "epoch": 0.44124444444444444,
      "grad_norm": 1.3842302560806274,
      "learning_rate": 0.00011177595021115803,
      "loss": 2.2206,
      "step": 19856
    },
    {
      "epoch": 0.44126666666666664,
      "grad_norm": 1.3842418193817139,
      "learning_rate": 0.00011177150477883975,
      "loss": 2.2555,
      "step": 19857
    },
    {
      "epoch": 0.4412888888888889,
      "grad_norm": 1.4602043628692627,
      "learning_rate": 0.00011176705934652145,
      "loss": 1.8742,
      "step": 19858
    },
    {
      "epoch": 0.4413111111111111,
      "grad_norm": 2.25600004196167,
      "learning_rate": 0.00011176261391420316,
      "loss": 1.8496,
      "step": 19859
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 1.5514509677886963,
      "learning_rate": 0.00011175816848188488,
      "loss": 1.9779,
      "step": 19860
    },
    {
      "epoch": 0.44135555555555556,
      "grad_norm": 1.3954215049743652,
      "learning_rate": 0.00011175372304956658,
      "loss": 0.8986,
      "step": 19861
    },
    {
      "epoch": 0.44137777777777776,
      "grad_norm": 1.4250494241714478,
      "learning_rate": 0.0001117492776172483,
      "loss": 2.1194,
      "step": 19862
    },
    {
      "epoch": 0.4414,
      "grad_norm": 1.5156711339950562,
      "learning_rate": 0.00011174483218493,
      "loss": 2.2684,
      "step": 19863
    },
    {
      "epoch": 0.4414222222222222,
      "grad_norm": 1.5305837392807007,
      "learning_rate": 0.00011174038675261169,
      "loss": 1.9022,
      "step": 19864
    },
    {
      "epoch": 0.4414444444444444,
      "grad_norm": 1.2048126459121704,
      "learning_rate": 0.00011173594132029341,
      "loss": 1.5949,
      "step": 19865
    },
    {
      "epoch": 0.4414666666666667,
      "grad_norm": 2.631035566329956,
      "learning_rate": 0.00011173149588797511,
      "loss": 1.5001,
      "step": 19866
    },
    {
      "epoch": 0.4414888888888889,
      "grad_norm": 1.5603265762329102,
      "learning_rate": 0.0001117270504556568,
      "loss": 1.9969,
      "step": 19867
    },
    {
      "epoch": 0.44151111111111113,
      "grad_norm": 1.3566499948501587,
      "learning_rate": 0.00011172260502333853,
      "loss": 1.935,
      "step": 19868
    },
    {
      "epoch": 0.44153333333333333,
      "grad_norm": 1.447647213935852,
      "learning_rate": 0.00011171815959102024,
      "loss": 2.0037,
      "step": 19869
    },
    {
      "epoch": 0.44155555555555553,
      "grad_norm": 1.336533546447754,
      "learning_rate": 0.00011171371415870194,
      "loss": 1.6843,
      "step": 19870
    },
    {
      "epoch": 0.4415777777777778,
      "grad_norm": 1.52181077003479,
      "learning_rate": 0.00011170926872638366,
      "loss": 1.775,
      "step": 19871
    },
    {
      "epoch": 0.4416,
      "grad_norm": 1.4711806774139404,
      "learning_rate": 0.00011170482329406535,
      "loss": 1.8011,
      "step": 19872
    },
    {
      "epoch": 0.44162222222222225,
      "grad_norm": 1.5634859800338745,
      "learning_rate": 0.00011170037786174705,
      "loss": 2.1672,
      "step": 19873
    },
    {
      "epoch": 0.44164444444444445,
      "grad_norm": 1.9371846914291382,
      "learning_rate": 0.00011169593242942877,
      "loss": 2.4414,
      "step": 19874
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 1.6094367504119873,
      "learning_rate": 0.00011169148699711047,
      "loss": 2.018,
      "step": 19875
    },
    {
      "epoch": 0.4416888888888889,
      "grad_norm": 1.5133243799209595,
      "learning_rate": 0.00011168704156479217,
      "loss": 1.8594,
      "step": 19876
    },
    {
      "epoch": 0.4417111111111111,
      "grad_norm": 1.459742546081543,
      "learning_rate": 0.00011168259613247389,
      "loss": 1.2808,
      "step": 19877
    },
    {
      "epoch": 0.4417333333333333,
      "grad_norm": 1.6819496154785156,
      "learning_rate": 0.0001116781507001556,
      "loss": 1.7697,
      "step": 19878
    },
    {
      "epoch": 0.44175555555555557,
      "grad_norm": 1.6014125347137451,
      "learning_rate": 0.0001116737052678373,
      "loss": 1.9817,
      "step": 19879
    },
    {
      "epoch": 0.44177777777777777,
      "grad_norm": 1.8785964250564575,
      "learning_rate": 0.00011166925983551902,
      "loss": 2.3891,
      "step": 19880
    },
    {
      "epoch": 0.4418,
      "grad_norm": 1.2864735126495361,
      "learning_rate": 0.00011166481440320071,
      "loss": 1.1539,
      "step": 19881
    },
    {
      "epoch": 0.4418222222222222,
      "grad_norm": 2.138894557952881,
      "learning_rate": 0.00011166036897088244,
      "loss": 2.4181,
      "step": 19882
    },
    {
      "epoch": 0.44184444444444443,
      "grad_norm": 1.8812463283538818,
      "learning_rate": 0.00011165592353856413,
      "loss": 2.3707,
      "step": 19883
    },
    {
      "epoch": 0.4418666666666667,
      "grad_norm": 2.1520440578460693,
      "learning_rate": 0.00011165147810624583,
      "loss": 2.1288,
      "step": 19884
    },
    {
      "epoch": 0.4418888888888889,
      "grad_norm": 1.729475975036621,
      "learning_rate": 0.00011164703267392755,
      "loss": 2.2805,
      "step": 19885
    },
    {
      "epoch": 0.4419111111111111,
      "grad_norm": 1.621598482131958,
      "learning_rate": 0.00011164258724160925,
      "loss": 1.6301,
      "step": 19886
    },
    {
      "epoch": 0.44193333333333334,
      "grad_norm": 1.9298421144485474,
      "learning_rate": 0.00011163814180929096,
      "loss": 2.213,
      "step": 19887
    },
    {
      "epoch": 0.44195555555555555,
      "grad_norm": 1.7597770690917969,
      "learning_rate": 0.00011163369637697267,
      "loss": 1.8478,
      "step": 19888
    },
    {
      "epoch": 0.4419777777777778,
      "grad_norm": 1.6892950534820557,
      "learning_rate": 0.00011162925094465438,
      "loss": 2.0448,
      "step": 19889
    },
    {
      "epoch": 0.442,
      "grad_norm": 1.5602442026138306,
      "learning_rate": 0.00011162480551233607,
      "loss": 1.5456,
      "step": 19890
    },
    {
      "epoch": 0.4420222222222222,
      "grad_norm": 1.8744059801101685,
      "learning_rate": 0.0001116203600800178,
      "loss": 2.0065,
      "step": 19891
    },
    {
      "epoch": 0.44204444444444446,
      "grad_norm": 1.7581244707107544,
      "learning_rate": 0.00011161591464769949,
      "loss": 1.6794,
      "step": 19892
    },
    {
      "epoch": 0.44206666666666666,
      "grad_norm": 1.7995346784591675,
      "learning_rate": 0.00011161146921538119,
      "loss": 2.0046,
      "step": 19893
    },
    {
      "epoch": 0.44208888888888886,
      "grad_norm": 1.7074700593948364,
      "learning_rate": 0.00011160702378306291,
      "loss": 1.8929,
      "step": 19894
    },
    {
      "epoch": 0.4421111111111111,
      "grad_norm": 1.9740092754364014,
      "learning_rate": 0.00011160257835074461,
      "loss": 2.1626,
      "step": 19895
    },
    {
      "epoch": 0.4421333333333333,
      "grad_norm": 1.5597964525222778,
      "learning_rate": 0.00011159813291842632,
      "loss": 1.8465,
      "step": 19896
    },
    {
      "epoch": 0.4421555555555556,
      "grad_norm": 1.8480619192123413,
      "learning_rate": 0.00011159368748610804,
      "loss": 2.1441,
      "step": 19897
    },
    {
      "epoch": 0.4421777777777778,
      "grad_norm": 1.5108718872070312,
      "learning_rate": 0.00011158924205378974,
      "loss": 1.6561,
      "step": 19898
    },
    {
      "epoch": 0.4422,
      "grad_norm": 1.6094763278961182,
      "learning_rate": 0.00011158479662147143,
      "loss": 1.7138,
      "step": 19899
    },
    {
      "epoch": 0.44222222222222224,
      "grad_norm": 1.7741206884384155,
      "learning_rate": 0.00011158035118915316,
      "loss": 1.6353,
      "step": 19900
    },
    {
      "epoch": 0.44224444444444444,
      "grad_norm": 1.0812242031097412,
      "learning_rate": 0.00011157590575683485,
      "loss": 1.4174,
      "step": 19901
    },
    {
      "epoch": 0.44226666666666664,
      "grad_norm": 1.3467583656311035,
      "learning_rate": 0.00011157146032451658,
      "loss": 2.5254,
      "step": 19902
    },
    {
      "epoch": 0.4422888888888889,
      "grad_norm": 1.5633013248443604,
      "learning_rate": 0.00011156701489219827,
      "loss": 2.1022,
      "step": 19903
    },
    {
      "epoch": 0.4423111111111111,
      "grad_norm": 1.5441561937332153,
      "learning_rate": 0.00011156256945987997,
      "loss": 2.1709,
      "step": 19904
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 1.6399955749511719,
      "learning_rate": 0.00011155812402756169,
      "loss": 1.9202,
      "step": 19905
    },
    {
      "epoch": 0.44235555555555556,
      "grad_norm": 1.5645169019699097,
      "learning_rate": 0.0001115536785952434,
      "loss": 1.6428,
      "step": 19906
    },
    {
      "epoch": 0.44237777777777776,
      "grad_norm": 1.536374568939209,
      "learning_rate": 0.0001115492331629251,
      "loss": 2.2551,
      "step": 19907
    },
    {
      "epoch": 0.4424,
      "grad_norm": 1.3882174491882324,
      "learning_rate": 0.00011154478773060682,
      "loss": 1.8848,
      "step": 19908
    },
    {
      "epoch": 0.4424222222222222,
      "grad_norm": 0.4873048663139343,
      "learning_rate": 0.00011154034229828852,
      "loss": 0.0249,
      "step": 19909
    },
    {
      "epoch": 0.4424444444444444,
      "grad_norm": 1.6145907640457153,
      "learning_rate": 0.00011153589686597021,
      "loss": 2.1582,
      "step": 19910
    },
    {
      "epoch": 0.4424666666666667,
      "grad_norm": 1.8493767976760864,
      "learning_rate": 0.00011153145143365193,
      "loss": 2.7317,
      "step": 19911
    },
    {
      "epoch": 0.4424888888888889,
      "grad_norm": 1.5596264600753784,
      "learning_rate": 0.00011152700600133363,
      "loss": 2.2401,
      "step": 19912
    },
    {
      "epoch": 0.44251111111111113,
      "grad_norm": 1.3666064739227295,
      "learning_rate": 0.00011152256056901533,
      "loss": 1.8947,
      "step": 19913
    },
    {
      "epoch": 0.44253333333333333,
      "grad_norm": 1.6720050573349,
      "learning_rate": 0.00011151811513669705,
      "loss": 1.7345,
      "step": 19914
    },
    {
      "epoch": 0.44255555555555554,
      "grad_norm": 1.3020442724227905,
      "learning_rate": 0.00011151366970437876,
      "loss": 1.7563,
      "step": 19915
    },
    {
      "epoch": 0.4425777777777778,
      "grad_norm": 1.4241012334823608,
      "learning_rate": 0.00011150922427206046,
      "loss": 1.4462,
      "step": 19916
    },
    {
      "epoch": 0.4426,
      "grad_norm": 1.3560534715652466,
      "learning_rate": 0.00011150477883974218,
      "loss": 1.9642,
      "step": 19917
    },
    {
      "epoch": 0.4426222222222222,
      "grad_norm": 1.5524969100952148,
      "learning_rate": 0.00011150033340742387,
      "loss": 2.1968,
      "step": 19918
    },
    {
      "epoch": 0.44264444444444445,
      "grad_norm": 2.112607717514038,
      "learning_rate": 0.0001114958879751056,
      "loss": 2.4397,
      "step": 19919
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 1.5380958318710327,
      "learning_rate": 0.0001114914425427873,
      "loss": 1.9193,
      "step": 19920
    },
    {
      "epoch": 0.4426888888888889,
      "grad_norm": 1.9434126615524292,
      "learning_rate": 0.00011148699711046899,
      "loss": 1.9126,
      "step": 19921
    },
    {
      "epoch": 0.4427111111111111,
      "grad_norm": 1.6881002187728882,
      "learning_rate": 0.00011148255167815071,
      "loss": 2.2398,
      "step": 19922
    },
    {
      "epoch": 0.4427333333333333,
      "grad_norm": 1.7752671241760254,
      "learning_rate": 0.00011147810624583241,
      "loss": 2.1664,
      "step": 19923
    },
    {
      "epoch": 0.44275555555555557,
      "grad_norm": 1.550197720527649,
      "learning_rate": 0.00011147366081351412,
      "loss": 2.3529,
      "step": 19924
    },
    {
      "epoch": 0.44277777777777777,
      "grad_norm": 1.584812045097351,
      "learning_rate": 0.00011146921538119583,
      "loss": 1.891,
      "step": 19925
    },
    {
      "epoch": 0.4428,
      "grad_norm": 1.5980209112167358,
      "learning_rate": 0.00011146476994887754,
      "loss": 1.5368,
      "step": 19926
    },
    {
      "epoch": 0.44282222222222223,
      "grad_norm": 1.9053974151611328,
      "learning_rate": 0.00011146032451655923,
      "loss": 1.803,
      "step": 19927
    },
    {
      "epoch": 0.44284444444444443,
      "grad_norm": 1.7137690782546997,
      "learning_rate": 0.00011145587908424096,
      "loss": 1.4939,
      "step": 19928
    },
    {
      "epoch": 0.4428666666666667,
      "grad_norm": 1.5970326662063599,
      "learning_rate": 0.00011145143365192265,
      "loss": 1.8306,
      "step": 19929
    },
    {
      "epoch": 0.4428888888888889,
      "grad_norm": 2.192596673965454,
      "learning_rate": 0.00011144698821960435,
      "loss": 2.0369,
      "step": 19930
    },
    {
      "epoch": 0.4429111111111111,
      "grad_norm": 1.3951127529144287,
      "learning_rate": 0.00011144254278728607,
      "loss": 1.5206,
      "step": 19931
    },
    {
      "epoch": 0.44293333333333335,
      "grad_norm": 1.6548343896865845,
      "learning_rate": 0.00011143809735496777,
      "loss": 1.7994,
      "step": 19932
    },
    {
      "epoch": 0.44295555555555555,
      "grad_norm": 1.7114263772964478,
      "learning_rate": 0.00011143365192264948,
      "loss": 2.0233,
      "step": 19933
    },
    {
      "epoch": 0.4429777777777778,
      "grad_norm": 0.9234243631362915,
      "learning_rate": 0.0001114292064903312,
      "loss": 0.76,
      "step": 19934
    },
    {
      "epoch": 0.443,
      "grad_norm": 1.657660722732544,
      "learning_rate": 0.0001114247610580129,
      "loss": 1.9388,
      "step": 19935
    },
    {
      "epoch": 0.4430222222222222,
      "grad_norm": 1.837963581085205,
      "learning_rate": 0.0001114203156256946,
      "loss": 2.2576,
      "step": 19936
    },
    {
      "epoch": 0.44304444444444446,
      "grad_norm": 1.7125126123428345,
      "learning_rate": 0.00011141587019337632,
      "loss": 1.997,
      "step": 19937
    },
    {
      "epoch": 0.44306666666666666,
      "grad_norm": 1.6637517213821411,
      "learning_rate": 0.00011141142476105801,
      "loss": 1.876,
      "step": 19938
    },
    {
      "epoch": 0.44308888888888887,
      "grad_norm": 1.5927644968032837,
      "learning_rate": 0.00011140697932873974,
      "loss": 1.8507,
      "step": 19939
    },
    {
      "epoch": 0.4431111111111111,
      "grad_norm": 2.030413866043091,
      "learning_rate": 0.00011140253389642143,
      "loss": 2.2434,
      "step": 19940
    },
    {
      "epoch": 0.4431333333333333,
      "grad_norm": 1.7214550971984863,
      "learning_rate": 0.00011139808846410313,
      "loss": 2.0716,
      "step": 19941
    },
    {
      "epoch": 0.4431555555555556,
      "grad_norm": 1.8675296306610107,
      "learning_rate": 0.00011139364303178485,
      "loss": 2.1499,
      "step": 19942
    },
    {
      "epoch": 0.4431777777777778,
      "grad_norm": 2.0955960750579834,
      "learning_rate": 0.00011138919759946656,
      "loss": 2.3285,
      "step": 19943
    },
    {
      "epoch": 0.4432,
      "grad_norm": 1.7641327381134033,
      "learning_rate": 0.00011138475216714826,
      "loss": 1.8071,
      "step": 19944
    },
    {
      "epoch": 0.44322222222222224,
      "grad_norm": 1.713640570640564,
      "learning_rate": 0.00011138030673482998,
      "loss": 1.7491,
      "step": 19945
    },
    {
      "epoch": 0.44324444444444444,
      "grad_norm": 1.8128647804260254,
      "learning_rate": 0.00011137586130251168,
      "loss": 1.8292,
      "step": 19946
    },
    {
      "epoch": 0.44326666666666664,
      "grad_norm": 1.9009318351745605,
      "learning_rate": 0.00011137141587019337,
      "loss": 2.4103,
      "step": 19947
    },
    {
      "epoch": 0.4432888888888889,
      "grad_norm": 1.5419443845748901,
      "learning_rate": 0.0001113669704378751,
      "loss": 1.816,
      "step": 19948
    },
    {
      "epoch": 0.4433111111111111,
      "grad_norm": 2.0746071338653564,
      "learning_rate": 0.00011136252500555679,
      "loss": 1.761,
      "step": 19949
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 1.867020845413208,
      "learning_rate": 0.00011135807957323849,
      "loss": 1.5407,
      "step": 19950
    },
    {
      "epoch": 0.44335555555555556,
      "grad_norm": 1.3736469745635986,
      "learning_rate": 0.00011135363414092021,
      "loss": 2.5024,
      "step": 19951
    },
    {
      "epoch": 0.44337777777777776,
      "grad_norm": 1.3075026273727417,
      "learning_rate": 0.00011134918870860192,
      "loss": 2.1378,
      "step": 19952
    },
    {
      "epoch": 0.4434,
      "grad_norm": 1.4021142721176147,
      "learning_rate": 0.00011134474327628362,
      "loss": 2.174,
      "step": 19953
    },
    {
      "epoch": 0.4434222222222222,
      "grad_norm": 1.5117591619491577,
      "learning_rate": 0.00011134029784396534,
      "loss": 2.0005,
      "step": 19954
    },
    {
      "epoch": 0.4434444444444444,
      "grad_norm": 2.207899570465088,
      "learning_rate": 0.00011133585241164704,
      "loss": 1.6539,
      "step": 19955
    },
    {
      "epoch": 0.4434666666666667,
      "grad_norm": 1.3358948230743408,
      "learning_rate": 0.00011133140697932873,
      "loss": 2.1375,
      "step": 19956
    },
    {
      "epoch": 0.4434888888888889,
      "grad_norm": 1.3419532775878906,
      "learning_rate": 0.00011132696154701046,
      "loss": 1.788,
      "step": 19957
    },
    {
      "epoch": 0.44351111111111113,
      "grad_norm": 1.9610248804092407,
      "learning_rate": 0.00011132251611469215,
      "loss": 2.8246,
      "step": 19958
    },
    {
      "epoch": 0.44353333333333333,
      "grad_norm": 0.9081553816795349,
      "learning_rate": 0.00011131807068237387,
      "loss": 0.728,
      "step": 19959
    },
    {
      "epoch": 0.44355555555555554,
      "grad_norm": 1.1985666751861572,
      "learning_rate": 0.00011131362525005557,
      "loss": 1.1132,
      "step": 19960
    },
    {
      "epoch": 0.4435777777777778,
      "grad_norm": 1.3810046911239624,
      "learning_rate": 0.00011130917981773728,
      "loss": 1.9725,
      "step": 19961
    },
    {
      "epoch": 0.4436,
      "grad_norm": 1.6268912553787231,
      "learning_rate": 0.00011130473438541899,
      "loss": 2.07,
      "step": 19962
    },
    {
      "epoch": 0.4436222222222222,
      "grad_norm": 1.3566055297851562,
      "learning_rate": 0.0001113002889531007,
      "loss": 2.1259,
      "step": 19963
    },
    {
      "epoch": 0.44364444444444445,
      "grad_norm": 1.5503119230270386,
      "learning_rate": 0.0001112958435207824,
      "loss": 1.8526,
      "step": 19964
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 1.5403540134429932,
      "learning_rate": 0.00011129139808846412,
      "loss": 2.1757,
      "step": 19965
    },
    {
      "epoch": 0.4436888888888889,
      "grad_norm": 1.860015869140625,
      "learning_rate": 0.00011128695265614581,
      "loss": 1.568,
      "step": 19966
    },
    {
      "epoch": 0.4437111111111111,
      "grad_norm": 1.6286029815673828,
      "learning_rate": 0.00011128250722382751,
      "loss": 2.1762,
      "step": 19967
    },
    {
      "epoch": 0.4437333333333333,
      "grad_norm": 1.8938391208648682,
      "learning_rate": 0.00011127806179150923,
      "loss": 2.1448,
      "step": 19968
    },
    {
      "epoch": 0.44375555555555557,
      "grad_norm": 1.5543763637542725,
      "learning_rate": 0.00011127361635919093,
      "loss": 0.8958,
      "step": 19969
    },
    {
      "epoch": 0.44377777777777777,
      "grad_norm": 1.844154715538025,
      "learning_rate": 0.00011126917092687264,
      "loss": 1.9773,
      "step": 19970
    },
    {
      "epoch": 0.4438,
      "grad_norm": 1.6542166471481323,
      "learning_rate": 0.00011126472549455436,
      "loss": 2.0959,
      "step": 19971
    },
    {
      "epoch": 0.44382222222222223,
      "grad_norm": 1.6580427885055542,
      "learning_rate": 0.00011126028006223606,
      "loss": 2.1077,
      "step": 19972
    },
    {
      "epoch": 0.44384444444444443,
      "grad_norm": 1.6832748651504517,
      "learning_rate": 0.00011125583462991775,
      "loss": 2.0699,
      "step": 19973
    },
    {
      "epoch": 0.4438666666666667,
      "grad_norm": 1.6163184642791748,
      "learning_rate": 0.00011125138919759948,
      "loss": 2.0329,
      "step": 19974
    },
    {
      "epoch": 0.4438888888888889,
      "grad_norm": 1.4918889999389648,
      "learning_rate": 0.00011124694376528117,
      "loss": 1.9256,
      "step": 19975
    },
    {
      "epoch": 0.4439111111111111,
      "grad_norm": 1.6053223609924316,
      "learning_rate": 0.0001112424983329629,
      "loss": 1.951,
      "step": 19976
    },
    {
      "epoch": 0.44393333333333335,
      "grad_norm": 1.6747021675109863,
      "learning_rate": 0.0001112380529006446,
      "loss": 1.7794,
      "step": 19977
    },
    {
      "epoch": 0.44395555555555555,
      "grad_norm": 1.511643409729004,
      "learning_rate": 0.00011123360746832629,
      "loss": 1.2845,
      "step": 19978
    },
    {
      "epoch": 0.4439777777777778,
      "grad_norm": 1.5743415355682373,
      "learning_rate": 0.00011122916203600801,
      "loss": 1.6743,
      "step": 19979
    },
    {
      "epoch": 0.444,
      "grad_norm": 1.742852807044983,
      "learning_rate": 0.00011122471660368972,
      "loss": 1.7505,
      "step": 19980
    },
    {
      "epoch": 0.4440222222222222,
      "grad_norm": 1.4763498306274414,
      "learning_rate": 0.00011122027117137142,
      "loss": 1.4845,
      "step": 19981
    },
    {
      "epoch": 0.44404444444444446,
      "grad_norm": 1.764966607093811,
      "learning_rate": 0.00011121582573905314,
      "loss": 2.3196,
      "step": 19982
    },
    {
      "epoch": 0.44406666666666667,
      "grad_norm": 1.5484848022460938,
      "learning_rate": 0.00011121138030673484,
      "loss": 2.0314,
      "step": 19983
    },
    {
      "epoch": 0.44408888888888887,
      "grad_norm": 1.8767986297607422,
      "learning_rate": 0.00011120693487441653,
      "loss": 2.0837,
      "step": 19984
    },
    {
      "epoch": 0.4441111111111111,
      "grad_norm": 1.1241506338119507,
      "learning_rate": 0.00011120248944209826,
      "loss": 1.0954,
      "step": 19985
    },
    {
      "epoch": 0.4441333333333333,
      "grad_norm": 1.467916488647461,
      "learning_rate": 0.00011119804400977995,
      "loss": 1.8852,
      "step": 19986
    },
    {
      "epoch": 0.4441555555555556,
      "grad_norm": 1.6668692827224731,
      "learning_rate": 0.00011119359857746165,
      "loss": 1.7593,
      "step": 19987
    },
    {
      "epoch": 0.4441777777777778,
      "grad_norm": 1.5728892087936401,
      "learning_rate": 0.00011118915314514337,
      "loss": 1.8661,
      "step": 19988
    },
    {
      "epoch": 0.4442,
      "grad_norm": 1.7507522106170654,
      "learning_rate": 0.00011118470771282508,
      "loss": 1.7286,
      "step": 19989
    },
    {
      "epoch": 0.44422222222222224,
      "grad_norm": 1.334531545639038,
      "learning_rate": 0.00011118026228050678,
      "loss": 1.1987,
      "step": 19990
    },
    {
      "epoch": 0.44424444444444444,
      "grad_norm": 1.7918199300765991,
      "learning_rate": 0.0001111758168481885,
      "loss": 1.8525,
      "step": 19991
    },
    {
      "epoch": 0.44426666666666664,
      "grad_norm": 1.8724836111068726,
      "learning_rate": 0.0001111713714158702,
      "loss": 2.0242,
      "step": 19992
    },
    {
      "epoch": 0.4442888888888889,
      "grad_norm": 1.7352616786956787,
      "learning_rate": 0.00011116692598355189,
      "loss": 2.0696,
      "step": 19993
    },
    {
      "epoch": 0.4443111111111111,
      "grad_norm": 2.285979747772217,
      "learning_rate": 0.00011116248055123362,
      "loss": 1.7317,
      "step": 19994
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 1.840475082397461,
      "learning_rate": 0.00011115803511891531,
      "loss": 2.0126,
      "step": 19995
    },
    {
      "epoch": 0.44435555555555556,
      "grad_norm": 2.105510950088501,
      "learning_rate": 0.00011115358968659704,
      "loss": 2.2386,
      "step": 19996
    },
    {
      "epoch": 0.44437777777777776,
      "grad_norm": 2.062870979309082,
      "learning_rate": 0.00011114914425427873,
      "loss": 2.0789,
      "step": 19997
    },
    {
      "epoch": 0.4444,
      "grad_norm": 1.6821670532226562,
      "learning_rate": 0.00011114469882196044,
      "loss": 1.8946,
      "step": 19998
    },
    {
      "epoch": 0.4444222222222222,
      "grad_norm": 1.8864800930023193,
      "learning_rate": 0.00011114025338964215,
      "loss": 2.0139,
      "step": 19999
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 2.0891292095184326,
      "learning_rate": 0.00011113580795732386,
      "loss": 1.7224,
      "step": 20000
    },
    {
      "epoch": 0.4444666666666667,
      "grad_norm": 1.4538301229476929,
      "learning_rate": 0.00011113136252500556,
      "loss": 2.8387,
      "step": 20001
    },
    {
      "epoch": 0.4444888888888889,
      "grad_norm": 1.685001254081726,
      "learning_rate": 0.00011112691709268728,
      "loss": 2.7408,
      "step": 20002
    },
    {
      "epoch": 0.44451111111111113,
      "grad_norm": 1.3933773040771484,
      "learning_rate": 0.00011112247166036898,
      "loss": 2.2596,
      "step": 20003
    },
    {
      "epoch": 0.44453333333333334,
      "grad_norm": 1.5375651121139526,
      "learning_rate": 0.00011111802622805067,
      "loss": 2.5083,
      "step": 20004
    },
    {
      "epoch": 0.44455555555555554,
      "grad_norm": 1.4551447629928589,
      "learning_rate": 0.0001111135807957324,
      "loss": 2.3845,
      "step": 20005
    },
    {
      "epoch": 0.4445777777777778,
      "grad_norm": 1.5728868246078491,
      "learning_rate": 0.00011110913536341409,
      "loss": 2.4255,
      "step": 20006
    },
    {
      "epoch": 0.4446,
      "grad_norm": 1.4610627889633179,
      "learning_rate": 0.0001111046899310958,
      "loss": 2.3409,
      "step": 20007
    },
    {
      "epoch": 0.4446222222222222,
      "grad_norm": 0.9976434111595154,
      "learning_rate": 0.00011110024449877752,
      "loss": 0.7536,
      "step": 20008
    },
    {
      "epoch": 0.44464444444444445,
      "grad_norm": 1.5473593473434448,
      "learning_rate": 0.00011109579906645922,
      "loss": 2.2609,
      "step": 20009
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 1.2726026773452759,
      "learning_rate": 0.00011109135363414092,
      "loss": 1.9495,
      "step": 20010
    },
    {
      "epoch": 0.4446888888888889,
      "grad_norm": 1.3799738883972168,
      "learning_rate": 0.00011108690820182264,
      "loss": 1.9562,
      "step": 20011
    },
    {
      "epoch": 0.4447111111111111,
      "grad_norm": 1.6782200336456299,
      "learning_rate": 0.00011108246276950434,
      "loss": 2.0012,
      "step": 20012
    },
    {
      "epoch": 0.4447333333333333,
      "grad_norm": 1.75413978099823,
      "learning_rate": 0.00011107801733718606,
      "loss": 1.9901,
      "step": 20013
    },
    {
      "epoch": 0.44475555555555557,
      "grad_norm": 1.3129359483718872,
      "learning_rate": 0.00011107357190486775,
      "loss": 1.087,
      "step": 20014
    },
    {
      "epoch": 0.44477777777777777,
      "grad_norm": 1.6468764543533325,
      "learning_rate": 0.00011106912647254945,
      "loss": 2.2945,
      "step": 20015
    },
    {
      "epoch": 0.4448,
      "grad_norm": 1.8317674398422241,
      "learning_rate": 0.00011106468104023117,
      "loss": 1.6067,
      "step": 20016
    },
    {
      "epoch": 0.44482222222222223,
      "grad_norm": 1.6006568670272827,
      "learning_rate": 0.00011106023560791288,
      "loss": 1.7882,
      "step": 20017
    },
    {
      "epoch": 0.44484444444444443,
      "grad_norm": 1.8029652833938599,
      "learning_rate": 0.00011105579017559458,
      "loss": 1.9184,
      "step": 20018
    },
    {
      "epoch": 0.4448666666666667,
      "grad_norm": 1.5972546339035034,
      "learning_rate": 0.0001110513447432763,
      "loss": 2.2581,
      "step": 20019
    },
    {
      "epoch": 0.4448888888888889,
      "grad_norm": 1.6317459344863892,
      "learning_rate": 0.000111046899310958,
      "loss": 2.0407,
      "step": 20020
    },
    {
      "epoch": 0.4449111111111111,
      "grad_norm": 1.881335973739624,
      "learning_rate": 0.0001110424538786397,
      "loss": 2.2609,
      "step": 20021
    },
    {
      "epoch": 0.44493333333333335,
      "grad_norm": 1.5572978258132935,
      "learning_rate": 0.00011103800844632142,
      "loss": 1.8934,
      "step": 20022
    },
    {
      "epoch": 0.44495555555555555,
      "grad_norm": 1.742442011833191,
      "learning_rate": 0.00011103356301400311,
      "loss": 1.8154,
      "step": 20023
    },
    {
      "epoch": 0.4449777777777778,
      "grad_norm": 1.622564673423767,
      "learning_rate": 0.00011102911758168481,
      "loss": 1.9193,
      "step": 20024
    },
    {
      "epoch": 0.445,
      "grad_norm": 1.6397491693496704,
      "learning_rate": 0.00011102467214936653,
      "loss": 2.2337,
      "step": 20025
    },
    {
      "epoch": 0.4450222222222222,
      "grad_norm": 1.6014641523361206,
      "learning_rate": 0.00011102022671704824,
      "loss": 2.0403,
      "step": 20026
    },
    {
      "epoch": 0.44504444444444446,
      "grad_norm": 1.245726466178894,
      "learning_rate": 0.00011101578128472994,
      "loss": 1.1306,
      "step": 20027
    },
    {
      "epoch": 0.44506666666666667,
      "grad_norm": 1.9987072944641113,
      "learning_rate": 0.00011101133585241166,
      "loss": 2.1336,
      "step": 20028
    },
    {
      "epoch": 0.44508888888888887,
      "grad_norm": 1.8901509046554565,
      "learning_rate": 0.00011100689042009336,
      "loss": 2.2167,
      "step": 20029
    },
    {
      "epoch": 0.4451111111111111,
      "grad_norm": 1.8416619300842285,
      "learning_rate": 0.00011100244498777505,
      "loss": 2.0378,
      "step": 20030
    },
    {
      "epoch": 0.4451333333333333,
      "grad_norm": 1.2255700826644897,
      "learning_rate": 0.00011099799955545678,
      "loss": 1.0096,
      "step": 20031
    },
    {
      "epoch": 0.4451555555555556,
      "grad_norm": 2.1630165576934814,
      "learning_rate": 0.00011099355412313847,
      "loss": 2.3271,
      "step": 20032
    },
    {
      "epoch": 0.4451777777777778,
      "grad_norm": 1.4933478832244873,
      "learning_rate": 0.0001109891086908202,
      "loss": 1.7591,
      "step": 20033
    },
    {
      "epoch": 0.4452,
      "grad_norm": 1.5677788257598877,
      "learning_rate": 0.00011098466325850189,
      "loss": 1.7725,
      "step": 20034
    },
    {
      "epoch": 0.44522222222222224,
      "grad_norm": 1.7399373054504395,
      "learning_rate": 0.0001109802178261836,
      "loss": 1.9244,
      "step": 20035
    },
    {
      "epoch": 0.44524444444444444,
      "grad_norm": 1.813332438468933,
      "learning_rate": 0.00011097577239386531,
      "loss": 2.0615,
      "step": 20036
    },
    {
      "epoch": 0.44526666666666664,
      "grad_norm": 2.005236864089966,
      "learning_rate": 0.00011097132696154702,
      "loss": 2.4354,
      "step": 20037
    },
    {
      "epoch": 0.4452888888888889,
      "grad_norm": 1.7269026041030884,
      "learning_rate": 0.00011096688152922872,
      "loss": 2.2146,
      "step": 20038
    },
    {
      "epoch": 0.4453111111111111,
      "grad_norm": 1.5160149335861206,
      "learning_rate": 0.00011096243609691044,
      "loss": 1.5481,
      "step": 20039
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 1.6709929704666138,
      "learning_rate": 0.00011095799066459214,
      "loss": 1.652,
      "step": 20040
    },
    {
      "epoch": 0.44535555555555556,
      "grad_norm": 1.7749581336975098,
      "learning_rate": 0.00011095354523227383,
      "loss": 1.9837,
      "step": 20041
    },
    {
      "epoch": 0.44537777777777776,
      "grad_norm": 1.724426031112671,
      "learning_rate": 0.00011094909979995556,
      "loss": 1.5077,
      "step": 20042
    },
    {
      "epoch": 0.4454,
      "grad_norm": 1.8348747491836548,
      "learning_rate": 0.00011094465436763725,
      "loss": 2.1493,
      "step": 20043
    },
    {
      "epoch": 0.4454222222222222,
      "grad_norm": 1.7102733850479126,
      "learning_rate": 0.00011094020893531896,
      "loss": 1.672,
      "step": 20044
    },
    {
      "epoch": 0.4454444444444444,
      "grad_norm": 1.5654404163360596,
      "learning_rate": 0.00011093576350300068,
      "loss": 1.5936,
      "step": 20045
    },
    {
      "epoch": 0.4454666666666667,
      "grad_norm": 1.8490549325942993,
      "learning_rate": 0.00011093131807068238,
      "loss": 1.6878,
      "step": 20046
    },
    {
      "epoch": 0.4454888888888889,
      "grad_norm": 1.9203144311904907,
      "learning_rate": 0.00011092687263836408,
      "loss": 1.8069,
      "step": 20047
    },
    {
      "epoch": 0.44551111111111114,
      "grad_norm": 1.8240364789962769,
      "learning_rate": 0.0001109224272060458,
      "loss": 2.1741,
      "step": 20048
    },
    {
      "epoch": 0.44553333333333334,
      "grad_norm": 9.71654224395752,
      "learning_rate": 0.0001109179817737275,
      "loss": 1.6422,
      "step": 20049
    },
    {
      "epoch": 0.44555555555555554,
      "grad_norm": 1.2252644300460815,
      "learning_rate": 0.00011091353634140919,
      "loss": 0.642,
      "step": 20050
    },
    {
      "epoch": 0.4455777777777778,
      "grad_norm": 1.5689784288406372,
      "learning_rate": 0.00011090909090909092,
      "loss": 2.2207,
      "step": 20051
    },
    {
      "epoch": 0.4456,
      "grad_norm": 1.6943676471710205,
      "learning_rate": 0.00011090464547677261,
      "loss": 2.9482,
      "step": 20052
    },
    {
      "epoch": 0.4456222222222222,
      "grad_norm": 1.45242178440094,
      "learning_rate": 0.00011090020004445433,
      "loss": 1.7132,
      "step": 20053
    },
    {
      "epoch": 0.44564444444444445,
      "grad_norm": 1.3336280584335327,
      "learning_rate": 0.00011089575461213604,
      "loss": 1.9736,
      "step": 20054
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 1.1167885065078735,
      "learning_rate": 0.00011089130917981774,
      "loss": 0.717,
      "step": 20055
    },
    {
      "epoch": 0.4456888888888889,
      "grad_norm": 1.6490750312805176,
      "learning_rate": 0.00011088686374749946,
      "loss": 1.9052,
      "step": 20056
    },
    {
      "epoch": 0.4457111111111111,
      "grad_norm": 1.5212798118591309,
      "learning_rate": 0.00011088241831518116,
      "loss": 1.9195,
      "step": 20057
    },
    {
      "epoch": 0.4457333333333333,
      "grad_norm": 1.3571240901947021,
      "learning_rate": 0.00011087797288286286,
      "loss": 1.8322,
      "step": 20058
    },
    {
      "epoch": 0.44575555555555557,
      "grad_norm": 1.7387479543685913,
      "learning_rate": 0.00011087352745054458,
      "loss": 2.1052,
      "step": 20059
    },
    {
      "epoch": 0.4457777777777778,
      "grad_norm": 1.3373701572418213,
      "learning_rate": 0.00011086908201822627,
      "loss": 1.8162,
      "step": 20060
    },
    {
      "epoch": 0.4458,
      "grad_norm": 1.4440447092056274,
      "learning_rate": 0.00011086463658590797,
      "loss": 1.7127,
      "step": 20061
    },
    {
      "epoch": 0.44582222222222223,
      "grad_norm": 1.669681191444397,
      "learning_rate": 0.0001108601911535897,
      "loss": 2.1564,
      "step": 20062
    },
    {
      "epoch": 0.44584444444444443,
      "grad_norm": 1.9135560989379883,
      "learning_rate": 0.0001108557457212714,
      "loss": 2.1638,
      "step": 20063
    },
    {
      "epoch": 0.4458666666666667,
      "grad_norm": 1.8380615711212158,
      "learning_rate": 0.0001108513002889531,
      "loss": 2.1661,
      "step": 20064
    },
    {
      "epoch": 0.4458888888888889,
      "grad_norm": 1.9266245365142822,
      "learning_rate": 0.00011084685485663482,
      "loss": 1.9803,
      "step": 20065
    },
    {
      "epoch": 0.4459111111111111,
      "grad_norm": 1.4651223421096802,
      "learning_rate": 0.00011084240942431652,
      "loss": 1.6445,
      "step": 20066
    },
    {
      "epoch": 0.44593333333333335,
      "grad_norm": 1.7482537031173706,
      "learning_rate": 0.00011083796399199822,
      "loss": 2.1779,
      "step": 20067
    },
    {
      "epoch": 0.44595555555555555,
      "grad_norm": 1.63004732131958,
      "learning_rate": 0.00011083351855967994,
      "loss": 2.2154,
      "step": 20068
    },
    {
      "epoch": 0.44597777777777775,
      "grad_norm": 1.7170240879058838,
      "learning_rate": 0.00011082907312736163,
      "loss": 1.732,
      "step": 20069
    },
    {
      "epoch": 0.446,
      "grad_norm": 1.1125919818878174,
      "learning_rate": 0.00011082462769504336,
      "loss": 1.367,
      "step": 20070
    },
    {
      "epoch": 0.4460222222222222,
      "grad_norm": 1.5543036460876465,
      "learning_rate": 0.00011082018226272505,
      "loss": 1.3768,
      "step": 20071
    },
    {
      "epoch": 0.44604444444444447,
      "grad_norm": 1.5653505325317383,
      "learning_rate": 0.00011081573683040676,
      "loss": 1.8293,
      "step": 20072
    },
    {
      "epoch": 0.44606666666666667,
      "grad_norm": 1.7526686191558838,
      "learning_rate": 0.00011081129139808847,
      "loss": 2.5112,
      "step": 20073
    },
    {
      "epoch": 0.44608888888888887,
      "grad_norm": 1.644641399383545,
      "learning_rate": 0.00011080684596577018,
      "loss": 2.3557,
      "step": 20074
    },
    {
      "epoch": 0.4461111111111111,
      "grad_norm": 4.988440990447998,
      "learning_rate": 0.00011080240053345188,
      "loss": 1.3227,
      "step": 20075
    },
    {
      "epoch": 0.4461333333333333,
      "grad_norm": 2.0577447414398193,
      "learning_rate": 0.0001107979551011336,
      "loss": 1.8626,
      "step": 20076
    },
    {
      "epoch": 0.4461555555555556,
      "grad_norm": 1.4822455644607544,
      "learning_rate": 0.0001107935096688153,
      "loss": 1.5982,
      "step": 20077
    },
    {
      "epoch": 0.4461777777777778,
      "grad_norm": 2.343134880065918,
      "learning_rate": 0.000110789064236497,
      "loss": 1.4902,
      "step": 20078
    },
    {
      "epoch": 0.4462,
      "grad_norm": 1.916146993637085,
      "learning_rate": 0.00011078461880417872,
      "loss": 1.4994,
      "step": 20079
    },
    {
      "epoch": 0.44622222222222224,
      "grad_norm": 1.061477780342102,
      "learning_rate": 0.00011078017337186041,
      "loss": 0.8735,
      "step": 20080
    },
    {
      "epoch": 0.44624444444444444,
      "grad_norm": 2.0822672843933105,
      "learning_rate": 0.00011077572793954212,
      "loss": 2.5611,
      "step": 20081
    },
    {
      "epoch": 0.44626666666666664,
      "grad_norm": 1.7360398769378662,
      "learning_rate": 0.00011077128250722385,
      "loss": 1.8298,
      "step": 20082
    },
    {
      "epoch": 0.4462888888888889,
      "grad_norm": 1.5090868473052979,
      "learning_rate": 0.00011076683707490554,
      "loss": 1.6832,
      "step": 20083
    },
    {
      "epoch": 0.4463111111111111,
      "grad_norm": 1.6372843980789185,
      "learning_rate": 0.00011076239164258724,
      "loss": 1.9662,
      "step": 20084
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 1.8020577430725098,
      "learning_rate": 0.00011075794621026896,
      "loss": 2.0722,
      "step": 20085
    },
    {
      "epoch": 0.44635555555555556,
      "grad_norm": 1.5740927457809448,
      "learning_rate": 0.00011075350077795066,
      "loss": 1.6936,
      "step": 20086
    },
    {
      "epoch": 0.44637777777777776,
      "grad_norm": 2.2439980506896973,
      "learning_rate": 0.00011074905534563235,
      "loss": 2.0673,
      "step": 20087
    },
    {
      "epoch": 0.4464,
      "grad_norm": 1.1897462606430054,
      "learning_rate": 0.00011074460991331408,
      "loss": 0.6717,
      "step": 20088
    },
    {
      "epoch": 0.4464222222222222,
      "grad_norm": 1.9625314474105835,
      "learning_rate": 0.00011074016448099577,
      "loss": 1.925,
      "step": 20089
    },
    {
      "epoch": 0.4464444444444444,
      "grad_norm": 1.4041763544082642,
      "learning_rate": 0.0001107357190486775,
      "loss": 1.6119,
      "step": 20090
    },
    {
      "epoch": 0.4464666666666667,
      "grad_norm": 1.7589751482009888,
      "learning_rate": 0.0001107312736163592,
      "loss": 1.9131,
      "step": 20091
    },
    {
      "epoch": 0.4464888888888889,
      "grad_norm": 1.864448070526123,
      "learning_rate": 0.0001107268281840409,
      "loss": 1.7637,
      "step": 20092
    },
    {
      "epoch": 0.44651111111111114,
      "grad_norm": 3.1727781295776367,
      "learning_rate": 0.00011072238275172262,
      "loss": 1.5971,
      "step": 20093
    },
    {
      "epoch": 0.44653333333333334,
      "grad_norm": 1.4794467687606812,
      "learning_rate": 0.00011071793731940432,
      "loss": 1.3395,
      "step": 20094
    },
    {
      "epoch": 0.44655555555555554,
      "grad_norm": 1.9871249198913574,
      "learning_rate": 0.00011071349188708602,
      "loss": 1.8454,
      "step": 20095
    },
    {
      "epoch": 0.4465777777777778,
      "grad_norm": 1.6172981262207031,
      "learning_rate": 0.00011070904645476774,
      "loss": 1.8533,
      "step": 20096
    },
    {
      "epoch": 0.4466,
      "grad_norm": 1.8105621337890625,
      "learning_rate": 0.00011070460102244944,
      "loss": 2.0063,
      "step": 20097
    },
    {
      "epoch": 0.4466222222222222,
      "grad_norm": 1.6944228410720825,
      "learning_rate": 0.00011070015559013113,
      "loss": 1.7444,
      "step": 20098
    },
    {
      "epoch": 0.44664444444444446,
      "grad_norm": 2.4663031101226807,
      "learning_rate": 0.00011069571015781286,
      "loss": 2.0386,
      "step": 20099
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 1.7480289936065674,
      "learning_rate": 0.00011069126472549456,
      "loss": 1.3269,
      "step": 20100
    },
    {
      "epoch": 0.4466888888888889,
      "grad_norm": 1.3806086778640747,
      "learning_rate": 0.00011068681929317626,
      "loss": 2.7693,
      "step": 20101
    },
    {
      "epoch": 0.4467111111111111,
      "grad_norm": 1.436835765838623,
      "learning_rate": 0.00011068237386085798,
      "loss": 2.6884,
      "step": 20102
    },
    {
      "epoch": 0.4467333333333333,
      "grad_norm": 1.5275170803070068,
      "learning_rate": 0.00011067792842853968,
      "loss": 2.1282,
      "step": 20103
    },
    {
      "epoch": 0.4467555555555556,
      "grad_norm": 1.709472417831421,
      "learning_rate": 0.00011067348299622138,
      "loss": 2.196,
      "step": 20104
    },
    {
      "epoch": 0.4467777777777778,
      "grad_norm": 1.6128873825073242,
      "learning_rate": 0.0001106690375639031,
      "loss": 2.1513,
      "step": 20105
    },
    {
      "epoch": 0.4468,
      "grad_norm": 1.592437982559204,
      "learning_rate": 0.0001106645921315848,
      "loss": 2.3034,
      "step": 20106
    },
    {
      "epoch": 0.44682222222222223,
      "grad_norm": 1.5308588743209839,
      "learning_rate": 0.00011066014669926649,
      "loss": 2.2132,
      "step": 20107
    },
    {
      "epoch": 0.44684444444444443,
      "grad_norm": 1.6570959091186523,
      "learning_rate": 0.00011065570126694821,
      "loss": 1.9817,
      "step": 20108
    },
    {
      "epoch": 0.4468666666666667,
      "grad_norm": 1.564616084098816,
      "learning_rate": 0.00011065125583462992,
      "loss": 2.4248,
      "step": 20109
    },
    {
      "epoch": 0.4468888888888889,
      "grad_norm": 1.3604795932769775,
      "learning_rate": 0.00011064681040231163,
      "loss": 1.6566,
      "step": 20110
    },
    {
      "epoch": 0.4469111111111111,
      "grad_norm": 1.618166446685791,
      "learning_rate": 0.00011064236496999334,
      "loss": 2.1503,
      "step": 20111
    },
    {
      "epoch": 0.44693333333333335,
      "grad_norm": 1.4160412549972534,
      "learning_rate": 0.00011063791953767504,
      "loss": 1.6555,
      "step": 20112
    },
    {
      "epoch": 0.44695555555555555,
      "grad_norm": 1.7332080602645874,
      "learning_rate": 0.00011063347410535676,
      "loss": 2.1872,
      "step": 20113
    },
    {
      "epoch": 0.44697777777777775,
      "grad_norm": 1.404492974281311,
      "learning_rate": 0.00011062902867303846,
      "loss": 2.0721,
      "step": 20114
    },
    {
      "epoch": 0.447,
      "grad_norm": 1.6380786895751953,
      "learning_rate": 0.00011062458324072015,
      "loss": 2.182,
      "step": 20115
    },
    {
      "epoch": 0.4470222222222222,
      "grad_norm": 1.319920539855957,
      "learning_rate": 0.00011062013780840188,
      "loss": 2.0657,
      "step": 20116
    },
    {
      "epoch": 0.44704444444444447,
      "grad_norm": 1.764347791671753,
      "learning_rate": 0.00011061569237608357,
      "loss": 1.9842,
      "step": 20117
    },
    {
      "epoch": 0.44706666666666667,
      "grad_norm": 1.8176864385604858,
      "learning_rate": 0.00011061124694376528,
      "loss": 2.2425,
      "step": 20118
    },
    {
      "epoch": 0.44708888888888887,
      "grad_norm": 1.1172939538955688,
      "learning_rate": 0.00011060680151144701,
      "loss": 1.0011,
      "step": 20119
    },
    {
      "epoch": 0.4471111111111111,
      "grad_norm": 1.6148439645767212,
      "learning_rate": 0.0001106023560791287,
      "loss": 1.3508,
      "step": 20120
    },
    {
      "epoch": 0.4471333333333333,
      "grad_norm": 1.9765087366104126,
      "learning_rate": 0.0001105979106468104,
      "loss": 1.9042,
      "step": 20121
    },
    {
      "epoch": 0.44715555555555553,
      "grad_norm": 2.086496353149414,
      "learning_rate": 0.00011059346521449212,
      "loss": 1.9854,
      "step": 20122
    },
    {
      "epoch": 0.4471777777777778,
      "grad_norm": 1.6401114463806152,
      "learning_rate": 0.00011058901978217382,
      "loss": 2.2737,
      "step": 20123
    },
    {
      "epoch": 0.4472,
      "grad_norm": 1.6401978731155396,
      "learning_rate": 0.00011058457434985551,
      "loss": 1.6246,
      "step": 20124
    },
    {
      "epoch": 0.44722222222222224,
      "grad_norm": 1.7805145978927612,
      "learning_rate": 0.00011058012891753724,
      "loss": 1.713,
      "step": 20125
    },
    {
      "epoch": 0.44724444444444444,
      "grad_norm": 1.5050231218338013,
      "learning_rate": 0.00011057568348521893,
      "loss": 2.1188,
      "step": 20126
    },
    {
      "epoch": 0.44726666666666665,
      "grad_norm": 1.6703970432281494,
      "learning_rate": 0.00011057123805290066,
      "loss": 1.9487,
      "step": 20127
    },
    {
      "epoch": 0.4472888888888889,
      "grad_norm": 1.5199702978134155,
      "learning_rate": 0.00011056679262058237,
      "loss": 1.8902,
      "step": 20128
    },
    {
      "epoch": 0.4473111111111111,
      "grad_norm": 1.6764336824417114,
      "learning_rate": 0.00011056234718826406,
      "loss": 1.661,
      "step": 20129
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 1.4501508474349976,
      "learning_rate": 0.00011055790175594579,
      "loss": 1.6619,
      "step": 20130
    },
    {
      "epoch": 0.44735555555555556,
      "grad_norm": 1.6627405881881714,
      "learning_rate": 0.00011055345632362748,
      "loss": 1.5019,
      "step": 20131
    },
    {
      "epoch": 0.44737777777777776,
      "grad_norm": 1.7940080165863037,
      "learning_rate": 0.00011054901089130918,
      "loss": 1.9238,
      "step": 20132
    },
    {
      "epoch": 0.4474,
      "grad_norm": 1.5240124464035034,
      "learning_rate": 0.0001105445654589909,
      "loss": 1.8345,
      "step": 20133
    },
    {
      "epoch": 0.4474222222222222,
      "grad_norm": 1.581464171409607,
      "learning_rate": 0.0001105401200266726,
      "loss": 2.0752,
      "step": 20134
    },
    {
      "epoch": 0.4474444444444444,
      "grad_norm": 1.6711927652359009,
      "learning_rate": 0.00011053567459435429,
      "loss": 1.5619,
      "step": 20135
    },
    {
      "epoch": 0.4474666666666667,
      "grad_norm": 1.9385627508163452,
      "learning_rate": 0.00011053122916203602,
      "loss": 2.1938,
      "step": 20136
    },
    {
      "epoch": 0.4474888888888889,
      "grad_norm": 1.8317606449127197,
      "learning_rate": 0.00011052678372971773,
      "loss": 2.0707,
      "step": 20137
    },
    {
      "epoch": 0.44751111111111114,
      "grad_norm": 1.704322338104248,
      "learning_rate": 0.00011052233829739942,
      "loss": 2.2722,
      "step": 20138
    },
    {
      "epoch": 0.44753333333333334,
      "grad_norm": 2.0941131114959717,
      "learning_rate": 0.00011051789286508115,
      "loss": 2.3658,
      "step": 20139
    },
    {
      "epoch": 0.44755555555555554,
      "grad_norm": 1.617258906364441,
      "learning_rate": 0.00011051344743276284,
      "loss": 1.908,
      "step": 20140
    },
    {
      "epoch": 0.4475777777777778,
      "grad_norm": 1.4817129373550415,
      "learning_rate": 0.00011050900200044454,
      "loss": 1.6424,
      "step": 20141
    },
    {
      "epoch": 0.4476,
      "grad_norm": 1.6111339330673218,
      "learning_rate": 0.00011050455656812626,
      "loss": 1.7254,
      "step": 20142
    },
    {
      "epoch": 0.4476222222222222,
      "grad_norm": 1.8569750785827637,
      "learning_rate": 0.00011050011113580796,
      "loss": 2.1153,
      "step": 20143
    },
    {
      "epoch": 0.44764444444444446,
      "grad_norm": 1.376625657081604,
      "learning_rate": 0.00011049566570348965,
      "loss": 1.6185,
      "step": 20144
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 1.4326660633087158,
      "learning_rate": 0.00011049122027117138,
      "loss": 1.4745,
      "step": 20145
    },
    {
      "epoch": 0.4476888888888889,
      "grad_norm": 1.6231927871704102,
      "learning_rate": 0.00011048677483885309,
      "loss": 1.7152,
      "step": 20146
    },
    {
      "epoch": 0.4477111111111111,
      "grad_norm": 1.991997241973877,
      "learning_rate": 0.0001104823294065348,
      "loss": 1.5078,
      "step": 20147
    },
    {
      "epoch": 0.4477333333333333,
      "grad_norm": 2.029341459274292,
      "learning_rate": 0.0001104778839742165,
      "loss": 2.1015,
      "step": 20148
    },
    {
      "epoch": 0.4477555555555556,
      "grad_norm": 1.4333919286727905,
      "learning_rate": 0.0001104734385418982,
      "loss": 1.2612,
      "step": 20149
    },
    {
      "epoch": 0.4477777777777778,
      "grad_norm": 1.78551185131073,
      "learning_rate": 0.00011046899310957992,
      "loss": 0.9002,
      "step": 20150
    },
    {
      "epoch": 0.4478,
      "grad_norm": 1.1919703483581543,
      "learning_rate": 0.00011046454767726162,
      "loss": 1.4887,
      "step": 20151
    },
    {
      "epoch": 0.44782222222222223,
      "grad_norm": 1.5408984422683716,
      "learning_rate": 0.00011046010224494332,
      "loss": 2.1159,
      "step": 20152
    },
    {
      "epoch": 0.44784444444444443,
      "grad_norm": 1.583277702331543,
      "learning_rate": 0.00011045565681262504,
      "loss": 2.3581,
      "step": 20153
    },
    {
      "epoch": 0.4478666666666667,
      "grad_norm": 1.4174331426620483,
      "learning_rate": 0.00011045121138030674,
      "loss": 1.9729,
      "step": 20154
    },
    {
      "epoch": 0.4478888888888889,
      "grad_norm": 1.6865313053131104,
      "learning_rate": 0.00011044676594798844,
      "loss": 2.5033,
      "step": 20155
    },
    {
      "epoch": 0.4479111111111111,
      "grad_norm": 1.6650999784469604,
      "learning_rate": 0.00011044232051567017,
      "loss": 0.9711,
      "step": 20156
    },
    {
      "epoch": 0.44793333333333335,
      "grad_norm": 1.7008956670761108,
      "learning_rate": 0.00011043787508335186,
      "loss": 2.4995,
      "step": 20157
    },
    {
      "epoch": 0.44795555555555555,
      "grad_norm": 1.7756937742233276,
      "learning_rate": 0.00011043342965103356,
      "loss": 2.4226,
      "step": 20158
    },
    {
      "epoch": 0.44797777777777775,
      "grad_norm": 1.479249119758606,
      "learning_rate": 0.00011042898421871528,
      "loss": 2.1291,
      "step": 20159
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.6074029207229614,
      "learning_rate": 0.00011042453878639698,
      "loss": 2.3334,
      "step": 20160
    },
    {
      "epoch": 0.4480222222222222,
      "grad_norm": 1.6363277435302734,
      "learning_rate": 0.00011042009335407868,
      "loss": 2.1103,
      "step": 20161
    },
    {
      "epoch": 0.44804444444444447,
      "grad_norm": 1.6360671520233154,
      "learning_rate": 0.0001104156479217604,
      "loss": 2.2297,
      "step": 20162
    },
    {
      "epoch": 0.44806666666666667,
      "grad_norm": 1.2587864398956299,
      "learning_rate": 0.0001104112024894421,
      "loss": 1.866,
      "step": 20163
    },
    {
      "epoch": 0.44808888888888887,
      "grad_norm": 1.7675201892852783,
      "learning_rate": 0.0001104067570571238,
      "loss": 2.2305,
      "step": 20164
    },
    {
      "epoch": 0.4481111111111111,
      "grad_norm": 1.644986629486084,
      "learning_rate": 0.00011040231162480553,
      "loss": 2.1356,
      "step": 20165
    },
    {
      "epoch": 0.44813333333333333,
      "grad_norm": 1.3524541854858398,
      "learning_rate": 0.00011039786619248722,
      "loss": 1.8562,
      "step": 20166
    },
    {
      "epoch": 0.44815555555555553,
      "grad_norm": 1.6207302808761597,
      "learning_rate": 0.00011039342076016895,
      "loss": 2.0487,
      "step": 20167
    },
    {
      "epoch": 0.4481777777777778,
      "grad_norm": 1.4250853061676025,
      "learning_rate": 0.00011038897532785064,
      "loss": 1.6887,
      "step": 20168
    },
    {
      "epoch": 0.4482,
      "grad_norm": 1.5822104215621948,
      "learning_rate": 0.00011038452989553234,
      "loss": 1.7778,
      "step": 20169
    },
    {
      "epoch": 0.44822222222222224,
      "grad_norm": 1.5923027992248535,
      "learning_rate": 0.00011038008446321406,
      "loss": 1.7023,
      "step": 20170
    },
    {
      "epoch": 0.44824444444444445,
      "grad_norm": 1.3199350833892822,
      "learning_rate": 0.00011037563903089576,
      "loss": 1.821,
      "step": 20171
    },
    {
      "epoch": 0.44826666666666665,
      "grad_norm": 1.7438610792160034,
      "learning_rate": 0.00011037119359857745,
      "loss": 2.3089,
      "step": 20172
    },
    {
      "epoch": 0.4482888888888889,
      "grad_norm": 1.7531349658966064,
      "learning_rate": 0.00011036674816625918,
      "loss": 2.1156,
      "step": 20173
    },
    {
      "epoch": 0.4483111111111111,
      "grad_norm": 1.5873842239379883,
      "learning_rate": 0.00011036230273394089,
      "loss": 2.196,
      "step": 20174
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 1.4585199356079102,
      "learning_rate": 0.00011035785730162258,
      "loss": 2.0435,
      "step": 20175
    },
    {
      "epoch": 0.44835555555555556,
      "grad_norm": 1.8077828884124756,
      "learning_rate": 0.0001103534118693043,
      "loss": 2.0735,
      "step": 20176
    },
    {
      "epoch": 0.44837777777777776,
      "grad_norm": 1.7407572269439697,
      "learning_rate": 0.000110348966436986,
      "loss": 2.312,
      "step": 20177
    },
    {
      "epoch": 0.4484,
      "grad_norm": 1.910544753074646,
      "learning_rate": 0.0001103445210046677,
      "loss": 2.3197,
      "step": 20178
    },
    {
      "epoch": 0.4484222222222222,
      "grad_norm": 1.845597505569458,
      "learning_rate": 0.00011034007557234942,
      "loss": 1.951,
      "step": 20179
    },
    {
      "epoch": 0.4484444444444444,
      "grad_norm": 1.7946761846542358,
      "learning_rate": 0.00011033563014003112,
      "loss": 1.8804,
      "step": 20180
    },
    {
      "epoch": 0.4484666666666667,
      "grad_norm": 2.1122844219207764,
      "learning_rate": 0.00011033118470771281,
      "loss": 1.9411,
      "step": 20181
    },
    {
      "epoch": 0.4484888888888889,
      "grad_norm": 1.5293476581573486,
      "learning_rate": 0.00011032673927539454,
      "loss": 1.6845,
      "step": 20182
    },
    {
      "epoch": 0.44851111111111114,
      "grad_norm": 1.5220308303833008,
      "learning_rate": 0.00011032229384307625,
      "loss": 2.1108,
      "step": 20183
    },
    {
      "epoch": 0.44853333333333334,
      "grad_norm": 1.7719532251358032,
      "learning_rate": 0.00011031784841075796,
      "loss": 1.8305,
      "step": 20184
    },
    {
      "epoch": 0.44855555555555554,
      "grad_norm": 1.3475950956344604,
      "learning_rate": 0.00011031340297843967,
      "loss": 1.6134,
      "step": 20185
    },
    {
      "epoch": 0.4485777777777778,
      "grad_norm": 2.040174961090088,
      "learning_rate": 0.00011030895754612136,
      "loss": 2.4164,
      "step": 20186
    },
    {
      "epoch": 0.4486,
      "grad_norm": 1.6131852865219116,
      "learning_rate": 0.00011030451211380308,
      "loss": 1.9726,
      "step": 20187
    },
    {
      "epoch": 0.4486222222222222,
      "grad_norm": 1.6068235635757446,
      "learning_rate": 0.00011030006668148478,
      "loss": 1.9359,
      "step": 20188
    },
    {
      "epoch": 0.44864444444444446,
      "grad_norm": 1.954905390739441,
      "learning_rate": 0.00011029562124916648,
      "loss": 1.8517,
      "step": 20189
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 1.5334584712982178,
      "learning_rate": 0.0001102911758168482,
      "loss": 1.7368,
      "step": 20190
    },
    {
      "epoch": 0.4486888888888889,
      "grad_norm": 2.0829060077667236,
      "learning_rate": 0.0001102867303845299,
      "loss": 2.0324,
      "step": 20191
    },
    {
      "epoch": 0.4487111111111111,
      "grad_norm": 2.250699758529663,
      "learning_rate": 0.0001102822849522116,
      "loss": 1.7403,
      "step": 20192
    },
    {
      "epoch": 0.4487333333333333,
      "grad_norm": 1.6727051734924316,
      "learning_rate": 0.00011027783951989333,
      "loss": 1.9258,
      "step": 20193
    },
    {
      "epoch": 0.4487555555555556,
      "grad_norm": 1.8231695890426636,
      "learning_rate": 0.00011027339408757502,
      "loss": 1.8362,
      "step": 20194
    },
    {
      "epoch": 0.4487777777777778,
      "grad_norm": 2.1734795570373535,
      "learning_rate": 0.00011026894865525672,
      "loss": 2.2333,
      "step": 20195
    },
    {
      "epoch": 0.4488,
      "grad_norm": 1.908618450164795,
      "learning_rate": 0.00011026450322293844,
      "loss": 1.8755,
      "step": 20196
    },
    {
      "epoch": 0.44882222222222223,
      "grad_norm": 1.7997746467590332,
      "learning_rate": 0.00011026005779062014,
      "loss": 1.6802,
      "step": 20197
    },
    {
      "epoch": 0.44884444444444443,
      "grad_norm": 1.8557251691818237,
      "learning_rate": 0.00011025561235830184,
      "loss": 1.4247,
      "step": 20198
    },
    {
      "epoch": 0.4488666666666667,
      "grad_norm": 1.377227783203125,
      "learning_rate": 0.00011025116692598356,
      "loss": 0.997,
      "step": 20199
    },
    {
      "epoch": 0.4488888888888889,
      "grad_norm": 1.4773778915405273,
      "learning_rate": 0.00011024672149366526,
      "loss": 1.1909,
      "step": 20200
    },
    {
      "epoch": 0.4489111111111111,
      "grad_norm": 1.563785195350647,
      "learning_rate": 0.00011024227606134697,
      "loss": 2.7167,
      "step": 20201
    },
    {
      "epoch": 0.44893333333333335,
      "grad_norm": 1.2337909936904907,
      "learning_rate": 0.00011023783062902869,
      "loss": 1.2488,
      "step": 20202
    },
    {
      "epoch": 0.44895555555555555,
      "grad_norm": 1.2810980081558228,
      "learning_rate": 0.00011023338519671038,
      "loss": 2.3941,
      "step": 20203
    },
    {
      "epoch": 0.44897777777777775,
      "grad_norm": 1.539953351020813,
      "learning_rate": 0.00011022893976439211,
      "loss": 2.3017,
      "step": 20204
    },
    {
      "epoch": 0.449,
      "grad_norm": 1.3478800058364868,
      "learning_rate": 0.0001102244943320738,
      "loss": 2.1708,
      "step": 20205
    },
    {
      "epoch": 0.4490222222222222,
      "grad_norm": 1.4455313682556152,
      "learning_rate": 0.0001102200488997555,
      "loss": 2.653,
      "step": 20206
    },
    {
      "epoch": 0.44904444444444447,
      "grad_norm": 1.4698457717895508,
      "learning_rate": 0.00011021560346743722,
      "loss": 2.2545,
      "step": 20207
    },
    {
      "epoch": 0.44906666666666667,
      "grad_norm": 1.4358912706375122,
      "learning_rate": 0.00011021115803511892,
      "loss": 2.0056,
      "step": 20208
    },
    {
      "epoch": 0.44908888888888887,
      "grad_norm": 1.5199308395385742,
      "learning_rate": 0.00011020671260280062,
      "loss": 2.3503,
      "step": 20209
    },
    {
      "epoch": 0.4491111111111111,
      "grad_norm": 1.4271492958068848,
      "learning_rate": 0.00011020226717048234,
      "loss": 1.8749,
      "step": 20210
    },
    {
      "epoch": 0.44913333333333333,
      "grad_norm": 1.3101967573165894,
      "learning_rate": 0.00011019782173816405,
      "loss": 1.3998,
      "step": 20211
    },
    {
      "epoch": 0.44915555555555553,
      "grad_norm": 2.066664695739746,
      "learning_rate": 0.00011019337630584574,
      "loss": 2.7038,
      "step": 20212
    },
    {
      "epoch": 0.4491777777777778,
      "grad_norm": 1.5180690288543701,
      "learning_rate": 0.00011018893087352747,
      "loss": 2.033,
      "step": 20213
    },
    {
      "epoch": 0.4492,
      "grad_norm": 1.3109842538833618,
      "learning_rate": 0.00011018448544120916,
      "loss": 2.183,
      "step": 20214
    },
    {
      "epoch": 0.44922222222222224,
      "grad_norm": 1.4892183542251587,
      "learning_rate": 0.00011018004000889086,
      "loss": 2.23,
      "step": 20215
    },
    {
      "epoch": 0.44924444444444445,
      "grad_norm": 1.5654079914093018,
      "learning_rate": 0.00011017559457657258,
      "loss": 1.6823,
      "step": 20216
    },
    {
      "epoch": 0.44926666666666665,
      "grad_norm": 1.7354328632354736,
      "learning_rate": 0.00011017114914425428,
      "loss": 2.2451,
      "step": 20217
    },
    {
      "epoch": 0.4492888888888889,
      "grad_norm": 1.7896456718444824,
      "learning_rate": 0.00011016670371193597,
      "loss": 2.0693,
      "step": 20218
    },
    {
      "epoch": 0.4493111111111111,
      "grad_norm": 1.5821774005889893,
      "learning_rate": 0.0001101622582796177,
      "loss": 2.1117,
      "step": 20219
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 1.6161376237869263,
      "learning_rate": 0.00011015781284729941,
      "loss": 2.0927,
      "step": 20220
    },
    {
      "epoch": 0.44935555555555556,
      "grad_norm": 1.6052756309509277,
      "learning_rate": 0.0001101533674149811,
      "loss": 2.4793,
      "step": 20221
    },
    {
      "epoch": 0.44937777777777776,
      "grad_norm": 1.623642921447754,
      "learning_rate": 0.00011014892198266283,
      "loss": 1.9411,
      "step": 20222
    },
    {
      "epoch": 0.4494,
      "grad_norm": 1.4882982969284058,
      "learning_rate": 0.00011014447655034452,
      "loss": 1.9555,
      "step": 20223
    },
    {
      "epoch": 0.4494222222222222,
      "grad_norm": 1.4219090938568115,
      "learning_rate": 0.00011014003111802625,
      "loss": 1.562,
      "step": 20224
    },
    {
      "epoch": 0.4494444444444444,
      "grad_norm": 1.6148031949996948,
      "learning_rate": 0.00011013558568570794,
      "loss": 1.8712,
      "step": 20225
    },
    {
      "epoch": 0.4494666666666667,
      "grad_norm": 1.7012042999267578,
      "learning_rate": 0.00011013114025338964,
      "loss": 1.8786,
      "step": 20226
    },
    {
      "epoch": 0.4494888888888889,
      "grad_norm": 1.9614527225494385,
      "learning_rate": 0.00011012669482107136,
      "loss": 1.8686,
      "step": 20227
    },
    {
      "epoch": 0.4495111111111111,
      "grad_norm": 1.6449939012527466,
      "learning_rate": 0.00011012224938875306,
      "loss": 2.1393,
      "step": 20228
    },
    {
      "epoch": 0.44953333333333334,
      "grad_norm": 1.5764350891113281,
      "learning_rate": 0.00011011780395643477,
      "loss": 1.7912,
      "step": 20229
    },
    {
      "epoch": 0.44955555555555554,
      "grad_norm": 1.7755489349365234,
      "learning_rate": 0.00011011335852411649,
      "loss": 1.9767,
      "step": 20230
    },
    {
      "epoch": 0.4495777777777778,
      "grad_norm": 1.7133868932724,
      "learning_rate": 0.00011010891309179819,
      "loss": 1.9253,
      "step": 20231
    },
    {
      "epoch": 0.4496,
      "grad_norm": 1.1939506530761719,
      "learning_rate": 0.00011010446765947988,
      "loss": 0.8899,
      "step": 20232
    },
    {
      "epoch": 0.4496222222222222,
      "grad_norm": 1.777825117111206,
      "learning_rate": 0.0001101000222271616,
      "loss": 1.4309,
      "step": 20233
    },
    {
      "epoch": 0.44964444444444446,
      "grad_norm": 1.776131510734558,
      "learning_rate": 0.0001100955767948433,
      "loss": 1.9257,
      "step": 20234
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 1.8828026056289673,
      "learning_rate": 0.000110091131362525,
      "loss": 1.9082,
      "step": 20235
    },
    {
      "epoch": 0.4496888888888889,
      "grad_norm": 1.6046823263168335,
      "learning_rate": 0.00011008668593020672,
      "loss": 1.7701,
      "step": 20236
    },
    {
      "epoch": 0.4497111111111111,
      "grad_norm": 1.6290146112442017,
      "learning_rate": 0.00011008224049788842,
      "loss": 1.9772,
      "step": 20237
    },
    {
      "epoch": 0.4497333333333333,
      "grad_norm": 1.8722445964813232,
      "learning_rate": 0.00011007779506557013,
      "loss": 1.9126,
      "step": 20238
    },
    {
      "epoch": 0.4497555555555556,
      "grad_norm": 1.7999359369277954,
      "learning_rate": 0.00011007334963325185,
      "loss": 2.0807,
      "step": 20239
    },
    {
      "epoch": 0.4497777777777778,
      "grad_norm": 1.605150580406189,
      "learning_rate": 0.00011006890420093355,
      "loss": 1.9331,
      "step": 20240
    },
    {
      "epoch": 0.4498,
      "grad_norm": 1.3847442865371704,
      "learning_rate": 0.00011006445876861527,
      "loss": 1.5663,
      "step": 20241
    },
    {
      "epoch": 0.44982222222222223,
      "grad_norm": 1.9447375535964966,
      "learning_rate": 0.00011006001333629696,
      "loss": 2.0462,
      "step": 20242
    },
    {
      "epoch": 0.44984444444444444,
      "grad_norm": 1.4773563146591187,
      "learning_rate": 0.00011005556790397866,
      "loss": 1.3597,
      "step": 20243
    },
    {
      "epoch": 0.4498666666666667,
      "grad_norm": 1.9680449962615967,
      "learning_rate": 0.00011005112247166038,
      "loss": 2.101,
      "step": 20244
    },
    {
      "epoch": 0.4498888888888889,
      "grad_norm": 1.7320380210876465,
      "learning_rate": 0.00011004667703934208,
      "loss": 1.7727,
      "step": 20245
    },
    {
      "epoch": 0.4499111111111111,
      "grad_norm": 1.636098027229309,
      "learning_rate": 0.00011004223160702378,
      "loss": 1.7223,
      "step": 20246
    },
    {
      "epoch": 0.44993333333333335,
      "grad_norm": 1.8648759126663208,
      "learning_rate": 0.0001100377861747055,
      "loss": 2.1762,
      "step": 20247
    },
    {
      "epoch": 0.44995555555555555,
      "grad_norm": 1.704567551612854,
      "learning_rate": 0.00011003334074238721,
      "loss": 1.8513,
      "step": 20248
    },
    {
      "epoch": 0.44997777777777775,
      "grad_norm": 1.679063081741333,
      "learning_rate": 0.0001100288953100689,
      "loss": 1.5117,
      "step": 20249
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7059177160263062,
      "learning_rate": 0.00011002444987775063,
      "loss": 1.5357,
      "step": 20250
    },
    {
      "epoch": 0.4500222222222222,
      "grad_norm": 1.1630419492721558,
      "learning_rate": 0.00011002000444543232,
      "loss": 1.2957,
      "step": 20251
    },
    {
      "epoch": 0.45004444444444447,
      "grad_norm": 1.4105898141860962,
      "learning_rate": 0.00011001555901311402,
      "loss": 1.041,
      "step": 20252
    },
    {
      "epoch": 0.45006666666666667,
      "grad_norm": 1.3342432975769043,
      "learning_rate": 0.00011001111358079574,
      "loss": 2.2769,
      "step": 20253
    },
    {
      "epoch": 0.45008888888888887,
      "grad_norm": 1.4818373918533325,
      "learning_rate": 0.00011000666814847744,
      "loss": 2.0879,
      "step": 20254
    },
    {
      "epoch": 0.45011111111111113,
      "grad_norm": 1.6292766332626343,
      "learning_rate": 0.00011000222271615914,
      "loss": 2.499,
      "step": 20255
    },
    {
      "epoch": 0.45013333333333333,
      "grad_norm": 2.246995449066162,
      "learning_rate": 0.00010999777728384086,
      "loss": 2.4547,
      "step": 20256
    },
    {
      "epoch": 0.45015555555555553,
      "grad_norm": 1.6664626598358154,
      "learning_rate": 0.00010999333185152257,
      "loss": 2.1946,
      "step": 20257
    },
    {
      "epoch": 0.4501777777777778,
      "grad_norm": 1.3081897497177124,
      "learning_rate": 0.00010998888641920426,
      "loss": 2.1395,
      "step": 20258
    },
    {
      "epoch": 0.4502,
      "grad_norm": 1.2559024095535278,
      "learning_rate": 0.00010998444098688599,
      "loss": 0.6815,
      "step": 20259
    },
    {
      "epoch": 0.45022222222222225,
      "grad_norm": 1.4157241582870483,
      "learning_rate": 0.00010997999555456768,
      "loss": 1.9974,
      "step": 20260
    },
    {
      "epoch": 0.45024444444444445,
      "grad_norm": 1.6512200832366943,
      "learning_rate": 0.00010997555012224941,
      "loss": 2.2093,
      "step": 20261
    },
    {
      "epoch": 0.45026666666666665,
      "grad_norm": 1.4818979501724243,
      "learning_rate": 0.0001099711046899311,
      "loss": 1.7319,
      "step": 20262
    },
    {
      "epoch": 0.4502888888888889,
      "grad_norm": 1.8198305368423462,
      "learning_rate": 0.0001099666592576128,
      "loss": 1.1969,
      "step": 20263
    },
    {
      "epoch": 0.4503111111111111,
      "grad_norm": 1.5864086151123047,
      "learning_rate": 0.00010996221382529452,
      "loss": 2.3445,
      "step": 20264
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 1.6575802564620972,
      "learning_rate": 0.00010995776839297622,
      "loss": 1.6365,
      "step": 20265
    },
    {
      "epoch": 0.45035555555555556,
      "grad_norm": 1.5900301933288574,
      "learning_rate": 0.00010995332296065793,
      "loss": 1.9803,
      "step": 20266
    },
    {
      "epoch": 0.45037777777777777,
      "grad_norm": 1.2035114765167236,
      "learning_rate": 0.00010994887752833965,
      "loss": 1.2238,
      "step": 20267
    },
    {
      "epoch": 0.4504,
      "grad_norm": 1.6093617677688599,
      "learning_rate": 0.00010994443209602135,
      "loss": 2.1216,
      "step": 20268
    },
    {
      "epoch": 0.4504222222222222,
      "grad_norm": 1.4503096342086792,
      "learning_rate": 0.00010993998666370304,
      "loss": 1.5595,
      "step": 20269
    },
    {
      "epoch": 0.4504444444444444,
      "grad_norm": 1.4704976081848145,
      "learning_rate": 0.00010993554123138477,
      "loss": 1.7458,
      "step": 20270
    },
    {
      "epoch": 0.4504666666666667,
      "grad_norm": 1.5140101909637451,
      "learning_rate": 0.00010993109579906646,
      "loss": 1.9292,
      "step": 20271
    },
    {
      "epoch": 0.4504888888888889,
      "grad_norm": 1.7470625638961792,
      "learning_rate": 0.00010992665036674816,
      "loss": 1.7124,
      "step": 20272
    },
    {
      "epoch": 0.4505111111111111,
      "grad_norm": 1.465664267539978,
      "learning_rate": 0.00010992220493442988,
      "loss": 1.9906,
      "step": 20273
    },
    {
      "epoch": 0.45053333333333334,
      "grad_norm": 1.7524168491363525,
      "learning_rate": 0.00010991775950211158,
      "loss": 1.5467,
      "step": 20274
    },
    {
      "epoch": 0.45055555555555554,
      "grad_norm": 1.3485190868377686,
      "learning_rate": 0.00010991331406979329,
      "loss": 1.5184,
      "step": 20275
    },
    {
      "epoch": 0.4505777777777778,
      "grad_norm": 1.6368504762649536,
      "learning_rate": 0.00010990886863747501,
      "loss": 2.0498,
      "step": 20276
    },
    {
      "epoch": 0.4506,
      "grad_norm": 0.8899389505386353,
      "learning_rate": 0.0001099044232051567,
      "loss": 0.0506,
      "step": 20277
    },
    {
      "epoch": 0.4506222222222222,
      "grad_norm": 1.1820063591003418,
      "learning_rate": 0.0001098999777728384,
      "loss": 0.859,
      "step": 20278
    },
    {
      "epoch": 0.45064444444444446,
      "grad_norm": 1.7522958517074585,
      "learning_rate": 0.00010989553234052013,
      "loss": 2.4096,
      "step": 20279
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 1.630757451057434,
      "learning_rate": 0.00010989108690820182,
      "loss": 1.9506,
      "step": 20280
    },
    {
      "epoch": 0.4506888888888889,
      "grad_norm": 1.4538531303405762,
      "learning_rate": 0.00010988664147588354,
      "loss": 1.8272,
      "step": 20281
    },
    {
      "epoch": 0.4507111111111111,
      "grad_norm": 1.634992003440857,
      "learning_rate": 0.00010988219604356524,
      "loss": 1.9207,
      "step": 20282
    },
    {
      "epoch": 0.4507333333333333,
      "grad_norm": 1.7377372980117798,
      "learning_rate": 0.00010987775061124694,
      "loss": 1.9043,
      "step": 20283
    },
    {
      "epoch": 0.4507555555555556,
      "grad_norm": 1.5103652477264404,
      "learning_rate": 0.00010987330517892866,
      "loss": 1.8392,
      "step": 20284
    },
    {
      "epoch": 0.4507777777777778,
      "grad_norm": 1.855759620666504,
      "learning_rate": 0.00010986885974661037,
      "loss": 1.82,
      "step": 20285
    },
    {
      "epoch": 0.4508,
      "grad_norm": 1.5302244424819946,
      "learning_rate": 0.00010986441431429207,
      "loss": 1.614,
      "step": 20286
    },
    {
      "epoch": 0.45082222222222224,
      "grad_norm": 1.672041416168213,
      "learning_rate": 0.00010985996888197379,
      "loss": 1.9583,
      "step": 20287
    },
    {
      "epoch": 0.45084444444444444,
      "grad_norm": 2.5779385566711426,
      "learning_rate": 0.00010985552344965549,
      "loss": 2.0363,
      "step": 20288
    },
    {
      "epoch": 0.4508666666666667,
      "grad_norm": 1.878475546836853,
      "learning_rate": 0.00010985107801733718,
      "loss": 2.0705,
      "step": 20289
    },
    {
      "epoch": 0.4508888888888889,
      "grad_norm": 2.0253703594207764,
      "learning_rate": 0.0001098466325850189,
      "loss": 2.1961,
      "step": 20290
    },
    {
      "epoch": 0.4509111111111111,
      "grad_norm": 1.6989701986312866,
      "learning_rate": 0.0001098421871527006,
      "loss": 2.0725,
      "step": 20291
    },
    {
      "epoch": 0.45093333333333335,
      "grad_norm": 1.9007997512817383,
      "learning_rate": 0.00010983774172038231,
      "loss": 2.1692,
      "step": 20292
    },
    {
      "epoch": 0.45095555555555555,
      "grad_norm": 1.6663213968276978,
      "learning_rate": 0.00010983329628806402,
      "loss": 1.6275,
      "step": 20293
    },
    {
      "epoch": 0.45097777777777776,
      "grad_norm": 1.3900189399719238,
      "learning_rate": 0.00010982885085574573,
      "loss": 1.4565,
      "step": 20294
    },
    {
      "epoch": 0.451,
      "grad_norm": 1.6316076517105103,
      "learning_rate": 0.00010982440542342743,
      "loss": 1.9105,
      "step": 20295
    },
    {
      "epoch": 0.4510222222222222,
      "grad_norm": 1.6749200820922852,
      "learning_rate": 0.00010981995999110915,
      "loss": 1.9168,
      "step": 20296
    },
    {
      "epoch": 0.45104444444444447,
      "grad_norm": 1.7605925798416138,
      "learning_rate": 0.00010981551455879084,
      "loss": 1.8792,
      "step": 20297
    },
    {
      "epoch": 0.45106666666666667,
      "grad_norm": 1.8719924688339233,
      "learning_rate": 0.00010981106912647257,
      "loss": 1.9218,
      "step": 20298
    },
    {
      "epoch": 0.4510888888888889,
      "grad_norm": 1.758855938911438,
      "learning_rate": 0.00010980662369415426,
      "loss": 1.8274,
      "step": 20299
    },
    {
      "epoch": 0.45111111111111113,
      "grad_norm": 2.0185794830322266,
      "learning_rate": 0.00010980217826183596,
      "loss": 1.3978,
      "step": 20300
    },
    {
      "epoch": 0.45113333333333333,
      "grad_norm": 1.6077396869659424,
      "learning_rate": 0.00010979773282951768,
      "loss": 2.7306,
      "step": 20301
    },
    {
      "epoch": 0.45115555555555553,
      "grad_norm": 0.9673523902893066,
      "learning_rate": 0.00010979328739719938,
      "loss": 1.1469,
      "step": 20302
    },
    {
      "epoch": 0.4511777777777778,
      "grad_norm": 1.5556647777557373,
      "learning_rate": 0.00010978884196488109,
      "loss": 2.7858,
      "step": 20303
    },
    {
      "epoch": 0.4512,
      "grad_norm": 1.476190447807312,
      "learning_rate": 0.00010978439653256281,
      "loss": 2.0443,
      "step": 20304
    },
    {
      "epoch": 0.45122222222222225,
      "grad_norm": 1.5781441926956177,
      "learning_rate": 0.00010977995110024451,
      "loss": 2.3239,
      "step": 20305
    },
    {
      "epoch": 0.45124444444444445,
      "grad_norm": 1.4300402402877808,
      "learning_rate": 0.0001097755056679262,
      "loss": 2.0905,
      "step": 20306
    },
    {
      "epoch": 0.45126666666666665,
      "grad_norm": 1.4634943008422852,
      "learning_rate": 0.00010977106023560793,
      "loss": 2.3404,
      "step": 20307
    },
    {
      "epoch": 0.4512888888888889,
      "grad_norm": 2.1098339557647705,
      "learning_rate": 0.00010976661480328962,
      "loss": 2.5379,
      "step": 20308
    },
    {
      "epoch": 0.4513111111111111,
      "grad_norm": 2.0688602924346924,
      "learning_rate": 0.00010976216937097132,
      "loss": 2.6467,
      "step": 20309
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 1.217985987663269,
      "learning_rate": 0.00010975772393865304,
      "loss": 1.9272,
      "step": 20310
    },
    {
      "epoch": 0.45135555555555557,
      "grad_norm": 1.8316401243209839,
      "learning_rate": 0.00010975327850633474,
      "loss": 2.521,
      "step": 20311
    },
    {
      "epoch": 0.45137777777777777,
      "grad_norm": 1.4329687356948853,
      "learning_rate": 0.00010974883307401645,
      "loss": 2.0727,
      "step": 20312
    },
    {
      "epoch": 0.4514,
      "grad_norm": 1.353070616722107,
      "learning_rate": 0.00010974438764169817,
      "loss": 1.74,
      "step": 20313
    },
    {
      "epoch": 0.4514222222222222,
      "grad_norm": 1.3755441904067993,
      "learning_rate": 0.00010973994220937987,
      "loss": 0.4696,
      "step": 20314
    },
    {
      "epoch": 0.4514444444444444,
      "grad_norm": 1.913583755493164,
      "learning_rate": 0.00010973549677706156,
      "loss": 1.9574,
      "step": 20315
    },
    {
      "epoch": 0.4514666666666667,
      "grad_norm": 1.4783813953399658,
      "learning_rate": 0.00010973105134474329,
      "loss": 1.9514,
      "step": 20316
    },
    {
      "epoch": 0.4514888888888889,
      "grad_norm": 1.9375817775726318,
      "learning_rate": 0.00010972660591242498,
      "loss": 2.2704,
      "step": 20317
    },
    {
      "epoch": 0.4515111111111111,
      "grad_norm": 1.8497318029403687,
      "learning_rate": 0.0001097221604801067,
      "loss": 2.1885,
      "step": 20318
    },
    {
      "epoch": 0.45153333333333334,
      "grad_norm": 1.3532086610794067,
      "learning_rate": 0.0001097177150477884,
      "loss": 1.5968,
      "step": 20319
    },
    {
      "epoch": 0.45155555555555554,
      "grad_norm": 1.3574298620224,
      "learning_rate": 0.0001097132696154701,
      "loss": 1.8275,
      "step": 20320
    },
    {
      "epoch": 0.4515777777777778,
      "grad_norm": 1.5404891967773438,
      "learning_rate": 0.00010970882418315182,
      "loss": 1.9685,
      "step": 20321
    },
    {
      "epoch": 0.4516,
      "grad_norm": 1.3563594818115234,
      "learning_rate": 0.00010970437875083353,
      "loss": 1.2387,
      "step": 20322
    },
    {
      "epoch": 0.4516222222222222,
      "grad_norm": 1.6013654470443726,
      "learning_rate": 0.00010969993331851523,
      "loss": 1.7753,
      "step": 20323
    },
    {
      "epoch": 0.45164444444444446,
      "grad_norm": 1.4779363870620728,
      "learning_rate": 0.00010969548788619695,
      "loss": 2.0597,
      "step": 20324
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 1.7039434909820557,
      "learning_rate": 0.00010969104245387865,
      "loss": 1.8675,
      "step": 20325
    },
    {
      "epoch": 0.45168888888888886,
      "grad_norm": 1.542284369468689,
      "learning_rate": 0.00010968659702156034,
      "loss": 2.1012,
      "step": 20326
    },
    {
      "epoch": 0.4517111111111111,
      "grad_norm": 1.923425555229187,
      "learning_rate": 0.00010968215158924207,
      "loss": 2.4624,
      "step": 20327
    },
    {
      "epoch": 0.4517333333333333,
      "grad_norm": 1.835524320602417,
      "learning_rate": 0.00010967770615692376,
      "loss": 1.8554,
      "step": 20328
    },
    {
      "epoch": 0.4517555555555556,
      "grad_norm": 1.8011977672576904,
      "learning_rate": 0.00010967326072460547,
      "loss": 2.2451,
      "step": 20329
    },
    {
      "epoch": 0.4517777777777778,
      "grad_norm": 1.9850972890853882,
      "learning_rate": 0.00010966881529228718,
      "loss": 2.1713,
      "step": 20330
    },
    {
      "epoch": 0.4518,
      "grad_norm": 1.8757307529449463,
      "learning_rate": 0.00010966436985996889,
      "loss": 1.5852,
      "step": 20331
    },
    {
      "epoch": 0.45182222222222224,
      "grad_norm": 1.5606920719146729,
      "learning_rate": 0.00010965992442765059,
      "loss": 1.9675,
      "step": 20332
    },
    {
      "epoch": 0.45184444444444444,
      "grad_norm": 1.734200358390808,
      "learning_rate": 0.00010965547899533231,
      "loss": 1.9407,
      "step": 20333
    },
    {
      "epoch": 0.4518666666666667,
      "grad_norm": 1.6284456253051758,
      "learning_rate": 0.000109651033563014,
      "loss": 1.9226,
      "step": 20334
    },
    {
      "epoch": 0.4518888888888889,
      "grad_norm": 1.6914585828781128,
      "learning_rate": 0.0001096465881306957,
      "loss": 2.1076,
      "step": 20335
    },
    {
      "epoch": 0.4519111111111111,
      "grad_norm": 1.0799294710159302,
      "learning_rate": 0.00010964214269837742,
      "loss": 1.1191,
      "step": 20336
    },
    {
      "epoch": 0.45193333333333335,
      "grad_norm": 1.561143159866333,
      "learning_rate": 0.00010963769726605912,
      "loss": 2.0424,
      "step": 20337
    },
    {
      "epoch": 0.45195555555555555,
      "grad_norm": 1.4738022089004517,
      "learning_rate": 0.00010963325183374084,
      "loss": 1.6332,
      "step": 20338
    },
    {
      "epoch": 0.45197777777777776,
      "grad_norm": 1.5160421133041382,
      "learning_rate": 0.00010962880640142254,
      "loss": 1.8286,
      "step": 20339
    },
    {
      "epoch": 0.452,
      "grad_norm": 1.7503050565719604,
      "learning_rate": 0.00010962436096910425,
      "loss": 1.8576,
      "step": 20340
    },
    {
      "epoch": 0.4520222222222222,
      "grad_norm": 1.7128703594207764,
      "learning_rate": 0.00010961991553678597,
      "loss": 1.9838,
      "step": 20341
    },
    {
      "epoch": 0.45204444444444447,
      "grad_norm": 1.942931890487671,
      "learning_rate": 0.00010961547010446767,
      "loss": 2.2129,
      "step": 20342
    },
    {
      "epoch": 0.45206666666666667,
      "grad_norm": 1.6092760562896729,
      "learning_rate": 0.00010961102467214937,
      "loss": 1.7393,
      "step": 20343
    },
    {
      "epoch": 0.4520888888888889,
      "grad_norm": 1.8510102033615112,
      "learning_rate": 0.00010960657923983109,
      "loss": 1.9734,
      "step": 20344
    },
    {
      "epoch": 0.45211111111111113,
      "grad_norm": 1.677270531654358,
      "learning_rate": 0.00010960213380751278,
      "loss": 1.6922,
      "step": 20345
    },
    {
      "epoch": 0.45213333333333333,
      "grad_norm": 2.1991450786590576,
      "learning_rate": 0.00010959768837519448,
      "loss": 2.2995,
      "step": 20346
    },
    {
      "epoch": 0.45215555555555553,
      "grad_norm": 1.8463548421859741,
      "learning_rate": 0.0001095932429428762,
      "loss": 2.3357,
      "step": 20347
    },
    {
      "epoch": 0.4521777777777778,
      "grad_norm": 1.6842775344848633,
      "learning_rate": 0.0001095887975105579,
      "loss": 1.7672,
      "step": 20348
    },
    {
      "epoch": 0.4522,
      "grad_norm": 1.8734365701675415,
      "learning_rate": 0.00010958435207823961,
      "loss": 1.9331,
      "step": 20349
    },
    {
      "epoch": 0.45222222222222225,
      "grad_norm": 0.9510806202888489,
      "learning_rate": 0.00010957990664592133,
      "loss": 0.6092,
      "step": 20350
    },
    {
      "epoch": 0.45224444444444445,
      "grad_norm": 1.1701723337173462,
      "learning_rate": 0.00010957546121360303,
      "loss": 1.547,
      "step": 20351
    },
    {
      "epoch": 0.45226666666666665,
      "grad_norm": 1.5013643503189087,
      "learning_rate": 0.00010957101578128472,
      "loss": 2.8194,
      "step": 20352
    },
    {
      "epoch": 0.4522888888888889,
      "grad_norm": 1.5270161628723145,
      "learning_rate": 0.00010956657034896645,
      "loss": 2.5112,
      "step": 20353
    },
    {
      "epoch": 0.4523111111111111,
      "grad_norm": 1.4689433574676514,
      "learning_rate": 0.00010956212491664814,
      "loss": 2.5437,
      "step": 20354
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 1.6180181503295898,
      "learning_rate": 0.00010955767948432987,
      "loss": 1.432,
      "step": 20355
    },
    {
      "epoch": 0.45235555555555557,
      "grad_norm": 1.3784759044647217,
      "learning_rate": 0.00010955323405201156,
      "loss": 2.4799,
      "step": 20356
    },
    {
      "epoch": 0.45237777777777777,
      "grad_norm": 1.8038182258605957,
      "learning_rate": 0.00010954878861969326,
      "loss": 2.503,
      "step": 20357
    },
    {
      "epoch": 0.4524,
      "grad_norm": 1.5197317600250244,
      "learning_rate": 0.00010954434318737498,
      "loss": 2.3877,
      "step": 20358
    },
    {
      "epoch": 0.4524222222222222,
      "grad_norm": 1.5489373207092285,
      "learning_rate": 0.00010953989775505669,
      "loss": 1.8767,
      "step": 20359
    },
    {
      "epoch": 0.4524444444444444,
      "grad_norm": 0.8832696080207825,
      "learning_rate": 0.00010953545232273839,
      "loss": 0.3039,
      "step": 20360
    },
    {
      "epoch": 0.4524666666666667,
      "grad_norm": 1.555612325668335,
      "learning_rate": 0.00010953100689042011,
      "loss": 2.108,
      "step": 20361
    },
    {
      "epoch": 0.4524888888888889,
      "grad_norm": 1.7537356615066528,
      "learning_rate": 0.00010952656145810181,
      "loss": 2.0488,
      "step": 20362
    },
    {
      "epoch": 0.4525111111111111,
      "grad_norm": 1.41855788230896,
      "learning_rate": 0.0001095221160257835,
      "loss": 1.7417,
      "step": 20363
    },
    {
      "epoch": 0.45253333333333334,
      "grad_norm": 1.570141077041626,
      "learning_rate": 0.00010951767059346523,
      "loss": 1.7794,
      "step": 20364
    },
    {
      "epoch": 0.45255555555555554,
      "grad_norm": 1.4946155548095703,
      "learning_rate": 0.00010951322516114692,
      "loss": 1.8166,
      "step": 20365
    },
    {
      "epoch": 0.4525777777777778,
      "grad_norm": 1.9820431470870972,
      "learning_rate": 0.00010950877972882863,
      "loss": 2.2291,
      "step": 20366
    },
    {
      "epoch": 0.4526,
      "grad_norm": 1.691182017326355,
      "learning_rate": 0.00010950433429651034,
      "loss": 1.9867,
      "step": 20367
    },
    {
      "epoch": 0.4526222222222222,
      "grad_norm": 1.527814269065857,
      "learning_rate": 0.00010949988886419205,
      "loss": 2.0799,
      "step": 20368
    },
    {
      "epoch": 0.45264444444444446,
      "grad_norm": 1.6261937618255615,
      "learning_rate": 0.00010949544343187375,
      "loss": 2.1246,
      "step": 20369
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 1.5637140274047852,
      "learning_rate": 0.00010949099799955547,
      "loss": 1.3633,
      "step": 20370
    },
    {
      "epoch": 0.45268888888888886,
      "grad_norm": 1.8270981311798096,
      "learning_rate": 0.00010948655256723717,
      "loss": 1.9083,
      "step": 20371
    },
    {
      "epoch": 0.4527111111111111,
      "grad_norm": 1.222795009613037,
      "learning_rate": 0.00010948210713491886,
      "loss": 1.6295,
      "step": 20372
    },
    {
      "epoch": 0.4527333333333333,
      "grad_norm": 1.6516412496566772,
      "learning_rate": 0.00010947766170260059,
      "loss": 1.8659,
      "step": 20373
    },
    {
      "epoch": 0.4527555555555556,
      "grad_norm": 1.6780157089233398,
      "learning_rate": 0.00010947321627028228,
      "loss": 2.3085,
      "step": 20374
    },
    {
      "epoch": 0.4527777777777778,
      "grad_norm": 1.736707329750061,
      "learning_rate": 0.000109468770837964,
      "loss": 2.0715,
      "step": 20375
    },
    {
      "epoch": 0.4528,
      "grad_norm": 1.5374466180801392,
      "learning_rate": 0.0001094643254056457,
      "loss": 1.748,
      "step": 20376
    },
    {
      "epoch": 0.45282222222222224,
      "grad_norm": 1.4904749393463135,
      "learning_rate": 0.00010945987997332741,
      "loss": 1.9039,
      "step": 20377
    },
    {
      "epoch": 0.45284444444444444,
      "grad_norm": 1.5616530179977417,
      "learning_rate": 0.00010945543454100913,
      "loss": 2.1107,
      "step": 20378
    },
    {
      "epoch": 0.45286666666666664,
      "grad_norm": 1.4015448093414307,
      "learning_rate": 0.00010945098910869083,
      "loss": 1.9376,
      "step": 20379
    },
    {
      "epoch": 0.4528888888888889,
      "grad_norm": 1.6410497426986694,
      "learning_rate": 0.00010944654367637253,
      "loss": 1.5117,
      "step": 20380
    },
    {
      "epoch": 0.4529111111111111,
      "grad_norm": 1.6988468170166016,
      "learning_rate": 0.00010944209824405425,
      "loss": 1.6268,
      "step": 20381
    },
    {
      "epoch": 0.45293333333333335,
      "grad_norm": 1.550907015800476,
      "learning_rate": 0.00010943765281173595,
      "loss": 1.7081,
      "step": 20382
    },
    {
      "epoch": 0.45295555555555556,
      "grad_norm": 1.385433316230774,
      "learning_rate": 0.00010943320737941764,
      "loss": 1.7132,
      "step": 20383
    },
    {
      "epoch": 0.45297777777777776,
      "grad_norm": 1.691436529159546,
      "learning_rate": 0.00010942876194709936,
      "loss": 1.9744,
      "step": 20384
    },
    {
      "epoch": 0.453,
      "grad_norm": 2.1509854793548584,
      "learning_rate": 0.00010942431651478106,
      "loss": 2.5365,
      "step": 20385
    },
    {
      "epoch": 0.4530222222222222,
      "grad_norm": 1.7048583030700684,
      "learning_rate": 0.00010941987108246277,
      "loss": 1.7487,
      "step": 20386
    },
    {
      "epoch": 0.45304444444444447,
      "grad_norm": 1.9547569751739502,
      "learning_rate": 0.0001094154256501445,
      "loss": 2.0495,
      "step": 20387
    },
    {
      "epoch": 0.4530666666666667,
      "grad_norm": 1.4902840852737427,
      "learning_rate": 0.00010941098021782619,
      "loss": 1.765,
      "step": 20388
    },
    {
      "epoch": 0.4530888888888889,
      "grad_norm": 1.6473795175552368,
      "learning_rate": 0.00010940653478550789,
      "loss": 1.6544,
      "step": 20389
    },
    {
      "epoch": 0.45311111111111113,
      "grad_norm": 1.6985647678375244,
      "learning_rate": 0.00010940208935318961,
      "loss": 1.9517,
      "step": 20390
    },
    {
      "epoch": 0.45313333333333333,
      "grad_norm": 1.434421420097351,
      "learning_rate": 0.0001093976439208713,
      "loss": 1.4886,
      "step": 20391
    },
    {
      "epoch": 0.45315555555555553,
      "grad_norm": 1.930492877960205,
      "learning_rate": 0.00010939319848855303,
      "loss": 2.0368,
      "step": 20392
    },
    {
      "epoch": 0.4531777777777778,
      "grad_norm": 1.5708481073379517,
      "learning_rate": 0.00010938875305623472,
      "loss": 1.5891,
      "step": 20393
    },
    {
      "epoch": 0.4532,
      "grad_norm": 1.9112404584884644,
      "learning_rate": 0.00010938430762391642,
      "loss": 1.9617,
      "step": 20394
    },
    {
      "epoch": 0.45322222222222225,
      "grad_norm": 1.7352705001831055,
      "learning_rate": 0.00010937986219159814,
      "loss": 1.9351,
      "step": 20395
    },
    {
      "epoch": 0.45324444444444445,
      "grad_norm": 1.8128093481063843,
      "learning_rate": 0.00010937541675927985,
      "loss": 1.7996,
      "step": 20396
    },
    {
      "epoch": 0.45326666666666665,
      "grad_norm": 2.009275436401367,
      "learning_rate": 0.00010937097132696155,
      "loss": 1.7925,
      "step": 20397
    },
    {
      "epoch": 0.4532888888888889,
      "grad_norm": 2.11736798286438,
      "learning_rate": 0.00010936652589464327,
      "loss": 2.1206,
      "step": 20398
    },
    {
      "epoch": 0.4533111111111111,
      "grad_norm": 1.7238174676895142,
      "learning_rate": 0.00010936208046232497,
      "loss": 1.2468,
      "step": 20399
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 2.082707405090332,
      "learning_rate": 0.00010935763503000666,
      "loss": 1.4892,
      "step": 20400
    },
    {
      "epoch": 0.45335555555555557,
      "grad_norm": 1.3652334213256836,
      "learning_rate": 0.00010935318959768839,
      "loss": 2.3894,
      "step": 20401
    },
    {
      "epoch": 0.45337777777777777,
      "grad_norm": 2.314039707183838,
      "learning_rate": 0.00010934874416537008,
      "loss": 1.2063,
      "step": 20402
    },
    {
      "epoch": 0.4534,
      "grad_norm": 1.707601547241211,
      "learning_rate": 0.0001093442987330518,
      "loss": 2.7337,
      "step": 20403
    },
    {
      "epoch": 0.4534222222222222,
      "grad_norm": 1.4748780727386475,
      "learning_rate": 0.0001093398533007335,
      "loss": 1.9342,
      "step": 20404
    },
    {
      "epoch": 0.45344444444444443,
      "grad_norm": 1.7737210988998413,
      "learning_rate": 0.00010933540786841521,
      "loss": 1.9457,
      "step": 20405
    },
    {
      "epoch": 0.4534666666666667,
      "grad_norm": 1.614620566368103,
      "learning_rate": 0.00010933096243609691,
      "loss": 2.2756,
      "step": 20406
    },
    {
      "epoch": 0.4534888888888889,
      "grad_norm": 1.9165658950805664,
      "learning_rate": 0.00010932651700377863,
      "loss": 2.4554,
      "step": 20407
    },
    {
      "epoch": 0.4535111111111111,
      "grad_norm": 1.4640812873840332,
      "learning_rate": 0.00010932207157146033,
      "loss": 2.0442,
      "step": 20408
    },
    {
      "epoch": 0.45353333333333334,
      "grad_norm": 1.544948697090149,
      "learning_rate": 0.00010931762613914202,
      "loss": 1.849,
      "step": 20409
    },
    {
      "epoch": 0.45355555555555555,
      "grad_norm": 1.691038727760315,
      "learning_rate": 0.00010931318070682375,
      "loss": 1.9981,
      "step": 20410
    },
    {
      "epoch": 0.4535777777777778,
      "grad_norm": 1.3810250759124756,
      "learning_rate": 0.00010930873527450544,
      "loss": 1.6087,
      "step": 20411
    },
    {
      "epoch": 0.4536,
      "grad_norm": 1.8228744268417358,
      "learning_rate": 0.00010930428984218717,
      "loss": 1.502,
      "step": 20412
    },
    {
      "epoch": 0.4536222222222222,
      "grad_norm": 1.7858037948608398,
      "learning_rate": 0.00010929984440986886,
      "loss": 2.3456,
      "step": 20413
    },
    {
      "epoch": 0.45364444444444446,
      "grad_norm": 1.6824976205825806,
      "learning_rate": 0.00010929539897755057,
      "loss": 1.7866,
      "step": 20414
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 0.3599398136138916,
      "learning_rate": 0.0001092909535452323,
      "loss": 0.0265,
      "step": 20415
    },
    {
      "epoch": 0.45368888888888886,
      "grad_norm": 1.8773678541183472,
      "learning_rate": 0.00010928650811291399,
      "loss": 2.5341,
      "step": 20416
    },
    {
      "epoch": 0.4537111111111111,
      "grad_norm": 1.3761539459228516,
      "learning_rate": 0.00010928206268059569,
      "loss": 1.9769,
      "step": 20417
    },
    {
      "epoch": 0.4537333333333333,
      "grad_norm": 1.6983482837677002,
      "learning_rate": 0.00010927761724827741,
      "loss": 2.0513,
      "step": 20418
    },
    {
      "epoch": 0.4537555555555556,
      "grad_norm": 1.7583634853363037,
      "learning_rate": 0.0001092731718159591,
      "loss": 2.3376,
      "step": 20419
    },
    {
      "epoch": 0.4537777777777778,
      "grad_norm": 1.2764828205108643,
      "learning_rate": 0.0001092687263836408,
      "loss": 1.4026,
      "step": 20420
    },
    {
      "epoch": 0.4538,
      "grad_norm": 1.3133882284164429,
      "learning_rate": 0.00010926428095132253,
      "loss": 1.7185,
      "step": 20421
    },
    {
      "epoch": 0.45382222222222224,
      "grad_norm": 1.5618693828582764,
      "learning_rate": 0.00010925983551900422,
      "loss": 1.7725,
      "step": 20422
    },
    {
      "epoch": 0.45384444444444444,
      "grad_norm": 1.3651148080825806,
      "learning_rate": 0.00010925539008668593,
      "loss": 2.0687,
      "step": 20423
    },
    {
      "epoch": 0.45386666666666664,
      "grad_norm": 1.7471674680709839,
      "learning_rate": 0.00010925094465436765,
      "loss": 2.2064,
      "step": 20424
    },
    {
      "epoch": 0.4538888888888889,
      "grad_norm": 1.7193888425827026,
      "learning_rate": 0.00010924649922204935,
      "loss": 1.7714,
      "step": 20425
    },
    {
      "epoch": 0.4539111111111111,
      "grad_norm": 1.771363615989685,
      "learning_rate": 0.00010924205378973105,
      "loss": 1.8949,
      "step": 20426
    },
    {
      "epoch": 0.45393333333333336,
      "grad_norm": 1.185652732849121,
      "learning_rate": 0.00010923760835741277,
      "loss": 0.9083,
      "step": 20427
    },
    {
      "epoch": 0.45395555555555556,
      "grad_norm": 1.722836971282959,
      "learning_rate": 0.00010923316292509447,
      "loss": 2.1176,
      "step": 20428
    },
    {
      "epoch": 0.45397777777777776,
      "grad_norm": 1.8382420539855957,
      "learning_rate": 0.00010922871749277616,
      "loss": 2.0473,
      "step": 20429
    },
    {
      "epoch": 0.454,
      "grad_norm": 1.6015245914459229,
      "learning_rate": 0.00010922427206045789,
      "loss": 2.0374,
      "step": 20430
    },
    {
      "epoch": 0.4540222222222222,
      "grad_norm": 1.5403865575790405,
      "learning_rate": 0.00010921982662813958,
      "loss": 1.8778,
      "step": 20431
    },
    {
      "epoch": 0.4540444444444444,
      "grad_norm": 1.358943223953247,
      "learning_rate": 0.0001092153811958213,
      "loss": 1.5763,
      "step": 20432
    },
    {
      "epoch": 0.4540666666666667,
      "grad_norm": 1.6795986890792847,
      "learning_rate": 0.00010921093576350301,
      "loss": 1.9831,
      "step": 20433
    },
    {
      "epoch": 0.4540888888888889,
      "grad_norm": 1.6844921112060547,
      "learning_rate": 0.00010920649033118471,
      "loss": 2.1666,
      "step": 20434
    },
    {
      "epoch": 0.45411111111111113,
      "grad_norm": 1.6933443546295166,
      "learning_rate": 0.00010920204489886643,
      "loss": 2.2024,
      "step": 20435
    },
    {
      "epoch": 0.45413333333333333,
      "grad_norm": 1.9616174697875977,
      "learning_rate": 0.00010919759946654813,
      "loss": 1.8436,
      "step": 20436
    },
    {
      "epoch": 0.45415555555555553,
      "grad_norm": 1.08354914188385,
      "learning_rate": 0.00010919315403422983,
      "loss": 0.9302,
      "step": 20437
    },
    {
      "epoch": 0.4541777777777778,
      "grad_norm": 1.0715785026550293,
      "learning_rate": 0.00010918870860191155,
      "loss": 0.9508,
      "step": 20438
    },
    {
      "epoch": 0.4542,
      "grad_norm": 1.635667085647583,
      "learning_rate": 0.00010918426316959324,
      "loss": 1.7351,
      "step": 20439
    },
    {
      "epoch": 0.45422222222222225,
      "grad_norm": 1.9169032573699951,
      "learning_rate": 0.00010917981773727495,
      "loss": 1.9606,
      "step": 20440
    },
    {
      "epoch": 0.45424444444444445,
      "grad_norm": 1.752724528312683,
      "learning_rate": 0.00010917537230495666,
      "loss": 1.7004,
      "step": 20441
    },
    {
      "epoch": 0.45426666666666665,
      "grad_norm": 1.454997181892395,
      "learning_rate": 0.00010917092687263837,
      "loss": 1.6157,
      "step": 20442
    },
    {
      "epoch": 0.4542888888888889,
      "grad_norm": 1.4422438144683838,
      "learning_rate": 0.00010916648144032007,
      "loss": 1.6387,
      "step": 20443
    },
    {
      "epoch": 0.4543111111111111,
      "grad_norm": 1.6214267015457153,
      "learning_rate": 0.00010916203600800179,
      "loss": 1.6208,
      "step": 20444
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 1.6676292419433594,
      "learning_rate": 0.00010915759057568349,
      "loss": 1.5706,
      "step": 20445
    },
    {
      "epoch": 0.45435555555555557,
      "grad_norm": 2.139496326446533,
      "learning_rate": 0.00010915314514336518,
      "loss": 2.3189,
      "step": 20446
    },
    {
      "epoch": 0.45437777777777777,
      "grad_norm": 1.7440053224563599,
      "learning_rate": 0.00010914869971104691,
      "loss": 1.6549,
      "step": 20447
    },
    {
      "epoch": 0.4544,
      "grad_norm": 2.0909297466278076,
      "learning_rate": 0.0001091442542787286,
      "loss": 2.0214,
      "step": 20448
    },
    {
      "epoch": 0.4544222222222222,
      "grad_norm": 2.173713207244873,
      "learning_rate": 0.00010913980884641033,
      "loss": 2.2111,
      "step": 20449
    },
    {
      "epoch": 0.45444444444444443,
      "grad_norm": 1.592846155166626,
      "learning_rate": 0.00010913536341409202,
      "loss": 1.0381,
      "step": 20450
    },
    {
      "epoch": 0.4544666666666667,
      "grad_norm": 1.6115154027938843,
      "learning_rate": 0.00010913091798177373,
      "loss": 1.3281,
      "step": 20451
    },
    {
      "epoch": 0.4544888888888889,
      "grad_norm": 1.6710697412490845,
      "learning_rate": 0.00010912647254945546,
      "loss": 2.7505,
      "step": 20452
    },
    {
      "epoch": 0.4545111111111111,
      "grad_norm": 1.206979751586914,
      "learning_rate": 0.00010912202711713715,
      "loss": 1.1443,
      "step": 20453
    },
    {
      "epoch": 0.45453333333333334,
      "grad_norm": 1.6348282098770142,
      "learning_rate": 0.00010911758168481885,
      "loss": 1.6884,
      "step": 20454
    },
    {
      "epoch": 0.45455555555555555,
      "grad_norm": 1.3941501379013062,
      "learning_rate": 0.00010911313625250057,
      "loss": 2.4554,
      "step": 20455
    },
    {
      "epoch": 0.4545777777777778,
      "grad_norm": 1.277440071105957,
      "learning_rate": 0.00010910869082018227,
      "loss": 1.9508,
      "step": 20456
    },
    {
      "epoch": 0.4546,
      "grad_norm": 2.1316144466400146,
      "learning_rate": 0.00010910424538786396,
      "loss": 1.8337,
      "step": 20457
    },
    {
      "epoch": 0.4546222222222222,
      "grad_norm": 1.4676108360290527,
      "learning_rate": 0.00010909979995554569,
      "loss": 2.2605,
      "step": 20458
    },
    {
      "epoch": 0.45464444444444446,
      "grad_norm": 1.4904074668884277,
      "learning_rate": 0.00010909535452322738,
      "loss": 2.5629,
      "step": 20459
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 1.355911135673523,
      "learning_rate": 0.00010909090909090909,
      "loss": 2.0695,
      "step": 20460
    },
    {
      "epoch": 0.45468888888888886,
      "grad_norm": 1.4741870164871216,
      "learning_rate": 0.00010908646365859082,
      "loss": 1.7126,
      "step": 20461
    },
    {
      "epoch": 0.4547111111111111,
      "grad_norm": 1.4226489067077637,
      "learning_rate": 0.00010908201822627251,
      "loss": 1.7949,
      "step": 20462
    },
    {
      "epoch": 0.4547333333333333,
      "grad_norm": 1.4293417930603027,
      "learning_rate": 0.00010907757279395421,
      "loss": 1.8467,
      "step": 20463
    },
    {
      "epoch": 0.4547555555555556,
      "grad_norm": 1.6457571983337402,
      "learning_rate": 0.00010907312736163593,
      "loss": 2.0487,
      "step": 20464
    },
    {
      "epoch": 0.4547777777777778,
      "grad_norm": 1.4318815469741821,
      "learning_rate": 0.00010906868192931763,
      "loss": 2.111,
      "step": 20465
    },
    {
      "epoch": 0.4548,
      "grad_norm": 2.673859119415283,
      "learning_rate": 0.00010906423649699932,
      "loss": 2.1209,
      "step": 20466
    },
    {
      "epoch": 0.45482222222222224,
      "grad_norm": 1.827439308166504,
      "learning_rate": 0.00010905979106468105,
      "loss": 1.8419,
      "step": 20467
    },
    {
      "epoch": 0.45484444444444444,
      "grad_norm": 1.5502631664276123,
      "learning_rate": 0.00010905534563236274,
      "loss": 1.8195,
      "step": 20468
    },
    {
      "epoch": 0.45486666666666664,
      "grad_norm": 1.6384822130203247,
      "learning_rate": 0.00010905090020004447,
      "loss": 2.3337,
      "step": 20469
    },
    {
      "epoch": 0.4548888888888889,
      "grad_norm": 1.9596657752990723,
      "learning_rate": 0.00010904645476772618,
      "loss": 2.0408,
      "step": 20470
    },
    {
      "epoch": 0.4549111111111111,
      "grad_norm": 1.5124092102050781,
      "learning_rate": 0.00010904200933540787,
      "loss": 1.66,
      "step": 20471
    },
    {
      "epoch": 0.45493333333333336,
      "grad_norm": 1.563483476638794,
      "learning_rate": 0.0001090375639030896,
      "loss": 1.9925,
      "step": 20472
    },
    {
      "epoch": 0.45495555555555556,
      "grad_norm": 1.6080925464630127,
      "learning_rate": 0.00010903311847077129,
      "loss": 2.0566,
      "step": 20473
    },
    {
      "epoch": 0.45497777777777776,
      "grad_norm": 1.596226692199707,
      "learning_rate": 0.00010902867303845299,
      "loss": 1.8435,
      "step": 20474
    },
    {
      "epoch": 0.455,
      "grad_norm": 1.498948574066162,
      "learning_rate": 0.00010902422760613471,
      "loss": 1.8306,
      "step": 20475
    },
    {
      "epoch": 0.4550222222222222,
      "grad_norm": 1.6702066659927368,
      "learning_rate": 0.0001090197821738164,
      "loss": 1.9401,
      "step": 20476
    },
    {
      "epoch": 0.4550444444444444,
      "grad_norm": 1.8300138711929321,
      "learning_rate": 0.00010901533674149812,
      "loss": 1.9611,
      "step": 20477
    },
    {
      "epoch": 0.4550666666666667,
      "grad_norm": 1.6490176916122437,
      "learning_rate": 0.00010901089130917982,
      "loss": 2.2824,
      "step": 20478
    },
    {
      "epoch": 0.4550888888888889,
      "grad_norm": 1.8460052013397217,
      "learning_rate": 0.00010900644587686153,
      "loss": 2.024,
      "step": 20479
    },
    {
      "epoch": 0.45511111111111113,
      "grad_norm": 1.4978777170181274,
      "learning_rate": 0.00010900200044454323,
      "loss": 1.9269,
      "step": 20480
    },
    {
      "epoch": 0.45513333333333333,
      "grad_norm": 1.5671124458312988,
      "learning_rate": 0.00010899755501222495,
      "loss": 2.0043,
      "step": 20481
    },
    {
      "epoch": 0.45515555555555554,
      "grad_norm": 1.4240726232528687,
      "learning_rate": 0.00010899310957990665,
      "loss": 1.7344,
      "step": 20482
    },
    {
      "epoch": 0.4551777777777778,
      "grad_norm": 2.038313627243042,
      "learning_rate": 0.00010898866414758835,
      "loss": 2.4914,
      "step": 20483
    },
    {
      "epoch": 0.4552,
      "grad_norm": 1.7503412961959839,
      "learning_rate": 0.00010898421871527007,
      "loss": 1.7011,
      "step": 20484
    },
    {
      "epoch": 0.4552222222222222,
      "grad_norm": 1.8994649648666382,
      "learning_rate": 0.00010897977328295177,
      "loss": 2.3181,
      "step": 20485
    },
    {
      "epoch": 0.45524444444444445,
      "grad_norm": 1.7207587957382202,
      "learning_rate": 0.00010897532785063347,
      "loss": 1.646,
      "step": 20486
    },
    {
      "epoch": 0.45526666666666665,
      "grad_norm": 1.492158055305481,
      "learning_rate": 0.00010897088241831518,
      "loss": 1.7116,
      "step": 20487
    },
    {
      "epoch": 0.4552888888888889,
      "grad_norm": 1.4596928358078003,
      "learning_rate": 0.0001089664369859969,
      "loss": 1.8429,
      "step": 20488
    },
    {
      "epoch": 0.4553111111111111,
      "grad_norm": 1.4509204626083374,
      "learning_rate": 0.00010896199155367862,
      "loss": 1.6632,
      "step": 20489
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 1.5236284732818604,
      "learning_rate": 0.00010895754612136031,
      "loss": 2.0109,
      "step": 20490
    },
    {
      "epoch": 0.45535555555555557,
      "grad_norm": 1.8683700561523438,
      "learning_rate": 0.00010895310068904201,
      "loss": 2.5069,
      "step": 20491
    },
    {
      "epoch": 0.45537777777777777,
      "grad_norm": 1.5229092836380005,
      "learning_rate": 0.00010894865525672373,
      "loss": 1.4408,
      "step": 20492
    },
    {
      "epoch": 0.4554,
      "grad_norm": 1.5780107975006104,
      "learning_rate": 0.00010894420982440543,
      "loss": 1.9657,
      "step": 20493
    },
    {
      "epoch": 0.45542222222222223,
      "grad_norm": 1.8099665641784668,
      "learning_rate": 0.00010893976439208712,
      "loss": 1.6868,
      "step": 20494
    },
    {
      "epoch": 0.45544444444444443,
      "grad_norm": 1.863016128540039,
      "learning_rate": 0.00010893531895976885,
      "loss": 1.6907,
      "step": 20495
    },
    {
      "epoch": 0.4554666666666667,
      "grad_norm": 1.7428089380264282,
      "learning_rate": 0.00010893087352745054,
      "loss": 1.6391,
      "step": 20496
    },
    {
      "epoch": 0.4554888888888889,
      "grad_norm": 1.8029805421829224,
      "learning_rate": 0.00010892642809513225,
      "loss": 1.7973,
      "step": 20497
    },
    {
      "epoch": 0.4555111111111111,
      "grad_norm": 1.5359349250793457,
      "learning_rate": 0.00010892198266281398,
      "loss": 1.6665,
      "step": 20498
    },
    {
      "epoch": 0.45553333333333335,
      "grad_norm": 2.3723526000976562,
      "learning_rate": 0.00010891753723049567,
      "loss": 2.1913,
      "step": 20499
    },
    {
      "epoch": 0.45555555555555555,
      "grad_norm": 1.3990365266799927,
      "learning_rate": 0.00010891309179817737,
      "loss": 0.7888,
      "step": 20500
    },
    {
      "epoch": 0.4555777777777778,
      "grad_norm": 1.3696175813674927,
      "learning_rate": 0.00010890864636585909,
      "loss": 1.3629,
      "step": 20501
    },
    {
      "epoch": 0.4556,
      "grad_norm": 1.4463337659835815,
      "learning_rate": 0.00010890420093354079,
      "loss": 2.3844,
      "step": 20502
    },
    {
      "epoch": 0.4556222222222222,
      "grad_norm": 1.6773607730865479,
      "learning_rate": 0.00010889975550122248,
      "loss": 2.624,
      "step": 20503
    },
    {
      "epoch": 0.45564444444444446,
      "grad_norm": 1.4561647176742554,
      "learning_rate": 0.00010889531006890421,
      "loss": 2.6313,
      "step": 20504
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 1.766735553741455,
      "learning_rate": 0.0001088908646365859,
      "loss": 1.9508,
      "step": 20505
    },
    {
      "epoch": 0.45568888888888887,
      "grad_norm": 1.2587307691574097,
      "learning_rate": 0.00010888641920426763,
      "loss": 2.3127,
      "step": 20506
    },
    {
      "epoch": 0.4557111111111111,
      "grad_norm": 1.3678597211837769,
      "learning_rate": 0.00010888197377194934,
      "loss": 2.2198,
      "step": 20507
    },
    {
      "epoch": 0.4557333333333333,
      "grad_norm": 1.6400084495544434,
      "learning_rate": 0.00010887752833963103,
      "loss": 1.6474,
      "step": 20508
    },
    {
      "epoch": 0.4557555555555556,
      "grad_norm": 1.268612265586853,
      "learning_rate": 0.00010887308290731276,
      "loss": 1.1093,
      "step": 20509
    },
    {
      "epoch": 0.4557777777777778,
      "grad_norm": 1.5082827806472778,
      "learning_rate": 0.00010886863747499445,
      "loss": 2.2127,
      "step": 20510
    },
    {
      "epoch": 0.4558,
      "grad_norm": 1.2853819131851196,
      "learning_rate": 0.00010886419204267615,
      "loss": 1.6204,
      "step": 20511
    },
    {
      "epoch": 0.45582222222222224,
      "grad_norm": 1.9488153457641602,
      "learning_rate": 0.00010885974661035787,
      "loss": 2.4233,
      "step": 20512
    },
    {
      "epoch": 0.45584444444444444,
      "grad_norm": 1.8190113306045532,
      "learning_rate": 0.00010885530117803957,
      "loss": 2.1131,
      "step": 20513
    },
    {
      "epoch": 0.45586666666666664,
      "grad_norm": 1.4915974140167236,
      "learning_rate": 0.00010885085574572128,
      "loss": 1.6127,
      "step": 20514
    },
    {
      "epoch": 0.4558888888888889,
      "grad_norm": 1.4343522787094116,
      "learning_rate": 0.00010884641031340299,
      "loss": 1.9007,
      "step": 20515
    },
    {
      "epoch": 0.4559111111111111,
      "grad_norm": 1.570142388343811,
      "learning_rate": 0.0001088419648810847,
      "loss": 1.9834,
      "step": 20516
    },
    {
      "epoch": 0.45593333333333336,
      "grad_norm": 1.4748178720474243,
      "learning_rate": 0.00010883751944876639,
      "loss": 1.6702,
      "step": 20517
    },
    {
      "epoch": 0.45595555555555556,
      "grad_norm": 1.41924250125885,
      "learning_rate": 0.00010883307401644811,
      "loss": 1.947,
      "step": 20518
    },
    {
      "epoch": 0.45597777777777776,
      "grad_norm": 1.9078484773635864,
      "learning_rate": 0.00010882862858412981,
      "loss": 2.6912,
      "step": 20519
    },
    {
      "epoch": 0.456,
      "grad_norm": 1.5317953824996948,
      "learning_rate": 0.00010882418315181151,
      "loss": 1.627,
      "step": 20520
    },
    {
      "epoch": 0.4560222222222222,
      "grad_norm": 1.6857342720031738,
      "learning_rate": 0.00010881973771949323,
      "loss": 2.3866,
      "step": 20521
    },
    {
      "epoch": 0.4560444444444444,
      "grad_norm": 1.526445746421814,
      "learning_rate": 0.00010881529228717493,
      "loss": 1.7812,
      "step": 20522
    },
    {
      "epoch": 0.4560666666666667,
      "grad_norm": 1.822950839996338,
      "learning_rate": 0.00010881084685485664,
      "loss": 1.8742,
      "step": 20523
    },
    {
      "epoch": 0.4560888888888889,
      "grad_norm": 1.6582731008529663,
      "learning_rate": 0.00010880640142253835,
      "loss": 1.7444,
      "step": 20524
    },
    {
      "epoch": 0.45611111111111113,
      "grad_norm": 1.523490309715271,
      "learning_rate": 0.00010880195599022006,
      "loss": 1.7826,
      "step": 20525
    },
    {
      "epoch": 0.45613333333333334,
      "grad_norm": 1.6991658210754395,
      "learning_rate": 0.00010879751055790178,
      "loss": 1.5914,
      "step": 20526
    },
    {
      "epoch": 0.45615555555555554,
      "grad_norm": 1.5546231269836426,
      "learning_rate": 0.00010879306512558347,
      "loss": 1.9058,
      "step": 20527
    },
    {
      "epoch": 0.4561777777777778,
      "grad_norm": 1.722265601158142,
      "learning_rate": 0.00010878861969326517,
      "loss": 2.3619,
      "step": 20528
    },
    {
      "epoch": 0.4562,
      "grad_norm": 1.7495613098144531,
      "learning_rate": 0.0001087841742609469,
      "loss": 1.9433,
      "step": 20529
    },
    {
      "epoch": 0.4562222222222222,
      "grad_norm": 1.9427056312561035,
      "learning_rate": 0.00010877972882862859,
      "loss": 1.9887,
      "step": 20530
    },
    {
      "epoch": 0.45624444444444445,
      "grad_norm": 1.7731287479400635,
      "learning_rate": 0.00010877528339631029,
      "loss": 2.1171,
      "step": 20531
    },
    {
      "epoch": 0.45626666666666665,
      "grad_norm": 1.6963627338409424,
      "learning_rate": 0.00010877083796399201,
      "loss": 1.8661,
      "step": 20532
    },
    {
      "epoch": 0.4562888888888889,
      "grad_norm": 0.30608847737312317,
      "learning_rate": 0.0001087663925316737,
      "loss": 0.0279,
      "step": 20533
    },
    {
      "epoch": 0.4563111111111111,
      "grad_norm": 1.9917271137237549,
      "learning_rate": 0.00010876194709935541,
      "loss": 1.8602,
      "step": 20534
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 2.030587673187256,
      "learning_rate": 0.00010875750166703714,
      "loss": 2.1212,
      "step": 20535
    },
    {
      "epoch": 0.45635555555555557,
      "grad_norm": 1.9542183876037598,
      "learning_rate": 0.00010875305623471883,
      "loss": 1.9439,
      "step": 20536
    },
    {
      "epoch": 0.45637777777777777,
      "grad_norm": 1.820359706878662,
      "learning_rate": 0.00010874861080240053,
      "loss": 1.6546,
      "step": 20537
    },
    {
      "epoch": 0.4564,
      "grad_norm": 1.6447829008102417,
      "learning_rate": 0.00010874416537008225,
      "loss": 1.896,
      "step": 20538
    },
    {
      "epoch": 0.45642222222222223,
      "grad_norm": 1.648624300956726,
      "learning_rate": 0.00010873971993776395,
      "loss": 1.9663,
      "step": 20539
    },
    {
      "epoch": 0.45644444444444443,
      "grad_norm": 1.5918163061141968,
      "learning_rate": 0.00010873527450544565,
      "loss": 1.5571,
      "step": 20540
    },
    {
      "epoch": 0.4564666666666667,
      "grad_norm": 1.4609228372573853,
      "learning_rate": 0.00010873082907312737,
      "loss": 1.5248,
      "step": 20541
    },
    {
      "epoch": 0.4564888888888889,
      "grad_norm": 1.7894600629806519,
      "learning_rate": 0.00010872638364080906,
      "loss": 2.0825,
      "step": 20542
    },
    {
      "epoch": 0.4565111111111111,
      "grad_norm": 1.591485857963562,
      "learning_rate": 0.00010872193820849077,
      "loss": 1.6751,
      "step": 20543
    },
    {
      "epoch": 0.45653333333333335,
      "grad_norm": 1.686589241027832,
      "learning_rate": 0.0001087174927761725,
      "loss": 1.9625,
      "step": 20544
    },
    {
      "epoch": 0.45655555555555555,
      "grad_norm": 1.465254783630371,
      "learning_rate": 0.00010871304734385419,
      "loss": 1.7551,
      "step": 20545
    },
    {
      "epoch": 0.4565777777777778,
      "grad_norm": 1.9649406671524048,
      "learning_rate": 0.00010870860191153592,
      "loss": 2.344,
      "step": 20546
    },
    {
      "epoch": 0.4566,
      "grad_norm": 1.3172435760498047,
      "learning_rate": 0.00010870415647921761,
      "loss": 0.8972,
      "step": 20547
    },
    {
      "epoch": 0.4566222222222222,
      "grad_norm": 1.923803448677063,
      "learning_rate": 0.00010869971104689931,
      "loss": 1.7186,
      "step": 20548
    },
    {
      "epoch": 0.45664444444444446,
      "grad_norm": 2.093053102493286,
      "learning_rate": 0.00010869526561458103,
      "loss": 1.7912,
      "step": 20549
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 0.21217437088489532,
      "learning_rate": 0.00010869082018226273,
      "loss": 0.0441,
      "step": 20550
    },
    {
      "epoch": 0.45668888888888887,
      "grad_norm": 0.8393205404281616,
      "learning_rate": 0.00010868637474994444,
      "loss": 1.0055,
      "step": 20551
    },
    {
      "epoch": 0.4567111111111111,
      "grad_norm": 1.3842501640319824,
      "learning_rate": 0.00010868192931762615,
      "loss": 2.9107,
      "step": 20552
    },
    {
      "epoch": 0.4567333333333333,
      "grad_norm": 1.5747417211532593,
      "learning_rate": 0.00010867748388530786,
      "loss": 2.1701,
      "step": 20553
    },
    {
      "epoch": 0.4567555555555556,
      "grad_norm": 1.677472710609436,
      "learning_rate": 0.00010867303845298955,
      "loss": 2.4984,
      "step": 20554
    },
    {
      "epoch": 0.4567777777777778,
      "grad_norm": 1.4945261478424072,
      "learning_rate": 0.00010866859302067128,
      "loss": 2.4061,
      "step": 20555
    },
    {
      "epoch": 0.4568,
      "grad_norm": 1.487023949623108,
      "learning_rate": 0.00010866414758835297,
      "loss": 2.1386,
      "step": 20556
    },
    {
      "epoch": 0.45682222222222224,
      "grad_norm": 1.3830349445343018,
      "learning_rate": 0.00010865970215603467,
      "loss": 1.9881,
      "step": 20557
    },
    {
      "epoch": 0.45684444444444444,
      "grad_norm": 1.2725162506103516,
      "learning_rate": 0.00010865525672371639,
      "loss": 1.9051,
      "step": 20558
    },
    {
      "epoch": 0.45686666666666664,
      "grad_norm": 3.5160939693450928,
      "learning_rate": 0.00010865081129139809,
      "loss": 1.9559,
      "step": 20559
    },
    {
      "epoch": 0.4568888888888889,
      "grad_norm": 1.488461971282959,
      "learning_rate": 0.0001086463658590798,
      "loss": 2.2871,
      "step": 20560
    },
    {
      "epoch": 0.4569111111111111,
      "grad_norm": 1.566684365272522,
      "learning_rate": 0.0001086419204267615,
      "loss": 2.0081,
      "step": 20561
    },
    {
      "epoch": 0.45693333333333336,
      "grad_norm": 1.3027061223983765,
      "learning_rate": 0.00010863747499444322,
      "loss": 1.8327,
      "step": 20562
    },
    {
      "epoch": 0.45695555555555556,
      "grad_norm": 1.5914866924285889,
      "learning_rate": 0.00010863302956212494,
      "loss": 2.2957,
      "step": 20563
    },
    {
      "epoch": 0.45697777777777776,
      "grad_norm": 1.5498429536819458,
      "learning_rate": 0.00010862858412980664,
      "loss": 1.8728,
      "step": 20564
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.5370079278945923,
      "learning_rate": 0.00010862413869748833,
      "loss": 1.8247,
      "step": 20565
    },
    {
      "epoch": 0.4570222222222222,
      "grad_norm": 1.5618380308151245,
      "learning_rate": 0.00010861969326517005,
      "loss": 2.2681,
      "step": 20566
    },
    {
      "epoch": 0.4570444444444444,
      "grad_norm": 1.4016557931900024,
      "learning_rate": 0.00010861524783285175,
      "loss": 1.8603,
      "step": 20567
    },
    {
      "epoch": 0.4570666666666667,
      "grad_norm": 1.9472134113311768,
      "learning_rate": 0.00010861080240053345,
      "loss": 1.8478,
      "step": 20568
    },
    {
      "epoch": 0.4570888888888889,
      "grad_norm": 1.8515537977218628,
      "learning_rate": 0.00010860635696821517,
      "loss": 2.2849,
      "step": 20569
    },
    {
      "epoch": 0.45711111111111113,
      "grad_norm": 1.5046287775039673,
      "learning_rate": 0.00010860191153589687,
      "loss": 1.6787,
      "step": 20570
    },
    {
      "epoch": 0.45713333333333334,
      "grad_norm": 2.383038282394409,
      "learning_rate": 0.00010859746610357858,
      "loss": 1.8429,
      "step": 20571
    },
    {
      "epoch": 0.45715555555555554,
      "grad_norm": 1.5393352508544922,
      "learning_rate": 0.0001085930206712603,
      "loss": 1.4041,
      "step": 20572
    },
    {
      "epoch": 0.4571777777777778,
      "grad_norm": 1.8066812753677368,
      "learning_rate": 0.000108588575238942,
      "loss": 2.3001,
      "step": 20573
    },
    {
      "epoch": 0.4572,
      "grad_norm": 1.739905595779419,
      "learning_rate": 0.00010858412980662369,
      "loss": 2.23,
      "step": 20574
    },
    {
      "epoch": 0.4572222222222222,
      "grad_norm": 1.5572055578231812,
      "learning_rate": 0.00010857968437430541,
      "loss": 1.7997,
      "step": 20575
    },
    {
      "epoch": 0.45724444444444445,
      "grad_norm": 1.4601868391036987,
      "learning_rate": 0.00010857523894198711,
      "loss": 1.8307,
      "step": 20576
    },
    {
      "epoch": 0.45726666666666665,
      "grad_norm": 1.4594899415969849,
      "learning_rate": 0.0001085707935096688,
      "loss": 1.6229,
      "step": 20577
    },
    {
      "epoch": 0.4572888888888889,
      "grad_norm": 1.519411325454712,
      "learning_rate": 0.00010856634807735053,
      "loss": 1.8626,
      "step": 20578
    },
    {
      "epoch": 0.4573111111111111,
      "grad_norm": 1.6363701820373535,
      "learning_rate": 0.00010856190264503223,
      "loss": 1.8834,
      "step": 20579
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 1.6873047351837158,
      "learning_rate": 0.00010855745721271394,
      "loss": 2.1627,
      "step": 20580
    },
    {
      "epoch": 0.45735555555555557,
      "grad_norm": 1.7038254737854004,
      "learning_rate": 0.00010855301178039566,
      "loss": 2.059,
      "step": 20581
    },
    {
      "epoch": 0.45737777777777777,
      "grad_norm": 1.6336697340011597,
      "learning_rate": 0.00010854856634807735,
      "loss": 1.8635,
      "step": 20582
    },
    {
      "epoch": 0.4574,
      "grad_norm": 1.9475529193878174,
      "learning_rate": 0.00010854412091575908,
      "loss": 2.0011,
      "step": 20583
    },
    {
      "epoch": 0.45742222222222223,
      "grad_norm": 1.7226439714431763,
      "learning_rate": 0.00010853967548344077,
      "loss": 1.8144,
      "step": 20584
    },
    {
      "epoch": 0.45744444444444443,
      "grad_norm": 1.4960763454437256,
      "learning_rate": 0.00010853523005112247,
      "loss": 1.9324,
      "step": 20585
    },
    {
      "epoch": 0.4574666666666667,
      "grad_norm": 1.424462080001831,
      "learning_rate": 0.00010853078461880419,
      "loss": 1.4959,
      "step": 20586
    },
    {
      "epoch": 0.4574888888888889,
      "grad_norm": 1.8800382614135742,
      "learning_rate": 0.00010852633918648589,
      "loss": 1.8068,
      "step": 20587
    },
    {
      "epoch": 0.4575111111111111,
      "grad_norm": 1.854034662246704,
      "learning_rate": 0.0001085218937541676,
      "loss": 1.9801,
      "step": 20588
    },
    {
      "epoch": 0.45753333333333335,
      "grad_norm": 1.6265302896499634,
      "learning_rate": 0.00010851744832184931,
      "loss": 1.6839,
      "step": 20589
    },
    {
      "epoch": 0.45755555555555555,
      "grad_norm": 2.1220486164093018,
      "learning_rate": 0.00010851300288953102,
      "loss": 2.2447,
      "step": 20590
    },
    {
      "epoch": 0.4575777777777778,
      "grad_norm": 1.6137131452560425,
      "learning_rate": 0.00010850855745721271,
      "loss": 1.7473,
      "step": 20591
    },
    {
      "epoch": 0.4576,
      "grad_norm": 1.6520895957946777,
      "learning_rate": 0.00010850411202489444,
      "loss": 2.0441,
      "step": 20592
    },
    {
      "epoch": 0.4576222222222222,
      "grad_norm": 1.469275712966919,
      "learning_rate": 0.00010849966659257613,
      "loss": 1.5177,
      "step": 20593
    },
    {
      "epoch": 0.45764444444444446,
      "grad_norm": 1.9523967504501343,
      "learning_rate": 0.00010849522116025783,
      "loss": 2.0751,
      "step": 20594
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 1.8788294792175293,
      "learning_rate": 0.00010849077572793955,
      "loss": 1.7576,
      "step": 20595
    },
    {
      "epoch": 0.45768888888888887,
      "grad_norm": 1.7876242399215698,
      "learning_rate": 0.00010848633029562125,
      "loss": 1.7707,
      "step": 20596
    },
    {
      "epoch": 0.4577111111111111,
      "grad_norm": 1.7530618906021118,
      "learning_rate": 0.00010848188486330296,
      "loss": 1.7563,
      "step": 20597
    },
    {
      "epoch": 0.4577333333333333,
      "grad_norm": 1.5398939847946167,
      "learning_rate": 0.00010847743943098467,
      "loss": 1.2681,
      "step": 20598
    },
    {
      "epoch": 0.4577555555555556,
      "grad_norm": 1.8152908086776733,
      "learning_rate": 0.00010847299399866638,
      "loss": 1.8736,
      "step": 20599
    },
    {
      "epoch": 0.4577777777777778,
      "grad_norm": 1.2747375965118408,
      "learning_rate": 0.00010846854856634807,
      "loss": 0.7832,
      "step": 20600
    },
    {
      "epoch": 0.4578,
      "grad_norm": 1.3843544721603394,
      "learning_rate": 0.0001084641031340298,
      "loss": 2.2472,
      "step": 20601
    },
    {
      "epoch": 0.45782222222222224,
      "grad_norm": 1.7517145872116089,
      "learning_rate": 0.00010845965770171149,
      "loss": 2.1896,
      "step": 20602
    },
    {
      "epoch": 0.45784444444444444,
      "grad_norm": 0.17487981915473938,
      "learning_rate": 0.00010845521226939322,
      "loss": 0.0191,
      "step": 20603
    },
    {
      "epoch": 0.45786666666666664,
      "grad_norm": 1.4601703882217407,
      "learning_rate": 0.00010845076683707491,
      "loss": 2.2277,
      "step": 20604
    },
    {
      "epoch": 0.4578888888888889,
      "grad_norm": 1.4931899309158325,
      "learning_rate": 0.00010844632140475661,
      "loss": 1.9432,
      "step": 20605
    },
    {
      "epoch": 0.4579111111111111,
      "grad_norm": 1.5056114196777344,
      "learning_rate": 0.00010844187597243833,
      "loss": 2.1936,
      "step": 20606
    },
    {
      "epoch": 0.45793333333333336,
      "grad_norm": 1.681350827217102,
      "learning_rate": 0.00010843743054012003,
      "loss": 2.2956,
      "step": 20607
    },
    {
      "epoch": 0.45795555555555556,
      "grad_norm": 1.3520724773406982,
      "learning_rate": 0.00010843298510780174,
      "loss": 2.1214,
      "step": 20608
    },
    {
      "epoch": 0.45797777777777776,
      "grad_norm": 2.1517715454101562,
      "learning_rate": 0.00010842853967548346,
      "loss": 2.24,
      "step": 20609
    },
    {
      "epoch": 0.458,
      "grad_norm": 2.0741264820098877,
      "learning_rate": 0.00010842409424316516,
      "loss": 2.1087,
      "step": 20610
    },
    {
      "epoch": 0.4580222222222222,
      "grad_norm": 1.7578717470169067,
      "learning_rate": 0.00010841964881084685,
      "loss": 2.502,
      "step": 20611
    },
    {
      "epoch": 0.4580444444444444,
      "grad_norm": 1.884366512298584,
      "learning_rate": 0.00010841520337852858,
      "loss": 2.1269,
      "step": 20612
    },
    {
      "epoch": 0.4580666666666667,
      "grad_norm": 1.4357463121414185,
      "learning_rate": 0.00010841075794621027,
      "loss": 1.994,
      "step": 20613
    },
    {
      "epoch": 0.4580888888888889,
      "grad_norm": 1.4810899496078491,
      "learning_rate": 0.00010840631251389197,
      "loss": 1.8809,
      "step": 20614
    },
    {
      "epoch": 0.45811111111111114,
      "grad_norm": 1.4516853094100952,
      "learning_rate": 0.00010840186708157369,
      "loss": 2.1868,
      "step": 20615
    },
    {
      "epoch": 0.45813333333333334,
      "grad_norm": 1.4257469177246094,
      "learning_rate": 0.00010839742164925539,
      "loss": 1.7304,
      "step": 20616
    },
    {
      "epoch": 0.45815555555555554,
      "grad_norm": 1.693705439567566,
      "learning_rate": 0.0001083929762169371,
      "loss": 1.8964,
      "step": 20617
    },
    {
      "epoch": 0.4581777777777778,
      "grad_norm": 1.71723210811615,
      "learning_rate": 0.00010838853078461882,
      "loss": 1.928,
      "step": 20618
    },
    {
      "epoch": 0.4582,
      "grad_norm": 1.4752163887023926,
      "learning_rate": 0.00010838408535230052,
      "loss": 1.7877,
      "step": 20619
    },
    {
      "epoch": 0.4582222222222222,
      "grad_norm": 1.4045759439468384,
      "learning_rate": 0.00010837963991998224,
      "loss": 1.2975,
      "step": 20620
    },
    {
      "epoch": 0.45824444444444445,
      "grad_norm": 1.6966581344604492,
      "learning_rate": 0.00010837519448766393,
      "loss": 2.242,
      "step": 20621
    },
    {
      "epoch": 0.45826666666666666,
      "grad_norm": 1.736525058746338,
      "learning_rate": 0.00010837074905534563,
      "loss": 2.0482,
      "step": 20622
    },
    {
      "epoch": 0.4582888888888889,
      "grad_norm": 1.389362096786499,
      "learning_rate": 0.00010836630362302735,
      "loss": 1.1369,
      "step": 20623
    },
    {
      "epoch": 0.4583111111111111,
      "grad_norm": 1.6584620475769043,
      "learning_rate": 0.00010836185819070905,
      "loss": 1.6222,
      "step": 20624
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 1.5600831508636475,
      "learning_rate": 0.00010835741275839076,
      "loss": 2.0383,
      "step": 20625
    },
    {
      "epoch": 0.45835555555555557,
      "grad_norm": 1.0176345109939575,
      "learning_rate": 0.00010835296732607247,
      "loss": 0.7613,
      "step": 20626
    },
    {
      "epoch": 0.4583777777777778,
      "grad_norm": 1.1415265798568726,
      "learning_rate": 0.00010834852189375418,
      "loss": 0.8801,
      "step": 20627
    },
    {
      "epoch": 0.4584,
      "grad_norm": 1.2544304132461548,
      "learning_rate": 0.00010834407646143587,
      "loss": 0.859,
      "step": 20628
    },
    {
      "epoch": 0.45842222222222223,
      "grad_norm": 1.5030654668807983,
      "learning_rate": 0.0001083396310291176,
      "loss": 1.9402,
      "step": 20629
    },
    {
      "epoch": 0.45844444444444443,
      "grad_norm": 1.7060325145721436,
      "learning_rate": 0.0001083351855967993,
      "loss": 1.6902,
      "step": 20630
    },
    {
      "epoch": 0.4584666666666667,
      "grad_norm": 1.8167659044265747,
      "learning_rate": 0.00010833074016448099,
      "loss": 1.5932,
      "step": 20631
    },
    {
      "epoch": 0.4584888888888889,
      "grad_norm": 2.0113046169281006,
      "learning_rate": 0.00010832629473216271,
      "loss": 2.0482,
      "step": 20632
    },
    {
      "epoch": 0.4585111111111111,
      "grad_norm": 1.7385001182556152,
      "learning_rate": 0.00010832184929984441,
      "loss": 1.5377,
      "step": 20633
    },
    {
      "epoch": 0.45853333333333335,
      "grad_norm": 1.725487232208252,
      "learning_rate": 0.00010831740386752612,
      "loss": 2.1707,
      "step": 20634
    },
    {
      "epoch": 0.45855555555555555,
      "grad_norm": 1.6907597780227661,
      "learning_rate": 0.00010831295843520783,
      "loss": 2.0069,
      "step": 20635
    },
    {
      "epoch": 0.45857777777777775,
      "grad_norm": 1.4999724626541138,
      "learning_rate": 0.00010830851300288954,
      "loss": 1.4994,
      "step": 20636
    },
    {
      "epoch": 0.4586,
      "grad_norm": 1.8625105619430542,
      "learning_rate": 0.00010830406757057123,
      "loss": 2.3124,
      "step": 20637
    },
    {
      "epoch": 0.4586222222222222,
      "grad_norm": 1.7021278142929077,
      "learning_rate": 0.00010829962213825296,
      "loss": 2.0559,
      "step": 20638
    },
    {
      "epoch": 0.45864444444444447,
      "grad_norm": 1.6860487461090088,
      "learning_rate": 0.00010829517670593465,
      "loss": 2.0123,
      "step": 20639
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 1.4841892719268799,
      "learning_rate": 0.00010829073127361638,
      "loss": 1.8541,
      "step": 20640
    },
    {
      "epoch": 0.45868888888888887,
      "grad_norm": 1.6547081470489502,
      "learning_rate": 0.00010828628584129807,
      "loss": 2.0569,
      "step": 20641
    },
    {
      "epoch": 0.4587111111111111,
      "grad_norm": 1.5650403499603271,
      "learning_rate": 0.00010828184040897977,
      "loss": 1.7669,
      "step": 20642
    },
    {
      "epoch": 0.4587333333333333,
      "grad_norm": 2.8432118892669678,
      "learning_rate": 0.00010827739497666149,
      "loss": 1.8468,
      "step": 20643
    },
    {
      "epoch": 0.4587555555555556,
      "grad_norm": 1.7788660526275635,
      "learning_rate": 0.00010827294954434319,
      "loss": 1.9564,
      "step": 20644
    },
    {
      "epoch": 0.4587777777777778,
      "grad_norm": 1.7054883241653442,
      "learning_rate": 0.0001082685041120249,
      "loss": 1.8348,
      "step": 20645
    },
    {
      "epoch": 0.4588,
      "grad_norm": 1.5119198560714722,
      "learning_rate": 0.00010826405867970662,
      "loss": 1.7847,
      "step": 20646
    },
    {
      "epoch": 0.45882222222222224,
      "grad_norm": 1.6190073490142822,
      "learning_rate": 0.00010825961324738832,
      "loss": 1.7076,
      "step": 20647
    },
    {
      "epoch": 0.45884444444444444,
      "grad_norm": 2.154268980026245,
      "learning_rate": 0.00010825516781507001,
      "loss": 1.9352,
      "step": 20648
    },
    {
      "epoch": 0.45886666666666664,
      "grad_norm": 0.9468564391136169,
      "learning_rate": 0.00010825072238275174,
      "loss": 0.6563,
      "step": 20649
    },
    {
      "epoch": 0.4588888888888889,
      "grad_norm": 2.7685296535491943,
      "learning_rate": 0.00010824627695043343,
      "loss": 1.8813,
      "step": 20650
    },
    {
      "epoch": 0.4589111111111111,
      "grad_norm": 1.259843349456787,
      "learning_rate": 0.00010824183151811513,
      "loss": 2.3223,
      "step": 20651
    },
    {
      "epoch": 0.45893333333333336,
      "grad_norm": 1.2976881265640259,
      "learning_rate": 0.00010823738608579685,
      "loss": 1.8713,
      "step": 20652
    },
    {
      "epoch": 0.45895555555555556,
      "grad_norm": 0.8718313574790955,
      "learning_rate": 0.00010823294065347855,
      "loss": 0.9254,
      "step": 20653
    },
    {
      "epoch": 0.45897777777777776,
      "grad_norm": 1.5313198566436768,
      "learning_rate": 0.00010822849522116026,
      "loss": 2.5845,
      "step": 20654
    },
    {
      "epoch": 0.459,
      "grad_norm": 1.6573697328567505,
      "learning_rate": 0.00010822404978884198,
      "loss": 2.212,
      "step": 20655
    },
    {
      "epoch": 0.4590222222222222,
      "grad_norm": 1.4525641202926636,
      "learning_rate": 0.00010821960435652368,
      "loss": 2.1455,
      "step": 20656
    },
    {
      "epoch": 0.4590444444444444,
      "grad_norm": 1.5099067687988281,
      "learning_rate": 0.00010821515892420537,
      "loss": 1.5465,
      "step": 20657
    },
    {
      "epoch": 0.4590666666666667,
      "grad_norm": 1.7479875087738037,
      "learning_rate": 0.0001082107134918871,
      "loss": 2.5563,
      "step": 20658
    },
    {
      "epoch": 0.4590888888888889,
      "grad_norm": 1.8453559875488281,
      "learning_rate": 0.00010820626805956879,
      "loss": 2.2384,
      "step": 20659
    },
    {
      "epoch": 0.45911111111111114,
      "grad_norm": 1.455989122390747,
      "learning_rate": 0.00010820182262725051,
      "loss": 1.9015,
      "step": 20660
    },
    {
      "epoch": 0.45913333333333334,
      "grad_norm": 1.3960040807724,
      "learning_rate": 0.00010819737719493221,
      "loss": 2.0981,
      "step": 20661
    },
    {
      "epoch": 0.45915555555555554,
      "grad_norm": 1.586714267730713,
      "learning_rate": 0.00010819293176261392,
      "loss": 2.3373,
      "step": 20662
    },
    {
      "epoch": 0.4591777777777778,
      "grad_norm": 1.4165918827056885,
      "learning_rate": 0.00010818848633029563,
      "loss": 1.2639,
      "step": 20663
    },
    {
      "epoch": 0.4592,
      "grad_norm": 1.8848302364349365,
      "learning_rate": 0.00010818404089797734,
      "loss": 0.697,
      "step": 20664
    },
    {
      "epoch": 0.4592222222222222,
      "grad_norm": 1.5073273181915283,
      "learning_rate": 0.00010817959546565904,
      "loss": 1.7061,
      "step": 20665
    },
    {
      "epoch": 0.45924444444444446,
      "grad_norm": 1.7456003427505493,
      "learning_rate": 0.00010817515003334076,
      "loss": 2.1843,
      "step": 20666
    },
    {
      "epoch": 0.45926666666666666,
      "grad_norm": 1.8456379175186157,
      "learning_rate": 0.00010817070460102246,
      "loss": 1.3339,
      "step": 20667
    },
    {
      "epoch": 0.4592888888888889,
      "grad_norm": 1.4951777458190918,
      "learning_rate": 0.00010816625916870415,
      "loss": 2.3184,
      "step": 20668
    },
    {
      "epoch": 0.4593111111111111,
      "grad_norm": 1.7004499435424805,
      "learning_rate": 0.00010816181373638587,
      "loss": 1.8365,
      "step": 20669
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 2.323997735977173,
      "learning_rate": 0.00010815736830406757,
      "loss": 2.2058,
      "step": 20670
    },
    {
      "epoch": 0.4593555555555556,
      "grad_norm": 2.080615520477295,
      "learning_rate": 0.00010815292287174928,
      "loss": 1.4203,
      "step": 20671
    },
    {
      "epoch": 0.4593777777777778,
      "grad_norm": 1.6080042123794556,
      "learning_rate": 0.00010814847743943099,
      "loss": 1.85,
      "step": 20672
    },
    {
      "epoch": 0.4594,
      "grad_norm": 2.0031325817108154,
      "learning_rate": 0.0001081440320071127,
      "loss": 2.2531,
      "step": 20673
    },
    {
      "epoch": 0.45942222222222223,
      "grad_norm": 1.465667963027954,
      "learning_rate": 0.0001081395865747944,
      "loss": 2.0523,
      "step": 20674
    },
    {
      "epoch": 0.45944444444444443,
      "grad_norm": 1.7117105722427368,
      "learning_rate": 0.00010813514114247612,
      "loss": 1.7703,
      "step": 20675
    },
    {
      "epoch": 0.4594666666666667,
      "grad_norm": 1.91947340965271,
      "learning_rate": 0.00010813069571015781,
      "loss": 1.8503,
      "step": 20676
    },
    {
      "epoch": 0.4594888888888889,
      "grad_norm": 2.6712875366210938,
      "learning_rate": 0.00010812625027783954,
      "loss": 2.0996,
      "step": 20677
    },
    {
      "epoch": 0.4595111111111111,
      "grad_norm": 1.5547724962234497,
      "learning_rate": 0.00010812180484552123,
      "loss": 1.8181,
      "step": 20678
    },
    {
      "epoch": 0.45953333333333335,
      "grad_norm": 2.23978590965271,
      "learning_rate": 0.00010811735941320293,
      "loss": 1.9262,
      "step": 20679
    },
    {
      "epoch": 0.45955555555555555,
      "grad_norm": 1.8691266775131226,
      "learning_rate": 0.00010811291398088465,
      "loss": 2.0577,
      "step": 20680
    },
    {
      "epoch": 0.45957777777777775,
      "grad_norm": 1.6656132936477661,
      "learning_rate": 0.00010810846854856635,
      "loss": 1.8123,
      "step": 20681
    },
    {
      "epoch": 0.4596,
      "grad_norm": 1.607204794883728,
      "learning_rate": 0.00010810402311624806,
      "loss": 1.5683,
      "step": 20682
    },
    {
      "epoch": 0.4596222222222222,
      "grad_norm": 1.7290098667144775,
      "learning_rate": 0.00010809957768392978,
      "loss": 1.7538,
      "step": 20683
    },
    {
      "epoch": 0.45964444444444447,
      "grad_norm": 1.653308629989624,
      "learning_rate": 0.00010809513225161148,
      "loss": 2.1359,
      "step": 20684
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 1.9244314432144165,
      "learning_rate": 0.00010809068681929317,
      "loss": 2.1054,
      "step": 20685
    },
    {
      "epoch": 0.45968888888888887,
      "grad_norm": 1.7194725275039673,
      "learning_rate": 0.0001080862413869749,
      "loss": 2.1752,
      "step": 20686
    },
    {
      "epoch": 0.4597111111111111,
      "grad_norm": 1.7079367637634277,
      "learning_rate": 0.00010808179595465659,
      "loss": 1.9778,
      "step": 20687
    },
    {
      "epoch": 0.4597333333333333,
      "grad_norm": 1.40303635597229,
      "learning_rate": 0.00010807735052233829,
      "loss": 1.7399,
      "step": 20688
    },
    {
      "epoch": 0.45975555555555553,
      "grad_norm": 1.4623632431030273,
      "learning_rate": 0.00010807290509002001,
      "loss": 1.5353,
      "step": 20689
    },
    {
      "epoch": 0.4597777777777778,
      "grad_norm": 1.4760403633117676,
      "learning_rate": 0.00010806845965770171,
      "loss": 1.5178,
      "step": 20690
    },
    {
      "epoch": 0.4598,
      "grad_norm": 1.7155861854553223,
      "learning_rate": 0.00010806401422538342,
      "loss": 1.9336,
      "step": 20691
    },
    {
      "epoch": 0.45982222222222224,
      "grad_norm": 1.4323060512542725,
      "learning_rate": 0.00010805956879306514,
      "loss": 1.7094,
      "step": 20692
    },
    {
      "epoch": 0.45984444444444444,
      "grad_norm": 1.8617504835128784,
      "learning_rate": 0.00010805512336074684,
      "loss": 2.1032,
      "step": 20693
    },
    {
      "epoch": 0.45986666666666665,
      "grad_norm": 1.8590632677078247,
      "learning_rate": 0.00010805067792842853,
      "loss": 1.9766,
      "step": 20694
    },
    {
      "epoch": 0.4598888888888889,
      "grad_norm": 1.6704257726669312,
      "learning_rate": 0.00010804623249611026,
      "loss": 1.8949,
      "step": 20695
    },
    {
      "epoch": 0.4599111111111111,
      "grad_norm": 2.598879098892212,
      "learning_rate": 0.00010804178706379195,
      "loss": 1.0006,
      "step": 20696
    },
    {
      "epoch": 0.45993333333333336,
      "grad_norm": 1.7542318105697632,
      "learning_rate": 0.00010803734163147368,
      "loss": 2.205,
      "step": 20697
    },
    {
      "epoch": 0.45995555555555556,
      "grad_norm": 1.987342119216919,
      "learning_rate": 0.00010803289619915537,
      "loss": 1.6036,
      "step": 20698
    },
    {
      "epoch": 0.45997777777777776,
      "grad_norm": 1.4978770017623901,
      "learning_rate": 0.00010802845076683708,
      "loss": 1.5442,
      "step": 20699
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2052688598632812,
      "learning_rate": 0.00010802400533451879,
      "loss": 1.3609,
      "step": 20700
    },
    {
      "epoch": 0.4600222222222222,
      "grad_norm": 1.351755976676941,
      "learning_rate": 0.0001080195599022005,
      "loss": 2.4287,
      "step": 20701
    },
    {
      "epoch": 0.4600444444444444,
      "grad_norm": 1.4938926696777344,
      "learning_rate": 0.0001080151144698822,
      "loss": 0.734,
      "step": 20702
    },
    {
      "epoch": 0.4600666666666667,
      "grad_norm": 1.5373533964157104,
      "learning_rate": 0.00010801066903756392,
      "loss": 2.6726,
      "step": 20703
    },
    {
      "epoch": 0.4600888888888889,
      "grad_norm": 1.382154941558838,
      "learning_rate": 0.00010800622360524562,
      "loss": 2.5738,
      "step": 20704
    },
    {
      "epoch": 0.46011111111111114,
      "grad_norm": 1.0288658142089844,
      "learning_rate": 0.00010800177817292731,
      "loss": 1.1935,
      "step": 20705
    },
    {
      "epoch": 0.46013333333333334,
      "grad_norm": 1.3821423053741455,
      "learning_rate": 0.00010799733274060904,
      "loss": 1.2998,
      "step": 20706
    },
    {
      "epoch": 0.46015555555555554,
      "grad_norm": 1.471557855606079,
      "learning_rate": 0.00010799288730829073,
      "loss": 1.6602,
      "step": 20707
    },
    {
      "epoch": 0.4601777777777778,
      "grad_norm": 1.5181143283843994,
      "learning_rate": 0.00010798844187597244,
      "loss": 1.7483,
      "step": 20708
    },
    {
      "epoch": 0.4602,
      "grad_norm": 1.2564494609832764,
      "learning_rate": 0.00010798399644365415,
      "loss": 1.9073,
      "step": 20709
    },
    {
      "epoch": 0.4602222222222222,
      "grad_norm": 1.554436445236206,
      "learning_rate": 0.00010797955101133586,
      "loss": 0.8819,
      "step": 20710
    },
    {
      "epoch": 0.46024444444444446,
      "grad_norm": 1.5604521036148071,
      "learning_rate": 0.00010797510557901756,
      "loss": 2.1474,
      "step": 20711
    },
    {
      "epoch": 0.46026666666666666,
      "grad_norm": 1.2260583639144897,
      "learning_rate": 0.00010797066014669928,
      "loss": 1.9351,
      "step": 20712
    },
    {
      "epoch": 0.4602888888888889,
      "grad_norm": 1.4781275987625122,
      "learning_rate": 0.00010796621471438098,
      "loss": 1.5108,
      "step": 20713
    },
    {
      "epoch": 0.4603111111111111,
      "grad_norm": 1.6083152294158936,
      "learning_rate": 0.00010796176928206267,
      "loss": 1.4303,
      "step": 20714
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 1.2318131923675537,
      "learning_rate": 0.0001079573238497444,
      "loss": 1.2054,
      "step": 20715
    },
    {
      "epoch": 0.4603555555555556,
      "grad_norm": 1.4166638851165771,
      "learning_rate": 0.00010795287841742609,
      "loss": 1.2448,
      "step": 20716
    },
    {
      "epoch": 0.4603777777777778,
      "grad_norm": 1.816799283027649,
      "learning_rate": 0.00010794843298510781,
      "loss": 2.1517,
      "step": 20717
    },
    {
      "epoch": 0.4604,
      "grad_norm": 1.5774692296981812,
      "learning_rate": 0.00010794398755278951,
      "loss": 2.0518,
      "step": 20718
    },
    {
      "epoch": 0.46042222222222223,
      "grad_norm": 1.6239938735961914,
      "learning_rate": 0.00010793954212047122,
      "loss": 1.5832,
      "step": 20719
    },
    {
      "epoch": 0.46044444444444443,
      "grad_norm": 1.6425663232803345,
      "learning_rate": 0.00010793509668815294,
      "loss": 2.1491,
      "step": 20720
    },
    {
      "epoch": 0.4604666666666667,
      "grad_norm": 1.8399385213851929,
      "learning_rate": 0.00010793065125583464,
      "loss": 2.2273,
      "step": 20721
    },
    {
      "epoch": 0.4604888888888889,
      "grad_norm": 2.0688114166259766,
      "learning_rate": 0.00010792620582351633,
      "loss": 1.9765,
      "step": 20722
    },
    {
      "epoch": 0.4605111111111111,
      "grad_norm": 2.0629143714904785,
      "learning_rate": 0.00010792176039119806,
      "loss": 2.4612,
      "step": 20723
    },
    {
      "epoch": 0.46053333333333335,
      "grad_norm": 1.76900315284729,
      "learning_rate": 0.00010791731495887975,
      "loss": 1.8113,
      "step": 20724
    },
    {
      "epoch": 0.46055555555555555,
      "grad_norm": 1.87303626537323,
      "learning_rate": 0.00010791286952656145,
      "loss": 2.0083,
      "step": 20725
    },
    {
      "epoch": 0.46057777777777775,
      "grad_norm": 1.3189882040023804,
      "learning_rate": 0.00010790842409424317,
      "loss": 1.6575,
      "step": 20726
    },
    {
      "epoch": 0.4606,
      "grad_norm": 1.4611400365829468,
      "learning_rate": 0.00010790397866192487,
      "loss": 1.7122,
      "step": 20727
    },
    {
      "epoch": 0.4606222222222222,
      "grad_norm": 1.9861721992492676,
      "learning_rate": 0.00010789953322960658,
      "loss": 1.5566,
      "step": 20728
    },
    {
      "epoch": 0.46064444444444447,
      "grad_norm": 1.7116403579711914,
      "learning_rate": 0.0001078950877972883,
      "loss": 1.5951,
      "step": 20729
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 1.7457234859466553,
      "learning_rate": 0.00010789064236497,
      "loss": 1.9017,
      "step": 20730
    },
    {
      "epoch": 0.46068888888888887,
      "grad_norm": 1.7580727338790894,
      "learning_rate": 0.0001078861969326517,
      "loss": 1.5323,
      "step": 20731
    },
    {
      "epoch": 0.4607111111111111,
      "grad_norm": 1.977149486541748,
      "learning_rate": 0.00010788175150033342,
      "loss": 1.8151,
      "step": 20732
    },
    {
      "epoch": 0.46073333333333333,
      "grad_norm": 2.054353952407837,
      "learning_rate": 0.00010787730606801511,
      "loss": 2.1562,
      "step": 20733
    },
    {
      "epoch": 0.46075555555555553,
      "grad_norm": 1.8290455341339111,
      "learning_rate": 0.00010787286063569684,
      "loss": 2.2796,
      "step": 20734
    },
    {
      "epoch": 0.4607777777777778,
      "grad_norm": 1.7297428846359253,
      "learning_rate": 0.00010786841520337853,
      "loss": 1.9173,
      "step": 20735
    },
    {
      "epoch": 0.4608,
      "grad_norm": 1.5829417705535889,
      "learning_rate": 0.00010786396977106024,
      "loss": 2.0013,
      "step": 20736
    },
    {
      "epoch": 0.46082222222222224,
      "grad_norm": 1.9528026580810547,
      "learning_rate": 0.00010785952433874195,
      "loss": 2.0846,
      "step": 20737
    },
    {
      "epoch": 0.46084444444444445,
      "grad_norm": 1.8793991804122925,
      "learning_rate": 0.00010785507890642366,
      "loss": 1.9514,
      "step": 20738
    },
    {
      "epoch": 0.46086666666666665,
      "grad_norm": 1.5418599843978882,
      "learning_rate": 0.00010785063347410536,
      "loss": 1.7164,
      "step": 20739
    },
    {
      "epoch": 0.4608888888888889,
      "grad_norm": 1.805364966392517,
      "learning_rate": 0.00010784618804178708,
      "loss": 1.9923,
      "step": 20740
    },
    {
      "epoch": 0.4609111111111111,
      "grad_norm": 1.8089711666107178,
      "learning_rate": 0.00010784174260946878,
      "loss": 1.8745,
      "step": 20741
    },
    {
      "epoch": 0.4609333333333333,
      "grad_norm": 1.8726166486740112,
      "learning_rate": 0.00010783729717715047,
      "loss": 1.9595,
      "step": 20742
    },
    {
      "epoch": 0.46095555555555556,
      "grad_norm": 2.056759834289551,
      "learning_rate": 0.0001078328517448322,
      "loss": 1.6736,
      "step": 20743
    },
    {
      "epoch": 0.46097777777777776,
      "grad_norm": 1.4097821712493896,
      "learning_rate": 0.00010782840631251389,
      "loss": 1.5636,
      "step": 20744
    },
    {
      "epoch": 0.461,
      "grad_norm": 1.8225091695785522,
      "learning_rate": 0.0001078239608801956,
      "loss": 2.0224,
      "step": 20745
    },
    {
      "epoch": 0.4610222222222222,
      "grad_norm": 1.96831476688385,
      "learning_rate": 0.00010781951544787731,
      "loss": 2.018,
      "step": 20746
    },
    {
      "epoch": 0.4610444444444444,
      "grad_norm": 1.762241005897522,
      "learning_rate": 0.00010781507001555902,
      "loss": 2.2394,
      "step": 20747
    },
    {
      "epoch": 0.4610666666666667,
      "grad_norm": 2.238576650619507,
      "learning_rate": 0.00010781062458324072,
      "loss": 1.7815,
      "step": 20748
    },
    {
      "epoch": 0.4610888888888889,
      "grad_norm": 1.823158621788025,
      "learning_rate": 0.00010780617915092244,
      "loss": 1.604,
      "step": 20749
    },
    {
      "epoch": 0.46111111111111114,
      "grad_norm": 1.760656714439392,
      "learning_rate": 0.00010780173371860414,
      "loss": 1.6766,
      "step": 20750
    },
    {
      "epoch": 0.46113333333333334,
      "grad_norm": 1.5900956392288208,
      "learning_rate": 0.00010779728828628583,
      "loss": 2.7841,
      "step": 20751
    },
    {
      "epoch": 0.46115555555555554,
      "grad_norm": 1.4232577085494995,
      "learning_rate": 0.00010779284285396756,
      "loss": 2.3079,
      "step": 20752
    },
    {
      "epoch": 0.4611777777777778,
      "grad_norm": 1.618928074836731,
      "learning_rate": 0.00010778839742164925,
      "loss": 2.6327,
      "step": 20753
    },
    {
      "epoch": 0.4612,
      "grad_norm": 1.4031310081481934,
      "learning_rate": 0.00010778395198933098,
      "loss": 2.4467,
      "step": 20754
    },
    {
      "epoch": 0.4612222222222222,
      "grad_norm": 1.6361654996871948,
      "learning_rate": 0.00010777950655701267,
      "loss": 2.0585,
      "step": 20755
    },
    {
      "epoch": 0.46124444444444446,
      "grad_norm": 1.2973464727401733,
      "learning_rate": 0.00010777506112469438,
      "loss": 2.4338,
      "step": 20756
    },
    {
      "epoch": 0.46126666666666666,
      "grad_norm": 2.1564300060272217,
      "learning_rate": 0.0001077706156923761,
      "loss": 2.2163,
      "step": 20757
    },
    {
      "epoch": 0.4612888888888889,
      "grad_norm": 1.6277682781219482,
      "learning_rate": 0.0001077661702600578,
      "loss": 2.4272,
      "step": 20758
    },
    {
      "epoch": 0.4613111111111111,
      "grad_norm": 1.8541799783706665,
      "learning_rate": 0.0001077617248277395,
      "loss": 2.1482,
      "step": 20759
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 1.6919773817062378,
      "learning_rate": 0.00010775727939542122,
      "loss": 2.5869,
      "step": 20760
    },
    {
      "epoch": 0.4613555555555556,
      "grad_norm": 1.653419852256775,
      "learning_rate": 0.00010775283396310292,
      "loss": 1.8286,
      "step": 20761
    },
    {
      "epoch": 0.4613777777777778,
      "grad_norm": 1.3647254705429077,
      "learning_rate": 0.00010774838853078461,
      "loss": 1.7444,
      "step": 20762
    },
    {
      "epoch": 0.4614,
      "grad_norm": 1.8174529075622559,
      "learning_rate": 0.00010774394309846633,
      "loss": 2.14,
      "step": 20763
    },
    {
      "epoch": 0.46142222222222223,
      "grad_norm": 1.4852904081344604,
      "learning_rate": 0.00010773949766614803,
      "loss": 1.7765,
      "step": 20764
    },
    {
      "epoch": 0.46144444444444443,
      "grad_norm": 1.7789961099624634,
      "learning_rate": 0.00010773505223382974,
      "loss": 1.9684,
      "step": 20765
    },
    {
      "epoch": 0.4614666666666667,
      "grad_norm": 1.546187400817871,
      "learning_rate": 0.00010773060680151146,
      "loss": 2.0827,
      "step": 20766
    },
    {
      "epoch": 0.4614888888888889,
      "grad_norm": 1.666727900505066,
      "learning_rate": 0.00010772616136919316,
      "loss": 1.7126,
      "step": 20767
    },
    {
      "epoch": 0.4615111111111111,
      "grad_norm": 2.0356884002685547,
      "learning_rate": 0.00010772171593687486,
      "loss": 1.8282,
      "step": 20768
    },
    {
      "epoch": 0.46153333333333335,
      "grad_norm": 1.349704623222351,
      "learning_rate": 0.00010771727050455658,
      "loss": 1.7071,
      "step": 20769
    },
    {
      "epoch": 0.46155555555555555,
      "grad_norm": 1.691739559173584,
      "learning_rate": 0.00010771282507223827,
      "loss": 2.3323,
      "step": 20770
    },
    {
      "epoch": 0.46157777777777775,
      "grad_norm": 1.5219138860702515,
      "learning_rate": 0.00010770837963992,
      "loss": 2.0247,
      "step": 20771
    },
    {
      "epoch": 0.4616,
      "grad_norm": 1.6330578327178955,
      "learning_rate": 0.0001077039342076017,
      "loss": 1.5795,
      "step": 20772
    },
    {
      "epoch": 0.4616222222222222,
      "grad_norm": 1.4557278156280518,
      "learning_rate": 0.0001076994887752834,
      "loss": 1.5988,
      "step": 20773
    },
    {
      "epoch": 0.46164444444444447,
      "grad_norm": 1.6458710432052612,
      "learning_rate": 0.00010769504334296511,
      "loss": 1.9812,
      "step": 20774
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 1.8432190418243408,
      "learning_rate": 0.00010769059791064682,
      "loss": 1.924,
      "step": 20775
    },
    {
      "epoch": 0.46168888888888887,
      "grad_norm": 1.8131568431854248,
      "learning_rate": 0.00010768615247832852,
      "loss": 2.4177,
      "step": 20776
    },
    {
      "epoch": 0.4617111111111111,
      "grad_norm": 2.4569358825683594,
      "learning_rate": 0.00010768170704601024,
      "loss": 2.0488,
      "step": 20777
    },
    {
      "epoch": 0.46173333333333333,
      "grad_norm": 1.532262921333313,
      "learning_rate": 0.00010767726161369194,
      "loss": 1.5957,
      "step": 20778
    },
    {
      "epoch": 0.46175555555555553,
      "grad_norm": 1.8727178573608398,
      "learning_rate": 0.00010767281618137363,
      "loss": 1.5681,
      "step": 20779
    },
    {
      "epoch": 0.4617777777777778,
      "grad_norm": 2.027435064315796,
      "learning_rate": 0.00010766837074905536,
      "loss": 1.8902,
      "step": 20780
    },
    {
      "epoch": 0.4618,
      "grad_norm": 2.545722246170044,
      "learning_rate": 0.00010766392531673705,
      "loss": 2.1943,
      "step": 20781
    },
    {
      "epoch": 0.46182222222222225,
      "grad_norm": 1.5117675065994263,
      "learning_rate": 0.00010765947988441876,
      "loss": 1.7901,
      "step": 20782
    },
    {
      "epoch": 0.46184444444444445,
      "grad_norm": 1.6999695301055908,
      "learning_rate": 0.00010765503445210047,
      "loss": 1.9604,
      "step": 20783
    },
    {
      "epoch": 0.46186666666666665,
      "grad_norm": 1.5184073448181152,
      "learning_rate": 0.00010765058901978218,
      "loss": 2.0126,
      "step": 20784
    },
    {
      "epoch": 0.4618888888888889,
      "grad_norm": 1.6703484058380127,
      "learning_rate": 0.00010764614358746388,
      "loss": 2.2036,
      "step": 20785
    },
    {
      "epoch": 0.4619111111111111,
      "grad_norm": 1.4099876880645752,
      "learning_rate": 0.0001076416981551456,
      "loss": 1.8428,
      "step": 20786
    },
    {
      "epoch": 0.4619333333333333,
      "grad_norm": 1.6912729740142822,
      "learning_rate": 0.0001076372527228273,
      "loss": 1.818,
      "step": 20787
    },
    {
      "epoch": 0.46195555555555556,
      "grad_norm": 1.3206250667572021,
      "learning_rate": 0.000107632807290509,
      "loss": 1.2143,
      "step": 20788
    },
    {
      "epoch": 0.46197777777777776,
      "grad_norm": 1.9695751667022705,
      "learning_rate": 0.00010762836185819072,
      "loss": 2.2523,
      "step": 20789
    },
    {
      "epoch": 0.462,
      "grad_norm": 1.4997676610946655,
      "learning_rate": 0.00010762391642587241,
      "loss": 1.8222,
      "step": 20790
    },
    {
      "epoch": 0.4620222222222222,
      "grad_norm": 1.8386751413345337,
      "learning_rate": 0.00010761947099355414,
      "loss": 2.1038,
      "step": 20791
    },
    {
      "epoch": 0.4620444444444444,
      "grad_norm": 1.7374634742736816,
      "learning_rate": 0.00010761502556123583,
      "loss": 2.1464,
      "step": 20792
    },
    {
      "epoch": 0.4620666666666667,
      "grad_norm": 1.727540373802185,
      "learning_rate": 0.00010761058012891754,
      "loss": 2.0829,
      "step": 20793
    },
    {
      "epoch": 0.4620888888888889,
      "grad_norm": 2.2334702014923096,
      "learning_rate": 0.00010760613469659926,
      "loss": 2.1225,
      "step": 20794
    },
    {
      "epoch": 0.4621111111111111,
      "grad_norm": 1.7544749975204468,
      "learning_rate": 0.00010760168926428096,
      "loss": 1.9827,
      "step": 20795
    },
    {
      "epoch": 0.46213333333333334,
      "grad_norm": 1.3252168893814087,
      "learning_rate": 0.00010759724383196266,
      "loss": 1.7012,
      "step": 20796
    },
    {
      "epoch": 0.46215555555555554,
      "grad_norm": 2.0413732528686523,
      "learning_rate": 0.00010759279839964438,
      "loss": 2.3077,
      "step": 20797
    },
    {
      "epoch": 0.4621777777777778,
      "grad_norm": 1.6695960760116577,
      "learning_rate": 0.00010758835296732608,
      "loss": 1.8397,
      "step": 20798
    },
    {
      "epoch": 0.4622,
      "grad_norm": 2.109731912612915,
      "learning_rate": 0.00010758390753500777,
      "loss": 1.9634,
      "step": 20799
    },
    {
      "epoch": 0.4622222222222222,
      "grad_norm": 1.7198472023010254,
      "learning_rate": 0.0001075794621026895,
      "loss": 2.0146,
      "step": 20800
    },
    {
      "epoch": 0.46224444444444446,
      "grad_norm": 1.4498018026351929,
      "learning_rate": 0.00010757501667037119,
      "loss": 2.4803,
      "step": 20801
    },
    {
      "epoch": 0.46226666666666666,
      "grad_norm": 1.3996412754058838,
      "learning_rate": 0.0001075705712380529,
      "loss": 2.5602,
      "step": 20802
    },
    {
      "epoch": 0.4622888888888889,
      "grad_norm": 0.8965659141540527,
      "learning_rate": 0.00010756612580573462,
      "loss": 0.9522,
      "step": 20803
    },
    {
      "epoch": 0.4623111111111111,
      "grad_norm": 1.482547640800476,
      "learning_rate": 0.00010756168037341632,
      "loss": 2.8963,
      "step": 20804
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 1.2547950744628906,
      "learning_rate": 0.00010755723494109802,
      "loss": 1.7125,
      "step": 20805
    },
    {
      "epoch": 0.4623555555555556,
      "grad_norm": 1.4071884155273438,
      "learning_rate": 0.00010755278950877974,
      "loss": 2.0715,
      "step": 20806
    },
    {
      "epoch": 0.4623777777777778,
      "grad_norm": 1.5970710515975952,
      "learning_rate": 0.00010754834407646144,
      "loss": 2.3443,
      "step": 20807
    },
    {
      "epoch": 0.4624,
      "grad_norm": 1.3233158588409424,
      "learning_rate": 0.00010754389864414313,
      "loss": 1.7777,
      "step": 20808
    },
    {
      "epoch": 0.46242222222222223,
      "grad_norm": 1.3322662115097046,
      "learning_rate": 0.00010753945321182485,
      "loss": 2.1443,
      "step": 20809
    },
    {
      "epoch": 0.46244444444444444,
      "grad_norm": 1.3233540058135986,
      "learning_rate": 0.00010753500777950656,
      "loss": 2.0414,
      "step": 20810
    },
    {
      "epoch": 0.4624666666666667,
      "grad_norm": 1.0107002258300781,
      "learning_rate": 0.00010753056234718827,
      "loss": 1.1439,
      "step": 20811
    },
    {
      "epoch": 0.4624888888888889,
      "grad_norm": 1.5766898393630981,
      "learning_rate": 0.00010752611691486998,
      "loss": 2.0287,
      "step": 20812
    },
    {
      "epoch": 0.4625111111111111,
      "grad_norm": 1.6406445503234863,
      "learning_rate": 0.00010752167148255168,
      "loss": 1.6724,
      "step": 20813
    },
    {
      "epoch": 0.46253333333333335,
      "grad_norm": 1.4820313453674316,
      "learning_rate": 0.0001075172260502334,
      "loss": 2.0139,
      "step": 20814
    },
    {
      "epoch": 0.46255555555555555,
      "grad_norm": 1.5795787572860718,
      "learning_rate": 0.0001075127806179151,
      "loss": 2.2369,
      "step": 20815
    },
    {
      "epoch": 0.46257777777777775,
      "grad_norm": 1.6115126609802246,
      "learning_rate": 0.0001075083351855968,
      "loss": 1.7577,
      "step": 20816
    },
    {
      "epoch": 0.4626,
      "grad_norm": 1.5696066617965698,
      "learning_rate": 0.00010750388975327852,
      "loss": 2.0053,
      "step": 20817
    },
    {
      "epoch": 0.4626222222222222,
      "grad_norm": 1.309603214263916,
      "learning_rate": 0.00010749944432096021,
      "loss": 1.5638,
      "step": 20818
    },
    {
      "epoch": 0.46264444444444447,
      "grad_norm": 1.4616689682006836,
      "learning_rate": 0.00010749499888864192,
      "loss": 2.1906,
      "step": 20819
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 1.4717320203781128,
      "learning_rate": 0.00010749055345632363,
      "loss": 2.2794,
      "step": 20820
    },
    {
      "epoch": 0.46268888888888887,
      "grad_norm": 1.4921481609344482,
      "learning_rate": 0.00010748610802400534,
      "loss": 2.1133,
      "step": 20821
    },
    {
      "epoch": 0.46271111111111113,
      "grad_norm": 1.3746163845062256,
      "learning_rate": 0.00010748166259168704,
      "loss": 1.3395,
      "step": 20822
    },
    {
      "epoch": 0.46273333333333333,
      "grad_norm": 1.6349217891693115,
      "learning_rate": 0.00010747721715936876,
      "loss": 1.8891,
      "step": 20823
    },
    {
      "epoch": 0.46275555555555553,
      "grad_norm": 1.8459601402282715,
      "learning_rate": 0.00010747277172705046,
      "loss": 1.9635,
      "step": 20824
    },
    {
      "epoch": 0.4627777777777778,
      "grad_norm": 1.5058386325836182,
      "learning_rate": 0.00010746832629473215,
      "loss": 2.0238,
      "step": 20825
    },
    {
      "epoch": 0.4628,
      "grad_norm": 1.5360515117645264,
      "learning_rate": 0.00010746388086241388,
      "loss": 2.0528,
      "step": 20826
    },
    {
      "epoch": 0.46282222222222225,
      "grad_norm": 1.6949522495269775,
      "learning_rate": 0.00010745943543009557,
      "loss": 1.8946,
      "step": 20827
    },
    {
      "epoch": 0.46284444444444445,
      "grad_norm": 1.611513376235962,
      "learning_rate": 0.0001074549899977773,
      "loss": 1.8676,
      "step": 20828
    },
    {
      "epoch": 0.46286666666666665,
      "grad_norm": 1.7889125347137451,
      "learning_rate": 0.00010745054456545899,
      "loss": 2.1905,
      "step": 20829
    },
    {
      "epoch": 0.4628888888888889,
      "grad_norm": 1.7001017332077026,
      "learning_rate": 0.0001074460991331407,
      "loss": 2.3194,
      "step": 20830
    },
    {
      "epoch": 0.4629111111111111,
      "grad_norm": 2.339634656906128,
      "learning_rate": 0.00010744165370082243,
      "loss": 2.2101,
      "step": 20831
    },
    {
      "epoch": 0.4629333333333333,
      "grad_norm": 1.7881152629852295,
      "learning_rate": 0.00010743720826850412,
      "loss": 2.1,
      "step": 20832
    },
    {
      "epoch": 0.46295555555555556,
      "grad_norm": 1.5764338970184326,
      "learning_rate": 0.00010743276283618582,
      "loss": 1.4961,
      "step": 20833
    },
    {
      "epoch": 0.46297777777777777,
      "grad_norm": 1.7467299699783325,
      "learning_rate": 0.00010742831740386754,
      "loss": 2.2167,
      "step": 20834
    },
    {
      "epoch": 0.463,
      "grad_norm": 1.7705273628234863,
      "learning_rate": 0.00010742387197154924,
      "loss": 2.0155,
      "step": 20835
    },
    {
      "epoch": 0.4630222222222222,
      "grad_norm": 1.5325278043746948,
      "learning_rate": 0.00010741942653923093,
      "loss": 1.9476,
      "step": 20836
    },
    {
      "epoch": 0.4630444444444444,
      "grad_norm": 2.0183966159820557,
      "learning_rate": 0.00010741498110691266,
      "loss": 2.004,
      "step": 20837
    },
    {
      "epoch": 0.4630666666666667,
      "grad_norm": 2.156317949295044,
      "learning_rate": 0.00010741053567459435,
      "loss": 2.1129,
      "step": 20838
    },
    {
      "epoch": 0.4630888888888889,
      "grad_norm": 2.1589772701263428,
      "learning_rate": 0.00010740609024227606,
      "loss": 2.1244,
      "step": 20839
    },
    {
      "epoch": 0.4631111111111111,
      "grad_norm": 1.7936441898345947,
      "learning_rate": 0.00010740164480995779,
      "loss": 2.3831,
      "step": 20840
    },
    {
      "epoch": 0.46313333333333334,
      "grad_norm": 1.7830418348312378,
      "learning_rate": 0.00010739719937763948,
      "loss": 1.9798,
      "step": 20841
    },
    {
      "epoch": 0.46315555555555554,
      "grad_norm": 1.7632826566696167,
      "learning_rate": 0.00010739275394532118,
      "loss": 1.7008,
      "step": 20842
    },
    {
      "epoch": 0.4631777777777778,
      "grad_norm": 1.629258394241333,
      "learning_rate": 0.0001073883085130029,
      "loss": 1.4575,
      "step": 20843
    },
    {
      "epoch": 0.4632,
      "grad_norm": 1.7443445920944214,
      "learning_rate": 0.0001073838630806846,
      "loss": 1.7791,
      "step": 20844
    },
    {
      "epoch": 0.4632222222222222,
      "grad_norm": 1.7549587488174438,
      "learning_rate": 0.00010737941764836629,
      "loss": 1.8321,
      "step": 20845
    },
    {
      "epoch": 0.46324444444444446,
      "grad_norm": 1.6782994270324707,
      "learning_rate": 0.00010737497221604802,
      "loss": 1.5862,
      "step": 20846
    },
    {
      "epoch": 0.46326666666666666,
      "grad_norm": 0.9735000729560852,
      "learning_rate": 0.00010737052678372973,
      "loss": 0.0593,
      "step": 20847
    },
    {
      "epoch": 0.46328888888888886,
      "grad_norm": 1.8072935342788696,
      "learning_rate": 0.00010736608135141144,
      "loss": 1.9376,
      "step": 20848
    },
    {
      "epoch": 0.4633111111111111,
      "grad_norm": 1.769648551940918,
      "learning_rate": 0.00010736163591909314,
      "loss": 1.6743,
      "step": 20849
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 1.6592897176742554,
      "learning_rate": 0.00010735719048677484,
      "loss": 1.0648,
      "step": 20850
    },
    {
      "epoch": 0.4633555555555556,
      "grad_norm": 1.0602517127990723,
      "learning_rate": 0.00010735274505445656,
      "loss": 1.2905,
      "step": 20851
    },
    {
      "epoch": 0.4633777777777778,
      "grad_norm": 1.0589935779571533,
      "learning_rate": 0.00010734829962213826,
      "loss": 1.4756,
      "step": 20852
    },
    {
      "epoch": 0.4634,
      "grad_norm": 1.1708693504333496,
      "learning_rate": 0.00010734385418981996,
      "loss": 1.1417,
      "step": 20853
    },
    {
      "epoch": 0.46342222222222224,
      "grad_norm": 1.4350800514221191,
      "learning_rate": 0.00010733940875750168,
      "loss": 2.1726,
      "step": 20854
    },
    {
      "epoch": 0.46344444444444444,
      "grad_norm": 1.423143982887268,
      "learning_rate": 0.00010733496332518338,
      "loss": 1.4602,
      "step": 20855
    },
    {
      "epoch": 0.4634666666666667,
      "grad_norm": 1.5398731231689453,
      "learning_rate": 0.00010733051789286509,
      "loss": 1.8742,
      "step": 20856
    },
    {
      "epoch": 0.4634888888888889,
      "grad_norm": 1.5991156101226807,
      "learning_rate": 0.0001073260724605468,
      "loss": 2.0658,
      "step": 20857
    },
    {
      "epoch": 0.4635111111111111,
      "grad_norm": 1.5676753520965576,
      "learning_rate": 0.0001073216270282285,
      "loss": 2.2489,
      "step": 20858
    },
    {
      "epoch": 0.46353333333333335,
      "grad_norm": 1.2694885730743408,
      "learning_rate": 0.0001073171815959102,
      "loss": 1.8462,
      "step": 20859
    },
    {
      "epoch": 0.46355555555555555,
      "grad_norm": 1.3223989009857178,
      "learning_rate": 0.00010731273616359192,
      "loss": 1.7524,
      "step": 20860
    },
    {
      "epoch": 0.46357777777777776,
      "grad_norm": 1.3557180166244507,
      "learning_rate": 0.00010730829073127362,
      "loss": 1.7266,
      "step": 20861
    },
    {
      "epoch": 0.4636,
      "grad_norm": 1.1541751623153687,
      "learning_rate": 0.00010730384529895532,
      "loss": 0.9204,
      "step": 20862
    },
    {
      "epoch": 0.4636222222222222,
      "grad_norm": 1.5299326181411743,
      "learning_rate": 0.00010729939986663704,
      "loss": 2.2474,
      "step": 20863
    },
    {
      "epoch": 0.46364444444444447,
      "grad_norm": 1.698104977607727,
      "learning_rate": 0.00010729495443431873,
      "loss": 1.9094,
      "step": 20864
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 1.586235523223877,
      "learning_rate": 0.00010729050900200044,
      "loss": 2.1886,
      "step": 20865
    },
    {
      "epoch": 0.4636888888888889,
      "grad_norm": 1.6829006671905518,
      "learning_rate": 0.00010728606356968215,
      "loss": 2.0678,
      "step": 20866
    },
    {
      "epoch": 0.46371111111111113,
      "grad_norm": 1.5969979763031006,
      "learning_rate": 0.00010728161813736386,
      "loss": 2.528,
      "step": 20867
    },
    {
      "epoch": 0.46373333333333333,
      "grad_norm": 1.4193836450576782,
      "learning_rate": 0.00010727717270504559,
      "loss": 2.0293,
      "step": 20868
    },
    {
      "epoch": 0.46375555555555553,
      "grad_norm": 1.4997960329055786,
      "learning_rate": 0.00010727272727272728,
      "loss": 2.0689,
      "step": 20869
    },
    {
      "epoch": 0.4637777777777778,
      "grad_norm": 1.4280768632888794,
      "learning_rate": 0.00010726828184040898,
      "loss": 1.7451,
      "step": 20870
    },
    {
      "epoch": 0.4638,
      "grad_norm": 1.349592685699463,
      "learning_rate": 0.0001072638364080907,
      "loss": 1.4412,
      "step": 20871
    },
    {
      "epoch": 0.46382222222222225,
      "grad_norm": 1.71950364112854,
      "learning_rate": 0.0001072593909757724,
      "loss": 2.2685,
      "step": 20872
    },
    {
      "epoch": 0.46384444444444445,
      "grad_norm": 1.6067008972167969,
      "learning_rate": 0.0001072549455434541,
      "loss": 1.9749,
      "step": 20873
    },
    {
      "epoch": 0.46386666666666665,
      "grad_norm": 1.775371789932251,
      "learning_rate": 0.00010725050011113582,
      "loss": 2.0237,
      "step": 20874
    },
    {
      "epoch": 0.4638888888888889,
      "grad_norm": 1.4682360887527466,
      "learning_rate": 0.00010724605467881751,
      "loss": 2.0327,
      "step": 20875
    },
    {
      "epoch": 0.4639111111111111,
      "grad_norm": 1.592049479484558,
      "learning_rate": 0.00010724160924649922,
      "loss": 1.8055,
      "step": 20876
    },
    {
      "epoch": 0.4639333333333333,
      "grad_norm": 1.5532457828521729,
      "learning_rate": 0.00010723716381418095,
      "loss": 2.0906,
      "step": 20877
    },
    {
      "epoch": 0.46395555555555557,
      "grad_norm": 1.6780885457992554,
      "learning_rate": 0.00010723271838186264,
      "loss": 1.709,
      "step": 20878
    },
    {
      "epoch": 0.46397777777777777,
      "grad_norm": 1.7993555068969727,
      "learning_rate": 0.00010722827294954434,
      "loss": 1.8062,
      "step": 20879
    },
    {
      "epoch": 0.464,
      "grad_norm": 2.4360873699188232,
      "learning_rate": 0.00010722382751722606,
      "loss": 2.2105,
      "step": 20880
    },
    {
      "epoch": 0.4640222222222222,
      "grad_norm": 1.6620007753372192,
      "learning_rate": 0.00010721938208490776,
      "loss": 1.7625,
      "step": 20881
    },
    {
      "epoch": 0.4640444444444444,
      "grad_norm": 1.7894927263259888,
      "learning_rate": 0.00010721493665258945,
      "loss": 2.1397,
      "step": 20882
    },
    {
      "epoch": 0.4640666666666667,
      "grad_norm": 1.3769899606704712,
      "learning_rate": 0.00010721049122027118,
      "loss": 1.5942,
      "step": 20883
    },
    {
      "epoch": 0.4640888888888889,
      "grad_norm": 1.8317970037460327,
      "learning_rate": 0.00010720604578795289,
      "loss": 1.4763,
      "step": 20884
    },
    {
      "epoch": 0.4641111111111111,
      "grad_norm": 1.4694169759750366,
      "learning_rate": 0.0001072016003556346,
      "loss": 1.734,
      "step": 20885
    },
    {
      "epoch": 0.46413333333333334,
      "grad_norm": 1.8166000843048096,
      "learning_rate": 0.0001071971549233163,
      "loss": 2.0518,
      "step": 20886
    },
    {
      "epoch": 0.46415555555555554,
      "grad_norm": 1.7604650259017944,
      "learning_rate": 0.000107192709490998,
      "loss": 1.9859,
      "step": 20887
    },
    {
      "epoch": 0.4641777777777778,
      "grad_norm": 2.159799337387085,
      "learning_rate": 0.00010718826405867973,
      "loss": 2.1375,
      "step": 20888
    },
    {
      "epoch": 0.4642,
      "grad_norm": 1.8324940204620361,
      "learning_rate": 0.00010718381862636142,
      "loss": 2.2469,
      "step": 20889
    },
    {
      "epoch": 0.4642222222222222,
      "grad_norm": 1.7616947889328003,
      "learning_rate": 0.00010717937319404312,
      "loss": 2.1866,
      "step": 20890
    },
    {
      "epoch": 0.46424444444444446,
      "grad_norm": 2.054380416870117,
      "learning_rate": 0.00010717492776172484,
      "loss": 1.8557,
      "step": 20891
    },
    {
      "epoch": 0.46426666666666666,
      "grad_norm": 1.7620800733566284,
      "learning_rate": 0.00010717048232940654,
      "loss": 1.928,
      "step": 20892
    },
    {
      "epoch": 0.46428888888888886,
      "grad_norm": 1.6510517597198486,
      "learning_rate": 0.00010716603689708825,
      "loss": 1.7306,
      "step": 20893
    },
    {
      "epoch": 0.4643111111111111,
      "grad_norm": 1.4708820581436157,
      "learning_rate": 0.00010716159146476996,
      "loss": 1.5802,
      "step": 20894
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 1.8338241577148438,
      "learning_rate": 0.00010715714603245167,
      "loss": 1.8148,
      "step": 20895
    },
    {
      "epoch": 0.4643555555555556,
      "grad_norm": 1.9461997747421265,
      "learning_rate": 0.00010715270060013336,
      "loss": 2.0577,
      "step": 20896
    },
    {
      "epoch": 0.4643777777777778,
      "grad_norm": 1.6157333850860596,
      "learning_rate": 0.00010714825516781508,
      "loss": 1.5464,
      "step": 20897
    },
    {
      "epoch": 0.4644,
      "grad_norm": 1.6288880109786987,
      "learning_rate": 0.00010714380973549678,
      "loss": 1.7508,
      "step": 20898
    },
    {
      "epoch": 0.46442222222222224,
      "grad_norm": 1.76598060131073,
      "learning_rate": 0.00010713936430317848,
      "loss": 1.8387,
      "step": 20899
    },
    {
      "epoch": 0.46444444444444444,
      "grad_norm": 1.6144977807998657,
      "learning_rate": 0.0001071349188708602,
      "loss": 1.3943,
      "step": 20900
    },
    {
      "epoch": 0.4644666666666667,
      "grad_norm": 1.398470163345337,
      "learning_rate": 0.0001071304734385419,
      "loss": 2.5514,
      "step": 20901
    },
    {
      "epoch": 0.4644888888888889,
      "grad_norm": 1.5771982669830322,
      "learning_rate": 0.0001071260280062236,
      "loss": 2.1912,
      "step": 20902
    },
    {
      "epoch": 0.4645111111111111,
      "grad_norm": 1.362507939338684,
      "learning_rate": 0.00010712158257390532,
      "loss": 1.9437,
      "step": 20903
    },
    {
      "epoch": 0.46453333333333335,
      "grad_norm": 1.3653697967529297,
      "learning_rate": 0.00010711713714158702,
      "loss": 2.3823,
      "step": 20904
    },
    {
      "epoch": 0.46455555555555555,
      "grad_norm": 1.6592861413955688,
      "learning_rate": 0.00010711269170926875,
      "loss": 2.5249,
      "step": 20905
    },
    {
      "epoch": 0.46457777777777776,
      "grad_norm": 1.7438290119171143,
      "learning_rate": 0.00010710824627695044,
      "loss": 2.3063,
      "step": 20906
    },
    {
      "epoch": 0.4646,
      "grad_norm": 1.7878119945526123,
      "learning_rate": 0.00010710380084463214,
      "loss": 1.9989,
      "step": 20907
    },
    {
      "epoch": 0.4646222222222222,
      "grad_norm": 1.6408765316009521,
      "learning_rate": 0.00010709935541231386,
      "loss": 2.3435,
      "step": 20908
    },
    {
      "epoch": 0.46464444444444447,
      "grad_norm": 1.287089467048645,
      "learning_rate": 0.00010709490997999556,
      "loss": 1.7126,
      "step": 20909
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 1.1151089668273926,
      "learning_rate": 0.00010709046454767726,
      "loss": 0.9309,
      "step": 20910
    },
    {
      "epoch": 0.4646888888888889,
      "grad_norm": 1.5406180620193481,
      "learning_rate": 0.00010708601911535898,
      "loss": 2.6518,
      "step": 20911
    },
    {
      "epoch": 0.46471111111111113,
      "grad_norm": 2.326035261154175,
      "learning_rate": 0.00010708157368304067,
      "loss": 2.0479,
      "step": 20912
    },
    {
      "epoch": 0.46473333333333333,
      "grad_norm": 1.5357667207717896,
      "learning_rate": 0.00010707712825072238,
      "loss": 1.42,
      "step": 20913
    },
    {
      "epoch": 0.46475555555555553,
      "grad_norm": 1.8062509298324585,
      "learning_rate": 0.00010707268281840411,
      "loss": 2.2608,
      "step": 20914
    },
    {
      "epoch": 0.4647777777777778,
      "grad_norm": 1.522640585899353,
      "learning_rate": 0.0001070682373860858,
      "loss": 2.6024,
      "step": 20915
    },
    {
      "epoch": 0.4648,
      "grad_norm": 1.434624433517456,
      "learning_rate": 0.0001070637919537675,
      "loss": 2.1654,
      "step": 20916
    },
    {
      "epoch": 0.46482222222222225,
      "grad_norm": 1.3236366510391235,
      "learning_rate": 0.00010705934652144922,
      "loss": 2.0513,
      "step": 20917
    },
    {
      "epoch": 0.46484444444444445,
      "grad_norm": 1.7225546836853027,
      "learning_rate": 0.00010705490108913092,
      "loss": 2.3424,
      "step": 20918
    },
    {
      "epoch": 0.46486666666666665,
      "grad_norm": 1.4780553579330444,
      "learning_rate": 0.00010705045565681261,
      "loss": 2.0174,
      "step": 20919
    },
    {
      "epoch": 0.4648888888888889,
      "grad_norm": 1.063461422920227,
      "learning_rate": 0.00010704601022449434,
      "loss": 0.8126,
      "step": 20920
    },
    {
      "epoch": 0.4649111111111111,
      "grad_norm": 1.5363270044326782,
      "learning_rate": 0.00010704156479217605,
      "loss": 2.1067,
      "step": 20921
    },
    {
      "epoch": 0.4649333333333333,
      "grad_norm": 1.3650630712509155,
      "learning_rate": 0.00010703711935985774,
      "loss": 1.8917,
      "step": 20922
    },
    {
      "epoch": 0.46495555555555557,
      "grad_norm": 1.3944895267486572,
      "learning_rate": 0.00010703267392753947,
      "loss": 1.9528,
      "step": 20923
    },
    {
      "epoch": 0.46497777777777777,
      "grad_norm": 1.4703447818756104,
      "learning_rate": 0.00010702822849522116,
      "loss": 1.9302,
      "step": 20924
    },
    {
      "epoch": 0.465,
      "grad_norm": 1.8181108236312866,
      "learning_rate": 0.00010702378306290289,
      "loss": 2.5285,
      "step": 20925
    },
    {
      "epoch": 0.4650222222222222,
      "grad_norm": 1.8189301490783691,
      "learning_rate": 0.00010701933763058458,
      "loss": 2.0751,
      "step": 20926
    },
    {
      "epoch": 0.4650444444444444,
      "grad_norm": 1.559722661972046,
      "learning_rate": 0.00010701489219826628,
      "loss": 2.0564,
      "step": 20927
    },
    {
      "epoch": 0.4650666666666667,
      "grad_norm": 1.5728695392608643,
      "learning_rate": 0.000107010446765948,
      "loss": 1.9217,
      "step": 20928
    },
    {
      "epoch": 0.4650888888888889,
      "grad_norm": 2.2441823482513428,
      "learning_rate": 0.0001070060013336297,
      "loss": 2.2296,
      "step": 20929
    },
    {
      "epoch": 0.4651111111111111,
      "grad_norm": 1.3240532875061035,
      "learning_rate": 0.00010700155590131141,
      "loss": 1.6733,
      "step": 20930
    },
    {
      "epoch": 0.46513333333333334,
      "grad_norm": 1.9598618745803833,
      "learning_rate": 0.00010699711046899312,
      "loss": 2.1693,
      "step": 20931
    },
    {
      "epoch": 0.46515555555555554,
      "grad_norm": 1.5935944318771362,
      "learning_rate": 0.00010699266503667483,
      "loss": 1.7069,
      "step": 20932
    },
    {
      "epoch": 0.4651777777777778,
      "grad_norm": 1.3130959272384644,
      "learning_rate": 0.00010698821960435652,
      "loss": 0.9152,
      "step": 20933
    },
    {
      "epoch": 0.4652,
      "grad_norm": 1.642324447631836,
      "learning_rate": 0.00010698377417203825,
      "loss": 1.8076,
      "step": 20934
    },
    {
      "epoch": 0.4652222222222222,
      "grad_norm": 1.6496593952178955,
      "learning_rate": 0.00010697932873971994,
      "loss": 1.8584,
      "step": 20935
    },
    {
      "epoch": 0.46524444444444446,
      "grad_norm": 1.6247954368591309,
      "learning_rate": 0.00010697488330740164,
      "loss": 1.9427,
      "step": 20936
    },
    {
      "epoch": 0.46526666666666666,
      "grad_norm": 1.7712092399597168,
      "learning_rate": 0.00010697043787508336,
      "loss": 1.8076,
      "step": 20937
    },
    {
      "epoch": 0.46528888888888886,
      "grad_norm": 2.1123831272125244,
      "learning_rate": 0.00010696599244276506,
      "loss": 2.1628,
      "step": 20938
    },
    {
      "epoch": 0.4653111111111111,
      "grad_norm": 1.5119869709014893,
      "learning_rate": 0.00010696154701044677,
      "loss": 1.8049,
      "step": 20939
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 1.7727736234664917,
      "learning_rate": 0.00010695710157812848,
      "loss": 1.8193,
      "step": 20940
    },
    {
      "epoch": 0.4653555555555556,
      "grad_norm": 1.0959340333938599,
      "learning_rate": 0.00010695265614581019,
      "loss": 0.8544,
      "step": 20941
    },
    {
      "epoch": 0.4653777777777778,
      "grad_norm": 1.7870323657989502,
      "learning_rate": 0.00010694821071349191,
      "loss": 1.4367,
      "step": 20942
    },
    {
      "epoch": 0.4654,
      "grad_norm": 1.6584807634353638,
      "learning_rate": 0.0001069437652811736,
      "loss": 2.0212,
      "step": 20943
    },
    {
      "epoch": 0.46542222222222224,
      "grad_norm": 1.990560531616211,
      "learning_rate": 0.0001069393198488553,
      "loss": 2.0951,
      "step": 20944
    },
    {
      "epoch": 0.46544444444444444,
      "grad_norm": 1.795651912689209,
      "learning_rate": 0.00010693487441653702,
      "loss": 1.9089,
      "step": 20945
    },
    {
      "epoch": 0.46546666666666664,
      "grad_norm": 1.9268231391906738,
      "learning_rate": 0.00010693042898421872,
      "loss": 1.6838,
      "step": 20946
    },
    {
      "epoch": 0.4654888888888889,
      "grad_norm": 1.92780601978302,
      "learning_rate": 0.00010692598355190042,
      "loss": 2.395,
      "step": 20947
    },
    {
      "epoch": 0.4655111111111111,
      "grad_norm": 1.7172013521194458,
      "learning_rate": 0.00010692153811958214,
      "loss": 2.0619,
      "step": 20948
    },
    {
      "epoch": 0.46553333333333335,
      "grad_norm": 1.2924858331680298,
      "learning_rate": 0.00010691709268726384,
      "loss": 1.0567,
      "step": 20949
    },
    {
      "epoch": 0.46555555555555556,
      "grad_norm": 1.9167919158935547,
      "learning_rate": 0.00010691264725494555,
      "loss": 1.609,
      "step": 20950
    },
    {
      "epoch": 0.46557777777777776,
      "grad_norm": 1.2701032161712646,
      "learning_rate": 0.00010690820182262727,
      "loss": 2.3779,
      "step": 20951
    },
    {
      "epoch": 0.4656,
      "grad_norm": 1.1147674322128296,
      "learning_rate": 0.00010690375639030896,
      "loss": 1.5186,
      "step": 20952
    },
    {
      "epoch": 0.4656222222222222,
      "grad_norm": 1.6112935543060303,
      "learning_rate": 0.00010689931095799066,
      "loss": 2.212,
      "step": 20953
    },
    {
      "epoch": 0.46564444444444447,
      "grad_norm": 1.8335219621658325,
      "learning_rate": 0.00010689486552567238,
      "loss": 2.2831,
      "step": 20954
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 1.2649881839752197,
      "learning_rate": 0.00010689042009335408,
      "loss": 2.1233,
      "step": 20955
    },
    {
      "epoch": 0.4656888888888889,
      "grad_norm": 1.4578782320022583,
      "learning_rate": 0.00010688597466103578,
      "loss": 1.9799,
      "step": 20956
    },
    {
      "epoch": 0.46571111111111113,
      "grad_norm": 1.6557164192199707,
      "learning_rate": 0.0001068815292287175,
      "loss": 2.6022,
      "step": 20957
    },
    {
      "epoch": 0.46573333333333333,
      "grad_norm": 2.0221364498138428,
      "learning_rate": 0.00010687708379639921,
      "loss": 2.1745,
      "step": 20958
    },
    {
      "epoch": 0.46575555555555553,
      "grad_norm": 1.4839861392974854,
      "learning_rate": 0.0001068726383640809,
      "loss": 2.2644,
      "step": 20959
    },
    {
      "epoch": 0.4657777777777778,
      "grad_norm": 1.602157473564148,
      "learning_rate": 0.00010686819293176263,
      "loss": 1.7812,
      "step": 20960
    },
    {
      "epoch": 0.4658,
      "grad_norm": 1.323643445968628,
      "learning_rate": 0.00010686374749944432,
      "loss": 1.5978,
      "step": 20961
    },
    {
      "epoch": 0.46582222222222225,
      "grad_norm": 1.222164511680603,
      "learning_rate": 0.00010685930206712605,
      "loss": 1.6678,
      "step": 20962
    },
    {
      "epoch": 0.46584444444444445,
      "grad_norm": 1.5482972860336304,
      "learning_rate": 0.00010685485663480774,
      "loss": 2.249,
      "step": 20963
    },
    {
      "epoch": 0.46586666666666665,
      "grad_norm": 1.5774770975112915,
      "learning_rate": 0.00010685041120248944,
      "loss": 2.527,
      "step": 20964
    },
    {
      "epoch": 0.4658888888888889,
      "grad_norm": 1.4266828298568726,
      "learning_rate": 0.00010684596577017116,
      "loss": 1.7744,
      "step": 20965
    },
    {
      "epoch": 0.4659111111111111,
      "grad_norm": 1.651949167251587,
      "learning_rate": 0.00010684152033785286,
      "loss": 2.2111,
      "step": 20966
    },
    {
      "epoch": 0.4659333333333333,
      "grad_norm": 1.709615707397461,
      "learning_rate": 0.00010683707490553457,
      "loss": 2.2959,
      "step": 20967
    },
    {
      "epoch": 0.46595555555555557,
      "grad_norm": 1.5497840642929077,
      "learning_rate": 0.00010683262947321628,
      "loss": 1.9346,
      "step": 20968
    },
    {
      "epoch": 0.46597777777777777,
      "grad_norm": 1.2896041870117188,
      "learning_rate": 0.00010682818404089799,
      "loss": 1.731,
      "step": 20969
    },
    {
      "epoch": 0.466,
      "grad_norm": 1.453630805015564,
      "learning_rate": 0.00010682373860857968,
      "loss": 1.6767,
      "step": 20970
    },
    {
      "epoch": 0.4660222222222222,
      "grad_norm": 1.53363037109375,
      "learning_rate": 0.0001068192931762614,
      "loss": 1.9965,
      "step": 20971
    },
    {
      "epoch": 0.46604444444444443,
      "grad_norm": 1.5411392450332642,
      "learning_rate": 0.0001068148477439431,
      "loss": 1.9712,
      "step": 20972
    },
    {
      "epoch": 0.4660666666666667,
      "grad_norm": 1.6992803812026978,
      "learning_rate": 0.0001068104023116248,
      "loss": 1.9863,
      "step": 20973
    },
    {
      "epoch": 0.4660888888888889,
      "grad_norm": 1.3110136985778809,
      "learning_rate": 0.00010680595687930652,
      "loss": 1.4269,
      "step": 20974
    },
    {
      "epoch": 0.4661111111111111,
      "grad_norm": 1.6807085275650024,
      "learning_rate": 0.00010680151144698822,
      "loss": 2.3062,
      "step": 20975
    },
    {
      "epoch": 0.46613333333333334,
      "grad_norm": 1.581884503364563,
      "learning_rate": 0.00010679706601466993,
      "loss": 2.1691,
      "step": 20976
    },
    {
      "epoch": 0.46615555555555555,
      "grad_norm": 1.3416119813919067,
      "learning_rate": 0.00010679262058235164,
      "loss": 1.3269,
      "step": 20977
    },
    {
      "epoch": 0.4661777777777778,
      "grad_norm": 1.552729845046997,
      "learning_rate": 0.00010678817515003335,
      "loss": 2.1141,
      "step": 20978
    },
    {
      "epoch": 0.4662,
      "grad_norm": 1.3468446731567383,
      "learning_rate": 0.00010678372971771504,
      "loss": 0.7183,
      "step": 20979
    },
    {
      "epoch": 0.4662222222222222,
      "grad_norm": 1.6097584962844849,
      "learning_rate": 0.00010677928428539677,
      "loss": 2.2061,
      "step": 20980
    },
    {
      "epoch": 0.46624444444444446,
      "grad_norm": 1.7146596908569336,
      "learning_rate": 0.00010677483885307846,
      "loss": 1.9616,
      "step": 20981
    },
    {
      "epoch": 0.46626666666666666,
      "grad_norm": 1.7544834613800049,
      "learning_rate": 0.00010677039342076019,
      "loss": 1.7339,
      "step": 20982
    },
    {
      "epoch": 0.46628888888888886,
      "grad_norm": 1.7132660150527954,
      "learning_rate": 0.00010676594798844188,
      "loss": 2.0252,
      "step": 20983
    },
    {
      "epoch": 0.4663111111111111,
      "grad_norm": 1.8118821382522583,
      "learning_rate": 0.00010676150255612358,
      "loss": 2.5023,
      "step": 20984
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 1.924349069595337,
      "learning_rate": 0.0001067570571238053,
      "loss": 1.8796,
      "step": 20985
    },
    {
      "epoch": 0.4663555555555556,
      "grad_norm": 1.8562263250350952,
      "learning_rate": 0.000106752611691487,
      "loss": 2.2869,
      "step": 20986
    },
    {
      "epoch": 0.4663777777777778,
      "grad_norm": 1.8064918518066406,
      "learning_rate": 0.0001067481662591687,
      "loss": 2.0159,
      "step": 20987
    },
    {
      "epoch": 0.4664,
      "grad_norm": 1.6087102890014648,
      "learning_rate": 0.00010674372082685043,
      "loss": 1.6397,
      "step": 20988
    },
    {
      "epoch": 0.46642222222222224,
      "grad_norm": 1.635298252105713,
      "learning_rate": 0.00010673927539453213,
      "loss": 2.2279,
      "step": 20989
    },
    {
      "epoch": 0.46644444444444444,
      "grad_norm": 1.8446463346481323,
      "learning_rate": 0.00010673482996221382,
      "loss": 1.7818,
      "step": 20990
    },
    {
      "epoch": 0.46646666666666664,
      "grad_norm": 1.5536835193634033,
      "learning_rate": 0.00010673038452989554,
      "loss": 2.0102,
      "step": 20991
    },
    {
      "epoch": 0.4664888888888889,
      "grad_norm": 1.958386778831482,
      "learning_rate": 0.00010672593909757724,
      "loss": 2.1126,
      "step": 20992
    },
    {
      "epoch": 0.4665111111111111,
      "grad_norm": 1.7648738622665405,
      "learning_rate": 0.00010672149366525894,
      "loss": 1.7251,
      "step": 20993
    },
    {
      "epoch": 0.46653333333333336,
      "grad_norm": 1.7356269359588623,
      "learning_rate": 0.00010671704823294066,
      "loss": 1.7887,
      "step": 20994
    },
    {
      "epoch": 0.46655555555555556,
      "grad_norm": 1.9143317937850952,
      "learning_rate": 0.00010671260280062237,
      "loss": 1.9516,
      "step": 20995
    },
    {
      "epoch": 0.46657777777777776,
      "grad_norm": 2.124570608139038,
      "learning_rate": 0.00010670815736830407,
      "loss": 1.1857,
      "step": 20996
    },
    {
      "epoch": 0.4666,
      "grad_norm": 1.7250453233718872,
      "learning_rate": 0.00010670371193598579,
      "loss": 2.1745,
      "step": 20997
    },
    {
      "epoch": 0.4666222222222222,
      "grad_norm": 2.1525890827178955,
      "learning_rate": 0.00010669926650366749,
      "loss": 1.9719,
      "step": 20998
    },
    {
      "epoch": 0.4666444444444444,
      "grad_norm": 2.0720748901367188,
      "learning_rate": 0.00010669482107134921,
      "loss": 2.2652,
      "step": 20999
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 2.0361244678497314,
      "learning_rate": 0.0001066903756390309,
      "loss": 1.9507,
      "step": 21000
    },
    {
      "epoch": 0.4666888888888889,
      "grad_norm": 1.5599178075790405,
      "learning_rate": 0.0001066859302067126,
      "loss": 3.0906,
      "step": 21001
    },
    {
      "epoch": 0.46671111111111113,
      "grad_norm": 0.9698059558868408,
      "learning_rate": 0.00010668148477439432,
      "loss": 1.1842,
      "step": 21002
    },
    {
      "epoch": 0.46673333333333333,
      "grad_norm": 1.3110322952270508,
      "learning_rate": 0.00010667703934207602,
      "loss": 2.3691,
      "step": 21003
    },
    {
      "epoch": 0.46675555555555553,
      "grad_norm": 1.317541480064392,
      "learning_rate": 0.00010667259390975773,
      "loss": 1.8089,
      "step": 21004
    },
    {
      "epoch": 0.4667777777777778,
      "grad_norm": 1.6068888902664185,
      "learning_rate": 0.00010666814847743944,
      "loss": 2.5395,
      "step": 21005
    },
    {
      "epoch": 0.4668,
      "grad_norm": 1.5357931852340698,
      "learning_rate": 0.00010666370304512115,
      "loss": 2.1686,
      "step": 21006
    },
    {
      "epoch": 0.46682222222222225,
      "grad_norm": 1.3649425506591797,
      "learning_rate": 0.00010665925761280284,
      "loss": 2.5173,
      "step": 21007
    },
    {
      "epoch": 0.46684444444444445,
      "grad_norm": 2.1600823402404785,
      "learning_rate": 0.00010665481218048457,
      "loss": 1.3319,
      "step": 21008
    },
    {
      "epoch": 0.46686666666666665,
      "grad_norm": 1.3437912464141846,
      "learning_rate": 0.00010665036674816626,
      "loss": 2.2341,
      "step": 21009
    },
    {
      "epoch": 0.4668888888888889,
      "grad_norm": 1.7443912029266357,
      "learning_rate": 0.00010664592131584796,
      "loss": 2.2497,
      "step": 21010
    },
    {
      "epoch": 0.4669111111111111,
      "grad_norm": 1.3947018384933472,
      "learning_rate": 0.00010664147588352968,
      "loss": 1.6743,
      "step": 21011
    },
    {
      "epoch": 0.4669333333333333,
      "grad_norm": 1.5569332838058472,
      "learning_rate": 0.00010663703045121138,
      "loss": 2.4797,
      "step": 21012
    },
    {
      "epoch": 0.46695555555555557,
      "grad_norm": 1.4356838464736938,
      "learning_rate": 0.00010663258501889309,
      "loss": 2.3085,
      "step": 21013
    },
    {
      "epoch": 0.46697777777777777,
      "grad_norm": 1.6491334438323975,
      "learning_rate": 0.0001066281395865748,
      "loss": 2.3789,
      "step": 21014
    },
    {
      "epoch": 0.467,
      "grad_norm": 1.4238706827163696,
      "learning_rate": 0.00010662369415425651,
      "loss": 2.0085,
      "step": 21015
    },
    {
      "epoch": 0.4670222222222222,
      "grad_norm": 1.5524682998657227,
      "learning_rate": 0.0001066192487219382,
      "loss": 2.1206,
      "step": 21016
    },
    {
      "epoch": 0.46704444444444443,
      "grad_norm": 1.9741944074630737,
      "learning_rate": 0.00010661480328961993,
      "loss": 2.3874,
      "step": 21017
    },
    {
      "epoch": 0.4670666666666667,
      "grad_norm": 1.7466806173324585,
      "learning_rate": 0.00010661035785730162,
      "loss": 1.9896,
      "step": 21018
    },
    {
      "epoch": 0.4670888888888889,
      "grad_norm": 1.5756441354751587,
      "learning_rate": 0.00010660591242498335,
      "loss": 2.0722,
      "step": 21019
    },
    {
      "epoch": 0.4671111111111111,
      "grad_norm": 2.023338556289673,
      "learning_rate": 0.00010660146699266504,
      "loss": 2.8513,
      "step": 21020
    },
    {
      "epoch": 0.46713333333333334,
      "grad_norm": 1.7850441932678223,
      "learning_rate": 0.00010659702156034674,
      "loss": 2.3245,
      "step": 21021
    },
    {
      "epoch": 0.46715555555555555,
      "grad_norm": 1.754284381866455,
      "learning_rate": 0.00010659257612802846,
      "loss": 2.1411,
      "step": 21022
    },
    {
      "epoch": 0.4671777777777778,
      "grad_norm": 1.7382569313049316,
      "learning_rate": 0.00010658813069571016,
      "loss": 1.8864,
      "step": 21023
    },
    {
      "epoch": 0.4672,
      "grad_norm": 1.4496315717697144,
      "learning_rate": 0.00010658368526339187,
      "loss": 1.9679,
      "step": 21024
    },
    {
      "epoch": 0.4672222222222222,
      "grad_norm": 1.6198228597640991,
      "learning_rate": 0.00010657923983107359,
      "loss": 2.1043,
      "step": 21025
    },
    {
      "epoch": 0.46724444444444446,
      "grad_norm": 1.452466368675232,
      "learning_rate": 0.00010657479439875529,
      "loss": 1.9706,
      "step": 21026
    },
    {
      "epoch": 0.46726666666666666,
      "grad_norm": 1.4625486135482788,
      "learning_rate": 0.00010657034896643698,
      "loss": 2.0322,
      "step": 21027
    },
    {
      "epoch": 0.46728888888888886,
      "grad_norm": 1.6648308038711548,
      "learning_rate": 0.0001065659035341187,
      "loss": 2.0861,
      "step": 21028
    },
    {
      "epoch": 0.4673111111111111,
      "grad_norm": 1.5541412830352783,
      "learning_rate": 0.0001065614581018004,
      "loss": 2.4737,
      "step": 21029
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 0.13248945772647858,
      "learning_rate": 0.0001065570126694821,
      "loss": 0.0288,
      "step": 21030
    },
    {
      "epoch": 0.4673555555555556,
      "grad_norm": 1.6210614442825317,
      "learning_rate": 0.00010655256723716382,
      "loss": 1.8364,
      "step": 21031
    },
    {
      "epoch": 0.4673777777777778,
      "grad_norm": 1.5962039232254028,
      "learning_rate": 0.00010654812180484553,
      "loss": 1.8986,
      "step": 21032
    },
    {
      "epoch": 0.4674,
      "grad_norm": 1.4851080179214478,
      "learning_rate": 0.00010654367637252723,
      "loss": 2.0264,
      "step": 21033
    },
    {
      "epoch": 0.46742222222222224,
      "grad_norm": 1.1991791725158691,
      "learning_rate": 0.00010653923094020895,
      "loss": 0.6393,
      "step": 21034
    },
    {
      "epoch": 0.46744444444444444,
      "grad_norm": 1.6957849264144897,
      "learning_rate": 0.00010653478550789065,
      "loss": 2.0231,
      "step": 21035
    },
    {
      "epoch": 0.46746666666666664,
      "grad_norm": 1.4616467952728271,
      "learning_rate": 0.00010653034007557234,
      "loss": 1.5692,
      "step": 21036
    },
    {
      "epoch": 0.4674888888888889,
      "grad_norm": 1.9503902196884155,
      "learning_rate": 0.00010652589464325407,
      "loss": 2.2121,
      "step": 21037
    },
    {
      "epoch": 0.4675111111111111,
      "grad_norm": 1.8086854219436646,
      "learning_rate": 0.00010652144921093576,
      "loss": 1.715,
      "step": 21038
    },
    {
      "epoch": 0.46753333333333336,
      "grad_norm": 2.078300714492798,
      "learning_rate": 0.00010651700377861748,
      "loss": 1.9038,
      "step": 21039
    },
    {
      "epoch": 0.46755555555555556,
      "grad_norm": 1.598193645477295,
      "learning_rate": 0.00010651255834629918,
      "loss": 1.931,
      "step": 21040
    },
    {
      "epoch": 0.46757777777777776,
      "grad_norm": 1.5658589601516724,
      "learning_rate": 0.00010650811291398089,
      "loss": 1.8568,
      "step": 21041
    },
    {
      "epoch": 0.4676,
      "grad_norm": 1.6601471900939941,
      "learning_rate": 0.0001065036674816626,
      "loss": 1.7191,
      "step": 21042
    },
    {
      "epoch": 0.4676222222222222,
      "grad_norm": 1.9291242361068726,
      "learning_rate": 0.00010649922204934431,
      "loss": 1.9667,
      "step": 21043
    },
    {
      "epoch": 0.4676444444444444,
      "grad_norm": 1.4827840328216553,
      "learning_rate": 0.000106494776617026,
      "loss": 1.3268,
      "step": 21044
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 1.665610671043396,
      "learning_rate": 0.00010649033118470773,
      "loss": 1.7483,
      "step": 21045
    },
    {
      "epoch": 0.4676888888888889,
      "grad_norm": 1.832640290260315,
      "learning_rate": 0.00010648588575238942,
      "loss": 1.8599,
      "step": 21046
    },
    {
      "epoch": 0.46771111111111113,
      "grad_norm": 2.038097381591797,
      "learning_rate": 0.00010648144032007112,
      "loss": 2.1174,
      "step": 21047
    },
    {
      "epoch": 0.46773333333333333,
      "grad_norm": 1.8084832429885864,
      "learning_rate": 0.00010647699488775284,
      "loss": 2.2721,
      "step": 21048
    },
    {
      "epoch": 0.46775555555555554,
      "grad_norm": 1.5342059135437012,
      "learning_rate": 0.00010647254945543454,
      "loss": 1.6336,
      "step": 21049
    },
    {
      "epoch": 0.4677777777777778,
      "grad_norm": 1.556289792060852,
      "learning_rate": 0.00010646810402311625,
      "loss": 1.7596,
      "step": 21050
    },
    {
      "epoch": 0.4678,
      "grad_norm": 0.8360104560852051,
      "learning_rate": 0.00010646365859079796,
      "loss": 1.0771,
      "step": 21051
    },
    {
      "epoch": 0.4678222222222222,
      "grad_norm": 0.885387122631073,
      "learning_rate": 0.00010645921315847967,
      "loss": 1.1149,
      "step": 21052
    },
    {
      "epoch": 0.46784444444444445,
      "grad_norm": 1.5061360597610474,
      "learning_rate": 0.00010645476772616137,
      "loss": 2.4084,
      "step": 21053
    },
    {
      "epoch": 0.46786666666666665,
      "grad_norm": 1.2132575511932373,
      "learning_rate": 0.00010645032229384309,
      "loss": 1.5001,
      "step": 21054
    },
    {
      "epoch": 0.4678888888888889,
      "grad_norm": 1.3524248600006104,
      "learning_rate": 0.00010644587686152478,
      "loss": 2.2911,
      "step": 21055
    },
    {
      "epoch": 0.4679111111111111,
      "grad_norm": 1.3690742254257202,
      "learning_rate": 0.00010644143142920651,
      "loss": 2.5196,
      "step": 21056
    },
    {
      "epoch": 0.4679333333333333,
      "grad_norm": 1.7414064407348633,
      "learning_rate": 0.0001064369859968882,
      "loss": 1.5321,
      "step": 21057
    },
    {
      "epoch": 0.46795555555555557,
      "grad_norm": 1.3289248943328857,
      "learning_rate": 0.0001064325405645699,
      "loss": 2.0464,
      "step": 21058
    },
    {
      "epoch": 0.46797777777777777,
      "grad_norm": 1.4014774560928345,
      "learning_rate": 0.00010642809513225162,
      "loss": 1.9973,
      "step": 21059
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.345532774925232,
      "learning_rate": 0.00010642364969993332,
      "loss": 2.2926,
      "step": 21060
    },
    {
      "epoch": 0.46802222222222223,
      "grad_norm": 1.473775863647461,
      "learning_rate": 0.00010641920426761503,
      "loss": 2.1368,
      "step": 21061
    },
    {
      "epoch": 0.46804444444444443,
      "grad_norm": 1.5321654081344604,
      "learning_rate": 0.00010641475883529675,
      "loss": 2.4435,
      "step": 21062
    },
    {
      "epoch": 0.4680666666666667,
      "grad_norm": 1.256246566772461,
      "learning_rate": 0.00010641031340297845,
      "loss": 1.9013,
      "step": 21063
    },
    {
      "epoch": 0.4680888888888889,
      "grad_norm": 1.7002553939819336,
      "learning_rate": 0.00010640586797066014,
      "loss": 0.9229,
      "step": 21064
    },
    {
      "epoch": 0.4681111111111111,
      "grad_norm": 1.4708501100540161,
      "learning_rate": 0.00010640142253834187,
      "loss": 2.0434,
      "step": 21065
    },
    {
      "epoch": 0.46813333333333335,
      "grad_norm": 1.419843077659607,
      "learning_rate": 0.00010639697710602356,
      "loss": 2.0312,
      "step": 21066
    },
    {
      "epoch": 0.46815555555555555,
      "grad_norm": 1.4213303327560425,
      "learning_rate": 0.00010639253167370526,
      "loss": 1.8614,
      "step": 21067
    },
    {
      "epoch": 0.4681777777777778,
      "grad_norm": 1.9164432287216187,
      "learning_rate": 0.00010638808624138698,
      "loss": 2.5644,
      "step": 21068
    },
    {
      "epoch": 0.4682,
      "grad_norm": 1.7788432836532593,
      "learning_rate": 0.00010638364080906869,
      "loss": 2.3309,
      "step": 21069
    },
    {
      "epoch": 0.4682222222222222,
      "grad_norm": 1.6369017362594604,
      "learning_rate": 0.00010637919537675039,
      "loss": 2.2177,
      "step": 21070
    },
    {
      "epoch": 0.46824444444444446,
      "grad_norm": 1.1389472484588623,
      "learning_rate": 0.00010637474994443211,
      "loss": 1.1038,
      "step": 21071
    },
    {
      "epoch": 0.46826666666666666,
      "grad_norm": 1.236141562461853,
      "learning_rate": 0.00010637030451211381,
      "loss": 0.7771,
      "step": 21072
    },
    {
      "epoch": 0.46828888888888887,
      "grad_norm": 1.7040767669677734,
      "learning_rate": 0.0001063658590797955,
      "loss": 2.2596,
      "step": 21073
    },
    {
      "epoch": 0.4683111111111111,
      "grad_norm": 1.442004680633545,
      "learning_rate": 0.00010636141364747723,
      "loss": 2.0586,
      "step": 21074
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 1.3708363771438599,
      "learning_rate": 0.00010635696821515892,
      "loss": 1.6293,
      "step": 21075
    },
    {
      "epoch": 0.4683555555555556,
      "grad_norm": 1.5125973224639893,
      "learning_rate": 0.00010635252278284065,
      "loss": 1.6962,
      "step": 21076
    },
    {
      "epoch": 0.4683777777777778,
      "grad_norm": 1.5137070417404175,
      "learning_rate": 0.00010634807735052234,
      "loss": 1.4991,
      "step": 21077
    },
    {
      "epoch": 0.4684,
      "grad_norm": 1.907886028289795,
      "learning_rate": 0.00010634363191820405,
      "loss": 2.0947,
      "step": 21078
    },
    {
      "epoch": 0.46842222222222224,
      "grad_norm": 1.6079773902893066,
      "learning_rate": 0.00010633918648588576,
      "loss": 1.7861,
      "step": 21079
    },
    {
      "epoch": 0.46844444444444444,
      "grad_norm": 1.3571150302886963,
      "learning_rate": 0.00010633474105356747,
      "loss": 1.8478,
      "step": 21080
    },
    {
      "epoch": 0.46846666666666664,
      "grad_norm": 1.8586410284042358,
      "learning_rate": 0.00010633029562124917,
      "loss": 2.1821,
      "step": 21081
    },
    {
      "epoch": 0.4684888888888889,
      "grad_norm": 1.5452194213867188,
      "learning_rate": 0.00010632585018893089,
      "loss": 1.3244,
      "step": 21082
    },
    {
      "epoch": 0.4685111111111111,
      "grad_norm": 1.5029605627059937,
      "learning_rate": 0.00010632140475661259,
      "loss": 2.0081,
      "step": 21083
    },
    {
      "epoch": 0.46853333333333336,
      "grad_norm": 1.61894690990448,
      "learning_rate": 0.00010631695932429428,
      "loss": 1.6404,
      "step": 21084
    },
    {
      "epoch": 0.46855555555555556,
      "grad_norm": 1.5115457773208618,
      "learning_rate": 0.000106312513891976,
      "loss": 1.6024,
      "step": 21085
    },
    {
      "epoch": 0.46857777777777776,
      "grad_norm": 1.3113101720809937,
      "learning_rate": 0.0001063080684596577,
      "loss": 1.4992,
      "step": 21086
    },
    {
      "epoch": 0.4686,
      "grad_norm": 1.9843586683273315,
      "learning_rate": 0.00010630362302733941,
      "loss": 1.7293,
      "step": 21087
    },
    {
      "epoch": 0.4686222222222222,
      "grad_norm": 1.9112471342086792,
      "learning_rate": 0.00010629917759502112,
      "loss": 1.9832,
      "step": 21088
    },
    {
      "epoch": 0.4686444444444444,
      "grad_norm": 1.5789785385131836,
      "learning_rate": 0.00010629473216270283,
      "loss": 1.6047,
      "step": 21089
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 1.8133035898208618,
      "learning_rate": 0.00010629028673038453,
      "loss": 1.7646,
      "step": 21090
    },
    {
      "epoch": 0.4686888888888889,
      "grad_norm": 1.9294397830963135,
      "learning_rate": 0.00010628584129806625,
      "loss": 2.2582,
      "step": 21091
    },
    {
      "epoch": 0.46871111111111113,
      "grad_norm": 1.743106722831726,
      "learning_rate": 0.00010628139586574795,
      "loss": 2.0543,
      "step": 21092
    },
    {
      "epoch": 0.46873333333333334,
      "grad_norm": 2.359841823577881,
      "learning_rate": 0.00010627695043342964,
      "loss": 2.5374,
      "step": 21093
    },
    {
      "epoch": 0.46875555555555554,
      "grad_norm": 1.70066499710083,
      "learning_rate": 0.00010627250500111136,
      "loss": 2.0833,
      "step": 21094
    },
    {
      "epoch": 0.4687777777777778,
      "grad_norm": 1.6551811695098877,
      "learning_rate": 0.00010626805956879306,
      "loss": 1.8424,
      "step": 21095
    },
    {
      "epoch": 0.4688,
      "grad_norm": 1.7166260480880737,
      "learning_rate": 0.00010626361413647478,
      "loss": 2.1628,
      "step": 21096
    },
    {
      "epoch": 0.4688222222222222,
      "grad_norm": 1.3376543521881104,
      "learning_rate": 0.00010625916870415648,
      "loss": 1.5236,
      "step": 21097
    },
    {
      "epoch": 0.46884444444444445,
      "grad_norm": 1.9091432094573975,
      "learning_rate": 0.00010625472327183819,
      "loss": 1.8554,
      "step": 21098
    },
    {
      "epoch": 0.46886666666666665,
      "grad_norm": 1.881783127784729,
      "learning_rate": 0.00010625027783951991,
      "loss": 2.0603,
      "step": 21099
    },
    {
      "epoch": 0.4688888888888889,
      "grad_norm": 2.129220724105835,
      "learning_rate": 0.00010624583240720161,
      "loss": 1.2438,
      "step": 21100
    },
    {
      "epoch": 0.4689111111111111,
      "grad_norm": 1.8033560514450073,
      "learning_rate": 0.0001062413869748833,
      "loss": 2.9273,
      "step": 21101
    },
    {
      "epoch": 0.4689333333333333,
      "grad_norm": 1.2555822134017944,
      "learning_rate": 0.00010623694154256503,
      "loss": 2.3086,
      "step": 21102
    },
    {
      "epoch": 0.46895555555555557,
      "grad_norm": 1.6000717878341675,
      "learning_rate": 0.00010623249611024672,
      "loss": 2.7104,
      "step": 21103
    },
    {
      "epoch": 0.46897777777777777,
      "grad_norm": 1.4651702642440796,
      "learning_rate": 0.00010622805067792842,
      "loss": 2.2294,
      "step": 21104
    },
    {
      "epoch": 0.469,
      "grad_norm": 1.4910168647766113,
      "learning_rate": 0.00010622360524561014,
      "loss": 2.0754,
      "step": 21105
    },
    {
      "epoch": 0.46902222222222223,
      "grad_norm": 1.696500539779663,
      "learning_rate": 0.00010621915981329185,
      "loss": 2.2836,
      "step": 21106
    },
    {
      "epoch": 0.46904444444444443,
      "grad_norm": 1.5262744426727295,
      "learning_rate": 0.00010621471438097355,
      "loss": 2.5321,
      "step": 21107
    },
    {
      "epoch": 0.4690666666666667,
      "grad_norm": 1.3899224996566772,
      "learning_rate": 0.00010621026894865527,
      "loss": 1.9921,
      "step": 21108
    },
    {
      "epoch": 0.4690888888888889,
      "grad_norm": 1.6421616077423096,
      "learning_rate": 0.00010620582351633697,
      "loss": 1.9458,
      "step": 21109
    },
    {
      "epoch": 0.4691111111111111,
      "grad_norm": 1.7978670597076416,
      "learning_rate": 0.00010620137808401866,
      "loss": 0.8343,
      "step": 21110
    },
    {
      "epoch": 0.46913333333333335,
      "grad_norm": 1.5099519491195679,
      "learning_rate": 0.00010619693265170039,
      "loss": 1.8744,
      "step": 21111
    },
    {
      "epoch": 0.46915555555555555,
      "grad_norm": 2.0019633769989014,
      "learning_rate": 0.00010619248721938208,
      "loss": 1.7402,
      "step": 21112
    },
    {
      "epoch": 0.4691777777777778,
      "grad_norm": 1.3354214429855347,
      "learning_rate": 0.0001061880417870638,
      "loss": 1.7669,
      "step": 21113
    },
    {
      "epoch": 0.4692,
      "grad_norm": 1.8445860147476196,
      "learning_rate": 0.0001061835963547455,
      "loss": 2.0526,
      "step": 21114
    },
    {
      "epoch": 0.4692222222222222,
      "grad_norm": 1.4567182064056396,
      "learning_rate": 0.00010617915092242721,
      "loss": 2.1501,
      "step": 21115
    },
    {
      "epoch": 0.46924444444444446,
      "grad_norm": 1.4461735486984253,
      "learning_rate": 0.00010617470549010892,
      "loss": 1.5359,
      "step": 21116
    },
    {
      "epoch": 0.46926666666666667,
      "grad_norm": 1.725559949874878,
      "learning_rate": 0.00010617026005779063,
      "loss": 1.9728,
      "step": 21117
    },
    {
      "epoch": 0.46928888888888887,
      "grad_norm": 1.5625344514846802,
      "learning_rate": 0.00010616581462547233,
      "loss": 2.4297,
      "step": 21118
    },
    {
      "epoch": 0.4693111111111111,
      "grad_norm": 1.7422996759414673,
      "learning_rate": 0.00010616136919315405,
      "loss": 0.9863,
      "step": 21119
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 1.6153274774551392,
      "learning_rate": 0.00010615692376083575,
      "loss": 1.2031,
      "step": 21120
    },
    {
      "epoch": 0.4693555555555556,
      "grad_norm": 1.6678797006607056,
      "learning_rate": 0.00010615247832851744,
      "loss": 2.022,
      "step": 21121
    },
    {
      "epoch": 0.4693777777777778,
      "grad_norm": 1.2421562671661377,
      "learning_rate": 0.00010614803289619917,
      "loss": 0.9765,
      "step": 21122
    },
    {
      "epoch": 0.4694,
      "grad_norm": 2.155855178833008,
      "learning_rate": 0.00010614358746388086,
      "loss": 2.3262,
      "step": 21123
    },
    {
      "epoch": 0.46942222222222224,
      "grad_norm": 1.6946805715560913,
      "learning_rate": 0.00010613914203156257,
      "loss": 2.2896,
      "step": 21124
    },
    {
      "epoch": 0.46944444444444444,
      "grad_norm": 1.383807897567749,
      "learning_rate": 0.00010613469659924428,
      "loss": 1.8963,
      "step": 21125
    },
    {
      "epoch": 0.46946666666666664,
      "grad_norm": 2.0329947471618652,
      "learning_rate": 0.00010613025116692599,
      "loss": 2.273,
      "step": 21126
    },
    {
      "epoch": 0.4694888888888889,
      "grad_norm": 1.6218180656433105,
      "learning_rate": 0.00010612580573460769,
      "loss": 2.1966,
      "step": 21127
    },
    {
      "epoch": 0.4695111111111111,
      "grad_norm": 2.03676176071167,
      "learning_rate": 0.00010612136030228941,
      "loss": 1.8895,
      "step": 21128
    },
    {
      "epoch": 0.46953333333333336,
      "grad_norm": 1.5292974710464478,
      "learning_rate": 0.0001061169148699711,
      "loss": 2.0032,
      "step": 21129
    },
    {
      "epoch": 0.46955555555555556,
      "grad_norm": 1.335816502571106,
      "learning_rate": 0.0001061124694376528,
      "loss": 1.2956,
      "step": 21130
    },
    {
      "epoch": 0.46957777777777776,
      "grad_norm": 1.4508211612701416,
      "learning_rate": 0.00010610802400533453,
      "loss": 1.9213,
      "step": 21131
    },
    {
      "epoch": 0.4696,
      "grad_norm": 1.3409310579299927,
      "learning_rate": 0.00010610357857301622,
      "loss": 1.5045,
      "step": 21132
    },
    {
      "epoch": 0.4696222222222222,
      "grad_norm": 1.90799081325531,
      "learning_rate": 0.00010609913314069794,
      "loss": 1.65,
      "step": 21133
    },
    {
      "epoch": 0.4696444444444444,
      "grad_norm": 1.8026350736618042,
      "learning_rate": 0.00010609468770837964,
      "loss": 1.9744,
      "step": 21134
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 1.7402676343917847,
      "learning_rate": 0.00010609024227606135,
      "loss": 2.041,
      "step": 21135
    },
    {
      "epoch": 0.4696888888888889,
      "grad_norm": 1.91234290599823,
      "learning_rate": 0.00010608579684374307,
      "loss": 2.434,
      "step": 21136
    },
    {
      "epoch": 0.46971111111111113,
      "grad_norm": 1.9075767993927002,
      "learning_rate": 0.00010608135141142477,
      "loss": 2.2914,
      "step": 21137
    },
    {
      "epoch": 0.46973333333333334,
      "grad_norm": 1.7832390069961548,
      "learning_rate": 0.00010607690597910647,
      "loss": 2.1057,
      "step": 21138
    },
    {
      "epoch": 0.46975555555555554,
      "grad_norm": 1.6374313831329346,
      "learning_rate": 0.00010607246054678819,
      "loss": 1.7709,
      "step": 21139
    },
    {
      "epoch": 0.4697777777777778,
      "grad_norm": 1.646985650062561,
      "learning_rate": 0.00010606801511446989,
      "loss": 1.9795,
      "step": 21140
    },
    {
      "epoch": 0.4698,
      "grad_norm": 1.212241768836975,
      "learning_rate": 0.00010606356968215158,
      "loss": 1.1828,
      "step": 21141
    },
    {
      "epoch": 0.4698222222222222,
      "grad_norm": 1.7702584266662598,
      "learning_rate": 0.0001060591242498333,
      "loss": 1.9072,
      "step": 21142
    },
    {
      "epoch": 0.46984444444444445,
      "grad_norm": 1.8491698503494263,
      "learning_rate": 0.00010605467881751501,
      "loss": 2.0909,
      "step": 21143
    },
    {
      "epoch": 0.46986666666666665,
      "grad_norm": 1.5339529514312744,
      "learning_rate": 0.00010605023338519671,
      "loss": 1.7269,
      "step": 21144
    },
    {
      "epoch": 0.4698888888888889,
      "grad_norm": 1.6259047985076904,
      "learning_rate": 0.00010604578795287843,
      "loss": 1.5769,
      "step": 21145
    },
    {
      "epoch": 0.4699111111111111,
      "grad_norm": 1.6275088787078857,
      "learning_rate": 0.00010604134252056013,
      "loss": 1.5615,
      "step": 21146
    },
    {
      "epoch": 0.4699333333333333,
      "grad_norm": 1.56515634059906,
      "learning_rate": 0.00010603689708824183,
      "loss": 0.9477,
      "step": 21147
    },
    {
      "epoch": 0.46995555555555557,
      "grad_norm": 1.6705783605575562,
      "learning_rate": 0.00010603245165592355,
      "loss": 1.7303,
      "step": 21148
    },
    {
      "epoch": 0.46997777777777777,
      "grad_norm": 2.3243532180786133,
      "learning_rate": 0.00010602800622360524,
      "loss": 2.5456,
      "step": 21149
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2525743246078491,
      "learning_rate": 0.00010602356079128697,
      "loss": 0.8985,
      "step": 21150
    },
    {
      "epoch": 0.47002222222222223,
      "grad_norm": 1.30595064163208,
      "learning_rate": 0.00010601911535896866,
      "loss": 1.5052,
      "step": 21151
    },
    {
      "epoch": 0.47004444444444443,
      "grad_norm": 1.80530846118927,
      "learning_rate": 0.00010601466992665037,
      "loss": 2.7319,
      "step": 21152
    },
    {
      "epoch": 0.4700666666666667,
      "grad_norm": 1.5923091173171997,
      "learning_rate": 0.00010601022449433208,
      "loss": 2.4487,
      "step": 21153
    },
    {
      "epoch": 0.4700888888888889,
      "grad_norm": 1.5617709159851074,
      "learning_rate": 0.00010600577906201379,
      "loss": 2.0762,
      "step": 21154
    },
    {
      "epoch": 0.4701111111111111,
      "grad_norm": 1.5864043235778809,
      "learning_rate": 0.00010600133362969549,
      "loss": 2.0938,
      "step": 21155
    },
    {
      "epoch": 0.47013333333333335,
      "grad_norm": 1.3476673364639282,
      "learning_rate": 0.00010599688819737721,
      "loss": 1.7835,
      "step": 21156
    },
    {
      "epoch": 0.47015555555555555,
      "grad_norm": 1.5925754308700562,
      "learning_rate": 0.00010599244276505891,
      "loss": 2.4297,
      "step": 21157
    },
    {
      "epoch": 0.47017777777777775,
      "grad_norm": 1.0077178478240967,
      "learning_rate": 0.0001059879973327406,
      "loss": 1.0539,
      "step": 21158
    },
    {
      "epoch": 0.4702,
      "grad_norm": 1.5442736148834229,
      "learning_rate": 0.00010598355190042233,
      "loss": 2.4262,
      "step": 21159
    },
    {
      "epoch": 0.4702222222222222,
      "grad_norm": 1.4632556438446045,
      "learning_rate": 0.00010597910646810402,
      "loss": 1.4755,
      "step": 21160
    },
    {
      "epoch": 0.47024444444444446,
      "grad_norm": 1.563394546508789,
      "learning_rate": 0.00010597466103578573,
      "loss": 1.7138,
      "step": 21161
    },
    {
      "epoch": 0.47026666666666667,
      "grad_norm": 1.420729160308838,
      "learning_rate": 0.00010597021560346744,
      "loss": 2.0662,
      "step": 21162
    },
    {
      "epoch": 0.47028888888888887,
      "grad_norm": 1.4750025272369385,
      "learning_rate": 0.00010596577017114915,
      "loss": 1.4745,
      "step": 21163
    },
    {
      "epoch": 0.4703111111111111,
      "grad_norm": 1.6203783750534058,
      "learning_rate": 0.00010596132473883085,
      "loss": 2.1291,
      "step": 21164
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 1.4269022941589355,
      "learning_rate": 0.00010595687930651257,
      "loss": 1.8507,
      "step": 21165
    },
    {
      "epoch": 0.4703555555555556,
      "grad_norm": 1.4751341342926025,
      "learning_rate": 0.00010595243387419427,
      "loss": 1.9283,
      "step": 21166
    },
    {
      "epoch": 0.4703777777777778,
      "grad_norm": 1.456451416015625,
      "learning_rate": 0.00010594798844187596,
      "loss": 2.0477,
      "step": 21167
    },
    {
      "epoch": 0.4704,
      "grad_norm": 1.2929933071136475,
      "learning_rate": 0.00010594354300955769,
      "loss": 1.3224,
      "step": 21168
    },
    {
      "epoch": 0.47042222222222224,
      "grad_norm": 1.5775583982467651,
      "learning_rate": 0.00010593909757723938,
      "loss": 2.0958,
      "step": 21169
    },
    {
      "epoch": 0.47044444444444444,
      "grad_norm": 1.7134851217269897,
      "learning_rate": 0.0001059346521449211,
      "loss": 2.1207,
      "step": 21170
    },
    {
      "epoch": 0.47046666666666664,
      "grad_norm": 1.8566395044326782,
      "learning_rate": 0.0001059302067126028,
      "loss": 2.2506,
      "step": 21171
    },
    {
      "epoch": 0.4704888888888889,
      "grad_norm": 1.988060474395752,
      "learning_rate": 0.00010592576128028451,
      "loss": 1.6647,
      "step": 21172
    },
    {
      "epoch": 0.4705111111111111,
      "grad_norm": 1.5827362537384033,
      "learning_rate": 0.00010592131584796623,
      "loss": 2.1849,
      "step": 21173
    },
    {
      "epoch": 0.47053333333333336,
      "grad_norm": 2.289860725402832,
      "learning_rate": 0.00010591687041564793,
      "loss": 2.4223,
      "step": 21174
    },
    {
      "epoch": 0.47055555555555556,
      "grad_norm": 1.5587339401245117,
      "learning_rate": 0.00010591242498332963,
      "loss": 1.955,
      "step": 21175
    },
    {
      "epoch": 0.47057777777777776,
      "grad_norm": 1.6813949346542358,
      "learning_rate": 0.00010590797955101135,
      "loss": 2.0059,
      "step": 21176
    },
    {
      "epoch": 0.4706,
      "grad_norm": 1.8265056610107422,
      "learning_rate": 0.00010590353411869305,
      "loss": 2.1868,
      "step": 21177
    },
    {
      "epoch": 0.4706222222222222,
      "grad_norm": 1.3525253534317017,
      "learning_rate": 0.00010589908868637474,
      "loss": 1.5535,
      "step": 21178
    },
    {
      "epoch": 0.4706444444444444,
      "grad_norm": 1.3274072408676147,
      "learning_rate": 0.00010589464325405647,
      "loss": 1.4919,
      "step": 21179
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 2.19309139251709,
      "learning_rate": 0.00010589019782173817,
      "loss": 2.181,
      "step": 21180
    },
    {
      "epoch": 0.4706888888888889,
      "grad_norm": 2.033768892288208,
      "learning_rate": 0.00010588575238941987,
      "loss": 1.8844,
      "step": 21181
    },
    {
      "epoch": 0.47071111111111114,
      "grad_norm": 1.9920086860656738,
      "learning_rate": 0.0001058813069571016,
      "loss": 1.9126,
      "step": 21182
    },
    {
      "epoch": 0.47073333333333334,
      "grad_norm": 1.3287922143936157,
      "learning_rate": 0.00010587686152478329,
      "loss": 1.2749,
      "step": 21183
    },
    {
      "epoch": 0.47075555555555554,
      "grad_norm": 1.686200499534607,
      "learning_rate": 0.00010587241609246499,
      "loss": 1.4142,
      "step": 21184
    },
    {
      "epoch": 0.4707777777777778,
      "grad_norm": 1.4229035377502441,
      "learning_rate": 0.00010586797066014671,
      "loss": 1.407,
      "step": 21185
    },
    {
      "epoch": 0.4708,
      "grad_norm": 1.6889950037002563,
      "learning_rate": 0.0001058635252278284,
      "loss": 1.9822,
      "step": 21186
    },
    {
      "epoch": 0.4708222222222222,
      "grad_norm": 1.7148011922836304,
      "learning_rate": 0.0001058590797955101,
      "loss": 1.9795,
      "step": 21187
    },
    {
      "epoch": 0.47084444444444445,
      "grad_norm": 0.19367849826812744,
      "learning_rate": 0.00010585463436319182,
      "loss": 0.0314,
      "step": 21188
    },
    {
      "epoch": 0.47086666666666666,
      "grad_norm": 1.5468031167984009,
      "learning_rate": 0.00010585018893087353,
      "loss": 1.5725,
      "step": 21189
    },
    {
      "epoch": 0.4708888888888889,
      "grad_norm": 1.6953001022338867,
      "learning_rate": 0.00010584574349855524,
      "loss": 1.922,
      "step": 21190
    },
    {
      "epoch": 0.4709111111111111,
      "grad_norm": 1.3047363758087158,
      "learning_rate": 0.00010584129806623695,
      "loss": 1.5101,
      "step": 21191
    },
    {
      "epoch": 0.4709333333333333,
      "grad_norm": 1.5108165740966797,
      "learning_rate": 0.00010583685263391865,
      "loss": 1.4201,
      "step": 21192
    },
    {
      "epoch": 0.47095555555555557,
      "grad_norm": 1.9858291149139404,
      "learning_rate": 0.00010583240720160037,
      "loss": 2.1149,
      "step": 21193
    },
    {
      "epoch": 0.4709777777777778,
      "grad_norm": 2.051640033721924,
      "learning_rate": 0.00010582796176928207,
      "loss": 1.678,
      "step": 21194
    },
    {
      "epoch": 0.471,
      "grad_norm": 1.6583353281021118,
      "learning_rate": 0.00010582351633696377,
      "loss": 1.8626,
      "step": 21195
    },
    {
      "epoch": 0.47102222222222223,
      "grad_norm": 1.5780203342437744,
      "learning_rate": 0.00010581907090464549,
      "loss": 1.7443,
      "step": 21196
    },
    {
      "epoch": 0.47104444444444443,
      "grad_norm": 1.756408929824829,
      "learning_rate": 0.00010581462547232718,
      "loss": 1.7486,
      "step": 21197
    },
    {
      "epoch": 0.4710666666666667,
      "grad_norm": 2.1349399089813232,
      "learning_rate": 0.0001058101800400089,
      "loss": 1.6154,
      "step": 21198
    },
    {
      "epoch": 0.4710888888888889,
      "grad_norm": 0.21481360495090485,
      "learning_rate": 0.0001058057346076906,
      "loss": 0.0439,
      "step": 21199
    },
    {
      "epoch": 0.4711111111111111,
      "grad_norm": 0.8993366360664368,
      "learning_rate": 0.00010580128917537231,
      "loss": 0.4701,
      "step": 21200
    },
    {
      "epoch": 0.47113333333333335,
      "grad_norm": 1.5238037109375,
      "learning_rate": 0.00010579684374305401,
      "loss": 2.4104,
      "step": 21201
    },
    {
      "epoch": 0.47115555555555555,
      "grad_norm": 1.0673075914382935,
      "learning_rate": 0.00010579239831073573,
      "loss": 1.0725,
      "step": 21202
    },
    {
      "epoch": 0.47117777777777775,
      "grad_norm": 1.516988754272461,
      "learning_rate": 0.00010578795287841743,
      "loss": 2.42,
      "step": 21203
    },
    {
      "epoch": 0.4712,
      "grad_norm": 1.3966045379638672,
      "learning_rate": 0.00010578350744609912,
      "loss": 2.2921,
      "step": 21204
    },
    {
      "epoch": 0.4712222222222222,
      "grad_norm": 1.3530561923980713,
      "learning_rate": 0.00010577906201378085,
      "loss": 2.2319,
      "step": 21205
    },
    {
      "epoch": 0.47124444444444447,
      "grad_norm": 1.4058609008789062,
      "learning_rate": 0.00010577461658146254,
      "loss": 2.0815,
      "step": 21206
    },
    {
      "epoch": 0.47126666666666667,
      "grad_norm": 1.6594727039337158,
      "learning_rate": 0.00010577017114914427,
      "loss": 2.3402,
      "step": 21207
    },
    {
      "epoch": 0.47128888888888887,
      "grad_norm": 1.4109998941421509,
      "learning_rate": 0.00010576572571682596,
      "loss": 2.2006,
      "step": 21208
    },
    {
      "epoch": 0.4713111111111111,
      "grad_norm": 1.6200718879699707,
      "learning_rate": 0.00010576128028450767,
      "loss": 2.1274,
      "step": 21209
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 1.5032086372375488,
      "learning_rate": 0.0001057568348521894,
      "loss": 2.105,
      "step": 21210
    },
    {
      "epoch": 0.4713555555555556,
      "grad_norm": 1.6807959079742432,
      "learning_rate": 0.00010575238941987109,
      "loss": 2.0607,
      "step": 21211
    },
    {
      "epoch": 0.4713777777777778,
      "grad_norm": 1.6100057363510132,
      "learning_rate": 0.00010574794398755279,
      "loss": 1.9563,
      "step": 21212
    },
    {
      "epoch": 0.4714,
      "grad_norm": 1.9460657835006714,
      "learning_rate": 0.00010574349855523451,
      "loss": 2.2971,
      "step": 21213
    },
    {
      "epoch": 0.47142222222222224,
      "grad_norm": 1.9587500095367432,
      "learning_rate": 0.00010573905312291621,
      "loss": 2.5158,
      "step": 21214
    },
    {
      "epoch": 0.47144444444444444,
      "grad_norm": 1.0894631147384644,
      "learning_rate": 0.0001057346076905979,
      "loss": 0.6376,
      "step": 21215
    },
    {
      "epoch": 0.47146666666666665,
      "grad_norm": 1.5227477550506592,
      "learning_rate": 0.00010573016225827963,
      "loss": 2.2629,
      "step": 21216
    },
    {
      "epoch": 0.4714888888888889,
      "grad_norm": 1.6574740409851074,
      "learning_rate": 0.00010572571682596134,
      "loss": 2.0942,
      "step": 21217
    },
    {
      "epoch": 0.4715111111111111,
      "grad_norm": 1.644343376159668,
      "learning_rate": 0.00010572127139364303,
      "loss": 1.9149,
      "step": 21218
    },
    {
      "epoch": 0.47153333333333336,
      "grad_norm": 1.995203971862793,
      "learning_rate": 0.00010571682596132476,
      "loss": 2.4355,
      "step": 21219
    },
    {
      "epoch": 0.47155555555555556,
      "grad_norm": 1.7461419105529785,
      "learning_rate": 0.00010571238052900645,
      "loss": 2.0642,
      "step": 21220
    },
    {
      "epoch": 0.47157777777777776,
      "grad_norm": 1.6005843877792358,
      "learning_rate": 0.00010570793509668815,
      "loss": 1.8411,
      "step": 21221
    },
    {
      "epoch": 0.4716,
      "grad_norm": 1.6659400463104248,
      "learning_rate": 0.00010570348966436987,
      "loss": 1.916,
      "step": 21222
    },
    {
      "epoch": 0.4716222222222222,
      "grad_norm": 1.684798240661621,
      "learning_rate": 0.00010569904423205157,
      "loss": 1.9219,
      "step": 21223
    },
    {
      "epoch": 0.4716444444444444,
      "grad_norm": 1.7499624490737915,
      "learning_rate": 0.00010569459879973326,
      "loss": 2.0293,
      "step": 21224
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 1.628389835357666,
      "learning_rate": 0.00010569015336741499,
      "loss": 1.6276,
      "step": 21225
    },
    {
      "epoch": 0.4716888888888889,
      "grad_norm": 1.971190333366394,
      "learning_rate": 0.0001056857079350967,
      "loss": 2.269,
      "step": 21226
    },
    {
      "epoch": 0.47171111111111114,
      "grad_norm": 1.4197440147399902,
      "learning_rate": 0.0001056812625027784,
      "loss": 1.8396,
      "step": 21227
    },
    {
      "epoch": 0.47173333333333334,
      "grad_norm": 1.0934077501296997,
      "learning_rate": 0.00010567681707046011,
      "loss": 0.9149,
      "step": 21228
    },
    {
      "epoch": 0.47175555555555554,
      "grad_norm": 1.3083964586257935,
      "learning_rate": 0.00010567237163814181,
      "loss": 1.3989,
      "step": 21229
    },
    {
      "epoch": 0.4717777777777778,
      "grad_norm": 1.4408801794052124,
      "learning_rate": 0.00010566792620582353,
      "loss": 1.7276,
      "step": 21230
    },
    {
      "epoch": 0.4718,
      "grad_norm": 1.8991436958312988,
      "learning_rate": 0.00010566348077350523,
      "loss": 1.9739,
      "step": 21231
    },
    {
      "epoch": 0.4718222222222222,
      "grad_norm": 1.4553494453430176,
      "learning_rate": 0.00010565903534118693,
      "loss": 1.5297,
      "step": 21232
    },
    {
      "epoch": 0.47184444444444446,
      "grad_norm": 1.7317814826965332,
      "learning_rate": 0.00010565458990886865,
      "loss": 2.2206,
      "step": 21233
    },
    {
      "epoch": 0.47186666666666666,
      "grad_norm": 1.64525306224823,
      "learning_rate": 0.00010565014447655035,
      "loss": 1.6632,
      "step": 21234
    },
    {
      "epoch": 0.4718888888888889,
      "grad_norm": 1.985813856124878,
      "learning_rate": 0.00010564569904423205,
      "loss": 1.8418,
      "step": 21235
    },
    {
      "epoch": 0.4719111111111111,
      "grad_norm": 1.8640793561935425,
      "learning_rate": 0.00010564125361191376,
      "loss": 1.9798,
      "step": 21236
    },
    {
      "epoch": 0.4719333333333333,
      "grad_norm": 1.6082804203033447,
      "learning_rate": 0.00010563680817959547,
      "loss": 1.2972,
      "step": 21237
    },
    {
      "epoch": 0.4719555555555556,
      "grad_norm": 1.9842157363891602,
      "learning_rate": 0.00010563236274727717,
      "loss": 2.2607,
      "step": 21238
    },
    {
      "epoch": 0.4719777777777778,
      "grad_norm": 2.5263266563415527,
      "learning_rate": 0.0001056279173149589,
      "loss": 2.6165,
      "step": 21239
    },
    {
      "epoch": 0.472,
      "grad_norm": 1.6265758275985718,
      "learning_rate": 0.00010562347188264059,
      "loss": 1.9897,
      "step": 21240
    },
    {
      "epoch": 0.47202222222222223,
      "grad_norm": 1.8444178104400635,
      "learning_rate": 0.00010561902645032229,
      "loss": 2.1009,
      "step": 21241
    },
    {
      "epoch": 0.47204444444444443,
      "grad_norm": 1.5958893299102783,
      "learning_rate": 0.00010561458101800401,
      "loss": 1.9682,
      "step": 21242
    },
    {
      "epoch": 0.4720666666666667,
      "grad_norm": 1.5602149963378906,
      "learning_rate": 0.0001056101355856857,
      "loss": 1.6141,
      "step": 21243
    },
    {
      "epoch": 0.4720888888888889,
      "grad_norm": 1.7812633514404297,
      "learning_rate": 0.00010560569015336741,
      "loss": 1.8221,
      "step": 21244
    },
    {
      "epoch": 0.4721111111111111,
      "grad_norm": 1.9213995933532715,
      "learning_rate": 0.00010560124472104912,
      "loss": 2.3223,
      "step": 21245
    },
    {
      "epoch": 0.47213333333333335,
      "grad_norm": 1.7985467910766602,
      "learning_rate": 0.00010559679928873083,
      "loss": 1.6555,
      "step": 21246
    },
    {
      "epoch": 0.47215555555555555,
      "grad_norm": 1.559193730354309,
      "learning_rate": 0.00010559235385641256,
      "loss": 1.587,
      "step": 21247
    },
    {
      "epoch": 0.47217777777777775,
      "grad_norm": 1.7048360109329224,
      "learning_rate": 0.00010558790842409425,
      "loss": 2.0559,
      "step": 21248
    },
    {
      "epoch": 0.4722,
      "grad_norm": 1.9401333332061768,
      "learning_rate": 0.00010558346299177595,
      "loss": 1.9841,
      "step": 21249
    },
    {
      "epoch": 0.4722222222222222,
      "grad_norm": 1.6746374368667603,
      "learning_rate": 0.00010557901755945767,
      "loss": 1.472,
      "step": 21250
    },
    {
      "epoch": 0.47224444444444447,
      "grad_norm": 1.3967450857162476,
      "learning_rate": 0.00010557457212713937,
      "loss": 2.6386,
      "step": 21251
    },
    {
      "epoch": 0.47226666666666667,
      "grad_norm": 1.0361357927322388,
      "learning_rate": 0.00010557012669482106,
      "loss": 0.9785,
      "step": 21252
    },
    {
      "epoch": 0.47228888888888887,
      "grad_norm": 2.2511298656463623,
      "learning_rate": 0.00010556568126250279,
      "loss": 2.032,
      "step": 21253
    },
    {
      "epoch": 0.4723111111111111,
      "grad_norm": 1.6072567701339722,
      "learning_rate": 0.0001055612358301845,
      "loss": 2.2003,
      "step": 21254
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 1.5997898578643799,
      "learning_rate": 0.00010555679039786619,
      "loss": 2.308,
      "step": 21255
    },
    {
      "epoch": 0.47235555555555553,
      "grad_norm": 1.5976570844650269,
      "learning_rate": 0.00010555234496554792,
      "loss": 2.094,
      "step": 21256
    },
    {
      "epoch": 0.4723777777777778,
      "grad_norm": 1.8868962526321411,
      "learning_rate": 0.00010554789953322961,
      "loss": 2.2811,
      "step": 21257
    },
    {
      "epoch": 0.4724,
      "grad_norm": 2.150411367416382,
      "learning_rate": 0.00010554345410091131,
      "loss": 2.3289,
      "step": 21258
    },
    {
      "epoch": 0.47242222222222224,
      "grad_norm": 1.405584692955017,
      "learning_rate": 0.00010553900866859303,
      "loss": 2.0282,
      "step": 21259
    },
    {
      "epoch": 0.47244444444444444,
      "grad_norm": 1.4219621419906616,
      "learning_rate": 0.00010553456323627473,
      "loss": 1.9261,
      "step": 21260
    },
    {
      "epoch": 0.47246666666666665,
      "grad_norm": 1.7725284099578857,
      "learning_rate": 0.00010553011780395642,
      "loss": 2.1438,
      "step": 21261
    },
    {
      "epoch": 0.4724888888888889,
      "grad_norm": 2.0381393432617188,
      "learning_rate": 0.00010552567237163815,
      "loss": 2.8938,
      "step": 21262
    },
    {
      "epoch": 0.4725111111111111,
      "grad_norm": 1.710251808166504,
      "learning_rate": 0.00010552122693931986,
      "loss": 1.7961,
      "step": 21263
    },
    {
      "epoch": 0.47253333333333336,
      "grad_norm": 1.8769980669021606,
      "learning_rate": 0.00010551678150700157,
      "loss": 2.5591,
      "step": 21264
    },
    {
      "epoch": 0.47255555555555556,
      "grad_norm": 1.4235798120498657,
      "learning_rate": 0.00010551233607468328,
      "loss": 2.0551,
      "step": 21265
    },
    {
      "epoch": 0.47257777777777776,
      "grad_norm": 1.7725961208343506,
      "learning_rate": 0.00010550789064236497,
      "loss": 2.3322,
      "step": 21266
    },
    {
      "epoch": 0.4726,
      "grad_norm": 1.455240249633789,
      "learning_rate": 0.0001055034452100467,
      "loss": 1.8456,
      "step": 21267
    },
    {
      "epoch": 0.4726222222222222,
      "grad_norm": 1.7796257734298706,
      "learning_rate": 0.00010549899977772839,
      "loss": 2.0789,
      "step": 21268
    },
    {
      "epoch": 0.4726444444444444,
      "grad_norm": 2.089160919189453,
      "learning_rate": 0.00010549455434541009,
      "loss": 2.0871,
      "step": 21269
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 2.479501247406006,
      "learning_rate": 0.00010549010891309181,
      "loss": 2.3327,
      "step": 21270
    },
    {
      "epoch": 0.4726888888888889,
      "grad_norm": 2.020930528640747,
      "learning_rate": 0.0001054856634807735,
      "loss": 1.8996,
      "step": 21271
    },
    {
      "epoch": 0.47271111111111114,
      "grad_norm": 1.3686622381210327,
      "learning_rate": 0.00010548121804845522,
      "loss": 1.2723,
      "step": 21272
    },
    {
      "epoch": 0.47273333333333334,
      "grad_norm": 1.6430435180664062,
      "learning_rate": 0.00010547677261613693,
      "loss": 2.4102,
      "step": 21273
    },
    {
      "epoch": 0.47275555555555554,
      "grad_norm": 1.6013152599334717,
      "learning_rate": 0.00010547232718381864,
      "loss": 1.8983,
      "step": 21274
    },
    {
      "epoch": 0.4727777777777778,
      "grad_norm": 1.877444863319397,
      "learning_rate": 0.00010546788175150033,
      "loss": 2.3667,
      "step": 21275
    },
    {
      "epoch": 0.4728,
      "grad_norm": 1.9603830575942993,
      "learning_rate": 0.00010546343631918205,
      "loss": 2.1646,
      "step": 21276
    },
    {
      "epoch": 0.4728222222222222,
      "grad_norm": 1.6015788316726685,
      "learning_rate": 0.00010545899088686375,
      "loss": 2.087,
      "step": 21277
    },
    {
      "epoch": 0.47284444444444446,
      "grad_norm": 1.3608869314193726,
      "learning_rate": 0.00010545454545454545,
      "loss": 0.8848,
      "step": 21278
    },
    {
      "epoch": 0.47286666666666666,
      "grad_norm": 1.0990204811096191,
      "learning_rate": 0.00010545010002222717,
      "loss": 1.0156,
      "step": 21279
    },
    {
      "epoch": 0.4728888888888889,
      "grad_norm": 1.683896780014038,
      "learning_rate": 0.00010544565458990887,
      "loss": 1.933,
      "step": 21280
    },
    {
      "epoch": 0.4729111111111111,
      "grad_norm": 2.0915889739990234,
      "learning_rate": 0.00010544120915759058,
      "loss": 2.2794,
      "step": 21281
    },
    {
      "epoch": 0.4729333333333333,
      "grad_norm": 1.7736341953277588,
      "learning_rate": 0.00010543676372527229,
      "loss": 2.0624,
      "step": 21282
    },
    {
      "epoch": 0.4729555555555556,
      "grad_norm": 2.1059486865997314,
      "learning_rate": 0.000105432318292954,
      "loss": 2.0415,
      "step": 21283
    },
    {
      "epoch": 0.4729777777777778,
      "grad_norm": 1.6112920045852661,
      "learning_rate": 0.00010542787286063572,
      "loss": 1.7756,
      "step": 21284
    },
    {
      "epoch": 0.473,
      "grad_norm": 1.6640214920043945,
      "learning_rate": 0.00010542342742831741,
      "loss": 1.7526,
      "step": 21285
    },
    {
      "epoch": 0.47302222222222223,
      "grad_norm": 1.6254321336746216,
      "learning_rate": 0.00010541898199599911,
      "loss": 1.5211,
      "step": 21286
    },
    {
      "epoch": 0.47304444444444443,
      "grad_norm": 1.3486160039901733,
      "learning_rate": 0.00010541453656368083,
      "loss": 1.3736,
      "step": 21287
    },
    {
      "epoch": 0.4730666666666667,
      "grad_norm": 1.6353083848953247,
      "learning_rate": 0.00010541009113136253,
      "loss": 1.8213,
      "step": 21288
    },
    {
      "epoch": 0.4730888888888889,
      "grad_norm": 1.6091606616973877,
      "learning_rate": 0.00010540564569904423,
      "loss": 1.9318,
      "step": 21289
    },
    {
      "epoch": 0.4731111111111111,
      "grad_norm": 2.00901198387146,
      "learning_rate": 0.00010540120026672595,
      "loss": 1.9286,
      "step": 21290
    },
    {
      "epoch": 0.47313333333333335,
      "grad_norm": 1.758241057395935,
      "learning_rate": 0.00010539675483440766,
      "loss": 1.7977,
      "step": 21291
    },
    {
      "epoch": 0.47315555555555555,
      "grad_norm": 2.2633056640625,
      "learning_rate": 0.00010539230940208935,
      "loss": 2.0582,
      "step": 21292
    },
    {
      "epoch": 0.47317777777777775,
      "grad_norm": 1.7792760133743286,
      "learning_rate": 0.00010538786396977108,
      "loss": 1.6115,
      "step": 21293
    },
    {
      "epoch": 0.4732,
      "grad_norm": 2.0109899044036865,
      "learning_rate": 0.00010538341853745277,
      "loss": 2.133,
      "step": 21294
    },
    {
      "epoch": 0.4732222222222222,
      "grad_norm": 1.7993214130401611,
      "learning_rate": 0.00010537897310513447,
      "loss": 1.6929,
      "step": 21295
    },
    {
      "epoch": 0.47324444444444447,
      "grad_norm": 1.6424709558486938,
      "learning_rate": 0.00010537452767281619,
      "loss": 1.9086,
      "step": 21296
    },
    {
      "epoch": 0.47326666666666667,
      "grad_norm": 2.181013822555542,
      "learning_rate": 0.00010537008224049789,
      "loss": 2.1654,
      "step": 21297
    },
    {
      "epoch": 0.47328888888888887,
      "grad_norm": 1.8546555042266846,
      "learning_rate": 0.00010536563680817958,
      "loss": 1.7949,
      "step": 21298
    },
    {
      "epoch": 0.4733111111111111,
      "grad_norm": 1.958077311515808,
      "learning_rate": 0.00010536119137586131,
      "loss": 1.7763,
      "step": 21299
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 1.7960933446884155,
      "learning_rate": 0.00010535674594354302,
      "loss": 1.4903,
      "step": 21300
    },
    {
      "epoch": 0.47335555555555553,
      "grad_norm": 0.9519833326339722,
      "learning_rate": 0.00010535230051122471,
      "loss": 1.2802,
      "step": 21301
    },
    {
      "epoch": 0.4733777777777778,
      "grad_norm": 1.4861465692520142,
      "learning_rate": 0.00010534785507890644,
      "loss": 2.7272,
      "step": 21302
    },
    {
      "epoch": 0.4734,
      "grad_norm": 1.3834245204925537,
      "learning_rate": 0.00010534340964658813,
      "loss": 2.1531,
      "step": 21303
    },
    {
      "epoch": 0.47342222222222224,
      "grad_norm": 1.5346662998199463,
      "learning_rate": 0.00010533896421426986,
      "loss": 2.3962,
      "step": 21304
    },
    {
      "epoch": 0.47344444444444445,
      "grad_norm": 1.4785517454147339,
      "learning_rate": 0.00010533451878195155,
      "loss": 2.2417,
      "step": 21305
    },
    {
      "epoch": 0.47346666666666665,
      "grad_norm": 1.5466126203536987,
      "learning_rate": 0.00010533007334963325,
      "loss": 2.0554,
      "step": 21306
    },
    {
      "epoch": 0.4734888888888889,
      "grad_norm": 1.6923961639404297,
      "learning_rate": 0.00010532562791731497,
      "loss": 2.2555,
      "step": 21307
    },
    {
      "epoch": 0.4735111111111111,
      "grad_norm": 1.4226229190826416,
      "learning_rate": 0.00010532118248499667,
      "loss": 2.4793,
      "step": 21308
    },
    {
      "epoch": 0.4735333333333333,
      "grad_norm": 1.6651684045791626,
      "learning_rate": 0.00010531673705267838,
      "loss": 2.4633,
      "step": 21309
    },
    {
      "epoch": 0.47355555555555556,
      "grad_norm": 1.3308899402618408,
      "learning_rate": 0.00010531229162036009,
      "loss": 1.5928,
      "step": 21310
    },
    {
      "epoch": 0.47357777777777776,
      "grad_norm": 1.5486518144607544,
      "learning_rate": 0.0001053078461880418,
      "loss": 1.9663,
      "step": 21311
    },
    {
      "epoch": 0.4736,
      "grad_norm": 2.061850070953369,
      "learning_rate": 0.00010530340075572349,
      "loss": 2.0541,
      "step": 21312
    },
    {
      "epoch": 0.4736222222222222,
      "grad_norm": 1.692776083946228,
      "learning_rate": 0.00010529895532340522,
      "loss": 1.9566,
      "step": 21313
    },
    {
      "epoch": 0.4736444444444444,
      "grad_norm": 1.5440856218338013,
      "learning_rate": 0.00010529450989108691,
      "loss": 2.3184,
      "step": 21314
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 1.4848215579986572,
      "learning_rate": 0.00010529006445876861,
      "loss": 2.4145,
      "step": 21315
    },
    {
      "epoch": 0.4736888888888889,
      "grad_norm": 1.9993127584457397,
      "learning_rate": 0.00010528561902645033,
      "loss": 1.9826,
      "step": 21316
    },
    {
      "epoch": 0.47371111111111114,
      "grad_norm": 1.4944097995758057,
      "learning_rate": 0.00010528117359413203,
      "loss": 1.8466,
      "step": 21317
    },
    {
      "epoch": 0.47373333333333334,
      "grad_norm": 1.5903548002243042,
      "learning_rate": 0.00010527672816181374,
      "loss": 1.8654,
      "step": 21318
    },
    {
      "epoch": 0.47375555555555554,
      "grad_norm": 1.5632033348083496,
      "learning_rate": 0.00010527228272949545,
      "loss": 1.9439,
      "step": 21319
    },
    {
      "epoch": 0.4737777777777778,
      "grad_norm": 1.4701097011566162,
      "learning_rate": 0.00010526783729717716,
      "loss": 1.6409,
      "step": 21320
    },
    {
      "epoch": 0.4738,
      "grad_norm": 1.6433568000793457,
      "learning_rate": 0.00010526339186485888,
      "loss": 1.6106,
      "step": 21321
    },
    {
      "epoch": 0.4738222222222222,
      "grad_norm": 1.5539926290512085,
      "learning_rate": 0.00010525894643254057,
      "loss": 2.1813,
      "step": 21322
    },
    {
      "epoch": 0.47384444444444446,
      "grad_norm": 1.112910270690918,
      "learning_rate": 0.00010525450100022227,
      "loss": 1.0212,
      "step": 21323
    },
    {
      "epoch": 0.47386666666666666,
      "grad_norm": 1.503051519393921,
      "learning_rate": 0.000105250055567904,
      "loss": 2.0066,
      "step": 21324
    },
    {
      "epoch": 0.4738888888888889,
      "grad_norm": 1.7085974216461182,
      "learning_rate": 0.00010524561013558569,
      "loss": 2.2453,
      "step": 21325
    },
    {
      "epoch": 0.4739111111111111,
      "grad_norm": 1.689899206161499,
      "learning_rate": 0.00010524116470326739,
      "loss": 2.221,
      "step": 21326
    },
    {
      "epoch": 0.4739333333333333,
      "grad_norm": 1.7010021209716797,
      "learning_rate": 0.00010523671927094911,
      "loss": 2.1881,
      "step": 21327
    },
    {
      "epoch": 0.4739555555555556,
      "grad_norm": 1.616969108581543,
      "learning_rate": 0.00010523227383863082,
      "loss": 2.4066,
      "step": 21328
    },
    {
      "epoch": 0.4739777777777778,
      "grad_norm": 1.6350443363189697,
      "learning_rate": 0.00010522782840631252,
      "loss": 2.4575,
      "step": 21329
    },
    {
      "epoch": 0.474,
      "grad_norm": 1.6737096309661865,
      "learning_rate": 0.00010522338297399424,
      "loss": 2.6115,
      "step": 21330
    },
    {
      "epoch": 0.47402222222222223,
      "grad_norm": 2.0302295684814453,
      "learning_rate": 0.00010521893754167593,
      "loss": 2.2665,
      "step": 21331
    },
    {
      "epoch": 0.47404444444444443,
      "grad_norm": 1.5873644351959229,
      "learning_rate": 0.00010521449210935763,
      "loss": 1.8554,
      "step": 21332
    },
    {
      "epoch": 0.4740666666666667,
      "grad_norm": 1.3137933015823364,
      "learning_rate": 0.00010521004667703935,
      "loss": 1.4316,
      "step": 21333
    },
    {
      "epoch": 0.4740888888888889,
      "grad_norm": 1.5511761903762817,
      "learning_rate": 0.00010520560124472105,
      "loss": 2.0165,
      "step": 21334
    },
    {
      "epoch": 0.4741111111111111,
      "grad_norm": 1.4908441305160522,
      "learning_rate": 0.00010520115581240275,
      "loss": 1.4055,
      "step": 21335
    },
    {
      "epoch": 0.47413333333333335,
      "grad_norm": 1.8558032512664795,
      "learning_rate": 0.00010519671038008447,
      "loss": 2.1009,
      "step": 21336
    },
    {
      "epoch": 0.47415555555555555,
      "grad_norm": 1.4281865358352661,
      "learning_rate": 0.00010519226494776618,
      "loss": 1.8101,
      "step": 21337
    },
    {
      "epoch": 0.47417777777777775,
      "grad_norm": 1.790234088897705,
      "learning_rate": 0.00010518781951544787,
      "loss": 1.6779,
      "step": 21338
    },
    {
      "epoch": 0.4742,
      "grad_norm": 1.4734954833984375,
      "learning_rate": 0.0001051833740831296,
      "loss": 1.6476,
      "step": 21339
    },
    {
      "epoch": 0.4742222222222222,
      "grad_norm": 1.5329211950302124,
      "learning_rate": 0.0001051789286508113,
      "loss": 1.8538,
      "step": 21340
    },
    {
      "epoch": 0.47424444444444447,
      "grad_norm": 1.6428544521331787,
      "learning_rate": 0.00010517448321849302,
      "loss": 1.8193,
      "step": 21341
    },
    {
      "epoch": 0.47426666666666667,
      "grad_norm": 1.595200777053833,
      "learning_rate": 0.00010517003778617471,
      "loss": 1.9056,
      "step": 21342
    },
    {
      "epoch": 0.47428888888888887,
      "grad_norm": 1.6166659593582153,
      "learning_rate": 0.00010516559235385641,
      "loss": 1.494,
      "step": 21343
    },
    {
      "epoch": 0.47431111111111113,
      "grad_norm": 1.5689817667007446,
      "learning_rate": 0.00010516114692153813,
      "loss": 1.6595,
      "step": 21344
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 1.8656059503555298,
      "learning_rate": 0.00010515670148921983,
      "loss": 1.8542,
      "step": 21345
    },
    {
      "epoch": 0.47435555555555553,
      "grad_norm": 1.7059617042541504,
      "learning_rate": 0.00010515225605690154,
      "loss": 1.6082,
      "step": 21346
    },
    {
      "epoch": 0.4743777777777778,
      "grad_norm": 1.3296056985855103,
      "learning_rate": 0.00010514781062458325,
      "loss": 1.3773,
      "step": 21347
    },
    {
      "epoch": 0.4744,
      "grad_norm": 2.0922348499298096,
      "learning_rate": 0.00010514336519226496,
      "loss": 2.3199,
      "step": 21348
    },
    {
      "epoch": 0.47442222222222225,
      "grad_norm": 1.662003755569458,
      "learning_rate": 0.00010513891975994665,
      "loss": 1.9158,
      "step": 21349
    },
    {
      "epoch": 0.47444444444444445,
      "grad_norm": 1.5323309898376465,
      "learning_rate": 0.00010513447432762838,
      "loss": 0.9495,
      "step": 21350
    },
    {
      "epoch": 0.47446666666666665,
      "grad_norm": 1.5145361423492432,
      "learning_rate": 0.00010513002889531007,
      "loss": 2.8894,
      "step": 21351
    },
    {
      "epoch": 0.4744888888888889,
      "grad_norm": 1.5037353038787842,
      "learning_rate": 0.00010512558346299177,
      "loss": 2.4963,
      "step": 21352
    },
    {
      "epoch": 0.4745111111111111,
      "grad_norm": 1.2660678625106812,
      "learning_rate": 0.00010512113803067349,
      "loss": 0.0444,
      "step": 21353
    },
    {
      "epoch": 0.4745333333333333,
      "grad_norm": 1.2515273094177246,
      "learning_rate": 0.00010511669259835519,
      "loss": 2.0979,
      "step": 21354
    },
    {
      "epoch": 0.47455555555555556,
      "grad_norm": 1.9888324737548828,
      "learning_rate": 0.0001051122471660369,
      "loss": 3.0525,
      "step": 21355
    },
    {
      "epoch": 0.47457777777777777,
      "grad_norm": 2.5432066917419434,
      "learning_rate": 0.00010510780173371861,
      "loss": 2.6953,
      "step": 21356
    },
    {
      "epoch": 0.4746,
      "grad_norm": 1.7279194593429565,
      "learning_rate": 0.00010510335630140032,
      "loss": 2.3048,
      "step": 21357
    },
    {
      "epoch": 0.4746222222222222,
      "grad_norm": 1.4411208629608154,
      "learning_rate": 0.00010509891086908201,
      "loss": 2.4223,
      "step": 21358
    },
    {
      "epoch": 0.4746444444444444,
      "grad_norm": 0.9893519878387451,
      "learning_rate": 0.00010509446543676374,
      "loss": 0.7362,
      "step": 21359
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 0.9114404320716858,
      "learning_rate": 0.00010509002000444543,
      "loss": 0.629,
      "step": 21360
    },
    {
      "epoch": 0.4746888888888889,
      "grad_norm": 1.5528749227523804,
      "learning_rate": 0.00010508557457212716,
      "loss": 2.5202,
      "step": 21361
    },
    {
      "epoch": 0.4747111111111111,
      "grad_norm": 1.6689029932022095,
      "learning_rate": 0.00010508112913980885,
      "loss": 2.2667,
      "step": 21362
    },
    {
      "epoch": 0.47473333333333334,
      "grad_norm": 1.5231789350509644,
      "learning_rate": 0.00010507668370749055,
      "loss": 2.1019,
      "step": 21363
    },
    {
      "epoch": 0.47475555555555554,
      "grad_norm": 1.6021808385849,
      "learning_rate": 0.00010507223827517227,
      "loss": 2.0967,
      "step": 21364
    },
    {
      "epoch": 0.4747777777777778,
      "grad_norm": 1.438698410987854,
      "learning_rate": 0.00010506779284285398,
      "loss": 1.6615,
      "step": 21365
    },
    {
      "epoch": 0.4748,
      "grad_norm": 1.221618413925171,
      "learning_rate": 0.00010506334741053568,
      "loss": 1.3562,
      "step": 21366
    },
    {
      "epoch": 0.4748222222222222,
      "grad_norm": 1.629464864730835,
      "learning_rate": 0.0001050589019782174,
      "loss": 1.9304,
      "step": 21367
    },
    {
      "epoch": 0.47484444444444446,
      "grad_norm": 1.4889591932296753,
      "learning_rate": 0.0001050544565458991,
      "loss": 2.0717,
      "step": 21368
    },
    {
      "epoch": 0.47486666666666666,
      "grad_norm": 1.2623977661132812,
      "learning_rate": 0.00010505001111358079,
      "loss": 1.2122,
      "step": 21369
    },
    {
      "epoch": 0.4748888888888889,
      "grad_norm": 1.7362037897109985,
      "learning_rate": 0.00010504556568126251,
      "loss": 2.3692,
      "step": 21370
    },
    {
      "epoch": 0.4749111111111111,
      "grad_norm": 1.564569115638733,
      "learning_rate": 0.00010504112024894421,
      "loss": 1.6598,
      "step": 21371
    },
    {
      "epoch": 0.4749333333333333,
      "grad_norm": 1.4466501474380493,
      "learning_rate": 0.0001050366748166259,
      "loss": 1.5007,
      "step": 21372
    },
    {
      "epoch": 0.4749555555555556,
      "grad_norm": 1.5034013986587524,
      "learning_rate": 0.00010503222938430763,
      "loss": 1.5577,
      "step": 21373
    },
    {
      "epoch": 0.4749777777777778,
      "grad_norm": 1.8734323978424072,
      "learning_rate": 0.00010502778395198934,
      "loss": 2.4936,
      "step": 21374
    },
    {
      "epoch": 0.475,
      "grad_norm": 1.634347677230835,
      "learning_rate": 0.00010502333851967104,
      "loss": 1.9583,
      "step": 21375
    },
    {
      "epoch": 0.47502222222222223,
      "grad_norm": 1.7123751640319824,
      "learning_rate": 0.00010501889308735276,
      "loss": 1.7178,
      "step": 21376
    },
    {
      "epoch": 0.47504444444444444,
      "grad_norm": 1.5696953535079956,
      "learning_rate": 0.00010501444765503445,
      "loss": 1.8472,
      "step": 21377
    },
    {
      "epoch": 0.4750666666666667,
      "grad_norm": 1.7483609914779663,
      "learning_rate": 0.00010501000222271618,
      "loss": 2.1759,
      "step": 21378
    },
    {
      "epoch": 0.4750888888888889,
      "grad_norm": 1.8128198385238647,
      "learning_rate": 0.00010500555679039787,
      "loss": 2.0979,
      "step": 21379
    },
    {
      "epoch": 0.4751111111111111,
      "grad_norm": 0.9707208275794983,
      "learning_rate": 0.00010500111135807957,
      "loss": 0.7417,
      "step": 21380
    },
    {
      "epoch": 0.47513333333333335,
      "grad_norm": 1.2428021430969238,
      "learning_rate": 0.0001049966659257613,
      "loss": 0.7472,
      "step": 21381
    },
    {
      "epoch": 0.47515555555555555,
      "grad_norm": 1.8643933534622192,
      "learning_rate": 0.00010499222049344299,
      "loss": 2.2948,
      "step": 21382
    },
    {
      "epoch": 0.47517777777777775,
      "grad_norm": 1.7133762836456299,
      "learning_rate": 0.0001049877750611247,
      "loss": 1.8343,
      "step": 21383
    },
    {
      "epoch": 0.4752,
      "grad_norm": 1.6074084043502808,
      "learning_rate": 0.00010498332962880641,
      "loss": 1.9772,
      "step": 21384
    },
    {
      "epoch": 0.4752222222222222,
      "grad_norm": 1.9189578294754028,
      "learning_rate": 0.00010497888419648812,
      "loss": 1.9686,
      "step": 21385
    },
    {
      "epoch": 0.47524444444444447,
      "grad_norm": 1.650016188621521,
      "learning_rate": 0.00010497443876416981,
      "loss": 1.8954,
      "step": 21386
    },
    {
      "epoch": 0.47526666666666667,
      "grad_norm": 2.312305450439453,
      "learning_rate": 0.00010496999333185154,
      "loss": 2.2115,
      "step": 21387
    },
    {
      "epoch": 0.47528888888888887,
      "grad_norm": 1.5900473594665527,
      "learning_rate": 0.00010496554789953323,
      "loss": 1.821,
      "step": 21388
    },
    {
      "epoch": 0.47531111111111113,
      "grad_norm": 1.8689171075820923,
      "learning_rate": 0.00010496110246721493,
      "loss": 1.8451,
      "step": 21389
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 1.6351689100265503,
      "learning_rate": 0.00010495665703489665,
      "loss": 1.9425,
      "step": 21390
    },
    {
      "epoch": 0.47535555555555553,
      "grad_norm": 2.1540138721466064,
      "learning_rate": 0.00010495221160257835,
      "loss": 2.0055,
      "step": 21391
    },
    {
      "epoch": 0.4753777777777778,
      "grad_norm": 2.013066053390503,
      "learning_rate": 0.00010494776617026006,
      "loss": 2.022,
      "step": 21392
    },
    {
      "epoch": 0.4754,
      "grad_norm": 1.8874454498291016,
      "learning_rate": 0.00010494332073794177,
      "loss": 2.1988,
      "step": 21393
    },
    {
      "epoch": 0.47542222222222225,
      "grad_norm": 1.8443326950073242,
      "learning_rate": 0.00010493887530562348,
      "loss": 1.625,
      "step": 21394
    },
    {
      "epoch": 0.47544444444444445,
      "grad_norm": 1.3459539413452148,
      "learning_rate": 0.00010493442987330517,
      "loss": 1.594,
      "step": 21395
    },
    {
      "epoch": 0.47546666666666665,
      "grad_norm": 1.760648488998413,
      "learning_rate": 0.0001049299844409869,
      "loss": 1.8961,
      "step": 21396
    },
    {
      "epoch": 0.4754888888888889,
      "grad_norm": 1.8915106058120728,
      "learning_rate": 0.00010492553900866859,
      "loss": 2.4792,
      "step": 21397
    },
    {
      "epoch": 0.4755111111111111,
      "grad_norm": 1.6102482080459595,
      "learning_rate": 0.00010492109357635032,
      "loss": 1.8198,
      "step": 21398
    },
    {
      "epoch": 0.4755333333333333,
      "grad_norm": 1.9351696968078613,
      "learning_rate": 0.00010491664814403201,
      "loss": 1.8541,
      "step": 21399
    },
    {
      "epoch": 0.47555555555555556,
      "grad_norm": 2.096344470977783,
      "learning_rate": 0.00010491220271171371,
      "loss": 1.9861,
      "step": 21400
    },
    {
      "epoch": 0.47557777777777777,
      "grad_norm": 1.1704925298690796,
      "learning_rate": 0.00010490775727939543,
      "loss": 2.112,
      "step": 21401
    },
    {
      "epoch": 0.4756,
      "grad_norm": 1.6081842184066772,
      "learning_rate": 0.00010490331184707714,
      "loss": 2.4229,
      "step": 21402
    },
    {
      "epoch": 0.4756222222222222,
      "grad_norm": 1.5596709251403809,
      "learning_rate": 0.00010489886641475884,
      "loss": 2.7729,
      "step": 21403
    },
    {
      "epoch": 0.4756444444444444,
      "grad_norm": 1.7262874841690063,
      "learning_rate": 0.00010489442098244056,
      "loss": 3.036,
      "step": 21404
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 1.4102784395217896,
      "learning_rate": 0.00010488997555012226,
      "loss": 2.0474,
      "step": 21405
    },
    {
      "epoch": 0.4756888888888889,
      "grad_norm": 1.1059061288833618,
      "learning_rate": 0.00010488553011780395,
      "loss": 1.1495,
      "step": 21406
    },
    {
      "epoch": 0.4757111111111111,
      "grad_norm": 2.1619913578033447,
      "learning_rate": 0.00010488108468548568,
      "loss": 2.2618,
      "step": 21407
    },
    {
      "epoch": 0.47573333333333334,
      "grad_norm": 1.6713953018188477,
      "learning_rate": 0.00010487663925316737,
      "loss": 2.0995,
      "step": 21408
    },
    {
      "epoch": 0.47575555555555554,
      "grad_norm": 1.475685477256775,
      "learning_rate": 0.00010487219382084907,
      "loss": 1.9227,
      "step": 21409
    },
    {
      "epoch": 0.4757777777777778,
      "grad_norm": 1.580570101737976,
      "learning_rate": 0.00010486774838853079,
      "loss": 2.1423,
      "step": 21410
    },
    {
      "epoch": 0.4758,
      "grad_norm": 1.4195849895477295,
      "learning_rate": 0.0001048633029562125,
      "loss": 1.9903,
      "step": 21411
    },
    {
      "epoch": 0.4758222222222222,
      "grad_norm": 1.304527997970581,
      "learning_rate": 0.0001048588575238942,
      "loss": 1.7692,
      "step": 21412
    },
    {
      "epoch": 0.47584444444444446,
      "grad_norm": 1.3323780298233032,
      "learning_rate": 0.00010485441209157592,
      "loss": 1.656,
      "step": 21413
    },
    {
      "epoch": 0.47586666666666666,
      "grad_norm": 1.4798747301101685,
      "learning_rate": 0.00010484996665925762,
      "loss": 1.8519,
      "step": 21414
    },
    {
      "epoch": 0.47588888888888886,
      "grad_norm": 1.6712863445281982,
      "learning_rate": 0.00010484552122693931,
      "loss": 2.1143,
      "step": 21415
    },
    {
      "epoch": 0.4759111111111111,
      "grad_norm": 1.6043739318847656,
      "learning_rate": 0.00010484107579462104,
      "loss": 2.3275,
      "step": 21416
    },
    {
      "epoch": 0.4759333333333333,
      "grad_norm": 1.811564326286316,
      "learning_rate": 0.00010483663036230273,
      "loss": 1.9857,
      "step": 21417
    },
    {
      "epoch": 0.4759555555555556,
      "grad_norm": 1.5216848850250244,
      "learning_rate": 0.00010483218492998445,
      "loss": 1.894,
      "step": 21418
    },
    {
      "epoch": 0.4759777777777778,
      "grad_norm": 1.4029732942581177,
      "learning_rate": 0.00010482773949766615,
      "loss": 1.9396,
      "step": 21419
    },
    {
      "epoch": 0.476,
      "grad_norm": 1.4419541358947754,
      "learning_rate": 0.00010482329406534786,
      "loss": 2.3825,
      "step": 21420
    },
    {
      "epoch": 0.47602222222222224,
      "grad_norm": 1.5658373832702637,
      "learning_rate": 0.00010481884863302957,
      "loss": 1.6549,
      "step": 21421
    },
    {
      "epoch": 0.47604444444444444,
      "grad_norm": 1.7647879123687744,
      "learning_rate": 0.00010481440320071128,
      "loss": 1.942,
      "step": 21422
    },
    {
      "epoch": 0.4760666666666667,
      "grad_norm": 1.5428863763809204,
      "learning_rate": 0.00010480995776839298,
      "loss": 1.9573,
      "step": 21423
    },
    {
      "epoch": 0.4760888888888889,
      "grad_norm": 1.7018404006958008,
      "learning_rate": 0.0001048055123360747,
      "loss": 1.9334,
      "step": 21424
    },
    {
      "epoch": 0.4761111111111111,
      "grad_norm": 2.1062443256378174,
      "learning_rate": 0.0001048010669037564,
      "loss": 2.5271,
      "step": 21425
    },
    {
      "epoch": 0.47613333333333335,
      "grad_norm": 1.1786028146743774,
      "learning_rate": 0.00010479662147143809,
      "loss": 1.3157,
      "step": 21426
    },
    {
      "epoch": 0.47615555555555555,
      "grad_norm": 1.5035165548324585,
      "learning_rate": 0.00010479217603911981,
      "loss": 1.8562,
      "step": 21427
    },
    {
      "epoch": 0.47617777777777776,
      "grad_norm": 1.4482247829437256,
      "learning_rate": 0.00010478773060680151,
      "loss": 1.712,
      "step": 21428
    },
    {
      "epoch": 0.4762,
      "grad_norm": 1.7955844402313232,
      "learning_rate": 0.00010478328517448322,
      "loss": 2.1714,
      "step": 21429
    },
    {
      "epoch": 0.4762222222222222,
      "grad_norm": 1.7146546840667725,
      "learning_rate": 0.00010477883974216494,
      "loss": 2.2197,
      "step": 21430
    },
    {
      "epoch": 0.47624444444444447,
      "grad_norm": 1.7994215488433838,
      "learning_rate": 0.00010477439430984664,
      "loss": 2.176,
      "step": 21431
    },
    {
      "epoch": 0.47626666666666667,
      "grad_norm": 1.5512783527374268,
      "learning_rate": 0.00010476994887752833,
      "loss": 1.6959,
      "step": 21432
    },
    {
      "epoch": 0.4762888888888889,
      "grad_norm": 1.894161343574524,
      "learning_rate": 0.00010476550344521006,
      "loss": 2.0085,
      "step": 21433
    },
    {
      "epoch": 0.47631111111111113,
      "grad_norm": 1.6862541437149048,
      "learning_rate": 0.00010476105801289175,
      "loss": 2.0936,
      "step": 21434
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 1.4597711563110352,
      "learning_rate": 0.00010475661258057348,
      "loss": 1.4157,
      "step": 21435
    },
    {
      "epoch": 0.47635555555555553,
      "grad_norm": 1.7236449718475342,
      "learning_rate": 0.00010475216714825517,
      "loss": 1.9442,
      "step": 21436
    },
    {
      "epoch": 0.4763777777777778,
      "grad_norm": 1.6761685609817505,
      "learning_rate": 0.00010474772171593687,
      "loss": 1.9338,
      "step": 21437
    },
    {
      "epoch": 0.4764,
      "grad_norm": 1.753006100654602,
      "learning_rate": 0.00010474327628361859,
      "loss": 2.0965,
      "step": 21438
    },
    {
      "epoch": 0.47642222222222225,
      "grad_norm": 1.7528663873672485,
      "learning_rate": 0.0001047388308513003,
      "loss": 2.0039,
      "step": 21439
    },
    {
      "epoch": 0.47644444444444445,
      "grad_norm": 2.082117795944214,
      "learning_rate": 0.000104734385418982,
      "loss": 2.6841,
      "step": 21440
    },
    {
      "epoch": 0.47646666666666665,
      "grad_norm": 1.702867031097412,
      "learning_rate": 0.00010472993998666372,
      "loss": 2.1868,
      "step": 21441
    },
    {
      "epoch": 0.4764888888888889,
      "grad_norm": 1.948264718055725,
      "learning_rate": 0.00010472549455434542,
      "loss": 1.9719,
      "step": 21442
    },
    {
      "epoch": 0.4765111111111111,
      "grad_norm": 2.212479829788208,
      "learning_rate": 0.00010472104912202711,
      "loss": 1.9797,
      "step": 21443
    },
    {
      "epoch": 0.4765333333333333,
      "grad_norm": 1.7650686502456665,
      "learning_rate": 0.00010471660368970884,
      "loss": 2.1013,
      "step": 21444
    },
    {
      "epoch": 0.47655555555555557,
      "grad_norm": 2.2020833492279053,
      "learning_rate": 0.00010471215825739053,
      "loss": 1.8736,
      "step": 21445
    },
    {
      "epoch": 0.47657777777777777,
      "grad_norm": 2.160207986831665,
      "learning_rate": 0.00010470771282507223,
      "loss": 1.9715,
      "step": 21446
    },
    {
      "epoch": 0.4766,
      "grad_norm": 1.7064331769943237,
      "learning_rate": 0.00010470326739275395,
      "loss": 2.0938,
      "step": 21447
    },
    {
      "epoch": 0.4766222222222222,
      "grad_norm": 2.263096332550049,
      "learning_rate": 0.00010469882196043566,
      "loss": 1.9842,
      "step": 21448
    },
    {
      "epoch": 0.4766444444444444,
      "grad_norm": 1.5093984603881836,
      "learning_rate": 0.00010469437652811736,
      "loss": 1.3954,
      "step": 21449
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 1.40492844581604,
      "learning_rate": 0.00010468993109579908,
      "loss": 1.4286,
      "step": 21450
    },
    {
      "epoch": 0.4766888888888889,
      "grad_norm": 1.1337597370147705,
      "learning_rate": 0.00010468548566348078,
      "loss": 1.267,
      "step": 21451
    },
    {
      "epoch": 0.4767111111111111,
      "grad_norm": 1.332675814628601,
      "learning_rate": 0.00010468104023116247,
      "loss": 2.0223,
      "step": 21452
    },
    {
      "epoch": 0.47673333333333334,
      "grad_norm": 1.3103138208389282,
      "learning_rate": 0.0001046765947988442,
      "loss": 2.3527,
      "step": 21453
    },
    {
      "epoch": 0.47675555555555554,
      "grad_norm": 1.4284930229187012,
      "learning_rate": 0.00010467214936652589,
      "loss": 2.2339,
      "step": 21454
    },
    {
      "epoch": 0.4767777777777778,
      "grad_norm": 1.34332275390625,
      "learning_rate": 0.00010466770393420762,
      "loss": 2.2897,
      "step": 21455
    },
    {
      "epoch": 0.4768,
      "grad_norm": 1.6670515537261963,
      "learning_rate": 0.00010466325850188931,
      "loss": 2.0515,
      "step": 21456
    },
    {
      "epoch": 0.4768222222222222,
      "grad_norm": 1.6263682842254639,
      "learning_rate": 0.00010465881306957102,
      "loss": 2.4764,
      "step": 21457
    },
    {
      "epoch": 0.47684444444444446,
      "grad_norm": 1.3954499959945679,
      "learning_rate": 0.00010465436763725273,
      "loss": 2.1655,
      "step": 21458
    },
    {
      "epoch": 0.47686666666666666,
      "grad_norm": 1.2949483394622803,
      "learning_rate": 0.00010464992220493444,
      "loss": 2.0451,
      "step": 21459
    },
    {
      "epoch": 0.47688888888888886,
      "grad_norm": 1.4043552875518799,
      "learning_rate": 0.00010464547677261614,
      "loss": 1.7752,
      "step": 21460
    },
    {
      "epoch": 0.4769111111111111,
      "grad_norm": 1.5991218090057373,
      "learning_rate": 0.00010464103134029786,
      "loss": 2.0149,
      "step": 21461
    },
    {
      "epoch": 0.4769333333333333,
      "grad_norm": 1.5745307207107544,
      "learning_rate": 0.00010463658590797956,
      "loss": 1.9667,
      "step": 21462
    },
    {
      "epoch": 0.4769555555555556,
      "grad_norm": 1.7528740167617798,
      "learning_rate": 0.00010463214047566125,
      "loss": 1.7203,
      "step": 21463
    },
    {
      "epoch": 0.4769777777777778,
      "grad_norm": 1.988470435142517,
      "learning_rate": 0.00010462769504334297,
      "loss": 1.5742,
      "step": 21464
    },
    {
      "epoch": 0.477,
      "grad_norm": 1.6752088069915771,
      "learning_rate": 0.00010462324961102467,
      "loss": 2.4249,
      "step": 21465
    },
    {
      "epoch": 0.47702222222222224,
      "grad_norm": 1.7393274307250977,
      "learning_rate": 0.00010461880417870638,
      "loss": 2.3425,
      "step": 21466
    },
    {
      "epoch": 0.47704444444444444,
      "grad_norm": 2.0711312294006348,
      "learning_rate": 0.0001046143587463881,
      "loss": 2.3841,
      "step": 21467
    },
    {
      "epoch": 0.4770666666666667,
      "grad_norm": 1.5943876504898071,
      "learning_rate": 0.0001046099133140698,
      "loss": 1.7633,
      "step": 21468
    },
    {
      "epoch": 0.4770888888888889,
      "grad_norm": 1.913487434387207,
      "learning_rate": 0.0001046054678817515,
      "loss": 1.9935,
      "step": 21469
    },
    {
      "epoch": 0.4771111111111111,
      "grad_norm": 1.7679901123046875,
      "learning_rate": 0.00010460102244943322,
      "loss": 1.92,
      "step": 21470
    },
    {
      "epoch": 0.47713333333333335,
      "grad_norm": 1.7091712951660156,
      "learning_rate": 0.00010459657701711492,
      "loss": 2.0859,
      "step": 21471
    },
    {
      "epoch": 0.47715555555555556,
      "grad_norm": 1.9894134998321533,
      "learning_rate": 0.00010459213158479661,
      "loss": 1.623,
      "step": 21472
    },
    {
      "epoch": 0.47717777777777776,
      "grad_norm": 1.6420360803604126,
      "learning_rate": 0.00010458768615247833,
      "loss": 2.4332,
      "step": 21473
    },
    {
      "epoch": 0.4772,
      "grad_norm": 1.5233359336853027,
      "learning_rate": 0.00010458324072016003,
      "loss": 2.0132,
      "step": 21474
    },
    {
      "epoch": 0.4772222222222222,
      "grad_norm": 1.5758732557296753,
      "learning_rate": 0.00010457879528784175,
      "loss": 1.7153,
      "step": 21475
    },
    {
      "epoch": 0.47724444444444447,
      "grad_norm": 2.1071338653564453,
      "learning_rate": 0.00010457434985552346,
      "loss": 2.1103,
      "step": 21476
    },
    {
      "epoch": 0.4772666666666667,
      "grad_norm": 1.8703364133834839,
      "learning_rate": 0.00010456990442320516,
      "loss": 2.2887,
      "step": 21477
    },
    {
      "epoch": 0.4772888888888889,
      "grad_norm": 0.9428433775901794,
      "learning_rate": 0.00010456545899088688,
      "loss": 0.7255,
      "step": 21478
    },
    {
      "epoch": 0.47731111111111113,
      "grad_norm": 1.252300500869751,
      "learning_rate": 0.00010456101355856858,
      "loss": 1.0672,
      "step": 21479
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 1.5790743827819824,
      "learning_rate": 0.00010455656812625027,
      "loss": 1.8028,
      "step": 21480
    },
    {
      "epoch": 0.47735555555555553,
      "grad_norm": 1.5125348567962646,
      "learning_rate": 0.000104552122693932,
      "loss": 1.92,
      "step": 21481
    },
    {
      "epoch": 0.4773777777777778,
      "grad_norm": 1.8412975072860718,
      "learning_rate": 0.0001045476772616137,
      "loss": 1.7673,
      "step": 21482
    },
    {
      "epoch": 0.4774,
      "grad_norm": 1.3974605798721313,
      "learning_rate": 0.00010454323182929539,
      "loss": 1.6349,
      "step": 21483
    },
    {
      "epoch": 0.47742222222222225,
      "grad_norm": 1.8059213161468506,
      "learning_rate": 0.00010453878639697711,
      "loss": 2.2259,
      "step": 21484
    },
    {
      "epoch": 0.47744444444444445,
      "grad_norm": 1.8002485036849976,
      "learning_rate": 0.00010453434096465882,
      "loss": 1.6267,
      "step": 21485
    },
    {
      "epoch": 0.47746666666666665,
      "grad_norm": 1.9547779560089111,
      "learning_rate": 0.00010452989553234052,
      "loss": 1.9084,
      "step": 21486
    },
    {
      "epoch": 0.4774888888888889,
      "grad_norm": 3.179527997970581,
      "learning_rate": 0.00010452545010002224,
      "loss": 2.0739,
      "step": 21487
    },
    {
      "epoch": 0.4775111111111111,
      "grad_norm": 1.6387420892715454,
      "learning_rate": 0.00010452100466770394,
      "loss": 1.7704,
      "step": 21488
    },
    {
      "epoch": 0.4775333333333333,
      "grad_norm": 2.312671184539795,
      "learning_rate": 0.00010451655923538563,
      "loss": 2.2981,
      "step": 21489
    },
    {
      "epoch": 0.47755555555555557,
      "grad_norm": 1.5483860969543457,
      "learning_rate": 0.00010451211380306736,
      "loss": 1.6719,
      "step": 21490
    },
    {
      "epoch": 0.47757777777777777,
      "grad_norm": 1.8768577575683594,
      "learning_rate": 0.00010450766837074905,
      "loss": 1.547,
      "step": 21491
    },
    {
      "epoch": 0.4776,
      "grad_norm": 1.831761360168457,
      "learning_rate": 0.00010450322293843078,
      "loss": 1.7971,
      "step": 21492
    },
    {
      "epoch": 0.4776222222222222,
      "grad_norm": 1.7649415731430054,
      "learning_rate": 0.00010449877750611247,
      "loss": 1.772,
      "step": 21493
    },
    {
      "epoch": 0.4776444444444444,
      "grad_norm": 1.869289755821228,
      "learning_rate": 0.00010449433207379418,
      "loss": 2.1269,
      "step": 21494
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 1.8280870914459229,
      "learning_rate": 0.00010448988664147589,
      "loss": 1.9275,
      "step": 21495
    },
    {
      "epoch": 0.4776888888888889,
      "grad_norm": 1.5975574254989624,
      "learning_rate": 0.0001044854412091576,
      "loss": 1.3463,
      "step": 21496
    },
    {
      "epoch": 0.4777111111111111,
      "grad_norm": 1.7229191064834595,
      "learning_rate": 0.0001044809957768393,
      "loss": 1.9075,
      "step": 21497
    },
    {
      "epoch": 0.47773333333333334,
      "grad_norm": 2.1067047119140625,
      "learning_rate": 0.00010447655034452102,
      "loss": 2.4707,
      "step": 21498
    },
    {
      "epoch": 0.47775555555555554,
      "grad_norm": 0.3344023525714874,
      "learning_rate": 0.00010447210491220272,
      "loss": 0.0417,
      "step": 21499
    },
    {
      "epoch": 0.4777777777777778,
      "grad_norm": 2.1453564167022705,
      "learning_rate": 0.00010446765947988441,
      "loss": 1.6831,
      "step": 21500
    },
    {
      "epoch": 0.4778,
      "grad_norm": 1.3846826553344727,
      "learning_rate": 0.00010446321404756614,
      "loss": 2.2812,
      "step": 21501
    },
    {
      "epoch": 0.4778222222222222,
      "grad_norm": 1.049181580543518,
      "learning_rate": 0.00010445876861524783,
      "loss": 1.2645,
      "step": 21502
    },
    {
      "epoch": 0.47784444444444446,
      "grad_norm": 1.5858501195907593,
      "learning_rate": 0.00010445432318292954,
      "loss": 2.6938,
      "step": 21503
    },
    {
      "epoch": 0.47786666666666666,
      "grad_norm": 1.6615121364593506,
      "learning_rate": 0.00010444987775061126,
      "loss": 2.9113,
      "step": 21504
    },
    {
      "epoch": 0.47788888888888886,
      "grad_norm": 1.3694199323654175,
      "learning_rate": 0.00010444543231829296,
      "loss": 2.2135,
      "step": 21505
    },
    {
      "epoch": 0.4779111111111111,
      "grad_norm": 1.6908047199249268,
      "learning_rate": 0.00010444098688597466,
      "loss": 2.183,
      "step": 21506
    },
    {
      "epoch": 0.4779333333333333,
      "grad_norm": 1.3540997505187988,
      "learning_rate": 0.00010443654145365638,
      "loss": 1.8417,
      "step": 21507
    },
    {
      "epoch": 0.4779555555555556,
      "grad_norm": 1.642899751663208,
      "learning_rate": 0.00010443209602133808,
      "loss": 2.5368,
      "step": 21508
    },
    {
      "epoch": 0.4779777777777778,
      "grad_norm": 1.6080749034881592,
      "learning_rate": 0.00010442765058901977,
      "loss": 1.5597,
      "step": 21509
    },
    {
      "epoch": 0.478,
      "grad_norm": 1.7435539960861206,
      "learning_rate": 0.0001044232051567015,
      "loss": 2.4626,
      "step": 21510
    },
    {
      "epoch": 0.47802222222222224,
      "grad_norm": 1.6941030025482178,
      "learning_rate": 0.00010441875972438319,
      "loss": 2.1554,
      "step": 21511
    },
    {
      "epoch": 0.47804444444444444,
      "grad_norm": 1.5065308809280396,
      "learning_rate": 0.00010441431429206491,
      "loss": 1.9418,
      "step": 21512
    },
    {
      "epoch": 0.47806666666666664,
      "grad_norm": 1.357840657234192,
      "learning_rate": 0.00010440986885974662,
      "loss": 1.723,
      "step": 21513
    },
    {
      "epoch": 0.4780888888888889,
      "grad_norm": 1.4635156393051147,
      "learning_rate": 0.00010440542342742832,
      "loss": 1.9134,
      "step": 21514
    },
    {
      "epoch": 0.4781111111111111,
      "grad_norm": 1.168118953704834,
      "learning_rate": 0.00010440097799511004,
      "loss": 1.1238,
      "step": 21515
    },
    {
      "epoch": 0.47813333333333335,
      "grad_norm": 1.3935327529907227,
      "learning_rate": 0.00010439653256279174,
      "loss": 1.5818,
      "step": 21516
    },
    {
      "epoch": 0.47815555555555556,
      "grad_norm": 1.7350682020187378,
      "learning_rate": 0.00010439208713047344,
      "loss": 1.9733,
      "step": 21517
    },
    {
      "epoch": 0.47817777777777776,
      "grad_norm": 1.9921592473983765,
      "learning_rate": 0.00010438764169815516,
      "loss": 1.9538,
      "step": 21518
    },
    {
      "epoch": 0.4782,
      "grad_norm": 1.5436474084854126,
      "learning_rate": 0.00010438319626583685,
      "loss": 2.0155,
      "step": 21519
    },
    {
      "epoch": 0.4782222222222222,
      "grad_norm": 2.028042793273926,
      "learning_rate": 0.00010437875083351855,
      "loss": 2.3028,
      "step": 21520
    },
    {
      "epoch": 0.47824444444444447,
      "grad_norm": 1.397472620010376,
      "learning_rate": 0.00010437430540120027,
      "loss": 1.9405,
      "step": 21521
    },
    {
      "epoch": 0.4782666666666667,
      "grad_norm": 1.7355540990829468,
      "learning_rate": 0.00010436985996888198,
      "loss": 1.9721,
      "step": 21522
    },
    {
      "epoch": 0.4782888888888889,
      "grad_norm": 1.9132879972457886,
      "learning_rate": 0.00010436541453656368,
      "loss": 2.0851,
      "step": 21523
    },
    {
      "epoch": 0.47831111111111113,
      "grad_norm": 1.890906572341919,
      "learning_rate": 0.0001043609691042454,
      "loss": 1.8265,
      "step": 21524
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 1.8520848751068115,
      "learning_rate": 0.0001043565236719271,
      "loss": 2.3254,
      "step": 21525
    },
    {
      "epoch": 0.47835555555555553,
      "grad_norm": 1.8012607097625732,
      "learning_rate": 0.0001043520782396088,
      "loss": 2.2536,
      "step": 21526
    },
    {
      "epoch": 0.4783777777777778,
      "grad_norm": 2.0701866149902344,
      "learning_rate": 0.00010434763280729052,
      "loss": 2.598,
      "step": 21527
    },
    {
      "epoch": 0.4784,
      "grad_norm": 1.3933688402175903,
      "learning_rate": 0.00010434318737497221,
      "loss": 1.7576,
      "step": 21528
    },
    {
      "epoch": 0.47842222222222225,
      "grad_norm": 1.6358675956726074,
      "learning_rate": 0.00010433874194265391,
      "loss": 1.822,
      "step": 21529
    },
    {
      "epoch": 0.47844444444444445,
      "grad_norm": 1.0763664245605469,
      "learning_rate": 0.00010433429651033563,
      "loss": 1.027,
      "step": 21530
    },
    {
      "epoch": 0.47846666666666665,
      "grad_norm": 1.8613585233688354,
      "learning_rate": 0.00010432985107801734,
      "loss": 1.8562,
      "step": 21531
    },
    {
      "epoch": 0.4784888888888889,
      "grad_norm": 1.4966257810592651,
      "learning_rate": 0.00010432540564569905,
      "loss": 1.7489,
      "step": 21532
    },
    {
      "epoch": 0.4785111111111111,
      "grad_norm": 1.919402837753296,
      "learning_rate": 0.00010432096021338076,
      "loss": 2.1021,
      "step": 21533
    },
    {
      "epoch": 0.4785333333333333,
      "grad_norm": 1.6284065246582031,
      "learning_rate": 0.00010431651478106246,
      "loss": 1.717,
      "step": 21534
    },
    {
      "epoch": 0.47855555555555557,
      "grad_norm": 1.4773460626602173,
      "learning_rate": 0.00010431206934874418,
      "loss": 1.6444,
      "step": 21535
    },
    {
      "epoch": 0.47857777777777777,
      "grad_norm": 1.3628538846969604,
      "learning_rate": 0.00010430762391642588,
      "loss": 1.419,
      "step": 21536
    },
    {
      "epoch": 0.4786,
      "grad_norm": 1.6175260543823242,
      "learning_rate": 0.00010430317848410757,
      "loss": 2.1046,
      "step": 21537
    },
    {
      "epoch": 0.4786222222222222,
      "grad_norm": 1.5552265644073486,
      "learning_rate": 0.0001042987330517893,
      "loss": 1.6663,
      "step": 21538
    },
    {
      "epoch": 0.47864444444444443,
      "grad_norm": 1.4910954236984253,
      "learning_rate": 0.00010429428761947099,
      "loss": 1.8265,
      "step": 21539
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 1.6139929294586182,
      "learning_rate": 0.0001042898421871527,
      "loss": 1.9916,
      "step": 21540
    },
    {
      "epoch": 0.4786888888888889,
      "grad_norm": 1.6248260736465454,
      "learning_rate": 0.00010428539675483443,
      "loss": 1.6683,
      "step": 21541
    },
    {
      "epoch": 0.4787111111111111,
      "grad_norm": 1.2840503454208374,
      "learning_rate": 0.00010428095132251612,
      "loss": 1.4107,
      "step": 21542
    },
    {
      "epoch": 0.47873333333333334,
      "grad_norm": 2.264728307723999,
      "learning_rate": 0.00010427650589019782,
      "loss": 2.0751,
      "step": 21543
    },
    {
      "epoch": 0.47875555555555555,
      "grad_norm": 1.8090400695800781,
      "learning_rate": 0.00010427206045787954,
      "loss": 1.9934,
      "step": 21544
    },
    {
      "epoch": 0.4787777777777778,
      "grad_norm": 1.507192850112915,
      "learning_rate": 0.00010426761502556124,
      "loss": 1.3019,
      "step": 21545
    },
    {
      "epoch": 0.4788,
      "grad_norm": 1.9349390268325806,
      "learning_rate": 0.00010426316959324293,
      "loss": 1.8805,
      "step": 21546
    },
    {
      "epoch": 0.4788222222222222,
      "grad_norm": 2.3779618740081787,
      "learning_rate": 0.00010425872416092466,
      "loss": 2.2322,
      "step": 21547
    },
    {
      "epoch": 0.47884444444444446,
      "grad_norm": 1.9934755563735962,
      "learning_rate": 0.00010425427872860635,
      "loss": 1.487,
      "step": 21548
    },
    {
      "epoch": 0.47886666666666666,
      "grad_norm": 1.1916667222976685,
      "learning_rate": 0.00010424983329628808,
      "loss": 0.6854,
      "step": 21549
    },
    {
      "epoch": 0.47888888888888886,
      "grad_norm": 0.9543353319168091,
      "learning_rate": 0.00010424538786396979,
      "loss": 0.4734,
      "step": 21550
    },
    {
      "epoch": 0.4789111111111111,
      "grad_norm": 1.2819437980651855,
      "learning_rate": 0.00010424094243165148,
      "loss": 2.2615,
      "step": 21551
    },
    {
      "epoch": 0.4789333333333333,
      "grad_norm": 1.1546486616134644,
      "learning_rate": 0.0001042364969993332,
      "loss": 1.4326,
      "step": 21552
    },
    {
      "epoch": 0.4789555555555556,
      "grad_norm": 1.6997781991958618,
      "learning_rate": 0.0001042320515670149,
      "loss": 2.8444,
      "step": 21553
    },
    {
      "epoch": 0.4789777777777778,
      "grad_norm": 1.4076097011566162,
      "learning_rate": 0.0001042276061346966,
      "loss": 2.5497,
      "step": 21554
    },
    {
      "epoch": 0.479,
      "grad_norm": 1.5384819507598877,
      "learning_rate": 0.00010422316070237832,
      "loss": 2.7214,
      "step": 21555
    },
    {
      "epoch": 0.47902222222222224,
      "grad_norm": 1.9468036890029907,
      "learning_rate": 0.00010421871527006002,
      "loss": 2.9053,
      "step": 21556
    },
    {
      "epoch": 0.47904444444444444,
      "grad_norm": 1.6774461269378662,
      "learning_rate": 0.00010421426983774171,
      "loss": 2.7143,
      "step": 21557
    },
    {
      "epoch": 0.47906666666666664,
      "grad_norm": 1.6332160234451294,
      "learning_rate": 0.00010420982440542344,
      "loss": 2.371,
      "step": 21558
    },
    {
      "epoch": 0.4790888888888889,
      "grad_norm": 1.3197174072265625,
      "learning_rate": 0.00010420537897310514,
      "loss": 2.1224,
      "step": 21559
    },
    {
      "epoch": 0.4791111111111111,
      "grad_norm": 1.5843603610992432,
      "learning_rate": 0.00010420093354078684,
      "loss": 2.0543,
      "step": 21560
    },
    {
      "epoch": 0.47913333333333336,
      "grad_norm": 1.5467183589935303,
      "learning_rate": 0.00010419648810846856,
      "loss": 2.0837,
      "step": 21561
    },
    {
      "epoch": 0.47915555555555556,
      "grad_norm": 1.3908798694610596,
      "learning_rate": 0.00010419204267615026,
      "loss": 2.1488,
      "step": 21562
    },
    {
      "epoch": 0.47917777777777776,
      "grad_norm": 1.6060594320297241,
      "learning_rate": 0.00010418759724383196,
      "loss": 2.393,
      "step": 21563
    },
    {
      "epoch": 0.4792,
      "grad_norm": 1.5953394174575806,
      "learning_rate": 0.00010418315181151368,
      "loss": 2.3075,
      "step": 21564
    },
    {
      "epoch": 0.4792222222222222,
      "grad_norm": 1.3828397989273071,
      "learning_rate": 0.00010417870637919538,
      "loss": 2.1433,
      "step": 21565
    },
    {
      "epoch": 0.4792444444444444,
      "grad_norm": 1.3695098161697388,
      "learning_rate": 0.00010417426094687707,
      "loss": 2.4404,
      "step": 21566
    },
    {
      "epoch": 0.4792666666666667,
      "grad_norm": 1.440871238708496,
      "learning_rate": 0.0001041698155145588,
      "loss": 2.1438,
      "step": 21567
    },
    {
      "epoch": 0.4792888888888889,
      "grad_norm": 1.684117317199707,
      "learning_rate": 0.0001041653700822405,
      "loss": 1.9218,
      "step": 21568
    },
    {
      "epoch": 0.47931111111111113,
      "grad_norm": 1.4595922231674194,
      "learning_rate": 0.00010416092464992221,
      "loss": 2.0487,
      "step": 21569
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 1.5261186361312866,
      "learning_rate": 0.00010415647921760392,
      "loss": 1.8966,
      "step": 21570
    },
    {
      "epoch": 0.47935555555555553,
      "grad_norm": 1.5335954427719116,
      "learning_rate": 0.00010415203378528562,
      "loss": 2.3028,
      "step": 21571
    },
    {
      "epoch": 0.4793777777777778,
      "grad_norm": 1.8715592622756958,
      "learning_rate": 0.00010414758835296734,
      "loss": 1.8627,
      "step": 21572
    },
    {
      "epoch": 0.4794,
      "grad_norm": 1.3862775564193726,
      "learning_rate": 0.00010414314292064904,
      "loss": 2.0268,
      "step": 21573
    },
    {
      "epoch": 0.47942222222222225,
      "grad_norm": 1.2328611612319946,
      "learning_rate": 0.00010413869748833073,
      "loss": 0.9868,
      "step": 21574
    },
    {
      "epoch": 0.47944444444444445,
      "grad_norm": 1.7536373138427734,
      "learning_rate": 0.00010413425205601246,
      "loss": 1.3619,
      "step": 21575
    },
    {
      "epoch": 0.47946666666666665,
      "grad_norm": 1.7378710508346558,
      "learning_rate": 0.00010412980662369415,
      "loss": 2.1286,
      "step": 21576
    },
    {
      "epoch": 0.4794888888888889,
      "grad_norm": 1.6578669548034668,
      "learning_rate": 0.00010412536119137586,
      "loss": 2.0785,
      "step": 21577
    },
    {
      "epoch": 0.4795111111111111,
      "grad_norm": 1.656203031539917,
      "learning_rate": 0.00010412091575905759,
      "loss": 1.7986,
      "step": 21578
    },
    {
      "epoch": 0.4795333333333333,
      "grad_norm": 1.6257342100143433,
      "learning_rate": 0.00010411647032673928,
      "loss": 2.0433,
      "step": 21579
    },
    {
      "epoch": 0.47955555555555557,
      "grad_norm": 1.613484263420105,
      "learning_rate": 0.00010411202489442098,
      "loss": 2.1052,
      "step": 21580
    },
    {
      "epoch": 0.47957777777777777,
      "grad_norm": 1.5411605834960938,
      "learning_rate": 0.0001041075794621027,
      "loss": 2.1818,
      "step": 21581
    },
    {
      "epoch": 0.4796,
      "grad_norm": 2.2478554248809814,
      "learning_rate": 0.0001041031340297844,
      "loss": 1.6146,
      "step": 21582
    },
    {
      "epoch": 0.4796222222222222,
      "grad_norm": 2.1513495445251465,
      "learning_rate": 0.0001040986885974661,
      "loss": 1.9934,
      "step": 21583
    },
    {
      "epoch": 0.47964444444444443,
      "grad_norm": 1.4968583583831787,
      "learning_rate": 0.00010409424316514782,
      "loss": 1.0832,
      "step": 21584
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 1.747670292854309,
      "learning_rate": 0.00010408979773282951,
      "loss": 1.9826,
      "step": 21585
    },
    {
      "epoch": 0.4796888888888889,
      "grad_norm": 1.8308614492416382,
      "learning_rate": 0.00010408535230051124,
      "loss": 2.0943,
      "step": 21586
    },
    {
      "epoch": 0.4797111111111111,
      "grad_norm": 1.429219126701355,
      "learning_rate": 0.00010408090686819295,
      "loss": 1.5874,
      "step": 21587
    },
    {
      "epoch": 0.47973333333333334,
      "grad_norm": 1.5834428071975708,
      "learning_rate": 0.00010407646143587464,
      "loss": 2.0274,
      "step": 21588
    },
    {
      "epoch": 0.47975555555555555,
      "grad_norm": 1.825879693031311,
      "learning_rate": 0.00010407201600355637,
      "loss": 1.7877,
      "step": 21589
    },
    {
      "epoch": 0.4797777777777778,
      "grad_norm": 1.5746619701385498,
      "learning_rate": 0.00010406757057123806,
      "loss": 1.906,
      "step": 21590
    },
    {
      "epoch": 0.4798,
      "grad_norm": 1.7806856632232666,
      "learning_rate": 0.00010406312513891976,
      "loss": 1.7399,
      "step": 21591
    },
    {
      "epoch": 0.4798222222222222,
      "grad_norm": 1.7812246084213257,
      "learning_rate": 0.00010405867970660148,
      "loss": 1.9177,
      "step": 21592
    },
    {
      "epoch": 0.47984444444444446,
      "grad_norm": 1.9975998401641846,
      "learning_rate": 0.00010405423427428318,
      "loss": 2.1218,
      "step": 21593
    },
    {
      "epoch": 0.47986666666666666,
      "grad_norm": 1.901387333869934,
      "learning_rate": 0.00010404978884196487,
      "loss": 2.0887,
      "step": 21594
    },
    {
      "epoch": 0.47988888888888886,
      "grad_norm": 2.1851699352264404,
      "learning_rate": 0.0001040453434096466,
      "loss": 2.2225,
      "step": 21595
    },
    {
      "epoch": 0.4799111111111111,
      "grad_norm": 1.9594273567199707,
      "learning_rate": 0.0001040408979773283,
      "loss": 2.0264,
      "step": 21596
    },
    {
      "epoch": 0.4799333333333333,
      "grad_norm": 0.8122460246086121,
      "learning_rate": 0.00010403645254501,
      "loss": 0.5176,
      "step": 21597
    },
    {
      "epoch": 0.4799555555555556,
      "grad_norm": 1.928076982498169,
      "learning_rate": 0.00010403200711269173,
      "loss": 1.9251,
      "step": 21598
    },
    {
      "epoch": 0.4799777777777778,
      "grad_norm": 2.32541823387146,
      "learning_rate": 0.00010402756168037342,
      "loss": 2.1239,
      "step": 21599
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2786412239074707,
      "learning_rate": 0.00010402311624805512,
      "loss": 0.5989,
      "step": 21600
    },
    {
      "epoch": 0.48002222222222224,
      "grad_norm": 2.0790746212005615,
      "learning_rate": 0.00010401867081573684,
      "loss": 2.1612,
      "step": 21601
    },
    {
      "epoch": 0.48004444444444444,
      "grad_norm": 1.4361573457717896,
      "learning_rate": 0.00010401422538341854,
      "loss": 2.3654,
      "step": 21602
    },
    {
      "epoch": 0.48006666666666664,
      "grad_norm": 1.8580695390701294,
      "learning_rate": 0.00010400977995110023,
      "loss": 2.3571,
      "step": 21603
    },
    {
      "epoch": 0.4800888888888889,
      "grad_norm": 1.4946411848068237,
      "learning_rate": 0.00010400533451878196,
      "loss": 1.0213,
      "step": 21604
    },
    {
      "epoch": 0.4801111111111111,
      "grad_norm": 1.4368702173233032,
      "learning_rate": 0.00010400088908646367,
      "loss": 2.2728,
      "step": 21605
    },
    {
      "epoch": 0.48013333333333336,
      "grad_norm": 1.7642070055007935,
      "learning_rate": 0.00010399644365414537,
      "loss": 2.3069,
      "step": 21606
    },
    {
      "epoch": 0.48015555555555556,
      "grad_norm": 1.2803003787994385,
      "learning_rate": 0.00010399199822182708,
      "loss": 0.8242,
      "step": 21607
    },
    {
      "epoch": 0.48017777777777776,
      "grad_norm": 1.3962937593460083,
      "learning_rate": 0.00010398755278950878,
      "loss": 1.9155,
      "step": 21608
    },
    {
      "epoch": 0.4802,
      "grad_norm": 0.9636080265045166,
      "learning_rate": 0.0001039831073571905,
      "loss": 0.9083,
      "step": 21609
    },
    {
      "epoch": 0.4802222222222222,
      "grad_norm": 1.731811761856079,
      "learning_rate": 0.0001039786619248722,
      "loss": 2.5031,
      "step": 21610
    },
    {
      "epoch": 0.4802444444444444,
      "grad_norm": 1.433882236480713,
      "learning_rate": 0.0001039742164925539,
      "loss": 1.9835,
      "step": 21611
    },
    {
      "epoch": 0.4802666666666667,
      "grad_norm": 1.5163307189941406,
      "learning_rate": 0.00010396977106023562,
      "loss": 1.8742,
      "step": 21612
    },
    {
      "epoch": 0.4802888888888889,
      "grad_norm": 1.2816047668457031,
      "learning_rate": 0.00010396532562791732,
      "loss": 1.5735,
      "step": 21613
    },
    {
      "epoch": 0.48031111111111113,
      "grad_norm": 1.774677038192749,
      "learning_rate": 0.00010396088019559902,
      "loss": 2.4652,
      "step": 21614
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 2.0119686126708984,
      "learning_rate": 0.00010395643476328075,
      "loss": 2.225,
      "step": 21615
    },
    {
      "epoch": 0.48035555555555554,
      "grad_norm": 1.4587777853012085,
      "learning_rate": 0.00010395198933096244,
      "loss": 2.0434,
      "step": 21616
    },
    {
      "epoch": 0.4803777777777778,
      "grad_norm": 1.1814820766448975,
      "learning_rate": 0.00010394754389864414,
      "loss": 0.6584,
      "step": 21617
    },
    {
      "epoch": 0.4804,
      "grad_norm": 1.604150652885437,
      "learning_rate": 0.00010394309846632586,
      "loss": 1.9599,
      "step": 21618
    },
    {
      "epoch": 0.4804222222222222,
      "grad_norm": 1.789513111114502,
      "learning_rate": 0.00010393865303400756,
      "loss": 1.9992,
      "step": 21619
    },
    {
      "epoch": 0.48044444444444445,
      "grad_norm": 1.6831058263778687,
      "learning_rate": 0.00010393420760168926,
      "loss": 1.9627,
      "step": 21620
    },
    {
      "epoch": 0.48046666666666665,
      "grad_norm": 2.04565691947937,
      "learning_rate": 0.00010392976216937098,
      "loss": 1.871,
      "step": 21621
    },
    {
      "epoch": 0.4804888888888889,
      "grad_norm": 1.8232682943344116,
      "learning_rate": 0.00010392531673705267,
      "loss": 2.2886,
      "step": 21622
    },
    {
      "epoch": 0.4805111111111111,
      "grad_norm": 1.6468231678009033,
      "learning_rate": 0.00010392087130473438,
      "loss": 1.8027,
      "step": 21623
    },
    {
      "epoch": 0.4805333333333333,
      "grad_norm": 1.6138488054275513,
      "learning_rate": 0.00010391642587241611,
      "loss": 1.7332,
      "step": 21624
    },
    {
      "epoch": 0.48055555555555557,
      "grad_norm": 1.9621996879577637,
      "learning_rate": 0.0001039119804400978,
      "loss": 2.0787,
      "step": 21625
    },
    {
      "epoch": 0.48057777777777777,
      "grad_norm": 1.9173153638839722,
      "learning_rate": 0.00010390753500777953,
      "loss": 2.1316,
      "step": 21626
    },
    {
      "epoch": 0.4806,
      "grad_norm": 1.7642927169799805,
      "learning_rate": 0.00010390308957546122,
      "loss": 2.3904,
      "step": 21627
    },
    {
      "epoch": 0.48062222222222223,
      "grad_norm": 2.293848752975464,
      "learning_rate": 0.00010389864414314292,
      "loss": 2.498,
      "step": 21628
    },
    {
      "epoch": 0.48064444444444443,
      "grad_norm": 1.7114448547363281,
      "learning_rate": 0.00010389419871082464,
      "loss": 1.8107,
      "step": 21629
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 2.1387317180633545,
      "learning_rate": 0.00010388975327850634,
      "loss": 1.8766,
      "step": 21630
    },
    {
      "epoch": 0.4806888888888889,
      "grad_norm": 1.7218891382217407,
      "learning_rate": 0.00010388530784618803,
      "loss": 2.0528,
      "step": 21631
    },
    {
      "epoch": 0.4807111111111111,
      "grad_norm": 2.089653968811035,
      "learning_rate": 0.00010388086241386976,
      "loss": 1.727,
      "step": 21632
    },
    {
      "epoch": 0.48073333333333335,
      "grad_norm": 1.529133677482605,
      "learning_rate": 0.00010387641698155147,
      "loss": 1.4351,
      "step": 21633
    },
    {
      "epoch": 0.48075555555555555,
      "grad_norm": 1.515021800994873,
      "learning_rate": 0.00010387197154923316,
      "loss": 1.8532,
      "step": 21634
    },
    {
      "epoch": 0.4807777777777778,
      "grad_norm": 1.9249424934387207,
      "learning_rate": 0.00010386752611691489,
      "loss": 2.455,
      "step": 21635
    },
    {
      "epoch": 0.4808,
      "grad_norm": 1.983223795890808,
      "learning_rate": 0.00010386308068459658,
      "loss": 2.3723,
      "step": 21636
    },
    {
      "epoch": 0.4808222222222222,
      "grad_norm": 1.6996352672576904,
      "learning_rate": 0.00010385863525227828,
      "loss": 2.1635,
      "step": 21637
    },
    {
      "epoch": 0.48084444444444446,
      "grad_norm": 1.9073115587234497,
      "learning_rate": 0.00010385418981996,
      "loss": 2.0458,
      "step": 21638
    },
    {
      "epoch": 0.48086666666666666,
      "grad_norm": 1.760535478591919,
      "learning_rate": 0.0001038497443876417,
      "loss": 1.8949,
      "step": 21639
    },
    {
      "epoch": 0.48088888888888887,
      "grad_norm": 1.9646902084350586,
      "learning_rate": 0.0001038452989553234,
      "loss": 2.1963,
      "step": 21640
    },
    {
      "epoch": 0.4809111111111111,
      "grad_norm": 2.48494029045105,
      "learning_rate": 0.00010384085352300512,
      "loss": 2.5061,
      "step": 21641
    },
    {
      "epoch": 0.4809333333333333,
      "grad_norm": 1.9167402982711792,
      "learning_rate": 0.00010383640809068683,
      "loss": 2.2677,
      "step": 21642
    },
    {
      "epoch": 0.4809555555555556,
      "grad_norm": 1.8827111721038818,
      "learning_rate": 0.00010383196265836854,
      "loss": 2.3029,
      "step": 21643
    },
    {
      "epoch": 0.4809777777777778,
      "grad_norm": 1.7137445211410522,
      "learning_rate": 0.00010382751722605025,
      "loss": 2.1199,
      "step": 21644
    },
    {
      "epoch": 0.481,
      "grad_norm": 1.7084376811981201,
      "learning_rate": 0.00010382307179373194,
      "loss": 2.0976,
      "step": 21645
    },
    {
      "epoch": 0.48102222222222224,
      "grad_norm": 1.817231297492981,
      "learning_rate": 0.00010381862636141366,
      "loss": 1.8408,
      "step": 21646
    },
    {
      "epoch": 0.48104444444444444,
      "grad_norm": 1.9546910524368286,
      "learning_rate": 0.00010381418092909536,
      "loss": 2.0129,
      "step": 21647
    },
    {
      "epoch": 0.48106666666666664,
      "grad_norm": 2.043381929397583,
      "learning_rate": 0.00010380973549677706,
      "loss": 1.9062,
      "step": 21648
    },
    {
      "epoch": 0.4810888888888889,
      "grad_norm": 1.6782665252685547,
      "learning_rate": 0.00010380529006445878,
      "loss": 1.7153,
      "step": 21649
    },
    {
      "epoch": 0.4811111111111111,
      "grad_norm": 0.9971043467521667,
      "learning_rate": 0.00010380084463214048,
      "loss": 0.6436,
      "step": 21650
    },
    {
      "epoch": 0.48113333333333336,
      "grad_norm": 1.592988133430481,
      "learning_rate": 0.00010379639919982219,
      "loss": 2.878,
      "step": 21651
    },
    {
      "epoch": 0.48115555555555556,
      "grad_norm": 1.6284765005111694,
      "learning_rate": 0.00010379195376750391,
      "loss": 2.5318,
      "step": 21652
    },
    {
      "epoch": 0.48117777777777776,
      "grad_norm": 1.3046318292617798,
      "learning_rate": 0.0001037875083351856,
      "loss": 1.9282,
      "step": 21653
    },
    {
      "epoch": 0.4812,
      "grad_norm": 1.614374041557312,
      "learning_rate": 0.0001037830629028673,
      "loss": 2.2813,
      "step": 21654
    },
    {
      "epoch": 0.4812222222222222,
      "grad_norm": 1.2475881576538086,
      "learning_rate": 0.00010377861747054902,
      "loss": 1.465,
      "step": 21655
    },
    {
      "epoch": 0.4812444444444444,
      "grad_norm": 1.4235926866531372,
      "learning_rate": 0.00010377417203823072,
      "loss": 1.4609,
      "step": 21656
    },
    {
      "epoch": 0.4812666666666667,
      "grad_norm": 1.4869991540908813,
      "learning_rate": 0.00010376972660591242,
      "loss": 1.8638,
      "step": 21657
    },
    {
      "epoch": 0.4812888888888889,
      "grad_norm": 1.0107744932174683,
      "learning_rate": 0.00010376528117359414,
      "loss": 0.9768,
      "step": 21658
    },
    {
      "epoch": 0.48131111111111113,
      "grad_norm": 1.5132982730865479,
      "learning_rate": 0.00010376083574127584,
      "loss": 1.9302,
      "step": 21659
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 1.6376794576644897,
      "learning_rate": 0.00010375639030895755,
      "loss": 1.9007,
      "step": 21660
    },
    {
      "epoch": 0.48135555555555554,
      "grad_norm": 1.6363486051559448,
      "learning_rate": 0.00010375194487663927,
      "loss": 2.1325,
      "step": 21661
    },
    {
      "epoch": 0.4813777777777778,
      "grad_norm": 1.833548665046692,
      "learning_rate": 0.00010374749944432096,
      "loss": 2.2299,
      "step": 21662
    },
    {
      "epoch": 0.4814,
      "grad_norm": 1.9319194555282593,
      "learning_rate": 0.00010374305401200269,
      "loss": 1.9294,
      "step": 21663
    },
    {
      "epoch": 0.4814222222222222,
      "grad_norm": 1.2877893447875977,
      "learning_rate": 0.00010373860857968438,
      "loss": 1.7076,
      "step": 21664
    },
    {
      "epoch": 0.48144444444444445,
      "grad_norm": 1.629809856414795,
      "learning_rate": 0.00010373416314736608,
      "loss": 1.9591,
      "step": 21665
    },
    {
      "epoch": 0.48146666666666665,
      "grad_norm": 1.9034713506698608,
      "learning_rate": 0.0001037297177150478,
      "loss": 2.6352,
      "step": 21666
    },
    {
      "epoch": 0.4814888888888889,
      "grad_norm": 1.728913426399231,
      "learning_rate": 0.0001037252722827295,
      "loss": 2.1406,
      "step": 21667
    },
    {
      "epoch": 0.4815111111111111,
      "grad_norm": 1.5392285585403442,
      "learning_rate": 0.0001037208268504112,
      "loss": 1.9783,
      "step": 21668
    },
    {
      "epoch": 0.4815333333333333,
      "grad_norm": 1.7952029705047607,
      "learning_rate": 0.00010371638141809292,
      "loss": 2.1795,
      "step": 21669
    },
    {
      "epoch": 0.48155555555555557,
      "grad_norm": 1.4827297925949097,
      "learning_rate": 0.00010371193598577463,
      "loss": 2.0504,
      "step": 21670
    },
    {
      "epoch": 0.48157777777777777,
      "grad_norm": 1.7720229625701904,
      "learning_rate": 0.00010370749055345632,
      "loss": 2.2609,
      "step": 21671
    },
    {
      "epoch": 0.4816,
      "grad_norm": 1.7426844835281372,
      "learning_rate": 0.00010370304512113805,
      "loss": 2.7024,
      "step": 21672
    },
    {
      "epoch": 0.48162222222222223,
      "grad_norm": 1.7279942035675049,
      "learning_rate": 0.00010369859968881974,
      "loss": 2.0878,
      "step": 21673
    },
    {
      "epoch": 0.48164444444444443,
      "grad_norm": 1.4482452869415283,
      "learning_rate": 0.00010369415425650144,
      "loss": 1.5942,
      "step": 21674
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 1.4331408739089966,
      "learning_rate": 0.00010368970882418316,
      "loss": 2.0102,
      "step": 21675
    },
    {
      "epoch": 0.4816888888888889,
      "grad_norm": 1.7080801725387573,
      "learning_rate": 0.00010368526339186486,
      "loss": 2.0409,
      "step": 21676
    },
    {
      "epoch": 0.4817111111111111,
      "grad_norm": 1.7016456127166748,
      "learning_rate": 0.00010368081795954655,
      "loss": 1.9345,
      "step": 21677
    },
    {
      "epoch": 0.48173333333333335,
      "grad_norm": 1.794032096862793,
      "learning_rate": 0.00010367637252722828,
      "loss": 1.6552,
      "step": 21678
    },
    {
      "epoch": 0.48175555555555555,
      "grad_norm": 1.9635908603668213,
      "learning_rate": 0.00010367192709490999,
      "loss": 2.1478,
      "step": 21679
    },
    {
      "epoch": 0.4817777777777778,
      "grad_norm": 1.6290607452392578,
      "learning_rate": 0.00010366748166259168,
      "loss": 2.1658,
      "step": 21680
    },
    {
      "epoch": 0.4818,
      "grad_norm": 1.345152497291565,
      "learning_rate": 0.0001036630362302734,
      "loss": 0.8964,
      "step": 21681
    },
    {
      "epoch": 0.4818222222222222,
      "grad_norm": 1.4984575510025024,
      "learning_rate": 0.0001036585907979551,
      "loss": 2.4487,
      "step": 21682
    },
    {
      "epoch": 0.48184444444444446,
      "grad_norm": 1.6643985509872437,
      "learning_rate": 0.00010365414536563683,
      "loss": 2.0693,
      "step": 21683
    },
    {
      "epoch": 0.48186666666666667,
      "grad_norm": 1.6567623615264893,
      "learning_rate": 0.00010364969993331852,
      "loss": 1.9339,
      "step": 21684
    },
    {
      "epoch": 0.48188888888888887,
      "grad_norm": 1.9990434646606445,
      "learning_rate": 0.00010364525450100022,
      "loss": 1.9055,
      "step": 21685
    },
    {
      "epoch": 0.4819111111111111,
      "grad_norm": 1.7419068813323975,
      "learning_rate": 0.00010364080906868194,
      "loss": 1.8434,
      "step": 21686
    },
    {
      "epoch": 0.4819333333333333,
      "grad_norm": 1.7650699615478516,
      "learning_rate": 0.00010363636363636364,
      "loss": 1.6695,
      "step": 21687
    },
    {
      "epoch": 0.4819555555555556,
      "grad_norm": 1.6442227363586426,
      "learning_rate": 0.00010363191820404535,
      "loss": 1.6197,
      "step": 21688
    },
    {
      "epoch": 0.4819777777777778,
      "grad_norm": 1.647102952003479,
      "learning_rate": 0.00010362747277172707,
      "loss": 1.7049,
      "step": 21689
    },
    {
      "epoch": 0.482,
      "grad_norm": 1.8593456745147705,
      "learning_rate": 0.00010362302733940877,
      "loss": 2.1813,
      "step": 21690
    },
    {
      "epoch": 0.48202222222222224,
      "grad_norm": 3.032435178756714,
      "learning_rate": 0.00010361858190709046,
      "loss": 1.9532,
      "step": 21691
    },
    {
      "epoch": 0.48204444444444444,
      "grad_norm": 1.5993293523788452,
      "learning_rate": 0.00010361413647477219,
      "loss": 1.9297,
      "step": 21692
    },
    {
      "epoch": 0.48206666666666664,
      "grad_norm": 1.4490983486175537,
      "learning_rate": 0.00010360969104245388,
      "loss": 1.4162,
      "step": 21693
    },
    {
      "epoch": 0.4820888888888889,
      "grad_norm": 2.2346391677856445,
      "learning_rate": 0.00010360524561013558,
      "loss": 1.8433,
      "step": 21694
    },
    {
      "epoch": 0.4821111111111111,
      "grad_norm": 1.6533530950546265,
      "learning_rate": 0.0001036008001778173,
      "loss": 1.6262,
      "step": 21695
    },
    {
      "epoch": 0.48213333333333336,
      "grad_norm": 1.7327942848205566,
      "learning_rate": 0.000103596354745499,
      "loss": 1.9884,
      "step": 21696
    },
    {
      "epoch": 0.48215555555555556,
      "grad_norm": 1.6605372428894043,
      "learning_rate": 0.0001035919093131807,
      "loss": 1.5636,
      "step": 21697
    },
    {
      "epoch": 0.48217777777777776,
      "grad_norm": 2.098470449447632,
      "learning_rate": 0.00010358746388086243,
      "loss": 2.1052,
      "step": 21698
    },
    {
      "epoch": 0.4822,
      "grad_norm": 1.675013542175293,
      "learning_rate": 0.00010358301844854413,
      "loss": 1.7995,
      "step": 21699
    },
    {
      "epoch": 0.4822222222222222,
      "grad_norm": 1.6915115118026733,
      "learning_rate": 0.00010357857301622585,
      "loss": 1.4262,
      "step": 21700
    },
    {
      "epoch": 0.4822444444444444,
      "grad_norm": 1.3683000802993774,
      "learning_rate": 0.00010357412758390754,
      "loss": 2.4241,
      "step": 21701
    },
    {
      "epoch": 0.4822666666666667,
      "grad_norm": 1.5016697645187378,
      "learning_rate": 0.00010356968215158924,
      "loss": 2.8622,
      "step": 21702
    },
    {
      "epoch": 0.4822888888888889,
      "grad_norm": 1.5803042650222778,
      "learning_rate": 0.00010356523671927096,
      "loss": 2.5725,
      "step": 21703
    },
    {
      "epoch": 0.48231111111111113,
      "grad_norm": 1.3160877227783203,
      "learning_rate": 0.00010356079128695266,
      "loss": 2.1523,
      "step": 21704
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 1.6287633180618286,
      "learning_rate": 0.00010355634585463436,
      "loss": 2.6583,
      "step": 21705
    },
    {
      "epoch": 0.48235555555555554,
      "grad_norm": 1.5996453762054443,
      "learning_rate": 0.00010355190042231608,
      "loss": 2.4862,
      "step": 21706
    },
    {
      "epoch": 0.4823777777777778,
      "grad_norm": 2.600289821624756,
      "learning_rate": 0.00010354745498999779,
      "loss": 1.9316,
      "step": 21707
    },
    {
      "epoch": 0.4824,
      "grad_norm": 1.526140809059143,
      "learning_rate": 0.00010354300955767948,
      "loss": 2.4728,
      "step": 21708
    },
    {
      "epoch": 0.4824222222222222,
      "grad_norm": 1.803444743156433,
      "learning_rate": 0.00010353856412536121,
      "loss": 2.2941,
      "step": 21709
    },
    {
      "epoch": 0.48244444444444445,
      "grad_norm": 1.4587862491607666,
      "learning_rate": 0.0001035341186930429,
      "loss": 2.3247,
      "step": 21710
    },
    {
      "epoch": 0.48246666666666665,
      "grad_norm": 1.3972952365875244,
      "learning_rate": 0.0001035296732607246,
      "loss": 2.2453,
      "step": 21711
    },
    {
      "epoch": 0.4824888888888889,
      "grad_norm": 1.5566036701202393,
      "learning_rate": 0.00010352522782840632,
      "loss": 2.1009,
      "step": 21712
    },
    {
      "epoch": 0.4825111111111111,
      "grad_norm": 1.5607106685638428,
      "learning_rate": 0.00010352078239608802,
      "loss": 2.0062,
      "step": 21713
    },
    {
      "epoch": 0.4825333333333333,
      "grad_norm": 1.4911810159683228,
      "learning_rate": 0.00010351633696376972,
      "loss": 2.3034,
      "step": 21714
    },
    {
      "epoch": 0.48255555555555557,
      "grad_norm": 1.7986021041870117,
      "learning_rate": 0.00010351189153145144,
      "loss": 2.303,
      "step": 21715
    },
    {
      "epoch": 0.48257777777777777,
      "grad_norm": 1.4255367517471313,
      "learning_rate": 0.00010350744609913315,
      "loss": 1.9108,
      "step": 21716
    },
    {
      "epoch": 0.4826,
      "grad_norm": 1.4603633880615234,
      "learning_rate": 0.00010350300066681484,
      "loss": 1.6363,
      "step": 21717
    },
    {
      "epoch": 0.48262222222222223,
      "grad_norm": 1.7535250186920166,
      "learning_rate": 0.00010349855523449657,
      "loss": 2.2579,
      "step": 21718
    },
    {
      "epoch": 0.48264444444444443,
      "grad_norm": 1.5627055168151855,
      "learning_rate": 0.00010349410980217826,
      "loss": 2.1551,
      "step": 21719
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 1.540605902671814,
      "learning_rate": 0.00010348966436985999,
      "loss": 1.7947,
      "step": 21720
    },
    {
      "epoch": 0.4826888888888889,
      "grad_norm": 1.4507157802581787,
      "learning_rate": 0.00010348521893754168,
      "loss": 1.9369,
      "step": 21721
    },
    {
      "epoch": 0.4827111111111111,
      "grad_norm": 1.6977996826171875,
      "learning_rate": 0.00010348077350522338,
      "loss": 1.9604,
      "step": 21722
    },
    {
      "epoch": 0.48273333333333335,
      "grad_norm": 1.3289600610733032,
      "learning_rate": 0.0001034763280729051,
      "loss": 1.7528,
      "step": 21723
    },
    {
      "epoch": 0.48275555555555555,
      "grad_norm": 1.6332554817199707,
      "learning_rate": 0.0001034718826405868,
      "loss": 2.1757,
      "step": 21724
    },
    {
      "epoch": 0.48277777777777775,
      "grad_norm": 1.6936209201812744,
      "learning_rate": 0.00010346743720826851,
      "loss": 1.8,
      "step": 21725
    },
    {
      "epoch": 0.4828,
      "grad_norm": 2.0569770336151123,
      "learning_rate": 0.00010346299177595023,
      "loss": 2.11,
      "step": 21726
    },
    {
      "epoch": 0.4828222222222222,
      "grad_norm": 1.7624832391738892,
      "learning_rate": 0.00010345854634363193,
      "loss": 2.1365,
      "step": 21727
    },
    {
      "epoch": 0.48284444444444446,
      "grad_norm": 1.3585162162780762,
      "learning_rate": 0.00010345410091131362,
      "loss": 1.4397,
      "step": 21728
    },
    {
      "epoch": 0.48286666666666667,
      "grad_norm": 1.6763017177581787,
      "learning_rate": 0.00010344965547899535,
      "loss": 1.8042,
      "step": 21729
    },
    {
      "epoch": 0.48288888888888887,
      "grad_norm": 1.5565537214279175,
      "learning_rate": 0.00010344521004667704,
      "loss": 1.8307,
      "step": 21730
    },
    {
      "epoch": 0.4829111111111111,
      "grad_norm": 1.6420531272888184,
      "learning_rate": 0.00010344076461435874,
      "loss": 1.6155,
      "step": 21731
    },
    {
      "epoch": 0.4829333333333333,
      "grad_norm": 1.6559207439422607,
      "learning_rate": 0.00010343631918204046,
      "loss": 1.7647,
      "step": 21732
    },
    {
      "epoch": 0.4829555555555556,
      "grad_norm": 1.6050021648406982,
      "learning_rate": 0.00010343187374972216,
      "loss": 1.9654,
      "step": 21733
    },
    {
      "epoch": 0.4829777777777778,
      "grad_norm": 1.56981360912323,
      "learning_rate": 0.00010342742831740387,
      "loss": 1.8537,
      "step": 21734
    },
    {
      "epoch": 0.483,
      "grad_norm": 1.525150179862976,
      "learning_rate": 0.00010342298288508559,
      "loss": 1.6023,
      "step": 21735
    },
    {
      "epoch": 0.48302222222222224,
      "grad_norm": 1.544823408126831,
      "learning_rate": 0.00010341853745276729,
      "loss": 1.8459,
      "step": 21736
    },
    {
      "epoch": 0.48304444444444444,
      "grad_norm": 1.6557971239089966,
      "learning_rate": 0.00010341409202044898,
      "loss": 1.7082,
      "step": 21737
    },
    {
      "epoch": 0.48306666666666664,
      "grad_norm": 1.6469104290008545,
      "learning_rate": 0.0001034096465881307,
      "loss": 1.6586,
      "step": 21738
    },
    {
      "epoch": 0.4830888888888889,
      "grad_norm": 1.5961945056915283,
      "learning_rate": 0.0001034052011558124,
      "loss": 1.844,
      "step": 21739
    },
    {
      "epoch": 0.4831111111111111,
      "grad_norm": 1.6785286664962769,
      "learning_rate": 0.00010340075572349412,
      "loss": 1.7072,
      "step": 21740
    },
    {
      "epoch": 0.48313333333333336,
      "grad_norm": 1.5489574670791626,
      "learning_rate": 0.00010339631029117582,
      "loss": 1.9417,
      "step": 21741
    },
    {
      "epoch": 0.48315555555555556,
      "grad_norm": 1.727849006652832,
      "learning_rate": 0.00010339186485885752,
      "loss": 1.748,
      "step": 21742
    },
    {
      "epoch": 0.48317777777777776,
      "grad_norm": 2.348256826400757,
      "learning_rate": 0.00010338741942653924,
      "loss": 2.2142,
      "step": 21743
    },
    {
      "epoch": 0.4832,
      "grad_norm": 1.7921216487884521,
      "learning_rate": 0.00010338297399422095,
      "loss": 1.806,
      "step": 21744
    },
    {
      "epoch": 0.4832222222222222,
      "grad_norm": 2.2998695373535156,
      "learning_rate": 0.00010337852856190265,
      "loss": 2.3117,
      "step": 21745
    },
    {
      "epoch": 0.4832444444444444,
      "grad_norm": 1.2033438682556152,
      "learning_rate": 0.00010337408312958437,
      "loss": 0.6899,
      "step": 21746
    },
    {
      "epoch": 0.4832666666666667,
      "grad_norm": 1.8984932899475098,
      "learning_rate": 0.00010336963769726607,
      "loss": 1.6613,
      "step": 21747
    },
    {
      "epoch": 0.4832888888888889,
      "grad_norm": 2.4448275566101074,
      "learning_rate": 0.00010336519226494776,
      "loss": 2.1565,
      "step": 21748
    },
    {
      "epoch": 0.48331111111111114,
      "grad_norm": 1.3469574451446533,
      "learning_rate": 0.00010336074683262948,
      "loss": 0.9021,
      "step": 21749
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 1.353511095046997,
      "learning_rate": 0.00010335630140031118,
      "loss": 0.9558,
      "step": 21750
    },
    {
      "epoch": 0.48335555555555554,
      "grad_norm": 1.8236819505691528,
      "learning_rate": 0.00010335185596799288,
      "loss": 2.7803,
      "step": 21751
    },
    {
      "epoch": 0.4833777777777778,
      "grad_norm": 1.5993484258651733,
      "learning_rate": 0.0001033474105356746,
      "loss": 2.1149,
      "step": 21752
    },
    {
      "epoch": 0.4834,
      "grad_norm": 1.1616857051849365,
      "learning_rate": 0.00010334296510335631,
      "loss": 0.0451,
      "step": 21753
    },
    {
      "epoch": 0.4834222222222222,
      "grad_norm": 1.7720065116882324,
      "learning_rate": 0.000103338519671038,
      "loss": 2.2171,
      "step": 21754
    },
    {
      "epoch": 0.48344444444444445,
      "grad_norm": 1.456764817237854,
      "learning_rate": 0.00010333407423871973,
      "loss": 2.1969,
      "step": 21755
    },
    {
      "epoch": 0.48346666666666666,
      "grad_norm": 1.4895659685134888,
      "learning_rate": 0.00010332962880640142,
      "loss": 2.0484,
      "step": 21756
    },
    {
      "epoch": 0.4834888888888889,
      "grad_norm": 1.6830329895019531,
      "learning_rate": 0.00010332518337408315,
      "loss": 1.9755,
      "step": 21757
    },
    {
      "epoch": 0.4835111111111111,
      "grad_norm": 1.6609785556793213,
      "learning_rate": 0.00010332073794176484,
      "loss": 2.3011,
      "step": 21758
    },
    {
      "epoch": 0.4835333333333333,
      "grad_norm": 1.79155433177948,
      "learning_rate": 0.00010331629250944654,
      "loss": 2.2574,
      "step": 21759
    },
    {
      "epoch": 0.48355555555555557,
      "grad_norm": 1.9133327007293701,
      "learning_rate": 0.00010331184707712826,
      "loss": 2.3703,
      "step": 21760
    },
    {
      "epoch": 0.4835777777777778,
      "grad_norm": 1.494738221168518,
      "learning_rate": 0.00010330740164480996,
      "loss": 2.0043,
      "step": 21761
    },
    {
      "epoch": 0.4836,
      "grad_norm": 1.7997682094573975,
      "learning_rate": 0.00010330295621249167,
      "loss": 2.8359,
      "step": 21762
    },
    {
      "epoch": 0.48362222222222223,
      "grad_norm": 1.4462392330169678,
      "learning_rate": 0.00010329851078017339,
      "loss": 1.9772,
      "step": 21763
    },
    {
      "epoch": 0.48364444444444443,
      "grad_norm": 1.8339697122573853,
      "learning_rate": 0.00010329406534785509,
      "loss": 2.2364,
      "step": 21764
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 1.6924326419830322,
      "learning_rate": 0.00010328961991553678,
      "loss": 1.9004,
      "step": 21765
    },
    {
      "epoch": 0.4836888888888889,
      "grad_norm": 1.606488823890686,
      "learning_rate": 0.00010328517448321851,
      "loss": 1.6244,
      "step": 21766
    },
    {
      "epoch": 0.4837111111111111,
      "grad_norm": 1.6614665985107422,
      "learning_rate": 0.0001032807290509002,
      "loss": 2.4773,
      "step": 21767
    },
    {
      "epoch": 0.48373333333333335,
      "grad_norm": 1.5545616149902344,
      "learning_rate": 0.0001032762836185819,
      "loss": 1.7024,
      "step": 21768
    },
    {
      "epoch": 0.48375555555555555,
      "grad_norm": 1.5956541299819946,
      "learning_rate": 0.00010327183818626362,
      "loss": 2.4096,
      "step": 21769
    },
    {
      "epoch": 0.48377777777777775,
      "grad_norm": 1.4382530450820923,
      "learning_rate": 0.00010326739275394532,
      "loss": 1.7915,
      "step": 21770
    },
    {
      "epoch": 0.4838,
      "grad_norm": 1.6023250818252563,
      "learning_rate": 0.00010326294732162703,
      "loss": 1.9003,
      "step": 21771
    },
    {
      "epoch": 0.4838222222222222,
      "grad_norm": 1.247527003288269,
      "learning_rate": 0.00010325850188930875,
      "loss": 0.9923,
      "step": 21772
    },
    {
      "epoch": 0.48384444444444447,
      "grad_norm": 1.7701431512832642,
      "learning_rate": 0.00010325405645699045,
      "loss": 2.3142,
      "step": 21773
    },
    {
      "epoch": 0.48386666666666667,
      "grad_norm": 1.4497052431106567,
      "learning_rate": 0.00010324961102467214,
      "loss": 1.8488,
      "step": 21774
    },
    {
      "epoch": 0.48388888888888887,
      "grad_norm": 1.7721197605133057,
      "learning_rate": 0.00010324516559235387,
      "loss": 1.7866,
      "step": 21775
    },
    {
      "epoch": 0.4839111111111111,
      "grad_norm": 1.6606273651123047,
      "learning_rate": 0.00010324072016003556,
      "loss": 1.6341,
      "step": 21776
    },
    {
      "epoch": 0.4839333333333333,
      "grad_norm": 1.4178837537765503,
      "learning_rate": 0.00010323627472771729,
      "loss": 1.4899,
      "step": 21777
    },
    {
      "epoch": 0.4839555555555556,
      "grad_norm": 1.4425179958343506,
      "learning_rate": 0.00010323182929539898,
      "loss": 1.7435,
      "step": 21778
    },
    {
      "epoch": 0.4839777777777778,
      "grad_norm": 1.423439383506775,
      "learning_rate": 0.00010322738386308068,
      "loss": 1.76,
      "step": 21779
    },
    {
      "epoch": 0.484,
      "grad_norm": 1.6624675989151,
      "learning_rate": 0.0001032229384307624,
      "loss": 1.8553,
      "step": 21780
    },
    {
      "epoch": 0.48402222222222224,
      "grad_norm": 1.712058663368225,
      "learning_rate": 0.00010321849299844411,
      "loss": 1.879,
      "step": 21781
    },
    {
      "epoch": 0.48404444444444444,
      "grad_norm": 1.8892163038253784,
      "learning_rate": 0.00010321404756612581,
      "loss": 1.9798,
      "step": 21782
    },
    {
      "epoch": 0.48406666666666665,
      "grad_norm": 1.351444959640503,
      "learning_rate": 0.00010320960213380753,
      "loss": 2.0111,
      "step": 21783
    },
    {
      "epoch": 0.4840888888888889,
      "grad_norm": 1.6847528219223022,
      "learning_rate": 0.00010320515670148923,
      "loss": 1.8859,
      "step": 21784
    },
    {
      "epoch": 0.4841111111111111,
      "grad_norm": 1.9571127891540527,
      "learning_rate": 0.00010320071126917092,
      "loss": 2.1771,
      "step": 21785
    },
    {
      "epoch": 0.48413333333333336,
      "grad_norm": 1.5475422143936157,
      "learning_rate": 0.00010319626583685265,
      "loss": 1.3572,
      "step": 21786
    },
    {
      "epoch": 0.48415555555555556,
      "grad_norm": 1.4652118682861328,
      "learning_rate": 0.00010319182040453434,
      "loss": 1.7111,
      "step": 21787
    },
    {
      "epoch": 0.48417777777777776,
      "grad_norm": 2.963660717010498,
      "learning_rate": 0.00010318737497221604,
      "loss": 1.9222,
      "step": 21788
    },
    {
      "epoch": 0.4842,
      "grad_norm": 1.4846144914627075,
      "learning_rate": 0.00010318292953989776,
      "loss": 1.6137,
      "step": 21789
    },
    {
      "epoch": 0.4842222222222222,
      "grad_norm": 1.6328619718551636,
      "learning_rate": 0.00010317848410757947,
      "loss": 1.6214,
      "step": 21790
    },
    {
      "epoch": 0.4842444444444444,
      "grad_norm": 1.4484846591949463,
      "learning_rate": 0.00010317403867526117,
      "loss": 1.401,
      "step": 21791
    },
    {
      "epoch": 0.4842666666666667,
      "grad_norm": 1.8207054138183594,
      "learning_rate": 0.00010316959324294289,
      "loss": 1.641,
      "step": 21792
    },
    {
      "epoch": 0.4842888888888889,
      "grad_norm": 2.252289295196533,
      "learning_rate": 0.00010316514781062459,
      "loss": 2.0349,
      "step": 21793
    },
    {
      "epoch": 0.48431111111111114,
      "grad_norm": 1.5424250364303589,
      "learning_rate": 0.00010316070237830628,
      "loss": 1.563,
      "step": 21794
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 1.7804288864135742,
      "learning_rate": 0.000103156256945988,
      "loss": 2.0523,
      "step": 21795
    },
    {
      "epoch": 0.48435555555555554,
      "grad_norm": 1.7075775861740112,
      "learning_rate": 0.0001031518115136697,
      "loss": 2.1223,
      "step": 21796
    },
    {
      "epoch": 0.4843777777777778,
      "grad_norm": 1.5036873817443848,
      "learning_rate": 0.00010314736608135142,
      "loss": 1.5326,
      "step": 21797
    },
    {
      "epoch": 0.4844,
      "grad_norm": 1.702658772468567,
      "learning_rate": 0.00010314292064903312,
      "loss": 1.6817,
      "step": 21798
    },
    {
      "epoch": 0.4844222222222222,
      "grad_norm": 1.4309873580932617,
      "learning_rate": 0.00010313847521671483,
      "loss": 1.3905,
      "step": 21799
    },
    {
      "epoch": 0.48444444444444446,
      "grad_norm": 1.076637625694275,
      "learning_rate": 0.00010313402978439655,
      "loss": 0.5681,
      "step": 21800
    },
    {
      "epoch": 0.48446666666666666,
      "grad_norm": 1.7270393371582031,
      "learning_rate": 0.00010312958435207825,
      "loss": 2.4689,
      "step": 21801
    },
    {
      "epoch": 0.4844888888888889,
      "grad_norm": 0.18236351013183594,
      "learning_rate": 0.00010312513891975995,
      "loss": 0.0177,
      "step": 21802
    },
    {
      "epoch": 0.4845111111111111,
      "grad_norm": 1.5130740404129028,
      "learning_rate": 0.00010312069348744167,
      "loss": 2.4887,
      "step": 21803
    },
    {
      "epoch": 0.4845333333333333,
      "grad_norm": 1.5337775945663452,
      "learning_rate": 0.00010311624805512336,
      "loss": 2.3718,
      "step": 21804
    },
    {
      "epoch": 0.4845555555555556,
      "grad_norm": 1.4593119621276855,
      "learning_rate": 0.00010311180262280506,
      "loss": 2.0439,
      "step": 21805
    },
    {
      "epoch": 0.4845777777777778,
      "grad_norm": 1.4083276987075806,
      "learning_rate": 0.00010310735719048678,
      "loss": 2.1527,
      "step": 21806
    },
    {
      "epoch": 0.4846,
      "grad_norm": 1.4370672702789307,
      "learning_rate": 0.00010310291175816848,
      "loss": 2.1742,
      "step": 21807
    },
    {
      "epoch": 0.48462222222222223,
      "grad_norm": 1.4844692945480347,
      "learning_rate": 0.00010309846632585019,
      "loss": 2.0725,
      "step": 21808
    },
    {
      "epoch": 0.48464444444444443,
      "grad_norm": 1.7200886011123657,
      "learning_rate": 0.00010309402089353191,
      "loss": 2.7676,
      "step": 21809
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 1.5508333444595337,
      "learning_rate": 0.00010308957546121361,
      "loss": 2.3307,
      "step": 21810
    },
    {
      "epoch": 0.4846888888888889,
      "grad_norm": 1.351134181022644,
      "learning_rate": 0.0001030851300288953,
      "loss": 1.6056,
      "step": 21811
    },
    {
      "epoch": 0.4847111111111111,
      "grad_norm": 1.6068419218063354,
      "learning_rate": 0.00010308068459657703,
      "loss": 2.1172,
      "step": 21812
    },
    {
      "epoch": 0.48473333333333335,
      "grad_norm": 1.6180192232131958,
      "learning_rate": 0.00010307623916425872,
      "loss": 2.0073,
      "step": 21813
    },
    {
      "epoch": 0.48475555555555555,
      "grad_norm": 1.645843505859375,
      "learning_rate": 0.00010307179373194045,
      "loss": 2.4374,
      "step": 21814
    },
    {
      "epoch": 0.48477777777777775,
      "grad_norm": 1.5231605768203735,
      "learning_rate": 0.00010306734829962214,
      "loss": 2.0251,
      "step": 21815
    },
    {
      "epoch": 0.4848,
      "grad_norm": 1.6291698217391968,
      "learning_rate": 0.00010306290286730384,
      "loss": 2.3768,
      "step": 21816
    },
    {
      "epoch": 0.4848222222222222,
      "grad_norm": 1.5074676275253296,
      "learning_rate": 0.00010305845743498556,
      "loss": 1.7233,
      "step": 21817
    },
    {
      "epoch": 0.48484444444444447,
      "grad_norm": 1.463046908378601,
      "learning_rate": 0.00010305401200266727,
      "loss": 1.7714,
      "step": 21818
    },
    {
      "epoch": 0.48486666666666667,
      "grad_norm": 1.5239158868789673,
      "learning_rate": 0.00010304956657034897,
      "loss": 2.1484,
      "step": 21819
    },
    {
      "epoch": 0.48488888888888887,
      "grad_norm": 1.8064444065093994,
      "learning_rate": 0.00010304512113803069,
      "loss": 1.8172,
      "step": 21820
    },
    {
      "epoch": 0.4849111111111111,
      "grad_norm": 0.21659326553344727,
      "learning_rate": 0.00010304067570571239,
      "loss": 0.0262,
      "step": 21821
    },
    {
      "epoch": 0.4849333333333333,
      "grad_norm": 1.4744268655776978,
      "learning_rate": 0.00010303623027339408,
      "loss": 1.8972,
      "step": 21822
    },
    {
      "epoch": 0.48495555555555553,
      "grad_norm": 1.9273371696472168,
      "learning_rate": 0.0001030317848410758,
      "loss": 2.7582,
      "step": 21823
    },
    {
      "epoch": 0.4849777777777778,
      "grad_norm": 1.6425646543502808,
      "learning_rate": 0.0001030273394087575,
      "loss": 2.2107,
      "step": 21824
    },
    {
      "epoch": 0.485,
      "grad_norm": 1.4248465299606323,
      "learning_rate": 0.0001030228939764392,
      "loss": 1.8322,
      "step": 21825
    },
    {
      "epoch": 0.48502222222222224,
      "grad_norm": 1.7036532163619995,
      "learning_rate": 0.00010301844854412092,
      "loss": 2.4945,
      "step": 21826
    },
    {
      "epoch": 0.48504444444444444,
      "grad_norm": 2.1662230491638184,
      "learning_rate": 0.00010301400311180263,
      "loss": 1.8373,
      "step": 21827
    },
    {
      "epoch": 0.48506666666666665,
      "grad_norm": 1.6520576477050781,
      "learning_rate": 0.00010300955767948433,
      "loss": 2.1337,
      "step": 21828
    },
    {
      "epoch": 0.4850888888888889,
      "grad_norm": 1.5541187524795532,
      "learning_rate": 0.00010300511224716605,
      "loss": 1.9888,
      "step": 21829
    },
    {
      "epoch": 0.4851111111111111,
      "grad_norm": 1.555596113204956,
      "learning_rate": 0.00010300066681484775,
      "loss": 1.9089,
      "step": 21830
    },
    {
      "epoch": 0.48513333333333336,
      "grad_norm": 1.6222500801086426,
      "learning_rate": 0.00010299622138252944,
      "loss": 1.8927,
      "step": 21831
    },
    {
      "epoch": 0.48515555555555556,
      "grad_norm": 1.5179864168167114,
      "learning_rate": 0.00010299177595021117,
      "loss": 1.7638,
      "step": 21832
    },
    {
      "epoch": 0.48517777777777776,
      "grad_norm": 1.671357274055481,
      "learning_rate": 0.00010298733051789286,
      "loss": 1.9605,
      "step": 21833
    },
    {
      "epoch": 0.4852,
      "grad_norm": 1.6466269493103027,
      "learning_rate": 0.00010298288508557459,
      "loss": 2.2103,
      "step": 21834
    },
    {
      "epoch": 0.4852222222222222,
      "grad_norm": 1.8328484296798706,
      "learning_rate": 0.00010297843965325628,
      "loss": 2.3394,
      "step": 21835
    },
    {
      "epoch": 0.4852444444444444,
      "grad_norm": 1.7610101699829102,
      "learning_rate": 0.00010297399422093799,
      "loss": 2.1727,
      "step": 21836
    },
    {
      "epoch": 0.4852666666666667,
      "grad_norm": 1.7184981107711792,
      "learning_rate": 0.00010296954878861971,
      "loss": 2.1335,
      "step": 21837
    },
    {
      "epoch": 0.4852888888888889,
      "grad_norm": 1.6454620361328125,
      "learning_rate": 0.00010296510335630141,
      "loss": 1.9933,
      "step": 21838
    },
    {
      "epoch": 0.48531111111111114,
      "grad_norm": 1.7396314144134521,
      "learning_rate": 0.0001029606579239831,
      "loss": 1.8139,
      "step": 21839
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 1.8189504146575928,
      "learning_rate": 0.00010295621249166483,
      "loss": 2.1255,
      "step": 21840
    },
    {
      "epoch": 0.48535555555555554,
      "grad_norm": 1.8027700185775757,
      "learning_rate": 0.00010295176705934653,
      "loss": 2.0966,
      "step": 21841
    },
    {
      "epoch": 0.4853777777777778,
      "grad_norm": 2.1002938747406006,
      "learning_rate": 0.00010294732162702822,
      "loss": 1.8111,
      "step": 21842
    },
    {
      "epoch": 0.4854,
      "grad_norm": 1.3699195384979248,
      "learning_rate": 0.00010294287619470994,
      "loss": 1.7768,
      "step": 21843
    },
    {
      "epoch": 0.4854222222222222,
      "grad_norm": 1.6704045534133911,
      "learning_rate": 0.00010293843076239164,
      "loss": 1.8048,
      "step": 21844
    },
    {
      "epoch": 0.48544444444444446,
      "grad_norm": 1.9075262546539307,
      "learning_rate": 0.00010293398533007335,
      "loss": 1.6005,
      "step": 21845
    },
    {
      "epoch": 0.48546666666666666,
      "grad_norm": 1.6808067560195923,
      "learning_rate": 0.00010292953989775507,
      "loss": 1.7131,
      "step": 21846
    },
    {
      "epoch": 0.4854888888888889,
      "grad_norm": 1.594692587852478,
      "learning_rate": 0.00010292509446543677,
      "loss": 1.695,
      "step": 21847
    },
    {
      "epoch": 0.4855111111111111,
      "grad_norm": 2.1116366386413574,
      "learning_rate": 0.00010292064903311847,
      "loss": 2.1758,
      "step": 21848
    },
    {
      "epoch": 0.4855333333333333,
      "grad_norm": 2.0215959548950195,
      "learning_rate": 0.00010291620360080019,
      "loss": 1.9466,
      "step": 21849
    },
    {
      "epoch": 0.4855555555555556,
      "grad_norm": 1.5755664110183716,
      "learning_rate": 0.00010291175816848188,
      "loss": 1.4308,
      "step": 21850
    },
    {
      "epoch": 0.4855777777777778,
      "grad_norm": 1.6015968322753906,
      "learning_rate": 0.00010290731273616358,
      "loss": 2.306,
      "step": 21851
    },
    {
      "epoch": 0.4856,
      "grad_norm": 1.6825395822525024,
      "learning_rate": 0.0001029028673038453,
      "loss": 2.6288,
      "step": 21852
    },
    {
      "epoch": 0.48562222222222223,
      "grad_norm": 1.610899806022644,
      "learning_rate": 0.000102898421871527,
      "loss": 3.1085,
      "step": 21853
    },
    {
      "epoch": 0.48564444444444443,
      "grad_norm": 1.6411566734313965,
      "learning_rate": 0.00010289397643920872,
      "loss": 2.1165,
      "step": 21854
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 1.7107536792755127,
      "learning_rate": 0.00010288953100689043,
      "loss": 2.4852,
      "step": 21855
    },
    {
      "epoch": 0.4856888888888889,
      "grad_norm": 1.476747751235962,
      "learning_rate": 0.00010288508557457213,
      "loss": 1.7622,
      "step": 21856
    },
    {
      "epoch": 0.4857111111111111,
      "grad_norm": 1.613931655883789,
      "learning_rate": 0.00010288064014225385,
      "loss": 2.3798,
      "step": 21857
    },
    {
      "epoch": 0.48573333333333335,
      "grad_norm": 1.7431621551513672,
      "learning_rate": 0.00010287619470993555,
      "loss": 2.3248,
      "step": 21858
    },
    {
      "epoch": 0.48575555555555555,
      "grad_norm": 1.6676493883132935,
      "learning_rate": 0.00010287174927761724,
      "loss": 2.1723,
      "step": 21859
    },
    {
      "epoch": 0.48577777777777775,
      "grad_norm": 1.5929478406906128,
      "learning_rate": 0.00010286730384529897,
      "loss": 2.4728,
      "step": 21860
    },
    {
      "epoch": 0.4858,
      "grad_norm": 1.4811691045761108,
      "learning_rate": 0.00010286285841298066,
      "loss": 1.4346,
      "step": 21861
    },
    {
      "epoch": 0.4858222222222222,
      "grad_norm": 1.4828027486801147,
      "learning_rate": 0.00010285841298066236,
      "loss": 1.7219,
      "step": 21862
    },
    {
      "epoch": 0.48584444444444447,
      "grad_norm": 1.3890596628189087,
      "learning_rate": 0.00010285396754834408,
      "loss": 2.1211,
      "step": 21863
    },
    {
      "epoch": 0.48586666666666667,
      "grad_norm": 1.7466425895690918,
      "learning_rate": 0.00010284952211602579,
      "loss": 2.0769,
      "step": 21864
    },
    {
      "epoch": 0.48588888888888887,
      "grad_norm": 1.3303658962249756,
      "learning_rate": 0.00010284507668370749,
      "loss": 1.5368,
      "step": 21865
    },
    {
      "epoch": 0.4859111111111111,
      "grad_norm": 1.6149325370788574,
      "learning_rate": 0.00010284063125138921,
      "loss": 2.2153,
      "step": 21866
    },
    {
      "epoch": 0.48593333333333333,
      "grad_norm": 1.3380142450332642,
      "learning_rate": 0.00010283618581907091,
      "loss": 1.8383,
      "step": 21867
    },
    {
      "epoch": 0.48595555555555553,
      "grad_norm": 1.6317139863967896,
      "learning_rate": 0.0001028317403867526,
      "loss": 2.223,
      "step": 21868
    },
    {
      "epoch": 0.4859777777777778,
      "grad_norm": 1.3665454387664795,
      "learning_rate": 0.00010282729495443433,
      "loss": 1.8793,
      "step": 21869
    },
    {
      "epoch": 0.486,
      "grad_norm": 1.5563899278640747,
      "learning_rate": 0.00010282284952211602,
      "loss": 2.0599,
      "step": 21870
    },
    {
      "epoch": 0.48602222222222224,
      "grad_norm": 1.7297450304031372,
      "learning_rate": 0.00010281840408979775,
      "loss": 1.7457,
      "step": 21871
    },
    {
      "epoch": 0.48604444444444445,
      "grad_norm": 1.2550575733184814,
      "learning_rate": 0.00010281395865747944,
      "loss": 1.676,
      "step": 21872
    },
    {
      "epoch": 0.48606666666666665,
      "grad_norm": 1.5672836303710938,
      "learning_rate": 0.00010280951322516115,
      "loss": 1.9724,
      "step": 21873
    },
    {
      "epoch": 0.4860888888888889,
      "grad_norm": 1.8480106592178345,
      "learning_rate": 0.00010280506779284288,
      "loss": 1.6759,
      "step": 21874
    },
    {
      "epoch": 0.4861111111111111,
      "grad_norm": 1.7338627576828003,
      "learning_rate": 0.00010280062236052457,
      "loss": 2.0738,
      "step": 21875
    },
    {
      "epoch": 0.4861333333333333,
      "grad_norm": 1.672155737876892,
      "learning_rate": 0.00010279617692820627,
      "loss": 2.1218,
      "step": 21876
    },
    {
      "epoch": 0.48615555555555556,
      "grad_norm": 1.6681808233261108,
      "learning_rate": 0.00010279173149588799,
      "loss": 2.1241,
      "step": 21877
    },
    {
      "epoch": 0.48617777777777776,
      "grad_norm": 1.7234833240509033,
      "learning_rate": 0.00010278728606356969,
      "loss": 1.9898,
      "step": 21878
    },
    {
      "epoch": 0.4862,
      "grad_norm": 1.4872883558273315,
      "learning_rate": 0.00010278284063125138,
      "loss": 1.0679,
      "step": 21879
    },
    {
      "epoch": 0.4862222222222222,
      "grad_norm": 1.5919477939605713,
      "learning_rate": 0.0001027783951989331,
      "loss": 1.6623,
      "step": 21880
    },
    {
      "epoch": 0.4862444444444444,
      "grad_norm": 1.7001407146453857,
      "learning_rate": 0.0001027739497666148,
      "loss": 1.6322,
      "step": 21881
    },
    {
      "epoch": 0.4862666666666667,
      "grad_norm": 1.2615313529968262,
      "learning_rate": 0.00010276950433429651,
      "loss": 0.9878,
      "step": 21882
    },
    {
      "epoch": 0.4862888888888889,
      "grad_norm": 1.3175690174102783,
      "learning_rate": 0.00010276505890197823,
      "loss": 1.6679,
      "step": 21883
    },
    {
      "epoch": 0.48631111111111114,
      "grad_norm": 2.2450790405273438,
      "learning_rate": 0.00010276061346965993,
      "loss": 1.3806,
      "step": 21884
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 1.629477620124817,
      "learning_rate": 0.00010275616803734163,
      "loss": 2.0309,
      "step": 21885
    },
    {
      "epoch": 0.48635555555555554,
      "grad_norm": 1.5505398511886597,
      "learning_rate": 0.00010275172260502335,
      "loss": 1.7253,
      "step": 21886
    },
    {
      "epoch": 0.4863777777777778,
      "grad_norm": 1.2114709615707397,
      "learning_rate": 0.00010274727717270505,
      "loss": 1.0351,
      "step": 21887
    },
    {
      "epoch": 0.4864,
      "grad_norm": 1.7683031558990479,
      "learning_rate": 0.00010274283174038674,
      "loss": 1.9581,
      "step": 21888
    },
    {
      "epoch": 0.4864222222222222,
      "grad_norm": 1.675850510597229,
      "learning_rate": 0.00010273838630806847,
      "loss": 1.7558,
      "step": 21889
    },
    {
      "epoch": 0.48644444444444446,
      "grad_norm": 1.4928178787231445,
      "learning_rate": 0.00010273394087575016,
      "loss": 1.6524,
      "step": 21890
    },
    {
      "epoch": 0.48646666666666666,
      "grad_norm": 1.9776370525360107,
      "learning_rate": 0.00010272949544343188,
      "loss": 2.0795,
      "step": 21891
    },
    {
      "epoch": 0.4864888888888889,
      "grad_norm": 2.276005506515503,
      "learning_rate": 0.0001027250500111136,
      "loss": 1.4779,
      "step": 21892
    },
    {
      "epoch": 0.4865111111111111,
      "grad_norm": 1.8501513004302979,
      "learning_rate": 0.00010272060457879529,
      "loss": 2.005,
      "step": 21893
    },
    {
      "epoch": 0.4865333333333333,
      "grad_norm": 1.8328320980072021,
      "learning_rate": 0.00010271615914647701,
      "loss": 1.8178,
      "step": 21894
    },
    {
      "epoch": 0.4865555555555556,
      "grad_norm": 1.7585946321487427,
      "learning_rate": 0.00010271171371415871,
      "loss": 1.9831,
      "step": 21895
    },
    {
      "epoch": 0.4865777777777778,
      "grad_norm": 1.7506881952285767,
      "learning_rate": 0.0001027072682818404,
      "loss": 1.923,
      "step": 21896
    },
    {
      "epoch": 0.4866,
      "grad_norm": 1.6383355855941772,
      "learning_rate": 0.00010270282284952213,
      "loss": 1.7852,
      "step": 21897
    },
    {
      "epoch": 0.48662222222222223,
      "grad_norm": 1.6957104206085205,
      "learning_rate": 0.00010269837741720382,
      "loss": 1.9068,
      "step": 21898
    },
    {
      "epoch": 0.48664444444444444,
      "grad_norm": 1.6870454549789429,
      "learning_rate": 0.00010269393198488552,
      "loss": 1.6187,
      "step": 21899
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 1.5323524475097656,
      "learning_rate": 0.00010268948655256724,
      "loss": 0.9804,
      "step": 21900
    },
    {
      "epoch": 0.4866888888888889,
      "grad_norm": 1.073711633682251,
      "learning_rate": 0.00010268504112024895,
      "loss": 1.9886,
      "step": 21901
    },
    {
      "epoch": 0.4867111111111111,
      "grad_norm": 1.2035231590270996,
      "learning_rate": 0.00010268059568793065,
      "loss": 2.2426,
      "step": 21902
    },
    {
      "epoch": 0.48673333333333335,
      "grad_norm": 1.0475196838378906,
      "learning_rate": 0.00010267615025561237,
      "loss": 0.9561,
      "step": 21903
    },
    {
      "epoch": 0.48675555555555555,
      "grad_norm": 1.3830633163452148,
      "learning_rate": 0.00010267170482329407,
      "loss": 1.7252,
      "step": 21904
    },
    {
      "epoch": 0.48677777777777775,
      "grad_norm": 1.5052168369293213,
      "learning_rate": 0.00010266725939097576,
      "loss": 2.3133,
      "step": 21905
    },
    {
      "epoch": 0.4868,
      "grad_norm": 1.6660832166671753,
      "learning_rate": 0.00010266281395865749,
      "loss": 2.0803,
      "step": 21906
    },
    {
      "epoch": 0.4868222222222222,
      "grad_norm": 1.5180892944335938,
      "learning_rate": 0.00010265836852633918,
      "loss": 2.196,
      "step": 21907
    },
    {
      "epoch": 0.48684444444444447,
      "grad_norm": 1.4225921630859375,
      "learning_rate": 0.0001026539230940209,
      "loss": 2.1653,
      "step": 21908
    },
    {
      "epoch": 0.48686666666666667,
      "grad_norm": 1.550107717514038,
      "learning_rate": 0.0001026494776617026,
      "loss": 2.4064,
      "step": 21909
    },
    {
      "epoch": 0.48688888888888887,
      "grad_norm": 1.4352021217346191,
      "learning_rate": 0.00010264503222938431,
      "loss": 1.6859,
      "step": 21910
    },
    {
      "epoch": 0.48691111111111113,
      "grad_norm": 1.8999419212341309,
      "learning_rate": 0.00010264058679706604,
      "loss": 1.4373,
      "step": 21911
    },
    {
      "epoch": 0.48693333333333333,
      "grad_norm": 2.4942376613616943,
      "learning_rate": 0.00010263614136474773,
      "loss": 2.2694,
      "step": 21912
    },
    {
      "epoch": 0.48695555555555553,
      "grad_norm": 1.3258929252624512,
      "learning_rate": 0.00010263169593242943,
      "loss": 1.0818,
      "step": 21913
    },
    {
      "epoch": 0.4869777777777778,
      "grad_norm": 1.5369001626968384,
      "learning_rate": 0.00010262725050011115,
      "loss": 2.006,
      "step": 21914
    },
    {
      "epoch": 0.487,
      "grad_norm": 1.4548856019973755,
      "learning_rate": 0.00010262280506779285,
      "loss": 2.1196,
      "step": 21915
    },
    {
      "epoch": 0.48702222222222225,
      "grad_norm": 1.9356719255447388,
      "learning_rate": 0.00010261835963547454,
      "loss": 2.0218,
      "step": 21916
    },
    {
      "epoch": 0.48704444444444445,
      "grad_norm": 1.6010833978652954,
      "learning_rate": 0.00010261391420315627,
      "loss": 2.3088,
      "step": 21917
    },
    {
      "epoch": 0.48706666666666665,
      "grad_norm": 1.3942714929580688,
      "learning_rate": 0.00010260946877083796,
      "loss": 1.6066,
      "step": 21918
    },
    {
      "epoch": 0.4870888888888889,
      "grad_norm": 1.5404112339019775,
      "learning_rate": 0.00010260502333851967,
      "loss": 1.8855,
      "step": 21919
    },
    {
      "epoch": 0.4871111111111111,
      "grad_norm": 1.6394386291503906,
      "learning_rate": 0.0001026005779062014,
      "loss": 1.6614,
      "step": 21920
    },
    {
      "epoch": 0.4871333333333333,
      "grad_norm": 1.5780338048934937,
      "learning_rate": 0.00010259613247388309,
      "loss": 1.9607,
      "step": 21921
    },
    {
      "epoch": 0.48715555555555556,
      "grad_norm": 1.673919439315796,
      "learning_rate": 0.00010259168704156479,
      "loss": 1.5611,
      "step": 21922
    },
    {
      "epoch": 0.48717777777777777,
      "grad_norm": 2.003477096557617,
      "learning_rate": 0.00010258724160924651,
      "loss": 2.1502,
      "step": 21923
    },
    {
      "epoch": 0.4872,
      "grad_norm": 1.652247667312622,
      "learning_rate": 0.00010258279617692821,
      "loss": 1.5065,
      "step": 21924
    },
    {
      "epoch": 0.4872222222222222,
      "grad_norm": 1.7255326509475708,
      "learning_rate": 0.0001025783507446099,
      "loss": 1.5376,
      "step": 21925
    },
    {
      "epoch": 0.4872444444444444,
      "grad_norm": 1.921233057975769,
      "learning_rate": 0.00010257390531229163,
      "loss": 2.1727,
      "step": 21926
    },
    {
      "epoch": 0.4872666666666667,
      "grad_norm": 1.949465274810791,
      "learning_rate": 0.00010256945987997332,
      "loss": 1.7579,
      "step": 21927
    },
    {
      "epoch": 0.4872888888888889,
      "grad_norm": 0.9147199988365173,
      "learning_rate": 0.00010256501444765505,
      "loss": 0.667,
      "step": 21928
    },
    {
      "epoch": 0.4873111111111111,
      "grad_norm": 1.4997594356536865,
      "learning_rate": 0.00010256056901533676,
      "loss": 1.9082,
      "step": 21929
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 1.6880470514297485,
      "learning_rate": 0.00010255612358301845,
      "loss": 2.0933,
      "step": 21930
    },
    {
      "epoch": 0.48735555555555554,
      "grad_norm": 1.4392880201339722,
      "learning_rate": 0.00010255167815070017,
      "loss": 1.7199,
      "step": 21931
    },
    {
      "epoch": 0.4873777777777778,
      "grad_norm": 1.6830682754516602,
      "learning_rate": 0.00010254723271838187,
      "loss": 1.9976,
      "step": 21932
    },
    {
      "epoch": 0.4874,
      "grad_norm": 1.499437689781189,
      "learning_rate": 0.00010254278728606357,
      "loss": 1.836,
      "step": 21933
    },
    {
      "epoch": 0.4874222222222222,
      "grad_norm": 1.8256970643997192,
      "learning_rate": 0.00010253834185374529,
      "loss": 1.995,
      "step": 21934
    },
    {
      "epoch": 0.48744444444444446,
      "grad_norm": 2.3218131065368652,
      "learning_rate": 0.00010253389642142699,
      "loss": 2.0467,
      "step": 21935
    },
    {
      "epoch": 0.48746666666666666,
      "grad_norm": 1.4520572423934937,
      "learning_rate": 0.0001025294509891087,
      "loss": 1.5015,
      "step": 21936
    },
    {
      "epoch": 0.4874888888888889,
      "grad_norm": 1.625477910041809,
      "learning_rate": 0.0001025250055567904,
      "loss": 1.6371,
      "step": 21937
    },
    {
      "epoch": 0.4875111111111111,
      "grad_norm": 1.8295297622680664,
      "learning_rate": 0.00010252056012447211,
      "loss": 1.8258,
      "step": 21938
    },
    {
      "epoch": 0.4875333333333333,
      "grad_norm": 1.6797561645507812,
      "learning_rate": 0.00010251611469215381,
      "loss": 1.6363,
      "step": 21939
    },
    {
      "epoch": 0.4875555555555556,
      "grad_norm": 1.743521809577942,
      "learning_rate": 0.00010251166925983553,
      "loss": 1.9666,
      "step": 21940
    },
    {
      "epoch": 0.4875777777777778,
      "grad_norm": 2.3041226863861084,
      "learning_rate": 0.00010250722382751723,
      "loss": 2.1317,
      "step": 21941
    },
    {
      "epoch": 0.4876,
      "grad_norm": 1.7595311403274536,
      "learning_rate": 0.00010250277839519893,
      "loss": 1.6991,
      "step": 21942
    },
    {
      "epoch": 0.48762222222222223,
      "grad_norm": 2.008751630783081,
      "learning_rate": 0.00010249833296288065,
      "loss": 2.01,
      "step": 21943
    },
    {
      "epoch": 0.48764444444444444,
      "grad_norm": 1.8843220472335815,
      "learning_rate": 0.00010249388753056235,
      "loss": 2.0081,
      "step": 21944
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 2.1477108001708984,
      "learning_rate": 0.00010248944209824405,
      "loss": 2.0108,
      "step": 21945
    },
    {
      "epoch": 0.4876888888888889,
      "grad_norm": 1.6544685363769531,
      "learning_rate": 0.00010248499666592576,
      "loss": 1.8213,
      "step": 21946
    },
    {
      "epoch": 0.4877111111111111,
      "grad_norm": 1.7625116109848022,
      "learning_rate": 0.00010248055123360747,
      "loss": 1.8536,
      "step": 21947
    },
    {
      "epoch": 0.48773333333333335,
      "grad_norm": 1.614946961402893,
      "learning_rate": 0.0001024761058012892,
      "loss": 1.4455,
      "step": 21948
    },
    {
      "epoch": 0.48775555555555555,
      "grad_norm": 1.6258617639541626,
      "learning_rate": 0.0001024716603689709,
      "loss": 1.7196,
      "step": 21949
    },
    {
      "epoch": 0.48777777777777775,
      "grad_norm": 1.4467198848724365,
      "learning_rate": 0.00010246721493665259,
      "loss": 1.3797,
      "step": 21950
    },
    {
      "epoch": 0.4878,
      "grad_norm": 1.5150389671325684,
      "learning_rate": 0.00010246276950433431,
      "loss": 2.2538,
      "step": 21951
    },
    {
      "epoch": 0.4878222222222222,
      "grad_norm": 0.9256049394607544,
      "learning_rate": 0.00010245832407201601,
      "loss": 1.2717,
      "step": 21952
    },
    {
      "epoch": 0.48784444444444447,
      "grad_norm": 1.9553390741348267,
      "learning_rate": 0.0001024538786396977,
      "loss": 2.6785,
      "step": 21953
    },
    {
      "epoch": 0.48786666666666667,
      "grad_norm": 1.3052362203598022,
      "learning_rate": 0.00010244943320737943,
      "loss": 2.1294,
      "step": 21954
    },
    {
      "epoch": 0.48788888888888887,
      "grad_norm": 1.6209967136383057,
      "learning_rate": 0.00010244498777506112,
      "loss": 1.8657,
      "step": 21955
    },
    {
      "epoch": 0.48791111111111113,
      "grad_norm": 1.232149600982666,
      "learning_rate": 0.00010244054234274283,
      "loss": 1.5119,
      "step": 21956
    },
    {
      "epoch": 0.48793333333333333,
      "grad_norm": 1.6859533786773682,
      "learning_rate": 0.00010243609691042456,
      "loss": 1.9655,
      "step": 21957
    },
    {
      "epoch": 0.48795555555555553,
      "grad_norm": 1.5358167886734009,
      "learning_rate": 0.00010243165147810625,
      "loss": 2.1704,
      "step": 21958
    },
    {
      "epoch": 0.4879777777777778,
      "grad_norm": 1.8381311893463135,
      "learning_rate": 0.00010242720604578795,
      "loss": 2.1229,
      "step": 21959
    },
    {
      "epoch": 0.488,
      "grad_norm": 2.401190757751465,
      "learning_rate": 0.00010242276061346967,
      "loss": 2.3615,
      "step": 21960
    },
    {
      "epoch": 0.48802222222222225,
      "grad_norm": 1.456055760383606,
      "learning_rate": 0.00010241831518115137,
      "loss": 1.957,
      "step": 21961
    },
    {
      "epoch": 0.48804444444444445,
      "grad_norm": 2.079754114151001,
      "learning_rate": 0.00010241386974883306,
      "loss": 2.1877,
      "step": 21962
    },
    {
      "epoch": 0.48806666666666665,
      "grad_norm": 1.3821920156478882,
      "learning_rate": 0.00010240942431651479,
      "loss": 1.6855,
      "step": 21963
    },
    {
      "epoch": 0.4880888888888889,
      "grad_norm": 1.6065354347229004,
      "learning_rate": 0.00010240497888419648,
      "loss": 1.6277,
      "step": 21964
    },
    {
      "epoch": 0.4881111111111111,
      "grad_norm": 1.6145702600479126,
      "learning_rate": 0.0001024005334518782,
      "loss": 2.2123,
      "step": 21965
    },
    {
      "epoch": 0.4881333333333333,
      "grad_norm": 1.4328795671463013,
      "learning_rate": 0.00010239608801955992,
      "loss": 2.0044,
      "step": 21966
    },
    {
      "epoch": 0.48815555555555556,
      "grad_norm": 1.6416711807250977,
      "learning_rate": 0.00010239164258724161,
      "loss": 2.1519,
      "step": 21967
    },
    {
      "epoch": 0.48817777777777777,
      "grad_norm": 1.4712629318237305,
      "learning_rate": 0.00010238719715492334,
      "loss": 1.9088,
      "step": 21968
    },
    {
      "epoch": 0.4882,
      "grad_norm": 1.5003306865692139,
      "learning_rate": 0.00010238275172260503,
      "loss": 1.4661,
      "step": 21969
    },
    {
      "epoch": 0.4882222222222222,
      "grad_norm": 0.9129844903945923,
      "learning_rate": 0.00010237830629028673,
      "loss": 0.7978,
      "step": 21970
    },
    {
      "epoch": 0.4882444444444444,
      "grad_norm": 1.686747670173645,
      "learning_rate": 0.00010237386085796845,
      "loss": 2.1966,
      "step": 21971
    },
    {
      "epoch": 0.4882666666666667,
      "grad_norm": 1.393824577331543,
      "learning_rate": 0.00010236941542565015,
      "loss": 1.6841,
      "step": 21972
    },
    {
      "epoch": 0.4882888888888889,
      "grad_norm": 1.8088394403457642,
      "learning_rate": 0.00010236496999333186,
      "loss": 1.7981,
      "step": 21973
    },
    {
      "epoch": 0.4883111111111111,
      "grad_norm": 1.5715432167053223,
      "learning_rate": 0.00010236052456101357,
      "loss": 1.8344,
      "step": 21974
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 1.7965126037597656,
      "learning_rate": 0.00010235607912869528,
      "loss": 2.4232,
      "step": 21975
    },
    {
      "epoch": 0.48835555555555554,
      "grad_norm": 1.5718554258346558,
      "learning_rate": 0.00010235163369637697,
      "loss": 2.156,
      "step": 21976
    },
    {
      "epoch": 0.4883777777777778,
      "grad_norm": 1.3833173513412476,
      "learning_rate": 0.0001023471882640587,
      "loss": 1.7229,
      "step": 21977
    },
    {
      "epoch": 0.4884,
      "grad_norm": 1.4902148246765137,
      "learning_rate": 0.00010234274283174039,
      "loss": 2.1775,
      "step": 21978
    },
    {
      "epoch": 0.4884222222222222,
      "grad_norm": 1.2684311866760254,
      "learning_rate": 0.00010233829739942209,
      "loss": 1.7529,
      "step": 21979
    },
    {
      "epoch": 0.48844444444444446,
      "grad_norm": 0.9980759024620056,
      "learning_rate": 0.00010233385196710381,
      "loss": 0.9052,
      "step": 21980
    },
    {
      "epoch": 0.48846666666666666,
      "grad_norm": 1.2679699659347534,
      "learning_rate": 0.0001023294065347855,
      "loss": 0.9889,
      "step": 21981
    },
    {
      "epoch": 0.48848888888888886,
      "grad_norm": 2.027472496032715,
      "learning_rate": 0.00010232496110246722,
      "loss": 2.6138,
      "step": 21982
    },
    {
      "epoch": 0.4885111111111111,
      "grad_norm": 1.9068336486816406,
      "learning_rate": 0.00010232051567014893,
      "loss": 1.7809,
      "step": 21983
    },
    {
      "epoch": 0.4885333333333333,
      "grad_norm": 1.9287852048873901,
      "learning_rate": 0.00010231607023783064,
      "loss": 2.1115,
      "step": 21984
    },
    {
      "epoch": 0.4885555555555556,
      "grad_norm": 1.8074532747268677,
      "learning_rate": 0.00010231162480551236,
      "loss": 2.1518,
      "step": 21985
    },
    {
      "epoch": 0.4885777777777778,
      "grad_norm": 1.2989239692687988,
      "learning_rate": 0.00010230717937319405,
      "loss": 1.1096,
      "step": 21986
    },
    {
      "epoch": 0.4886,
      "grad_norm": 1.8712764978408813,
      "learning_rate": 0.00010230273394087575,
      "loss": 1.9942,
      "step": 21987
    },
    {
      "epoch": 0.48862222222222224,
      "grad_norm": 1.7781239748001099,
      "learning_rate": 0.00010229828850855747,
      "loss": 1.7398,
      "step": 21988
    },
    {
      "epoch": 0.48864444444444444,
      "grad_norm": 1.7948580980300903,
      "learning_rate": 0.00010229384307623917,
      "loss": 2.1604,
      "step": 21989
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 1.9547888040542603,
      "learning_rate": 0.00010228939764392087,
      "loss": 1.8628,
      "step": 21990
    },
    {
      "epoch": 0.4886888888888889,
      "grad_norm": 1.7082529067993164,
      "learning_rate": 0.00010228495221160259,
      "loss": 1.2891,
      "step": 21991
    },
    {
      "epoch": 0.4887111111111111,
      "grad_norm": 1.6177217960357666,
      "learning_rate": 0.00010228050677928428,
      "loss": 1.5072,
      "step": 21992
    },
    {
      "epoch": 0.48873333333333335,
      "grad_norm": 1.8974989652633667,
      "learning_rate": 0.000102276061346966,
      "loss": 1.8209,
      "step": 21993
    },
    {
      "epoch": 0.48875555555555555,
      "grad_norm": 1.6849972009658813,
      "learning_rate": 0.00010227161591464772,
      "loss": 1.8015,
      "step": 21994
    },
    {
      "epoch": 0.48877777777777776,
      "grad_norm": 1.7402952909469604,
      "learning_rate": 0.00010226717048232941,
      "loss": 1.6973,
      "step": 21995
    },
    {
      "epoch": 0.4888,
      "grad_norm": 1.9053924083709717,
      "learning_rate": 0.00010226272505001111,
      "loss": 1.3777,
      "step": 21996
    },
    {
      "epoch": 0.4888222222222222,
      "grad_norm": 1.5287086963653564,
      "learning_rate": 0.00010225827961769283,
      "loss": 1.6548,
      "step": 21997
    },
    {
      "epoch": 0.48884444444444447,
      "grad_norm": 1.5409984588623047,
      "learning_rate": 0.00010225383418537453,
      "loss": 1.2104,
      "step": 21998
    },
    {
      "epoch": 0.48886666666666667,
      "grad_norm": 1.890667200088501,
      "learning_rate": 0.00010224938875305623,
      "loss": 1.8676,
      "step": 21999
    },
    {
      "epoch": 0.4888888888888889,
      "grad_norm": 1.6700752973556519,
      "learning_rate": 0.00010224494332073795,
      "loss": 1.7335,
      "step": 22000
    },
    {
      "epoch": 0.48891111111111113,
      "grad_norm": 1.4180132150650024,
      "learning_rate": 0.00010224049788841964,
      "loss": 2.1514,
      "step": 22001
    },
    {
      "epoch": 0.48893333333333333,
      "grad_norm": 1.4134048223495483,
      "learning_rate": 0.00010223605245610135,
      "loss": 2.4878,
      "step": 22002
    },
    {
      "epoch": 0.48895555555555553,
      "grad_norm": 1.3555904626846313,
      "learning_rate": 0.00010223160702378308,
      "loss": 2.5158,
      "step": 22003
    },
    {
      "epoch": 0.4889777777777778,
      "grad_norm": 1.3570787906646729,
      "learning_rate": 0.00010222716159146477,
      "loss": 2.3418,
      "step": 22004
    },
    {
      "epoch": 0.489,
      "grad_norm": 1.499883770942688,
      "learning_rate": 0.0001022227161591465,
      "loss": 2.1373,
      "step": 22005
    },
    {
      "epoch": 0.48902222222222225,
      "grad_norm": 1.467976689338684,
      "learning_rate": 0.00010221827072682819,
      "loss": 2.2679,
      "step": 22006
    },
    {
      "epoch": 0.48904444444444445,
      "grad_norm": 1.4736186265945435,
      "learning_rate": 0.00010221382529450989,
      "loss": 2.1658,
      "step": 22007
    },
    {
      "epoch": 0.48906666666666665,
      "grad_norm": 1.6432464122772217,
      "learning_rate": 0.00010220937986219161,
      "loss": 2.5252,
      "step": 22008
    },
    {
      "epoch": 0.4890888888888889,
      "grad_norm": 1.5564475059509277,
      "learning_rate": 0.00010220493442987331,
      "loss": 2.5128,
      "step": 22009
    },
    {
      "epoch": 0.4891111111111111,
      "grad_norm": 1.3579262495040894,
      "learning_rate": 0.00010220048899755502,
      "loss": 2.3144,
      "step": 22010
    },
    {
      "epoch": 0.4891333333333333,
      "grad_norm": 1.3778259754180908,
      "learning_rate": 0.00010219604356523673,
      "loss": 2.3401,
      "step": 22011
    },
    {
      "epoch": 0.48915555555555557,
      "grad_norm": 1.631296157836914,
      "learning_rate": 0.00010219159813291844,
      "loss": 2.1529,
      "step": 22012
    },
    {
      "epoch": 0.48917777777777777,
      "grad_norm": 1.3658926486968994,
      "learning_rate": 0.00010218715270060013,
      "loss": 1.8939,
      "step": 22013
    },
    {
      "epoch": 0.4892,
      "grad_norm": 1.6669870615005493,
      "learning_rate": 0.00010218270726828186,
      "loss": 2.328,
      "step": 22014
    },
    {
      "epoch": 0.4892222222222222,
      "grad_norm": 1.3608533143997192,
      "learning_rate": 0.00010217826183596355,
      "loss": 2.1489,
      "step": 22015
    },
    {
      "epoch": 0.4892444444444444,
      "grad_norm": 1.516634464263916,
      "learning_rate": 0.00010217381640364525,
      "loss": 2.0708,
      "step": 22016
    },
    {
      "epoch": 0.4892666666666667,
      "grad_norm": 1.500492811203003,
      "learning_rate": 0.00010216937097132697,
      "loss": 1.8772,
      "step": 22017
    },
    {
      "epoch": 0.4892888888888889,
      "grad_norm": 1.5512452125549316,
      "learning_rate": 0.00010216492553900867,
      "loss": 1.8038,
      "step": 22018
    },
    {
      "epoch": 0.4893111111111111,
      "grad_norm": 0.3568997383117676,
      "learning_rate": 0.00010216048010669038,
      "loss": 0.0268,
      "step": 22019
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 1.6090924739837646,
      "learning_rate": 0.00010215603467437209,
      "loss": 2.1901,
      "step": 22020
    },
    {
      "epoch": 0.48935555555555554,
      "grad_norm": 1.4877055883407593,
      "learning_rate": 0.0001021515892420538,
      "loss": 1.6722,
      "step": 22021
    },
    {
      "epoch": 0.4893777777777778,
      "grad_norm": 1.5674653053283691,
      "learning_rate": 0.00010214714380973552,
      "loss": 1.6146,
      "step": 22022
    },
    {
      "epoch": 0.4894,
      "grad_norm": 1.3657667636871338,
      "learning_rate": 0.00010214269837741722,
      "loss": 1.5663,
      "step": 22023
    },
    {
      "epoch": 0.4894222222222222,
      "grad_norm": 1.4055002927780151,
      "learning_rate": 0.00010213825294509891,
      "loss": 1.8175,
      "step": 22024
    },
    {
      "epoch": 0.48944444444444446,
      "grad_norm": 1.5688540935516357,
      "learning_rate": 0.00010213380751278063,
      "loss": 2.1415,
      "step": 22025
    },
    {
      "epoch": 0.48946666666666666,
      "grad_norm": 1.5085877180099487,
      "learning_rate": 0.00010212936208046233,
      "loss": 2.0492,
      "step": 22026
    },
    {
      "epoch": 0.48948888888888886,
      "grad_norm": 1.4557387828826904,
      "learning_rate": 0.00010212491664814403,
      "loss": 1.9462,
      "step": 22027
    },
    {
      "epoch": 0.4895111111111111,
      "grad_norm": 1.0007559061050415,
      "learning_rate": 0.00010212047121582575,
      "loss": 0.8542,
      "step": 22028
    },
    {
      "epoch": 0.4895333333333333,
      "grad_norm": 1.6650868654251099,
      "learning_rate": 0.00010211602578350745,
      "loss": 1.8601,
      "step": 22029
    },
    {
      "epoch": 0.4895555555555556,
      "grad_norm": 1.6635205745697021,
      "learning_rate": 0.00010211158035118916,
      "loss": 1.7442,
      "step": 22030
    },
    {
      "epoch": 0.4895777777777778,
      "grad_norm": 1.496084213256836,
      "learning_rate": 0.00010210713491887088,
      "loss": 1.936,
      "step": 22031
    },
    {
      "epoch": 0.4896,
      "grad_norm": 2.152254819869995,
      "learning_rate": 0.00010210268948655257,
      "loss": 1.889,
      "step": 22032
    },
    {
      "epoch": 0.48962222222222224,
      "grad_norm": 0.9904735088348389,
      "learning_rate": 0.00010209824405423427,
      "loss": 1.0071,
      "step": 22033
    },
    {
      "epoch": 0.48964444444444444,
      "grad_norm": 1.7339905500411987,
      "learning_rate": 0.000102093798621916,
      "loss": 1.8421,
      "step": 22034
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 1.749626636505127,
      "learning_rate": 0.00010208935318959769,
      "loss": 1.906,
      "step": 22035
    },
    {
      "epoch": 0.4896888888888889,
      "grad_norm": 1.6229132413864136,
      "learning_rate": 0.00010208490775727939,
      "loss": 1.5546,
      "step": 22036
    },
    {
      "epoch": 0.4897111111111111,
      "grad_norm": 1.640702724456787,
      "learning_rate": 0.00010208046232496111,
      "loss": 2.18,
      "step": 22037
    },
    {
      "epoch": 0.48973333333333335,
      "grad_norm": 1.6530647277832031,
      "learning_rate": 0.0001020760168926428,
      "loss": 1.6316,
      "step": 22038
    },
    {
      "epoch": 0.48975555555555556,
      "grad_norm": 1.5628737211227417,
      "learning_rate": 0.00010207157146032451,
      "loss": 1.6249,
      "step": 22039
    },
    {
      "epoch": 0.48977777777777776,
      "grad_norm": 2.05918550491333,
      "learning_rate": 0.00010206712602800624,
      "loss": 2.0968,
      "step": 22040
    },
    {
      "epoch": 0.4898,
      "grad_norm": 1.5422465801239014,
      "learning_rate": 0.00010206268059568793,
      "loss": 1.7052,
      "step": 22041
    },
    {
      "epoch": 0.4898222222222222,
      "grad_norm": 1.6003620624542236,
      "learning_rate": 0.00010205823516336966,
      "loss": 1.4959,
      "step": 22042
    },
    {
      "epoch": 0.48984444444444447,
      "grad_norm": 1.8164652585983276,
      "learning_rate": 0.00010205378973105135,
      "loss": 1.5074,
      "step": 22043
    },
    {
      "epoch": 0.4898666666666667,
      "grad_norm": 1.885256290435791,
      "learning_rate": 0.00010204934429873305,
      "loss": 2.1928,
      "step": 22044
    },
    {
      "epoch": 0.4898888888888889,
      "grad_norm": 1.8018349409103394,
      "learning_rate": 0.00010204489886641477,
      "loss": 1.6179,
      "step": 22045
    },
    {
      "epoch": 0.48991111111111113,
      "grad_norm": 1.7605406045913696,
      "learning_rate": 0.00010204045343409647,
      "loss": 1.7628,
      "step": 22046
    },
    {
      "epoch": 0.48993333333333333,
      "grad_norm": 1.8966143131256104,
      "learning_rate": 0.00010203600800177818,
      "loss": 1.6968,
      "step": 22047
    },
    {
      "epoch": 0.48995555555555553,
      "grad_norm": 3.3582005500793457,
      "learning_rate": 0.00010203156256945989,
      "loss": 2.0916,
      "step": 22048
    },
    {
      "epoch": 0.4899777777777778,
      "grad_norm": 1.469890832901001,
      "learning_rate": 0.0001020271171371416,
      "loss": 1.3672,
      "step": 22049
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8527296781539917,
      "learning_rate": 0.0001020226717048233,
      "loss": 2.0619,
      "step": 22050
    },
    {
      "epoch": 0.49002222222222225,
      "grad_norm": 1.6589345932006836,
      "learning_rate": 0.00010201822627250502,
      "loss": 2.4301,
      "step": 22051
    },
    {
      "epoch": 0.49004444444444445,
      "grad_norm": 1.6738375425338745,
      "learning_rate": 0.00010201378084018671,
      "loss": 2.5072,
      "step": 22052
    },
    {
      "epoch": 0.49006666666666665,
      "grad_norm": 1.3483299016952515,
      "learning_rate": 0.00010200933540786841,
      "loss": 1.8204,
      "step": 22053
    },
    {
      "epoch": 0.4900888888888889,
      "grad_norm": 1.7509169578552246,
      "learning_rate": 0.00010200488997555013,
      "loss": 2.2297,
      "step": 22054
    },
    {
      "epoch": 0.4901111111111111,
      "grad_norm": 1.3304897546768188,
      "learning_rate": 0.00010200044454323183,
      "loss": 2.008,
      "step": 22055
    },
    {
      "epoch": 0.4901333333333333,
      "grad_norm": 1.6053251028060913,
      "learning_rate": 0.00010199599911091354,
      "loss": 2.0019,
      "step": 22056
    },
    {
      "epoch": 0.49015555555555557,
      "grad_norm": 1.5894216299057007,
      "learning_rate": 0.00010199155367859525,
      "loss": 1.6418,
      "step": 22057
    },
    {
      "epoch": 0.49017777777777777,
      "grad_norm": 1.4014054536819458,
      "learning_rate": 0.00010198710824627696,
      "loss": 2.105,
      "step": 22058
    },
    {
      "epoch": 0.4902,
      "grad_norm": 1.7507100105285645,
      "learning_rate": 0.00010198266281395865,
      "loss": 2.3717,
      "step": 22059
    },
    {
      "epoch": 0.4902222222222222,
      "grad_norm": 1.500470757484436,
      "learning_rate": 0.00010197821738164038,
      "loss": 1.9013,
      "step": 22060
    },
    {
      "epoch": 0.4902444444444444,
      "grad_norm": 1.7203282117843628,
      "learning_rate": 0.00010197377194932207,
      "loss": 2.2347,
      "step": 22061
    },
    {
      "epoch": 0.4902666666666667,
      "grad_norm": 1.654410481452942,
      "learning_rate": 0.0001019693265170038,
      "loss": 2.1421,
      "step": 22062
    },
    {
      "epoch": 0.4902888888888889,
      "grad_norm": 1.4872688055038452,
      "learning_rate": 0.00010196488108468549,
      "loss": 1.9295,
      "step": 22063
    },
    {
      "epoch": 0.4903111111111111,
      "grad_norm": 1.3037304878234863,
      "learning_rate": 0.00010196043565236719,
      "loss": 1.8264,
      "step": 22064
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 1.4014476537704468,
      "learning_rate": 0.00010195599022004891,
      "loss": 1.0242,
      "step": 22065
    },
    {
      "epoch": 0.49035555555555554,
      "grad_norm": 1.791886329650879,
      "learning_rate": 0.00010195154478773061,
      "loss": 2.3212,
      "step": 22066
    },
    {
      "epoch": 0.4903777777777778,
      "grad_norm": 1.6255890130996704,
      "learning_rate": 0.00010194709935541232,
      "loss": 1.8974,
      "step": 22067
    },
    {
      "epoch": 0.4904,
      "grad_norm": 1.581866979598999,
      "learning_rate": 0.00010194265392309404,
      "loss": 2.0231,
      "step": 22068
    },
    {
      "epoch": 0.4904222222222222,
      "grad_norm": 1.408191204071045,
      "learning_rate": 0.00010193820849077574,
      "loss": 2.1889,
      "step": 22069
    },
    {
      "epoch": 0.49044444444444446,
      "grad_norm": 1.5879533290863037,
      "learning_rate": 0.00010193376305845743,
      "loss": 2.0405,
      "step": 22070
    },
    {
      "epoch": 0.49046666666666666,
      "grad_norm": 1.4934017658233643,
      "learning_rate": 0.00010192931762613916,
      "loss": 2.0252,
      "step": 22071
    },
    {
      "epoch": 0.49048888888888886,
      "grad_norm": 1.6460233926773071,
      "learning_rate": 0.00010192487219382085,
      "loss": 1.9569,
      "step": 22072
    },
    {
      "epoch": 0.4905111111111111,
      "grad_norm": 1.8512392044067383,
      "learning_rate": 0.00010192042676150255,
      "loss": 2.5104,
      "step": 22073
    },
    {
      "epoch": 0.4905333333333333,
      "grad_norm": 1.5343419313430786,
      "learning_rate": 0.00010191598132918427,
      "loss": 1.9931,
      "step": 22074
    },
    {
      "epoch": 0.4905555555555556,
      "grad_norm": 1.9885573387145996,
      "learning_rate": 0.00010191153589686597,
      "loss": 2.4306,
      "step": 22075
    },
    {
      "epoch": 0.4905777777777778,
      "grad_norm": 1.7754861116409302,
      "learning_rate": 0.00010190709046454768,
      "loss": 2.1666,
      "step": 22076
    },
    {
      "epoch": 0.4906,
      "grad_norm": 1.5750455856323242,
      "learning_rate": 0.0001019026450322294,
      "loss": 1.9068,
      "step": 22077
    },
    {
      "epoch": 0.49062222222222224,
      "grad_norm": 1.7181429862976074,
      "learning_rate": 0.0001018981995999111,
      "loss": 2.2304,
      "step": 22078
    },
    {
      "epoch": 0.49064444444444444,
      "grad_norm": 1.737586498260498,
      "learning_rate": 0.00010189375416759282,
      "loss": 1.5644,
      "step": 22079
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 1.5382065773010254,
      "learning_rate": 0.00010188930873527451,
      "loss": 1.4622,
      "step": 22080
    },
    {
      "epoch": 0.4906888888888889,
      "grad_norm": 1.4402002096176147,
      "learning_rate": 0.00010188486330295621,
      "loss": 1.6752,
      "step": 22081
    },
    {
      "epoch": 0.4907111111111111,
      "grad_norm": 1.7254022359848022,
      "learning_rate": 0.00010188041787063793,
      "loss": 1.9533,
      "step": 22082
    },
    {
      "epoch": 0.49073333333333335,
      "grad_norm": 1.984919548034668,
      "learning_rate": 0.00010187597243831963,
      "loss": 1.7228,
      "step": 22083
    },
    {
      "epoch": 0.49075555555555556,
      "grad_norm": 1.9727073907852173,
      "learning_rate": 0.00010187152700600134,
      "loss": 1.8511,
      "step": 22084
    },
    {
      "epoch": 0.49077777777777776,
      "grad_norm": 1.3244516849517822,
      "learning_rate": 0.00010186708157368305,
      "loss": 1.0269,
      "step": 22085
    },
    {
      "epoch": 0.4908,
      "grad_norm": 1.9593229293823242,
      "learning_rate": 0.00010186263614136476,
      "loss": 2.1224,
      "step": 22086
    },
    {
      "epoch": 0.4908222222222222,
      "grad_norm": 1.4907819032669067,
      "learning_rate": 0.00010185819070904645,
      "loss": 1.6826,
      "step": 22087
    },
    {
      "epoch": 0.49084444444444447,
      "grad_norm": 1.37074613571167,
      "learning_rate": 0.00010185374527672818,
      "loss": 1.3659,
      "step": 22088
    },
    {
      "epoch": 0.4908666666666667,
      "grad_norm": 1.137139916419983,
      "learning_rate": 0.00010184929984440987,
      "loss": 0.9541,
      "step": 22089
    },
    {
      "epoch": 0.4908888888888889,
      "grad_norm": 2.235966920852661,
      "learning_rate": 0.00010184485441209157,
      "loss": 2.0039,
      "step": 22090
    },
    {
      "epoch": 0.49091111111111113,
      "grad_norm": 1.2917346954345703,
      "learning_rate": 0.00010184040897977329,
      "loss": 1.4583,
      "step": 22091
    },
    {
      "epoch": 0.49093333333333333,
      "grad_norm": 1.8547556400299072,
      "learning_rate": 0.00010183596354745499,
      "loss": 2.1056,
      "step": 22092
    },
    {
      "epoch": 0.49095555555555553,
      "grad_norm": 2.0967748165130615,
      "learning_rate": 0.0001018315181151367,
      "loss": 2.0025,
      "step": 22093
    },
    {
      "epoch": 0.4909777777777778,
      "grad_norm": 1.757964849472046,
      "learning_rate": 0.00010182707268281841,
      "loss": 1.8523,
      "step": 22094
    },
    {
      "epoch": 0.491,
      "grad_norm": 1.6122117042541504,
      "learning_rate": 0.00010182262725050012,
      "loss": 1.6205,
      "step": 22095
    },
    {
      "epoch": 0.49102222222222225,
      "grad_norm": 1.7967321872711182,
      "learning_rate": 0.00010181818181818181,
      "loss": 1.719,
      "step": 22096
    },
    {
      "epoch": 0.49104444444444445,
      "grad_norm": 1.366868257522583,
      "learning_rate": 0.00010181373638586354,
      "loss": 1.5799,
      "step": 22097
    },
    {
      "epoch": 0.49106666666666665,
      "grad_norm": 1.889630913734436,
      "learning_rate": 0.00010180929095354523,
      "loss": 1.9415,
      "step": 22098
    },
    {
      "epoch": 0.4910888888888889,
      "grad_norm": 1.8410744667053223,
      "learning_rate": 0.00010180484552122696,
      "loss": 1.8464,
      "step": 22099
    },
    {
      "epoch": 0.4911111111111111,
      "grad_norm": 2.222672700881958,
      "learning_rate": 0.00010180040008890865,
      "loss": 2.4816,
      "step": 22100
    },
    {
      "epoch": 0.4911333333333333,
      "grad_norm": 1.4179428815841675,
      "learning_rate": 0.00010179595465659035,
      "loss": 2.4255,
      "step": 22101
    },
    {
      "epoch": 0.49115555555555557,
      "grad_norm": 1.418876051902771,
      "learning_rate": 0.00010179150922427207,
      "loss": 2.0799,
      "step": 22102
    },
    {
      "epoch": 0.49117777777777777,
      "grad_norm": 1.5881184339523315,
      "learning_rate": 0.00010178706379195377,
      "loss": 2.2542,
      "step": 22103
    },
    {
      "epoch": 0.4912,
      "grad_norm": 1.393371820449829,
      "learning_rate": 0.00010178261835963548,
      "loss": 1.6141,
      "step": 22104
    },
    {
      "epoch": 0.4912222222222222,
      "grad_norm": 1.6042265892028809,
      "learning_rate": 0.0001017781729273172,
      "loss": 2.5437,
      "step": 22105
    },
    {
      "epoch": 0.49124444444444443,
      "grad_norm": 1.4115456342697144,
      "learning_rate": 0.0001017737274949989,
      "loss": 1.7024,
      "step": 22106
    },
    {
      "epoch": 0.4912666666666667,
      "grad_norm": 1.3589187860488892,
      "learning_rate": 0.00010176928206268059,
      "loss": 2.4098,
      "step": 22107
    },
    {
      "epoch": 0.4912888888888889,
      "grad_norm": 1.6258702278137207,
      "learning_rate": 0.00010176483663036232,
      "loss": 2.3488,
      "step": 22108
    },
    {
      "epoch": 0.4913111111111111,
      "grad_norm": 1.4214376211166382,
      "learning_rate": 0.00010176039119804401,
      "loss": 1.6282,
      "step": 22109
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 1.5216976404190063,
      "learning_rate": 0.00010175594576572571,
      "loss": 2.3623,
      "step": 22110
    },
    {
      "epoch": 0.49135555555555555,
      "grad_norm": 1.3966498374938965,
      "learning_rate": 0.00010175150033340743,
      "loss": 2.2529,
      "step": 22111
    },
    {
      "epoch": 0.4913777777777778,
      "grad_norm": 2.603492259979248,
      "learning_rate": 0.00010174705490108913,
      "loss": 2.038,
      "step": 22112
    },
    {
      "epoch": 0.4914,
      "grad_norm": 1.4956445693969727,
      "learning_rate": 0.00010174260946877084,
      "loss": 2.0028,
      "step": 22113
    },
    {
      "epoch": 0.4914222222222222,
      "grad_norm": 2.2360198497772217,
      "learning_rate": 0.00010173816403645256,
      "loss": 2.7774,
      "step": 22114
    },
    {
      "epoch": 0.49144444444444446,
      "grad_norm": 1.4260839223861694,
      "learning_rate": 0.00010173371860413426,
      "loss": 1.8186,
      "step": 22115
    },
    {
      "epoch": 0.49146666666666666,
      "grad_norm": 1.6441622972488403,
      "learning_rate": 0.00010172927317181595,
      "loss": 2.3425,
      "step": 22116
    },
    {
      "epoch": 0.49148888888888886,
      "grad_norm": 1.4773112535476685,
      "learning_rate": 0.00010172482773949768,
      "loss": 1.7886,
      "step": 22117
    },
    {
      "epoch": 0.4915111111111111,
      "grad_norm": 1.3365325927734375,
      "learning_rate": 0.00010172038230717937,
      "loss": 1.5837,
      "step": 22118
    },
    {
      "epoch": 0.4915333333333333,
      "grad_norm": 1.6290316581726074,
      "learning_rate": 0.0001017159368748611,
      "loss": 2.2268,
      "step": 22119
    },
    {
      "epoch": 0.4915555555555556,
      "grad_norm": 1.6198413372039795,
      "learning_rate": 0.00010171149144254279,
      "loss": 1.9832,
      "step": 22120
    },
    {
      "epoch": 0.4915777777777778,
      "grad_norm": 1.5496537685394287,
      "learning_rate": 0.0001017070460102245,
      "loss": 1.8318,
      "step": 22121
    },
    {
      "epoch": 0.4916,
      "grad_norm": 1.8856953382492065,
      "learning_rate": 0.00010170260057790621,
      "loss": 2.3778,
      "step": 22122
    },
    {
      "epoch": 0.49162222222222224,
      "grad_norm": 1.8518874645233154,
      "learning_rate": 0.00010169815514558792,
      "loss": 2.0246,
      "step": 22123
    },
    {
      "epoch": 0.49164444444444444,
      "grad_norm": 0.9685013890266418,
      "learning_rate": 0.00010169370971326962,
      "loss": 0.9865,
      "step": 22124
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 1.572994351387024,
      "learning_rate": 0.00010168926428095134,
      "loss": 1.3877,
      "step": 22125
    },
    {
      "epoch": 0.4916888888888889,
      "grad_norm": 1.62125825881958,
      "learning_rate": 0.00010168481884863303,
      "loss": 1.6933,
      "step": 22126
    },
    {
      "epoch": 0.4917111111111111,
      "grad_norm": 1.706132411956787,
      "learning_rate": 0.00010168037341631473,
      "loss": 1.9272,
      "step": 22127
    },
    {
      "epoch": 0.49173333333333336,
      "grad_norm": 2.3104186058044434,
      "learning_rate": 0.00010167592798399645,
      "loss": 2.461,
      "step": 22128
    },
    {
      "epoch": 0.49175555555555556,
      "grad_norm": 1.7970223426818848,
      "learning_rate": 0.00010167148255167815,
      "loss": 1.8965,
      "step": 22129
    },
    {
      "epoch": 0.49177777777777776,
      "grad_norm": 1.6508855819702148,
      "learning_rate": 0.00010166703711935986,
      "loss": 1.8517,
      "step": 22130
    },
    {
      "epoch": 0.4918,
      "grad_norm": 1.765570878982544,
      "learning_rate": 0.00010166259168704157,
      "loss": 1.8626,
      "step": 22131
    },
    {
      "epoch": 0.4918222222222222,
      "grad_norm": 1.6483670473098755,
      "learning_rate": 0.00010165814625472328,
      "loss": 1.7964,
      "step": 22132
    },
    {
      "epoch": 0.4918444444444444,
      "grad_norm": 2.0310842990875244,
      "learning_rate": 0.00010165370082240498,
      "loss": 1.7016,
      "step": 22133
    },
    {
      "epoch": 0.4918666666666667,
      "grad_norm": 1.9726433753967285,
      "learning_rate": 0.0001016492553900867,
      "loss": 2.2142,
      "step": 22134
    },
    {
      "epoch": 0.4918888888888889,
      "grad_norm": 1.902443766593933,
      "learning_rate": 0.0001016448099577684,
      "loss": 2.3334,
      "step": 22135
    },
    {
      "epoch": 0.49191111111111113,
      "grad_norm": 1.1389474868774414,
      "learning_rate": 0.00010164036452545012,
      "loss": 0.9402,
      "step": 22136
    },
    {
      "epoch": 0.49193333333333333,
      "grad_norm": 1.9109951257705688,
      "learning_rate": 0.00010163591909313181,
      "loss": 1.9333,
      "step": 22137
    },
    {
      "epoch": 0.49195555555555553,
      "grad_norm": 1.6100878715515137,
      "learning_rate": 0.00010163147366081351,
      "loss": 1.6581,
      "step": 22138
    },
    {
      "epoch": 0.4919777777777778,
      "grad_norm": 1.6849077939987183,
      "learning_rate": 0.00010162702822849523,
      "loss": 1.9284,
      "step": 22139
    },
    {
      "epoch": 0.492,
      "grad_norm": 1.494001030921936,
      "learning_rate": 0.00010162258279617693,
      "loss": 1.7904,
      "step": 22140
    },
    {
      "epoch": 0.49202222222222225,
      "grad_norm": 1.878477931022644,
      "learning_rate": 0.00010161813736385864,
      "loss": 1.7254,
      "step": 22141
    },
    {
      "epoch": 0.49204444444444445,
      "grad_norm": 1.94472336769104,
      "learning_rate": 0.00010161369193154036,
      "loss": 2.2217,
      "step": 22142
    },
    {
      "epoch": 0.49206666666666665,
      "grad_norm": 1.8989431858062744,
      "learning_rate": 0.00010160924649922206,
      "loss": 1.8086,
      "step": 22143
    },
    {
      "epoch": 0.4920888888888889,
      "grad_norm": 1.4138485193252563,
      "learning_rate": 0.00010160480106690375,
      "loss": 1.5664,
      "step": 22144
    },
    {
      "epoch": 0.4921111111111111,
      "grad_norm": 1.9413135051727295,
      "learning_rate": 0.00010160035563458548,
      "loss": 2.4434,
      "step": 22145
    },
    {
      "epoch": 0.4921333333333333,
      "grad_norm": 1.1422206163406372,
      "learning_rate": 0.00010159591020226717,
      "loss": 0.9282,
      "step": 22146
    },
    {
      "epoch": 0.49215555555555557,
      "grad_norm": 1.7759404182434082,
      "learning_rate": 0.00010159146476994887,
      "loss": 1.7572,
      "step": 22147
    },
    {
      "epoch": 0.49217777777777777,
      "grad_norm": 1.5499831438064575,
      "learning_rate": 0.00010158701933763059,
      "loss": 1.9052,
      "step": 22148
    },
    {
      "epoch": 0.4922,
      "grad_norm": 2.1162099838256836,
      "learning_rate": 0.00010158257390531229,
      "loss": 2.2667,
      "step": 22149
    },
    {
      "epoch": 0.4922222222222222,
      "grad_norm": 1.0400065183639526,
      "learning_rate": 0.000101578128472994,
      "loss": 0.5143,
      "step": 22150
    },
    {
      "epoch": 0.49224444444444443,
      "grad_norm": 1.3913851976394653,
      "learning_rate": 0.00010157368304067572,
      "loss": 2.0462,
      "step": 22151
    },
    {
      "epoch": 0.4922666666666667,
      "grad_norm": 1.7244057655334473,
      "learning_rate": 0.00010156923760835742,
      "loss": 2.3749,
      "step": 22152
    },
    {
      "epoch": 0.4922888888888889,
      "grad_norm": 1.5637017488479614,
      "learning_rate": 0.00010156479217603911,
      "loss": 2.2011,
      "step": 22153
    },
    {
      "epoch": 0.4923111111111111,
      "grad_norm": 1.3835029602050781,
      "learning_rate": 0.00010156034674372084,
      "loss": 2.3321,
      "step": 22154
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 1.470259189605713,
      "learning_rate": 0.00010155590131140253,
      "loss": 2.5647,
      "step": 22155
    },
    {
      "epoch": 0.49235555555555555,
      "grad_norm": 1.2713457345962524,
      "learning_rate": 0.00010155145587908426,
      "loss": 1.9751,
      "step": 22156
    },
    {
      "epoch": 0.4923777777777778,
      "grad_norm": 1.4130607843399048,
      "learning_rate": 0.00010154701044676595,
      "loss": 1.7653,
      "step": 22157
    },
    {
      "epoch": 0.4924,
      "grad_norm": 1.5750068426132202,
      "learning_rate": 0.00010154256501444766,
      "loss": 1.9846,
      "step": 22158
    },
    {
      "epoch": 0.4924222222222222,
      "grad_norm": 1.5056631565093994,
      "learning_rate": 0.00010153811958212937,
      "loss": 2.3047,
      "step": 22159
    },
    {
      "epoch": 0.49244444444444446,
      "grad_norm": 1.6652343273162842,
      "learning_rate": 0.00010153367414981108,
      "loss": 2.0871,
      "step": 22160
    },
    {
      "epoch": 0.49246666666666666,
      "grad_norm": 1.876429796218872,
      "learning_rate": 0.00010152922871749278,
      "loss": 1.6008,
      "step": 22161
    },
    {
      "epoch": 0.49248888888888886,
      "grad_norm": 1.7684288024902344,
      "learning_rate": 0.0001015247832851745,
      "loss": 1.935,
      "step": 22162
    },
    {
      "epoch": 0.4925111111111111,
      "grad_norm": 1.4094460010528564,
      "learning_rate": 0.0001015203378528562,
      "loss": 2.2179,
      "step": 22163
    },
    {
      "epoch": 0.4925333333333333,
      "grad_norm": 1.660865306854248,
      "learning_rate": 0.00010151589242053789,
      "loss": 1.4841,
      "step": 22164
    },
    {
      "epoch": 0.4925555555555556,
      "grad_norm": 1.52886164188385,
      "learning_rate": 0.00010151144698821962,
      "loss": 1.9642,
      "step": 22165
    },
    {
      "epoch": 0.4925777777777778,
      "grad_norm": 1.5415289402008057,
      "learning_rate": 0.00010150700155590131,
      "loss": 1.9316,
      "step": 22166
    },
    {
      "epoch": 0.4926,
      "grad_norm": 1.3709639310836792,
      "learning_rate": 0.00010150255612358302,
      "loss": 1.5902,
      "step": 22167
    },
    {
      "epoch": 0.49262222222222224,
      "grad_norm": 1.63706374168396,
      "learning_rate": 0.00010149811069126473,
      "loss": 2.0886,
      "step": 22168
    },
    {
      "epoch": 0.49264444444444444,
      "grad_norm": 1.490749716758728,
      "learning_rate": 0.00010149366525894644,
      "loss": 1.9694,
      "step": 22169
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 2.328059196472168,
      "learning_rate": 0.00010148921982662814,
      "loss": 2.5546,
      "step": 22170
    },
    {
      "epoch": 0.4926888888888889,
      "grad_norm": 1.6352016925811768,
      "learning_rate": 0.00010148477439430986,
      "loss": 2.1511,
      "step": 22171
    },
    {
      "epoch": 0.4927111111111111,
      "grad_norm": 1.422159194946289,
      "learning_rate": 0.00010148032896199156,
      "loss": 1.3127,
      "step": 22172
    },
    {
      "epoch": 0.49273333333333336,
      "grad_norm": 1.8410176038742065,
      "learning_rate": 0.00010147588352967325,
      "loss": 2.0055,
      "step": 22173
    },
    {
      "epoch": 0.49275555555555556,
      "grad_norm": 1.8768837451934814,
      "learning_rate": 0.00010147143809735497,
      "loss": 1.8057,
      "step": 22174
    },
    {
      "epoch": 0.49277777777777776,
      "grad_norm": 1.7308052778244019,
      "learning_rate": 0.00010146699266503667,
      "loss": 1.9147,
      "step": 22175
    },
    {
      "epoch": 0.4928,
      "grad_norm": 1.900488257408142,
      "learning_rate": 0.0001014625472327184,
      "loss": 1.8505,
      "step": 22176
    },
    {
      "epoch": 0.4928222222222222,
      "grad_norm": 1.9462999105453491,
      "learning_rate": 0.00010145810180040009,
      "loss": 2.1388,
      "step": 22177
    },
    {
      "epoch": 0.4928444444444444,
      "grad_norm": 1.6280924081802368,
      "learning_rate": 0.0001014536563680818,
      "loss": 1.9732,
      "step": 22178
    },
    {
      "epoch": 0.4928666666666667,
      "grad_norm": 1.7850548028945923,
      "learning_rate": 0.00010144921093576352,
      "loss": 1.9732,
      "step": 22179
    },
    {
      "epoch": 0.4928888888888889,
      "grad_norm": 1.8551920652389526,
      "learning_rate": 0.00010144476550344522,
      "loss": 2.1471,
      "step": 22180
    },
    {
      "epoch": 0.49291111111111113,
      "grad_norm": 1.873560905456543,
      "learning_rate": 0.00010144032007112691,
      "loss": 2.0783,
      "step": 22181
    },
    {
      "epoch": 0.49293333333333333,
      "grad_norm": 2.1994173526763916,
      "learning_rate": 0.00010143587463880864,
      "loss": 2.2102,
      "step": 22182
    },
    {
      "epoch": 0.49295555555555554,
      "grad_norm": 1.382476806640625,
      "learning_rate": 0.00010143142920649033,
      "loss": 1.2255,
      "step": 22183
    },
    {
      "epoch": 0.4929777777777778,
      "grad_norm": 1.6307216882705688,
      "learning_rate": 0.00010142698377417203,
      "loss": 1.3449,
      "step": 22184
    },
    {
      "epoch": 0.493,
      "grad_norm": 1.5388402938842773,
      "learning_rate": 0.00010142253834185375,
      "loss": 1.6917,
      "step": 22185
    },
    {
      "epoch": 0.4930222222222222,
      "grad_norm": 1.5451350212097168,
      "learning_rate": 0.00010141809290953545,
      "loss": 1.7897,
      "step": 22186
    },
    {
      "epoch": 0.49304444444444445,
      "grad_norm": 2.073357343673706,
      "learning_rate": 0.00010141364747721716,
      "loss": 1.8252,
      "step": 22187
    },
    {
      "epoch": 0.49306666666666665,
      "grad_norm": 1.470654010772705,
      "learning_rate": 0.00010140920204489888,
      "loss": 1.8259,
      "step": 22188
    },
    {
      "epoch": 0.4930888888888889,
      "grad_norm": 1.7254937887191772,
      "learning_rate": 0.00010140475661258058,
      "loss": 1.8995,
      "step": 22189
    },
    {
      "epoch": 0.4931111111111111,
      "grad_norm": 1.6733630895614624,
      "learning_rate": 0.00010140031118026227,
      "loss": 1.8944,
      "step": 22190
    },
    {
      "epoch": 0.4931333333333333,
      "grad_norm": 1.806959629058838,
      "learning_rate": 0.000101395865747944,
      "loss": 1.7607,
      "step": 22191
    },
    {
      "epoch": 0.49315555555555557,
      "grad_norm": 1.7869110107421875,
      "learning_rate": 0.0001013914203156257,
      "loss": 2.083,
      "step": 22192
    },
    {
      "epoch": 0.49317777777777777,
      "grad_norm": 1.754690408706665,
      "learning_rate": 0.00010138697488330742,
      "loss": 2.0731,
      "step": 22193
    },
    {
      "epoch": 0.4932,
      "grad_norm": 1.7571073770523071,
      "learning_rate": 0.00010138252945098911,
      "loss": 1.872,
      "step": 22194
    },
    {
      "epoch": 0.49322222222222223,
      "grad_norm": 1.7474033832550049,
      "learning_rate": 0.00010137808401867082,
      "loss": 1.8535,
      "step": 22195
    },
    {
      "epoch": 0.49324444444444443,
      "grad_norm": 1.844192624092102,
      "learning_rate": 0.00010137363858635253,
      "loss": 2.0074,
      "step": 22196
    },
    {
      "epoch": 0.4932666666666667,
      "grad_norm": 2.2052786350250244,
      "learning_rate": 0.00010136919315403424,
      "loss": 2.1219,
      "step": 22197
    },
    {
      "epoch": 0.4932888888888889,
      "grad_norm": 2.4799413681030273,
      "learning_rate": 0.00010136474772171594,
      "loss": 1.8432,
      "step": 22198
    },
    {
      "epoch": 0.4933111111111111,
      "grad_norm": 5.681332588195801,
      "learning_rate": 0.00010136030228939766,
      "loss": 1.5972,
      "step": 22199
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 2.200096607208252,
      "learning_rate": 0.00010135585685707936,
      "loss": 1.3086,
      "step": 22200
    },
    {
      "epoch": 0.49335555555555555,
      "grad_norm": 1.393145203590393,
      "learning_rate": 0.00010135141142476105,
      "loss": 2.4036,
      "step": 22201
    },
    {
      "epoch": 0.4933777777777778,
      "grad_norm": 1.074755311012268,
      "learning_rate": 0.00010134696599244278,
      "loss": 1.1689,
      "step": 22202
    },
    {
      "epoch": 0.4934,
      "grad_norm": 2.646784782409668,
      "learning_rate": 0.00010134252056012447,
      "loss": 2.1388,
      "step": 22203
    },
    {
      "epoch": 0.4934222222222222,
      "grad_norm": 1.499362826347351,
      "learning_rate": 0.00010133807512780618,
      "loss": 1.675,
      "step": 22204
    },
    {
      "epoch": 0.49344444444444446,
      "grad_norm": 1.5389931201934814,
      "learning_rate": 0.00010133362969548789,
      "loss": 2.5334,
      "step": 22205
    },
    {
      "epoch": 0.49346666666666666,
      "grad_norm": 1.9541356563568115,
      "learning_rate": 0.0001013291842631696,
      "loss": 2.1076,
      "step": 22206
    },
    {
      "epoch": 0.49348888888888887,
      "grad_norm": 1.5551931858062744,
      "learning_rate": 0.0001013247388308513,
      "loss": 2.136,
      "step": 22207
    },
    {
      "epoch": 0.4935111111111111,
      "grad_norm": 1.6452430486679077,
      "learning_rate": 0.00010132029339853302,
      "loss": 2.4137,
      "step": 22208
    },
    {
      "epoch": 0.4935333333333333,
      "grad_norm": 1.35014808177948,
      "learning_rate": 0.00010131584796621472,
      "loss": 1.8612,
      "step": 22209
    },
    {
      "epoch": 0.4935555555555556,
      "grad_norm": 1.6144802570343018,
      "learning_rate": 0.00010131140253389641,
      "loss": 2.3613,
      "step": 22210
    },
    {
      "epoch": 0.4935777777777778,
      "grad_norm": 1.5624526739120483,
      "learning_rate": 0.00010130695710157814,
      "loss": 1.7278,
      "step": 22211
    },
    {
      "epoch": 0.4936,
      "grad_norm": 1.6326069831848145,
      "learning_rate": 0.00010130251166925983,
      "loss": 2.1317,
      "step": 22212
    },
    {
      "epoch": 0.49362222222222224,
      "grad_norm": 1.4563264846801758,
      "learning_rate": 0.00010129806623694156,
      "loss": 2.008,
      "step": 22213
    },
    {
      "epoch": 0.49364444444444444,
      "grad_norm": 1.7852365970611572,
      "learning_rate": 0.00010129362080462325,
      "loss": 2.0262,
      "step": 22214
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 1.5914688110351562,
      "learning_rate": 0.00010128917537230496,
      "loss": 2.2895,
      "step": 22215
    },
    {
      "epoch": 0.4936888888888889,
      "grad_norm": 2.090243339538574,
      "learning_rate": 0.00010128472993998668,
      "loss": 1.8719,
      "step": 22216
    },
    {
      "epoch": 0.4937111111111111,
      "grad_norm": 1.6108251810073853,
      "learning_rate": 0.00010128028450766838,
      "loss": 2.0625,
      "step": 22217
    },
    {
      "epoch": 0.49373333333333336,
      "grad_norm": 1.226989507675171,
      "learning_rate": 0.00010127583907535008,
      "loss": 1.1694,
      "step": 22218
    },
    {
      "epoch": 0.49375555555555556,
      "grad_norm": 1.7415540218353271,
      "learning_rate": 0.0001012713936430318,
      "loss": 1.8217,
      "step": 22219
    },
    {
      "epoch": 0.49377777777777776,
      "grad_norm": 1.465761423110962,
      "learning_rate": 0.0001012669482107135,
      "loss": 1.6119,
      "step": 22220
    },
    {
      "epoch": 0.4938,
      "grad_norm": 1.8630174398422241,
      "learning_rate": 0.00010126250277839519,
      "loss": 2.0013,
      "step": 22221
    },
    {
      "epoch": 0.4938222222222222,
      "grad_norm": 1.2320164442062378,
      "learning_rate": 0.00010125805734607691,
      "loss": 1.6646,
      "step": 22222
    },
    {
      "epoch": 0.4938444444444444,
      "grad_norm": 1.6650303602218628,
      "learning_rate": 0.00010125361191375861,
      "loss": 2.1181,
      "step": 22223
    },
    {
      "epoch": 0.4938666666666667,
      "grad_norm": 1.8045616149902344,
      "learning_rate": 0.00010124916648144032,
      "loss": 2.2782,
      "step": 22224
    },
    {
      "epoch": 0.4938888888888889,
      "grad_norm": 1.5831220149993896,
      "learning_rate": 0.00010124472104912204,
      "loss": 2.0269,
      "step": 22225
    },
    {
      "epoch": 0.49391111111111113,
      "grad_norm": 1.65367591381073,
      "learning_rate": 0.00010124027561680374,
      "loss": 1.7604,
      "step": 22226
    },
    {
      "epoch": 0.49393333333333334,
      "grad_norm": 1.596621036529541,
      "learning_rate": 0.00010123583018448544,
      "loss": 1.4007,
      "step": 22227
    },
    {
      "epoch": 0.49395555555555554,
      "grad_norm": 1.6592209339141846,
      "learning_rate": 0.00010123138475216716,
      "loss": 1.9265,
      "step": 22228
    },
    {
      "epoch": 0.4939777777777778,
      "grad_norm": 1.6481329202651978,
      "learning_rate": 0.00010122693931984885,
      "loss": 1.8192,
      "step": 22229
    },
    {
      "epoch": 0.494,
      "grad_norm": 1.7300729751586914,
      "learning_rate": 0.00010122249388753055,
      "loss": 1.807,
      "step": 22230
    },
    {
      "epoch": 0.4940222222222222,
      "grad_norm": 1.6296958923339844,
      "learning_rate": 0.00010121804845521227,
      "loss": 1.9325,
      "step": 22231
    },
    {
      "epoch": 0.49404444444444445,
      "grad_norm": 1.5415269136428833,
      "learning_rate": 0.00010121360302289398,
      "loss": 2.0643,
      "step": 22232
    },
    {
      "epoch": 0.49406666666666665,
      "grad_norm": 1.661661148071289,
      "learning_rate": 0.00010120915759057569,
      "loss": 1.9782,
      "step": 22233
    },
    {
      "epoch": 0.4940888888888889,
      "grad_norm": 1.5557950735092163,
      "learning_rate": 0.0001012047121582574,
      "loss": 1.8147,
      "step": 22234
    },
    {
      "epoch": 0.4941111111111111,
      "grad_norm": 1.527093768119812,
      "learning_rate": 0.0001012002667259391,
      "loss": 1.8801,
      "step": 22235
    },
    {
      "epoch": 0.4941333333333333,
      "grad_norm": 1.6309845447540283,
      "learning_rate": 0.00010119582129362082,
      "loss": 2.1052,
      "step": 22236
    },
    {
      "epoch": 0.49415555555555557,
      "grad_norm": 1.6121612787246704,
      "learning_rate": 0.00010119137586130252,
      "loss": 1.9797,
      "step": 22237
    },
    {
      "epoch": 0.49417777777777777,
      "grad_norm": 1.563159465789795,
      "learning_rate": 0.00010118693042898421,
      "loss": 1.8517,
      "step": 22238
    },
    {
      "epoch": 0.4942,
      "grad_norm": 2.0153229236602783,
      "learning_rate": 0.00010118248499666594,
      "loss": 1.6984,
      "step": 22239
    },
    {
      "epoch": 0.49422222222222223,
      "grad_norm": 1.7185503244400024,
      "learning_rate": 0.00010117803956434763,
      "loss": 1.9175,
      "step": 22240
    },
    {
      "epoch": 0.49424444444444443,
      "grad_norm": 1.421051263809204,
      "learning_rate": 0.00010117359413202934,
      "loss": 1.7851,
      "step": 22241
    },
    {
      "epoch": 0.4942666666666667,
      "grad_norm": 1.8246183395385742,
      "learning_rate": 0.00010116914869971105,
      "loss": 2.1719,
      "step": 22242
    },
    {
      "epoch": 0.4942888888888889,
      "grad_norm": 1.8379026651382446,
      "learning_rate": 0.00010116470326739276,
      "loss": 2.2538,
      "step": 22243
    },
    {
      "epoch": 0.4943111111111111,
      "grad_norm": 1.6768219470977783,
      "learning_rate": 0.00010116025783507446,
      "loss": 1.7153,
      "step": 22244
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 1.7884979248046875,
      "learning_rate": 0.00010115581240275618,
      "loss": 1.9995,
      "step": 22245
    },
    {
      "epoch": 0.49435555555555555,
      "grad_norm": 1.6503969430923462,
      "learning_rate": 0.00010115136697043788,
      "loss": 1.9733,
      "step": 22246
    },
    {
      "epoch": 0.4943777777777778,
      "grad_norm": 1.5167666673660278,
      "learning_rate": 0.00010114692153811957,
      "loss": 1.4647,
      "step": 22247
    },
    {
      "epoch": 0.4944,
      "grad_norm": 2.265395402908325,
      "learning_rate": 0.0001011424761058013,
      "loss": 2.181,
      "step": 22248
    },
    {
      "epoch": 0.4944222222222222,
      "grad_norm": 1.7645362615585327,
      "learning_rate": 0.00010113803067348299,
      "loss": 2.1121,
      "step": 22249
    },
    {
      "epoch": 0.49444444444444446,
      "grad_norm": 2.3435652256011963,
      "learning_rate": 0.00010113358524116472,
      "loss": 2.1561,
      "step": 22250
    },
    {
      "epoch": 0.49446666666666667,
      "grad_norm": 1.2754136323928833,
      "learning_rate": 0.00010112913980884641,
      "loss": 2.0311,
      "step": 22251
    },
    {
      "epoch": 0.49448888888888887,
      "grad_norm": 1.6035629510879517,
      "learning_rate": 0.00010112469437652812,
      "loss": 2.5884,
      "step": 22252
    },
    {
      "epoch": 0.4945111111111111,
      "grad_norm": 1.618168592453003,
      "learning_rate": 0.00010112024894420984,
      "loss": 1.9203,
      "step": 22253
    },
    {
      "epoch": 0.4945333333333333,
      "grad_norm": 1.2625279426574707,
      "learning_rate": 0.00010111580351189154,
      "loss": 2.1535,
      "step": 22254
    },
    {
      "epoch": 0.4945555555555556,
      "grad_norm": 1.586732029914856,
      "learning_rate": 0.00010111135807957324,
      "loss": 2.3157,
      "step": 22255
    },
    {
      "epoch": 0.4945777777777778,
      "grad_norm": 1.428504467010498,
      "learning_rate": 0.00010110691264725496,
      "loss": 2.0342,
      "step": 22256
    },
    {
      "epoch": 0.4946,
      "grad_norm": 1.3792263269424438,
      "learning_rate": 0.00010110246721493666,
      "loss": 1.9562,
      "step": 22257
    },
    {
      "epoch": 0.49462222222222224,
      "grad_norm": 1.6750006675720215,
      "learning_rate": 0.00010109802178261835,
      "loss": 2.4135,
      "step": 22258
    },
    {
      "epoch": 0.49464444444444444,
      "grad_norm": 1.5743974447250366,
      "learning_rate": 0.00010109357635030008,
      "loss": 1.988,
      "step": 22259
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 1.6834685802459717,
      "learning_rate": 0.00010108913091798177,
      "loss": 1.6675,
      "step": 22260
    },
    {
      "epoch": 0.4946888888888889,
      "grad_norm": 1.5247539281845093,
      "learning_rate": 0.00010108468548566348,
      "loss": 1.9215,
      "step": 22261
    },
    {
      "epoch": 0.4947111111111111,
      "grad_norm": 1.392282485961914,
      "learning_rate": 0.0001010802400533452,
      "loss": 1.8623,
      "step": 22262
    },
    {
      "epoch": 0.49473333333333336,
      "grad_norm": 1.688501238822937,
      "learning_rate": 0.0001010757946210269,
      "loss": 2.1561,
      "step": 22263
    },
    {
      "epoch": 0.49475555555555556,
      "grad_norm": 1.8818777799606323,
      "learning_rate": 0.0001010713491887086,
      "loss": 2.2932,
      "step": 22264
    },
    {
      "epoch": 0.49477777777777776,
      "grad_norm": 1.4734247922897339,
      "learning_rate": 0.00010106690375639032,
      "loss": 1.8175,
      "step": 22265
    },
    {
      "epoch": 0.4948,
      "grad_norm": 1.3802911043167114,
      "learning_rate": 0.00010106245832407202,
      "loss": 1.6304,
      "step": 22266
    },
    {
      "epoch": 0.4948222222222222,
      "grad_norm": 1.5474361181259155,
      "learning_rate": 0.00010105801289175371,
      "loss": 1.9532,
      "step": 22267
    },
    {
      "epoch": 0.4948444444444444,
      "grad_norm": 1.5434476137161255,
      "learning_rate": 0.00010105356745943543,
      "loss": 1.1509,
      "step": 22268
    },
    {
      "epoch": 0.4948666666666667,
      "grad_norm": 1.8665574789047241,
      "learning_rate": 0.00010104912202711714,
      "loss": 2.0483,
      "step": 22269
    },
    {
      "epoch": 0.4948888888888889,
      "grad_norm": 1.533241868019104,
      "learning_rate": 0.00010104467659479885,
      "loss": 1.9254,
      "step": 22270
    },
    {
      "epoch": 0.49491111111111113,
      "grad_norm": 1.3881617784500122,
      "learning_rate": 0.00010104023116248056,
      "loss": 1.5015,
      "step": 22271
    },
    {
      "epoch": 0.49493333333333334,
      "grad_norm": 1.4364776611328125,
      "learning_rate": 0.00010103578573016226,
      "loss": 1.7953,
      "step": 22272
    },
    {
      "epoch": 0.49495555555555554,
      "grad_norm": 1.6634670495986938,
      "learning_rate": 0.00010103134029784398,
      "loss": 2.2146,
      "step": 22273
    },
    {
      "epoch": 0.4949777777777778,
      "grad_norm": 1.4526773691177368,
      "learning_rate": 0.00010102689486552568,
      "loss": 1.4123,
      "step": 22274
    },
    {
      "epoch": 0.495,
      "grad_norm": 1.5397794246673584,
      "learning_rate": 0.00010102244943320738,
      "loss": 1.9233,
      "step": 22275
    },
    {
      "epoch": 0.4950222222222222,
      "grad_norm": 1.458556056022644,
      "learning_rate": 0.0001010180040008891,
      "loss": 1.7953,
      "step": 22276
    },
    {
      "epoch": 0.49504444444444445,
      "grad_norm": 1.6040300130844116,
      "learning_rate": 0.0001010135585685708,
      "loss": 1.9671,
      "step": 22277
    },
    {
      "epoch": 0.49506666666666665,
      "grad_norm": 1.480039358139038,
      "learning_rate": 0.0001010091131362525,
      "loss": 1.8686,
      "step": 22278
    },
    {
      "epoch": 0.4950888888888889,
      "grad_norm": 1.7379050254821777,
      "learning_rate": 0.00010100466770393421,
      "loss": 1.605,
      "step": 22279
    },
    {
      "epoch": 0.4951111111111111,
      "grad_norm": 1.8669332265853882,
      "learning_rate": 0.00010100022227161592,
      "loss": 2.0484,
      "step": 22280
    },
    {
      "epoch": 0.4951333333333333,
      "grad_norm": 1.5875836610794067,
      "learning_rate": 0.00010099577683929762,
      "loss": 1.9584,
      "step": 22281
    },
    {
      "epoch": 0.49515555555555557,
      "grad_norm": 1.709416151046753,
      "learning_rate": 0.00010099133140697934,
      "loss": 1.6047,
      "step": 22282
    },
    {
      "epoch": 0.4951777777777778,
      "grad_norm": 1.8978830575942993,
      "learning_rate": 0.00010098688597466104,
      "loss": 1.791,
      "step": 22283
    },
    {
      "epoch": 0.4952,
      "grad_norm": 1.564857840538025,
      "learning_rate": 0.00010098244054234273,
      "loss": 1.6115,
      "step": 22284
    },
    {
      "epoch": 0.49522222222222223,
      "grad_norm": 1.8024182319641113,
      "learning_rate": 0.00010097799511002446,
      "loss": 1.4167,
      "step": 22285
    },
    {
      "epoch": 0.49524444444444443,
      "grad_norm": 2.2784435749053955,
      "learning_rate": 0.00010097354967770615,
      "loss": 1.8132,
      "step": 22286
    },
    {
      "epoch": 0.4952666666666667,
      "grad_norm": 3.5551254749298096,
      "learning_rate": 0.00010096910424538786,
      "loss": 2.2786,
      "step": 22287
    },
    {
      "epoch": 0.4952888888888889,
      "grad_norm": 1.6879905462265015,
      "learning_rate": 0.00010096465881306957,
      "loss": 1.8815,
      "step": 22288
    },
    {
      "epoch": 0.4953111111111111,
      "grad_norm": 1.708177089691162,
      "learning_rate": 0.00010096021338075128,
      "loss": 1.7979,
      "step": 22289
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 1.6724268198013306,
      "learning_rate": 0.000100955767948433,
      "loss": 1.6708,
      "step": 22290
    },
    {
      "epoch": 0.49535555555555555,
      "grad_norm": 1.8072470426559448,
      "learning_rate": 0.0001009513225161147,
      "loss": 1.9725,
      "step": 22291
    },
    {
      "epoch": 0.49537777777777775,
      "grad_norm": 1.377465844154358,
      "learning_rate": 0.0001009468770837964,
      "loss": 1.5028,
      "step": 22292
    },
    {
      "epoch": 0.4954,
      "grad_norm": 2.2009193897247314,
      "learning_rate": 0.00010094243165147812,
      "loss": 2.3212,
      "step": 22293
    },
    {
      "epoch": 0.4954222222222222,
      "grad_norm": 1.5873689651489258,
      "learning_rate": 0.00010093798621915982,
      "loss": 1.5019,
      "step": 22294
    },
    {
      "epoch": 0.49544444444444447,
      "grad_norm": 1.463138222694397,
      "learning_rate": 0.00010093354078684151,
      "loss": 1.5869,
      "step": 22295
    },
    {
      "epoch": 0.49546666666666667,
      "grad_norm": 1.505700707435608,
      "learning_rate": 0.00010092909535452324,
      "loss": 1.6219,
      "step": 22296
    },
    {
      "epoch": 0.49548888888888887,
      "grad_norm": 1.6174637079238892,
      "learning_rate": 0.00010092464992220493,
      "loss": 2.0209,
      "step": 22297
    },
    {
      "epoch": 0.4955111111111111,
      "grad_norm": 1.8112421035766602,
      "learning_rate": 0.00010092020448988664,
      "loss": 1.8411,
      "step": 22298
    },
    {
      "epoch": 0.4955333333333333,
      "grad_norm": 1.8646602630615234,
      "learning_rate": 0.00010091575905756837,
      "loss": 1.4989,
      "step": 22299
    },
    {
      "epoch": 0.4955555555555556,
      "grad_norm": 2.2553539276123047,
      "learning_rate": 0.00010091131362525006,
      "loss": 1.5692,
      "step": 22300
    },
    {
      "epoch": 0.4955777777777778,
      "grad_norm": 1.6649020910263062,
      "learning_rate": 0.00010090686819293176,
      "loss": 2.5599,
      "step": 22301
    },
    {
      "epoch": 0.4956,
      "grad_norm": 1.4131313562393188,
      "learning_rate": 0.00010090242276061348,
      "loss": 2.1259,
      "step": 22302
    },
    {
      "epoch": 0.49562222222222224,
      "grad_norm": 1.5643852949142456,
      "learning_rate": 0.00010089797732829518,
      "loss": 2.2095,
      "step": 22303
    },
    {
      "epoch": 0.49564444444444444,
      "grad_norm": 1.4519867897033691,
      "learning_rate": 0.00010089353189597687,
      "loss": 1.9259,
      "step": 22304
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 1.7510671615600586,
      "learning_rate": 0.0001008890864636586,
      "loss": 2.4664,
      "step": 22305
    },
    {
      "epoch": 0.4956888888888889,
      "grad_norm": 1.6836433410644531,
      "learning_rate": 0.0001008846410313403,
      "loss": 2.2127,
      "step": 22306
    },
    {
      "epoch": 0.4957111111111111,
      "grad_norm": 2.0328269004821777,
      "learning_rate": 0.00010088019559902202,
      "loss": 2.3193,
      "step": 22307
    },
    {
      "epoch": 0.49573333333333336,
      "grad_norm": 1.5146229267120361,
      "learning_rate": 0.00010087575016670372,
      "loss": 2.2167,
      "step": 22308
    },
    {
      "epoch": 0.49575555555555556,
      "grad_norm": 1.2363288402557373,
      "learning_rate": 0.00010087130473438542,
      "loss": 1.2287,
      "step": 22309
    },
    {
      "epoch": 0.49577777777777776,
      "grad_norm": 0.2473333775997162,
      "learning_rate": 0.00010086685930206714,
      "loss": 0.0279,
      "step": 22310
    },
    {
      "epoch": 0.4958,
      "grad_norm": 1.5432934761047363,
      "learning_rate": 0.00010086241386974884,
      "loss": 2.268,
      "step": 22311
    },
    {
      "epoch": 0.4958222222222222,
      "grad_norm": 1.541508436203003,
      "learning_rate": 0.00010085796843743054,
      "loss": 1.8401,
      "step": 22312
    },
    {
      "epoch": 0.4958444444444444,
      "grad_norm": 1.4647761583328247,
      "learning_rate": 0.00010085352300511226,
      "loss": 1.9199,
      "step": 22313
    },
    {
      "epoch": 0.4958666666666667,
      "grad_norm": 1.5343527793884277,
      "learning_rate": 0.00010084907757279396,
      "loss": 1.9202,
      "step": 22314
    },
    {
      "epoch": 0.4958888888888889,
      "grad_norm": 1.5290660858154297,
      "learning_rate": 0.00010084463214047567,
      "loss": 1.414,
      "step": 22315
    },
    {
      "epoch": 0.49591111111111114,
      "grad_norm": 1.9588202238082886,
      "learning_rate": 0.00010084018670815737,
      "loss": 1.9806,
      "step": 22316
    },
    {
      "epoch": 0.49593333333333334,
      "grad_norm": 1.7579915523529053,
      "learning_rate": 0.00010083574127583908,
      "loss": 2.366,
      "step": 22317
    },
    {
      "epoch": 0.49595555555555554,
      "grad_norm": 1.51872980594635,
      "learning_rate": 0.00010083129584352078,
      "loss": 1.6411,
      "step": 22318
    },
    {
      "epoch": 0.4959777777777778,
      "grad_norm": 1.7709522247314453,
      "learning_rate": 0.0001008268504112025,
      "loss": 2.5346,
      "step": 22319
    },
    {
      "epoch": 0.496,
      "grad_norm": 1.3111355304718018,
      "learning_rate": 0.0001008224049788842,
      "loss": 1.1552,
      "step": 22320
    },
    {
      "epoch": 0.4960222222222222,
      "grad_norm": 2.0490434169769287,
      "learning_rate": 0.0001008179595465659,
      "loss": 2.303,
      "step": 22321
    },
    {
      "epoch": 0.49604444444444445,
      "grad_norm": 1.513743281364441,
      "learning_rate": 0.00010081351411424762,
      "loss": 2.3448,
      "step": 22322
    },
    {
      "epoch": 0.49606666666666666,
      "grad_norm": 1.679444670677185,
      "learning_rate": 0.00010080906868192931,
      "loss": 1.9789,
      "step": 22323
    },
    {
      "epoch": 0.4960888888888889,
      "grad_norm": 1.8696364164352417,
      "learning_rate": 0.00010080462324961102,
      "loss": 1.9822,
      "step": 22324
    },
    {
      "epoch": 0.4961111111111111,
      "grad_norm": 1.6544638872146606,
      "learning_rate": 0.00010080017781729273,
      "loss": 1.9434,
      "step": 22325
    },
    {
      "epoch": 0.4961333333333333,
      "grad_norm": 1.7428056001663208,
      "learning_rate": 0.00010079573238497444,
      "loss": 2.2089,
      "step": 22326
    },
    {
      "epoch": 0.49615555555555557,
      "grad_norm": 1.4860607385635376,
      "learning_rate": 0.00010079128695265617,
      "loss": 1.5881,
      "step": 22327
    },
    {
      "epoch": 0.4961777777777778,
      "grad_norm": 1.5452983379364014,
      "learning_rate": 0.00010078684152033786,
      "loss": 2.0169,
      "step": 22328
    },
    {
      "epoch": 0.4962,
      "grad_norm": 1.5560619831085205,
      "learning_rate": 0.00010078239608801956,
      "loss": 2.0929,
      "step": 22329
    },
    {
      "epoch": 0.49622222222222223,
      "grad_norm": 1.5494064092636108,
      "learning_rate": 0.00010077795065570128,
      "loss": 1.8634,
      "step": 22330
    },
    {
      "epoch": 0.49624444444444443,
      "grad_norm": 1.6061666011810303,
      "learning_rate": 0.00010077350522338298,
      "loss": 1.7027,
      "step": 22331
    },
    {
      "epoch": 0.4962666666666667,
      "grad_norm": 1.7074321508407593,
      "learning_rate": 0.00010076905979106467,
      "loss": 2.193,
      "step": 22332
    },
    {
      "epoch": 0.4962888888888889,
      "grad_norm": 1.981695294380188,
      "learning_rate": 0.0001007646143587464,
      "loss": 2.4091,
      "step": 22333
    },
    {
      "epoch": 0.4963111111111111,
      "grad_norm": 1.6375690698623657,
      "learning_rate": 0.0001007601689264281,
      "loss": 1.9772,
      "step": 22334
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 1.679909110069275,
      "learning_rate": 0.0001007557234941098,
      "loss": 2.0291,
      "step": 22335
    },
    {
      "epoch": 0.49635555555555555,
      "grad_norm": 1.9126087427139282,
      "learning_rate": 0.00010075127806179153,
      "loss": 1.8346,
      "step": 22336
    },
    {
      "epoch": 0.49637777777777775,
      "grad_norm": 1.971561074256897,
      "learning_rate": 0.00010074683262947322,
      "loss": 1.8854,
      "step": 22337
    },
    {
      "epoch": 0.4964,
      "grad_norm": 1.7941408157348633,
      "learning_rate": 0.00010074238719715492,
      "loss": 2.0704,
      "step": 22338
    },
    {
      "epoch": 0.4964222222222222,
      "grad_norm": 1.906553864479065,
      "learning_rate": 0.00010073794176483664,
      "loss": 2.1632,
      "step": 22339
    },
    {
      "epoch": 0.49644444444444447,
      "grad_norm": 1.5009419918060303,
      "learning_rate": 0.00010073349633251834,
      "loss": 1.5939,
      "step": 22340
    },
    {
      "epoch": 0.49646666666666667,
      "grad_norm": 1.8810395002365112,
      "learning_rate": 0.00010072905090020003,
      "loss": 2.0523,
      "step": 22341
    },
    {
      "epoch": 0.49648888888888887,
      "grad_norm": 1.9026885032653809,
      "learning_rate": 0.00010072460546788176,
      "loss": 2.215,
      "step": 22342
    },
    {
      "epoch": 0.4965111111111111,
      "grad_norm": 1.8819652795791626,
      "learning_rate": 0.00010072016003556347,
      "loss": 1.8058,
      "step": 22343
    },
    {
      "epoch": 0.4965333333333333,
      "grad_norm": 1.6427301168441772,
      "learning_rate": 0.00010071571460324518,
      "loss": 1.8735,
      "step": 22344
    },
    {
      "epoch": 0.49655555555555553,
      "grad_norm": 2.162843704223633,
      "learning_rate": 0.00010071126917092689,
      "loss": 1.8494,
      "step": 22345
    },
    {
      "epoch": 0.4965777777777778,
      "grad_norm": 1.5536307096481323,
      "learning_rate": 0.00010070682373860858,
      "loss": 1.6736,
      "step": 22346
    },
    {
      "epoch": 0.4966,
      "grad_norm": 1.2912511825561523,
      "learning_rate": 0.0001007023783062903,
      "loss": 1.558,
      "step": 22347
    },
    {
      "epoch": 0.49662222222222224,
      "grad_norm": 1.9581164121627808,
      "learning_rate": 0.000100697932873972,
      "loss": 1.9784,
      "step": 22348
    },
    {
      "epoch": 0.49664444444444444,
      "grad_norm": 1.6560609340667725,
      "learning_rate": 0.0001006934874416537,
      "loss": 1.7135,
      "step": 22349
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 1.9733831882476807,
      "learning_rate": 0.00010068904200933542,
      "loss": 1.7602,
      "step": 22350
    },
    {
      "epoch": 0.4966888888888889,
      "grad_norm": 1.4454641342163086,
      "learning_rate": 0.00010068459657701712,
      "loss": 2.5194,
      "step": 22351
    },
    {
      "epoch": 0.4967111111111111,
      "grad_norm": 1.55625319480896,
      "learning_rate": 0.00010068015114469883,
      "loss": 2.7136,
      "step": 22352
    },
    {
      "epoch": 0.49673333333333336,
      "grad_norm": 1.3132303953170776,
      "learning_rate": 0.00010067570571238054,
      "loss": 1.9861,
      "step": 22353
    },
    {
      "epoch": 0.49675555555555556,
      "grad_norm": 1.5501666069030762,
      "learning_rate": 0.00010067126028006225,
      "loss": 2.6883,
      "step": 22354
    },
    {
      "epoch": 0.49677777777777776,
      "grad_norm": 1.5584067106246948,
      "learning_rate": 0.00010066681484774394,
      "loss": 2.4059,
      "step": 22355
    },
    {
      "epoch": 0.4968,
      "grad_norm": 1.8265492916107178,
      "learning_rate": 0.00010066236941542566,
      "loss": 1.8219,
      "step": 22356
    },
    {
      "epoch": 0.4968222222222222,
      "grad_norm": 1.615267038345337,
      "learning_rate": 0.00010065792398310736,
      "loss": 2.0139,
      "step": 22357
    },
    {
      "epoch": 0.4968444444444444,
      "grad_norm": 1.5776009559631348,
      "learning_rate": 0.00010065347855078906,
      "loss": 1.9279,
      "step": 22358
    },
    {
      "epoch": 0.4968666666666667,
      "grad_norm": 1.4205472469329834,
      "learning_rate": 0.00010064903311847078,
      "loss": 1.3483,
      "step": 22359
    },
    {
      "epoch": 0.4968888888888889,
      "grad_norm": 1.615757703781128,
      "learning_rate": 0.00010064458768615248,
      "loss": 1.8302,
      "step": 22360
    },
    {
      "epoch": 0.49691111111111114,
      "grad_norm": 1.8276245594024658,
      "learning_rate": 0.00010064014225383419,
      "loss": 2.2385,
      "step": 22361
    },
    {
      "epoch": 0.49693333333333334,
      "grad_norm": 1.722856879234314,
      "learning_rate": 0.0001006356968215159,
      "loss": 2.1142,
      "step": 22362
    },
    {
      "epoch": 0.49695555555555554,
      "grad_norm": 1.3903189897537231,
      "learning_rate": 0.0001006312513891976,
      "loss": 1.3462,
      "step": 22363
    },
    {
      "epoch": 0.4969777777777778,
      "grad_norm": 1.773843765258789,
      "learning_rate": 0.00010062680595687933,
      "loss": 2.2365,
      "step": 22364
    },
    {
      "epoch": 0.497,
      "grad_norm": 1.625554084777832,
      "learning_rate": 0.00010062236052456102,
      "loss": 2.143,
      "step": 22365
    },
    {
      "epoch": 0.4970222222222222,
      "grad_norm": 1.4984534978866577,
      "learning_rate": 0.00010061791509224272,
      "loss": 1.9825,
      "step": 22366
    },
    {
      "epoch": 0.49704444444444446,
      "grad_norm": 1.5094773769378662,
      "learning_rate": 0.00010061346965992444,
      "loss": 1.8192,
      "step": 22367
    },
    {
      "epoch": 0.49706666666666666,
      "grad_norm": 1.432692289352417,
      "learning_rate": 0.00010060902422760614,
      "loss": 2.0643,
      "step": 22368
    },
    {
      "epoch": 0.4970888888888889,
      "grad_norm": 1.8521546125411987,
      "learning_rate": 0.00010060457879528784,
      "loss": 2.2775,
      "step": 22369
    },
    {
      "epoch": 0.4971111111111111,
      "grad_norm": 1.5125550031661987,
      "learning_rate": 0.00010060013336296956,
      "loss": 1.4145,
      "step": 22370
    },
    {
      "epoch": 0.4971333333333333,
      "grad_norm": 1.7693212032318115,
      "learning_rate": 0.00010059568793065125,
      "loss": 2.0299,
      "step": 22371
    },
    {
      "epoch": 0.4971555555555556,
      "grad_norm": 1.461679458618164,
      "learning_rate": 0.00010059124249833296,
      "loss": 1.6716,
      "step": 22372
    },
    {
      "epoch": 0.4971777777777778,
      "grad_norm": 1.6691533327102661,
      "learning_rate": 0.00010058679706601469,
      "loss": 1.913,
      "step": 22373
    },
    {
      "epoch": 0.4972,
      "grad_norm": 1.7299307584762573,
      "learning_rate": 0.00010058235163369638,
      "loss": 2.0191,
      "step": 22374
    },
    {
      "epoch": 0.49722222222222223,
      "grad_norm": 1.7281941175460815,
      "learning_rate": 0.00010057790620137808,
      "loss": 2.1591,
      "step": 22375
    },
    {
      "epoch": 0.49724444444444443,
      "grad_norm": 1.6250838041305542,
      "learning_rate": 0.0001005734607690598,
      "loss": 1.5387,
      "step": 22376
    },
    {
      "epoch": 0.4972666666666667,
      "grad_norm": 1.6618831157684326,
      "learning_rate": 0.0001005690153367415,
      "loss": 2.1156,
      "step": 22377
    },
    {
      "epoch": 0.4972888888888889,
      "grad_norm": 2.3325788974761963,
      "learning_rate": 0.0001005645699044232,
      "loss": 2.244,
      "step": 22378
    },
    {
      "epoch": 0.4973111111111111,
      "grad_norm": 1.6139335632324219,
      "learning_rate": 0.00010056012447210492,
      "loss": 2.2874,
      "step": 22379
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 1.7120176553726196,
      "learning_rate": 0.00010055567903978663,
      "loss": 2.1687,
      "step": 22380
    },
    {
      "epoch": 0.49735555555555555,
      "grad_norm": 1.433788776397705,
      "learning_rate": 0.00010055123360746832,
      "loss": 1.3275,
      "step": 22381
    },
    {
      "epoch": 0.49737777777777775,
      "grad_norm": 1.7849613428115845,
      "learning_rate": 0.00010054678817515005,
      "loss": 1.9257,
      "step": 22382
    },
    {
      "epoch": 0.4974,
      "grad_norm": 1.5075302124023438,
      "learning_rate": 0.00010054234274283174,
      "loss": 1.5817,
      "step": 22383
    },
    {
      "epoch": 0.4974222222222222,
      "grad_norm": 1.5575580596923828,
      "learning_rate": 0.00010053789731051347,
      "loss": 1.5873,
      "step": 22384
    },
    {
      "epoch": 0.49744444444444447,
      "grad_norm": 1.4918111562728882,
      "learning_rate": 0.00010053345187819516,
      "loss": 1.9308,
      "step": 22385
    },
    {
      "epoch": 0.49746666666666667,
      "grad_norm": 1.9602781534194946,
      "learning_rate": 0.00010052900644587686,
      "loss": 1.5383,
      "step": 22386
    },
    {
      "epoch": 0.49748888888888887,
      "grad_norm": 1.7124236822128296,
      "learning_rate": 0.00010052456101355858,
      "loss": 2.0234,
      "step": 22387
    },
    {
      "epoch": 0.4975111111111111,
      "grad_norm": 1.667279839515686,
      "learning_rate": 0.00010052011558124028,
      "loss": 1.847,
      "step": 22388
    },
    {
      "epoch": 0.4975333333333333,
      "grad_norm": 1.615572214126587,
      "learning_rate": 0.00010051567014892199,
      "loss": 1.8399,
      "step": 22389
    },
    {
      "epoch": 0.49755555555555553,
      "grad_norm": 1.6443644762039185,
      "learning_rate": 0.0001005112247166037,
      "loss": 1.9785,
      "step": 22390
    },
    {
      "epoch": 0.4975777777777778,
      "grad_norm": 1.666674017906189,
      "learning_rate": 0.0001005067792842854,
      "loss": 1.7946,
      "step": 22391
    },
    {
      "epoch": 0.4976,
      "grad_norm": 1.8924835920333862,
      "learning_rate": 0.0001005023338519671,
      "loss": 2.11,
      "step": 22392
    },
    {
      "epoch": 0.49762222222222224,
      "grad_norm": 1.8231239318847656,
      "learning_rate": 0.00010049788841964883,
      "loss": 1.8844,
      "step": 22393
    },
    {
      "epoch": 0.49764444444444444,
      "grad_norm": 2.1446568965911865,
      "learning_rate": 0.00010049344298733052,
      "loss": 2.0515,
      "step": 22394
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 1.9775148630142212,
      "learning_rate": 0.00010048899755501222,
      "loss": 2.1386,
      "step": 22395
    },
    {
      "epoch": 0.4976888888888889,
      "grad_norm": 2.1715455055236816,
      "learning_rate": 0.00010048455212269394,
      "loss": 1.585,
      "step": 22396
    },
    {
      "epoch": 0.4977111111111111,
      "grad_norm": 1.7274702787399292,
      "learning_rate": 0.00010048010669037564,
      "loss": 1.8762,
      "step": 22397
    },
    {
      "epoch": 0.49773333333333336,
      "grad_norm": 1.9592232704162598,
      "learning_rate": 0.00010047566125805735,
      "loss": 1.812,
      "step": 22398
    },
    {
      "epoch": 0.49775555555555556,
      "grad_norm": 1.405036449432373,
      "learning_rate": 0.00010047121582573906,
      "loss": 1.2318,
      "step": 22399
    },
    {
      "epoch": 0.49777777777777776,
      "grad_norm": 1.5481539964675903,
      "learning_rate": 0.00010046677039342077,
      "loss": 1.0717,
      "step": 22400
    },
    {
      "epoch": 0.4978,
      "grad_norm": 1.430043339729309,
      "learning_rate": 0.00010046232496110249,
      "loss": 1.1064,
      "step": 22401
    },
    {
      "epoch": 0.4978222222222222,
      "grad_norm": 1.6171188354492188,
      "learning_rate": 0.00010045787952878419,
      "loss": 2.4906,
      "step": 22402
    },
    {
      "epoch": 0.4978444444444444,
      "grad_norm": 1.4664658308029175,
      "learning_rate": 0.00010045343409646588,
      "loss": 2.9919,
      "step": 22403
    },
    {
      "epoch": 0.4978666666666667,
      "grad_norm": 1.9468516111373901,
      "learning_rate": 0.0001004489886641476,
      "loss": 0.0606,
      "step": 22404
    },
    {
      "epoch": 0.4978888888888889,
      "grad_norm": 1.5833829641342163,
      "learning_rate": 0.0001004445432318293,
      "loss": 2.047,
      "step": 22405
    },
    {
      "epoch": 0.49791111111111114,
      "grad_norm": 1.6903294324874878,
      "learning_rate": 0.000100440097799511,
      "loss": 1.8779,
      "step": 22406
    },
    {
      "epoch": 0.49793333333333334,
      "grad_norm": 1.3714489936828613,
      "learning_rate": 0.00010043565236719272,
      "loss": 1.6113,
      "step": 22407
    },
    {
      "epoch": 0.49795555555555554,
      "grad_norm": 1.6400303840637207,
      "learning_rate": 0.00010043120693487442,
      "loss": 1.7027,
      "step": 22408
    },
    {
      "epoch": 0.4979777777777778,
      "grad_norm": 1.5535303354263306,
      "learning_rate": 0.00010042676150255613,
      "loss": 1.4084,
      "step": 22409
    },
    {
      "epoch": 0.498,
      "grad_norm": 1.5385212898254395,
      "learning_rate": 0.00010042231607023785,
      "loss": 1.9555,
      "step": 22410
    },
    {
      "epoch": 0.4980222222222222,
      "grad_norm": 1.8561280965805054,
      "learning_rate": 0.00010041787063791954,
      "loss": 1.844,
      "step": 22411
    },
    {
      "epoch": 0.49804444444444446,
      "grad_norm": 1.6925878524780273,
      "learning_rate": 0.00010041342520560124,
      "loss": 2.3752,
      "step": 22412
    },
    {
      "epoch": 0.49806666666666666,
      "grad_norm": 1.7240910530090332,
      "learning_rate": 0.00010040897977328296,
      "loss": 1.719,
      "step": 22413
    },
    {
      "epoch": 0.4980888888888889,
      "grad_norm": 1.4165648221969604,
      "learning_rate": 0.00010040453434096466,
      "loss": 1.7974,
      "step": 22414
    },
    {
      "epoch": 0.4981111111111111,
      "grad_norm": 1.6195213794708252,
      "learning_rate": 0.00010040008890864636,
      "loss": 2.2911,
      "step": 22415
    },
    {
      "epoch": 0.4981333333333333,
      "grad_norm": 1.451538324356079,
      "learning_rate": 0.00010039564347632808,
      "loss": 1.6071,
      "step": 22416
    },
    {
      "epoch": 0.4981555555555556,
      "grad_norm": 1.5620014667510986,
      "learning_rate": 0.00010039119804400979,
      "loss": 1.964,
      "step": 22417
    },
    {
      "epoch": 0.4981777777777778,
      "grad_norm": 1.38790762424469,
      "learning_rate": 0.00010038675261169148,
      "loss": 1.4754,
      "step": 22418
    },
    {
      "epoch": 0.4982,
      "grad_norm": 2.1323935985565186,
      "learning_rate": 0.00010038230717937321,
      "loss": 2.087,
      "step": 22419
    },
    {
      "epoch": 0.49822222222222223,
      "grad_norm": 1.7069674730300903,
      "learning_rate": 0.0001003778617470549,
      "loss": 2.515,
      "step": 22420
    },
    {
      "epoch": 0.49824444444444443,
      "grad_norm": 1.3937252759933472,
      "learning_rate": 0.00010037341631473663,
      "loss": 1.7639,
      "step": 22421
    },
    {
      "epoch": 0.4982666666666667,
      "grad_norm": 1.8670185804367065,
      "learning_rate": 0.00010036897088241832,
      "loss": 2.1617,
      "step": 22422
    },
    {
      "epoch": 0.4982888888888889,
      "grad_norm": 1.5180801153182983,
      "learning_rate": 0.00010036452545010002,
      "loss": 1.6574,
      "step": 22423
    },
    {
      "epoch": 0.4983111111111111,
      "grad_norm": 1.844980239868164,
      "learning_rate": 0.00010036008001778174,
      "loss": 2.0266,
      "step": 22424
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 1.5431013107299805,
      "learning_rate": 0.00010035563458546344,
      "loss": 1.4246,
      "step": 22425
    },
    {
      "epoch": 0.49835555555555555,
      "grad_norm": 1.4942330121994019,
      "learning_rate": 0.00010035118915314515,
      "loss": 1.6462,
      "step": 22426
    },
    {
      "epoch": 0.49837777777777775,
      "grad_norm": 1.4800186157226562,
      "learning_rate": 0.00010034674372082686,
      "loss": 1.0678,
      "step": 22427
    },
    {
      "epoch": 0.4984,
      "grad_norm": 1.495267629623413,
      "learning_rate": 0.00010034229828850857,
      "loss": 1.7091,
      "step": 22428
    },
    {
      "epoch": 0.4984222222222222,
      "grad_norm": 1.4643335342407227,
      "learning_rate": 0.00010033785285619026,
      "loss": 1.8732,
      "step": 22429
    },
    {
      "epoch": 0.49844444444444447,
      "grad_norm": 1.8965356349945068,
      "learning_rate": 0.00010033340742387199,
      "loss": 2.1099,
      "step": 22430
    },
    {
      "epoch": 0.49846666666666667,
      "grad_norm": 1.554815649986267,
      "learning_rate": 0.00010032896199155368,
      "loss": 1.2501,
      "step": 22431
    },
    {
      "epoch": 0.49848888888888887,
      "grad_norm": 1.977904200553894,
      "learning_rate": 0.00010032451655923538,
      "loss": 2.1248,
      "step": 22432
    },
    {
      "epoch": 0.4985111111111111,
      "grad_norm": 1.8779864311218262,
      "learning_rate": 0.0001003200711269171,
      "loss": 1.9256,
      "step": 22433
    },
    {
      "epoch": 0.49853333333333333,
      "grad_norm": 1.6637543439865112,
      "learning_rate": 0.0001003156256945988,
      "loss": 2.0654,
      "step": 22434
    },
    {
      "epoch": 0.49855555555555553,
      "grad_norm": 1.1599479913711548,
      "learning_rate": 0.00010031118026228051,
      "loss": 0.884,
      "step": 22435
    },
    {
      "epoch": 0.4985777777777778,
      "grad_norm": 1.493260145187378,
      "learning_rate": 0.00010030673482996222,
      "loss": 0.9306,
      "step": 22436
    },
    {
      "epoch": 0.4986,
      "grad_norm": 1.7765085697174072,
      "learning_rate": 0.00010030228939764393,
      "loss": 1.5755,
      "step": 22437
    },
    {
      "epoch": 0.49862222222222224,
      "grad_norm": 1.9388281106948853,
      "learning_rate": 0.00010029784396532562,
      "loss": 2.0977,
      "step": 22438
    },
    {
      "epoch": 0.49864444444444445,
      "grad_norm": 1.8045654296875,
      "learning_rate": 0.00010029339853300735,
      "loss": 1.8013,
      "step": 22439
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 1.6001720428466797,
      "learning_rate": 0.00010028895310068904,
      "loss": 1.6114,
      "step": 22440
    },
    {
      "epoch": 0.4986888888888889,
      "grad_norm": 1.6878632307052612,
      "learning_rate": 0.00010028450766837077,
      "loss": 1.8351,
      "step": 22441
    },
    {
      "epoch": 0.4987111111111111,
      "grad_norm": 1.8009227514266968,
      "learning_rate": 0.00010028006223605246,
      "loss": 2.0019,
      "step": 22442
    },
    {
      "epoch": 0.4987333333333333,
      "grad_norm": 1.3825522661209106,
      "learning_rate": 0.00010027561680373416,
      "loss": 1.3856,
      "step": 22443
    },
    {
      "epoch": 0.49875555555555556,
      "grad_norm": 2.239356279373169,
      "learning_rate": 0.00010027117137141588,
      "loss": 2.0838,
      "step": 22444
    },
    {
      "epoch": 0.49877777777777776,
      "grad_norm": 1.9816523790359497,
      "learning_rate": 0.00010026672593909758,
      "loss": 2.1888,
      "step": 22445
    },
    {
      "epoch": 0.4988,
      "grad_norm": 1.890966534614563,
      "learning_rate": 0.00010026228050677929,
      "loss": 1.7166,
      "step": 22446
    },
    {
      "epoch": 0.4988222222222222,
      "grad_norm": 2.1823596954345703,
      "learning_rate": 0.00010025783507446101,
      "loss": 1.6311,
      "step": 22447
    },
    {
      "epoch": 0.4988444444444444,
      "grad_norm": 1.8136017322540283,
      "learning_rate": 0.0001002533896421427,
      "loss": 1.8711,
      "step": 22448
    },
    {
      "epoch": 0.4988666666666667,
      "grad_norm": 1.988324522972107,
      "learning_rate": 0.0001002489442098244,
      "loss": 1.9609,
      "step": 22449
    },
    {
      "epoch": 0.4988888888888889,
      "grad_norm": 3.2247698307037354,
      "learning_rate": 0.00010024449877750612,
      "loss": 0.5013,
      "step": 22450
    },
    {
      "epoch": 0.49891111111111114,
      "grad_norm": 1.5016435384750366,
      "learning_rate": 0.00010024005334518782,
      "loss": 2.5878,
      "step": 22451
    },
    {
      "epoch": 0.49893333333333334,
      "grad_norm": 1.5767771005630493,
      "learning_rate": 0.00010023560791286952,
      "loss": 2.4907,
      "step": 22452
    },
    {
      "epoch": 0.49895555555555554,
      "grad_norm": 1.550787091255188,
      "learning_rate": 0.00010023116248055124,
      "loss": 2.8603,
      "step": 22453
    },
    {
      "epoch": 0.4989777777777778,
      "grad_norm": 1.5655487775802612,
      "learning_rate": 0.00010022671704823295,
      "loss": 1.0526,
      "step": 22454
    },
    {
      "epoch": 0.499,
      "grad_norm": 1.210516333580017,
      "learning_rate": 0.00010022227161591465,
      "loss": 1.5291,
      "step": 22455
    },
    {
      "epoch": 0.4990222222222222,
      "grad_norm": 1.6879161596298218,
      "learning_rate": 0.00010021782618359637,
      "loss": 1.8919,
      "step": 22456
    },
    {
      "epoch": 0.49904444444444446,
      "grad_norm": 1.5033327341079712,
      "learning_rate": 0.00010021338075127807,
      "loss": 2.4002,
      "step": 22457
    },
    {
      "epoch": 0.49906666666666666,
      "grad_norm": 1.6046550273895264,
      "learning_rate": 0.00010020893531895979,
      "loss": 2.3595,
      "step": 22458
    },
    {
      "epoch": 0.4990888888888889,
      "grad_norm": 1.0080089569091797,
      "learning_rate": 0.00010020448988664148,
      "loss": 1.3245,
      "step": 22459
    },
    {
      "epoch": 0.4991111111111111,
      "grad_norm": 1.549583077430725,
      "learning_rate": 0.00010020004445432318,
      "loss": 2.1706,
      "step": 22460
    },
    {
      "epoch": 0.4991333333333333,
      "grad_norm": 1.5094555616378784,
      "learning_rate": 0.0001001955990220049,
      "loss": 2.171,
      "step": 22461
    },
    {
      "epoch": 0.4991555555555556,
      "grad_norm": 1.3658558130264282,
      "learning_rate": 0.0001001911535896866,
      "loss": 1.838,
      "step": 22462
    },
    {
      "epoch": 0.4991777777777778,
      "grad_norm": 1.8988895416259766,
      "learning_rate": 0.00010018670815736831,
      "loss": 2.2015,
      "step": 22463
    },
    {
      "epoch": 0.4992,
      "grad_norm": 1.781053066253662,
      "learning_rate": 0.00010018226272505002,
      "loss": 2.173,
      "step": 22464
    },
    {
      "epoch": 0.49922222222222223,
      "grad_norm": 1.6599113941192627,
      "learning_rate": 0.00010017781729273173,
      "loss": 2.5593,
      "step": 22465
    },
    {
      "epoch": 0.49924444444444444,
      "grad_norm": 1.671606421470642,
      "learning_rate": 0.00010017337186041342,
      "loss": 2.2905,
      "step": 22466
    },
    {
      "epoch": 0.4992666666666667,
      "grad_norm": 1.5327630043029785,
      "learning_rate": 0.00010016892642809515,
      "loss": 1.3395,
      "step": 22467
    },
    {
      "epoch": 0.4992888888888889,
      "grad_norm": 1.9209728240966797,
      "learning_rate": 0.00010016448099577684,
      "loss": 1.9492,
      "step": 22468
    },
    {
      "epoch": 0.4993111111111111,
      "grad_norm": 1.5843442678451538,
      "learning_rate": 0.00010016003556345854,
      "loss": 1.7036,
      "step": 22469
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 1.526833415031433,
      "learning_rate": 0.00010015559013114026,
      "loss": 1.9377,
      "step": 22470
    },
    {
      "epoch": 0.49935555555555555,
      "grad_norm": 2.039445638656616,
      "learning_rate": 0.00010015114469882196,
      "loss": 1.9765,
      "step": 22471
    },
    {
      "epoch": 0.49937777777777775,
      "grad_norm": 1.5384907722473145,
      "learning_rate": 0.00010014669926650367,
      "loss": 1.941,
      "step": 22472
    },
    {
      "epoch": 0.4994,
      "grad_norm": 1.6770274639129639,
      "learning_rate": 0.00010014225383418538,
      "loss": 2.0767,
      "step": 22473
    },
    {
      "epoch": 0.4994222222222222,
      "grad_norm": 1.493975281715393,
      "learning_rate": 0.00010013780840186709,
      "loss": 1.1781,
      "step": 22474
    },
    {
      "epoch": 0.49944444444444447,
      "grad_norm": 1.4671045541763306,
      "learning_rate": 0.00010013336296954878,
      "loss": 1.6311,
      "step": 22475
    },
    {
      "epoch": 0.49946666666666667,
      "grad_norm": 2.230012893676758,
      "learning_rate": 0.00010012891753723051,
      "loss": 2.3787,
      "step": 22476
    },
    {
      "epoch": 0.49948888888888887,
      "grad_norm": 1.1994673013687134,
      "learning_rate": 0.0001001244721049122,
      "loss": 0.8899,
      "step": 22477
    },
    {
      "epoch": 0.49951111111111113,
      "grad_norm": 1.9653496742248535,
      "learning_rate": 0.00010012002667259393,
      "loss": 1.8894,
      "step": 22478
    },
    {
      "epoch": 0.49953333333333333,
      "grad_norm": 1.7201908826828003,
      "learning_rate": 0.00010011558124027562,
      "loss": 2.1812,
      "step": 22479
    },
    {
      "epoch": 0.49955555555555553,
      "grad_norm": 2.3359978199005127,
      "learning_rate": 0.00010011113580795732,
      "loss": 2.0452,
      "step": 22480
    },
    {
      "epoch": 0.4995777777777778,
      "grad_norm": 1.4515587091445923,
      "learning_rate": 0.00010010669037563904,
      "loss": 1.1096,
      "step": 22481
    },
    {
      "epoch": 0.4996,
      "grad_norm": 1.455295205116272,
      "learning_rate": 0.00010010224494332074,
      "loss": 1.4533,
      "step": 22482
    },
    {
      "epoch": 0.49962222222222225,
      "grad_norm": 1.816022276878357,
      "learning_rate": 0.00010009779951100245,
      "loss": 2.3066,
      "step": 22483
    },
    {
      "epoch": 0.49964444444444445,
      "grad_norm": 1.852228045463562,
      "learning_rate": 0.00010009335407868417,
      "loss": 1.713,
      "step": 22484
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 1.939894199371338,
      "learning_rate": 0.00010008890864636587,
      "loss": 1.8827,
      "step": 22485
    },
    {
      "epoch": 0.4996888888888889,
      "grad_norm": 1.9972329139709473,
      "learning_rate": 0.00010008446321404756,
      "loss": 1.6685,
      "step": 22486
    },
    {
      "epoch": 0.4997111111111111,
      "grad_norm": 2.384092330932617,
      "learning_rate": 0.00010008001778172929,
      "loss": 1.6997,
      "step": 22487
    },
    {
      "epoch": 0.4997333333333333,
      "grad_norm": 1.6026599407196045,
      "learning_rate": 0.00010007557234941098,
      "loss": 1.8958,
      "step": 22488
    },
    {
      "epoch": 0.49975555555555556,
      "grad_norm": 1.6460975408554077,
      "learning_rate": 0.00010007112691709268,
      "loss": 1.6668,
      "step": 22489
    },
    {
      "epoch": 0.49977777777777777,
      "grad_norm": 2.0431854724884033,
      "learning_rate": 0.0001000666814847744,
      "loss": 2.0583,
      "step": 22490
    },
    {
      "epoch": 0.4998,
      "grad_norm": 2.1289591789245605,
      "learning_rate": 0.00010006223605245611,
      "loss": 2.1709,
      "step": 22491
    },
    {
      "epoch": 0.4998222222222222,
      "grad_norm": 1.7156881093978882,
      "learning_rate": 0.00010005779062013781,
      "loss": 1.6006,
      "step": 22492
    },
    {
      "epoch": 0.4998444444444444,
      "grad_norm": 2.002998113632202,
      "learning_rate": 0.00010005334518781953,
      "loss": 1.8639,
      "step": 22493
    },
    {
      "epoch": 0.4998666666666667,
      "grad_norm": 1.6065558195114136,
      "learning_rate": 0.00010004889975550123,
      "loss": 1.7194,
      "step": 22494
    },
    {
      "epoch": 0.4998888888888889,
      "grad_norm": 2.31695818901062,
      "learning_rate": 0.00010004445432318292,
      "loss": 2.3948,
      "step": 22495
    },
    {
      "epoch": 0.4999111111111111,
      "grad_norm": 1.7808924913406372,
      "learning_rate": 0.00010004000889086465,
      "loss": 1.4717,
      "step": 22496
    },
    {
      "epoch": 0.49993333333333334,
      "grad_norm": 1.5040147304534912,
      "learning_rate": 0.00010003556345854634,
      "loss": 0.9285,
      "step": 22497
    },
    {
      "epoch": 0.49995555555555554,
      "grad_norm": 1.7238246202468872,
      "learning_rate": 0.00010003111802622806,
      "loss": 1.7863,
      "step": 22498
    },
    {
      "epoch": 0.4999777777777778,
      "grad_norm": 1.5761189460754395,
      "learning_rate": 0.00010002667259390976,
      "loss": 1.3934,
      "step": 22499
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8976795673370361,
      "learning_rate": 0.00010002222716159147,
      "loss": 1.7487,
      "step": 22500
    },
    {
      "epoch": 0.5000222222222223,
      "grad_norm": 1.4140453338623047,
      "learning_rate": 0.00010001778172927318,
      "loss": 2.5468,
      "step": 22501
    },
    {
      "epoch": 0.5000444444444444,
      "grad_norm": 1.489353895187378,
      "learning_rate": 0.00010001333629695489,
      "loss": 2.8046,
      "step": 22502
    },
    {
      "epoch": 0.5000666666666667,
      "grad_norm": 1.5162148475646973,
      "learning_rate": 0.00010000889086463659,
      "loss": 2.7833,
      "step": 22503
    },
    {
      "epoch": 0.5000888888888889,
      "grad_norm": 1.5151256322860718,
      "learning_rate": 0.00010000444543231831,
      "loss": 2.7861,
      "step": 22504
    },
    {
      "epoch": 0.5001111111111111,
      "grad_norm": 1.534782886505127,
      "learning_rate": 0.0001,
      "loss": 1.7929,
      "step": 22505
    },
    {
      "epoch": 0.5001333333333333,
      "grad_norm": 1.2865808010101318,
      "learning_rate": 9.999555456768171e-05,
      "loss": 1.9686,
      "step": 22506
    },
    {
      "epoch": 0.5001555555555556,
      "grad_norm": 1.9524933099746704,
      "learning_rate": 9.999110913536341e-05,
      "loss": 1.4108,
      "step": 22507
    },
    {
      "epoch": 0.5001777777777778,
      "grad_norm": 1.5155938863754272,
      "learning_rate": 9.998666370304512e-05,
      "loss": 2.3425,
      "step": 22508
    },
    {
      "epoch": 0.5002,
      "grad_norm": 1.8380948305130005,
      "learning_rate": 9.998221827072683e-05,
      "loss": 2.3703,
      "step": 22509
    },
    {
      "epoch": 0.5002222222222222,
      "grad_norm": 1.5196393728256226,
      "learning_rate": 9.997777283840854e-05,
      "loss": 1.7709,
      "step": 22510
    },
    {
      "epoch": 0.5002444444444445,
      "grad_norm": 1.7397958040237427,
      "learning_rate": 9.997332740609025e-05,
      "loss": 2.4469,
      "step": 22511
    },
    {
      "epoch": 0.5002666666666666,
      "grad_norm": 1.5730643272399902,
      "learning_rate": 9.996888197377196e-05,
      "loss": 2.2365,
      "step": 22512
    },
    {
      "epoch": 0.5002888888888889,
      "grad_norm": 1.874785304069519,
      "learning_rate": 9.996443654145367e-05,
      "loss": 1.6336,
      "step": 22513
    },
    {
      "epoch": 0.5003111111111112,
      "grad_norm": 2.0100646018981934,
      "learning_rate": 9.995999110913536e-05,
      "loss": 2.2582,
      "step": 22514
    },
    {
      "epoch": 0.5003333333333333,
      "grad_norm": 1.6593422889709473,
      "learning_rate": 9.995554567681707e-05,
      "loss": 2.4904,
      "step": 22515
    },
    {
      "epoch": 0.5003555555555556,
      "grad_norm": 1.5982656478881836,
      "learning_rate": 9.995110024449878e-05,
      "loss": 1.9597,
      "step": 22516
    },
    {
      "epoch": 0.5003777777777778,
      "grad_norm": 1.5813279151916504,
      "learning_rate": 9.994665481218048e-05,
      "loss": 1.923,
      "step": 22517
    },
    {
      "epoch": 0.5004,
      "grad_norm": 1.628535270690918,
      "learning_rate": 9.994220937986219e-05,
      "loss": 2.3428,
      "step": 22518
    },
    {
      "epoch": 0.5004222222222222,
      "grad_norm": 2.0526328086853027,
      "learning_rate": 9.99377639475439e-05,
      "loss": 2.3966,
      "step": 22519
    },
    {
      "epoch": 0.5004444444444445,
      "grad_norm": 1.7512940168380737,
      "learning_rate": 9.993331851522562e-05,
      "loss": 1.9672,
      "step": 22520
    },
    {
      "epoch": 0.5004666666666666,
      "grad_norm": 1.9510509967803955,
      "learning_rate": 9.992887308290732e-05,
      "loss": 1.4393,
      "step": 22521
    },
    {
      "epoch": 0.5004888888888889,
      "grad_norm": 1.4510475397109985,
      "learning_rate": 9.992442765058903e-05,
      "loss": 1.2805,
      "step": 22522
    },
    {
      "epoch": 0.5005111111111111,
      "grad_norm": 1.4662381410598755,
      "learning_rate": 9.991998221827074e-05,
      "loss": 1.8167,
      "step": 22523
    },
    {
      "epoch": 0.5005333333333334,
      "grad_norm": 1.7168972492218018,
      "learning_rate": 9.991553678595243e-05,
      "loss": 2.4635,
      "step": 22524
    },
    {
      "epoch": 0.5005555555555555,
      "grad_norm": 1.599234938621521,
      "learning_rate": 9.991109135363414e-05,
      "loss": 1.7881,
      "step": 22525
    },
    {
      "epoch": 0.5005777777777778,
      "grad_norm": 1.818047046661377,
      "learning_rate": 9.990664592131585e-05,
      "loss": 2.2374,
      "step": 22526
    },
    {
      "epoch": 0.5006,
      "grad_norm": 1.4973152875900269,
      "learning_rate": 9.990220048899755e-05,
      "loss": 1.3051,
      "step": 22527
    },
    {
      "epoch": 0.5006222222222222,
      "grad_norm": 2.1221227645874023,
      "learning_rate": 9.989775505667927e-05,
      "loss": 1.8719,
      "step": 22528
    },
    {
      "epoch": 0.5006444444444444,
      "grad_norm": 1.9947000741958618,
      "learning_rate": 9.989330962436098e-05,
      "loss": 2.2529,
      "step": 22529
    },
    {
      "epoch": 0.5006666666666667,
      "grad_norm": 1.5820090770721436,
      "learning_rate": 9.988886419204269e-05,
      "loss": 1.7579,
      "step": 22530
    },
    {
      "epoch": 0.5006888888888889,
      "grad_norm": 2.04573392868042,
      "learning_rate": 9.988441875972439e-05,
      "loss": 2.2254,
      "step": 22531
    },
    {
      "epoch": 0.5007111111111111,
      "grad_norm": 1.555873990058899,
      "learning_rate": 9.98799733274061e-05,
      "loss": 1.9005,
      "step": 22532
    },
    {
      "epoch": 0.5007333333333334,
      "grad_norm": 1.3583992719650269,
      "learning_rate": 9.98755278950878e-05,
      "loss": 1.729,
      "step": 22533
    },
    {
      "epoch": 0.5007555555555555,
      "grad_norm": 1.8752827644348145,
      "learning_rate": 9.98710824627695e-05,
      "loss": 1.6336,
      "step": 22534
    },
    {
      "epoch": 0.5007777777777778,
      "grad_norm": 1.6458288431167603,
      "learning_rate": 9.986663703045121e-05,
      "loss": 1.8601,
      "step": 22535
    },
    {
      "epoch": 0.5008,
      "grad_norm": 1.4865764379501343,
      "learning_rate": 9.986219159813292e-05,
      "loss": 1.8547,
      "step": 22536
    },
    {
      "epoch": 0.5008222222222222,
      "grad_norm": 1.4608672857284546,
      "learning_rate": 9.985774616581463e-05,
      "loss": 1.7048,
      "step": 22537
    },
    {
      "epoch": 0.5008444444444444,
      "grad_norm": 1.8146538734436035,
      "learning_rate": 9.985330073349634e-05,
      "loss": 2.0121,
      "step": 22538
    },
    {
      "epoch": 0.5008666666666667,
      "grad_norm": 1.3746544122695923,
      "learning_rate": 9.984885530117805e-05,
      "loss": 1.5058,
      "step": 22539
    },
    {
      "epoch": 0.5008888888888889,
      "grad_norm": 3.1190028190612793,
      "learning_rate": 9.984440986885976e-05,
      "loss": 1.536,
      "step": 22540
    },
    {
      "epoch": 0.5009111111111111,
      "grad_norm": 2.078665256500244,
      "learning_rate": 9.983996443654146e-05,
      "loss": 1.9369,
      "step": 22541
    },
    {
      "epoch": 0.5009333333333333,
      "grad_norm": 1.6980165243148804,
      "learning_rate": 9.983551900422317e-05,
      "loss": 1.8628,
      "step": 22542
    },
    {
      "epoch": 0.5009555555555556,
      "grad_norm": 1.667853593826294,
      "learning_rate": 9.983107357190488e-05,
      "loss": 1.9114,
      "step": 22543
    },
    {
      "epoch": 0.5009777777777777,
      "grad_norm": 1.7913508415222168,
      "learning_rate": 9.982662813958657e-05,
      "loss": 1.8528,
      "step": 22544
    },
    {
      "epoch": 0.501,
      "grad_norm": 1.8055689334869385,
      "learning_rate": 9.982218270726828e-05,
      "loss": 1.992,
      "step": 22545
    },
    {
      "epoch": 0.5010222222222223,
      "grad_norm": 1.9339423179626465,
      "learning_rate": 9.981773727494999e-05,
      "loss": 1.9613,
      "step": 22546
    },
    {
      "epoch": 0.5010444444444444,
      "grad_norm": 1.4047882556915283,
      "learning_rate": 9.98132918426317e-05,
      "loss": 1.2691,
      "step": 22547
    },
    {
      "epoch": 0.5010666666666667,
      "grad_norm": 1.793965458869934,
      "learning_rate": 9.980884641031341e-05,
      "loss": 2.048,
      "step": 22548
    },
    {
      "epoch": 0.5010888888888889,
      "grad_norm": 2.1486899852752686,
      "learning_rate": 9.980440097799512e-05,
      "loss": 1.8224,
      "step": 22549
    },
    {
      "epoch": 0.5011111111111111,
      "grad_norm": 1.5563926696777344,
      "learning_rate": 9.979995554567683e-05,
      "loss": 0.694,
      "step": 22550
    },
    {
      "epoch": 0.5011333333333333,
      "grad_norm": 1.7825531959533691,
      "learning_rate": 9.979551011335853e-05,
      "loss": 2.5774,
      "step": 22551
    },
    {
      "epoch": 0.5011555555555556,
      "grad_norm": 1.7712655067443848,
      "learning_rate": 9.979106468104023e-05,
      "loss": 2.273,
      "step": 22552
    },
    {
      "epoch": 0.5011777777777778,
      "grad_norm": 1.408259630203247,
      "learning_rate": 9.978661924872194e-05,
      "loss": 1.1414,
      "step": 22553
    },
    {
      "epoch": 0.5012,
      "grad_norm": 1.4453736543655396,
      "learning_rate": 9.978217381640364e-05,
      "loss": 2.1488,
      "step": 22554
    },
    {
      "epoch": 0.5012222222222222,
      "grad_norm": 1.5333938598632812,
      "learning_rate": 9.977772838408535e-05,
      "loss": 2.1585,
      "step": 22555
    },
    {
      "epoch": 0.5012444444444445,
      "grad_norm": 1.6049129962921143,
      "learning_rate": 9.977328295176706e-05,
      "loss": 2.2543,
      "step": 22556
    },
    {
      "epoch": 0.5012666666666666,
      "grad_norm": 1.5352650880813599,
      "learning_rate": 9.976883751944877e-05,
      "loss": 2.2067,
      "step": 22557
    },
    {
      "epoch": 0.5012888888888889,
      "grad_norm": 1.6587936878204346,
      "learning_rate": 9.976439208713048e-05,
      "loss": 2.0015,
      "step": 22558
    },
    {
      "epoch": 0.5013111111111112,
      "grad_norm": 1.4023255109786987,
      "learning_rate": 9.975994665481219e-05,
      "loss": 2.242,
      "step": 22559
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 1.5788718461990356,
      "learning_rate": 9.97555012224939e-05,
      "loss": 2.1322,
      "step": 22560
    },
    {
      "epoch": 0.5013555555555556,
      "grad_norm": 1.4930638074874878,
      "learning_rate": 9.97510557901756e-05,
      "loss": 1.8582,
      "step": 22561
    },
    {
      "epoch": 0.5013777777777778,
      "grad_norm": 1.6027981042861938,
      "learning_rate": 9.97466103578573e-05,
      "loss": 1.431,
      "step": 22562
    },
    {
      "epoch": 0.5014,
      "grad_norm": 1.4205008745193481,
      "learning_rate": 9.974216492553901e-05,
      "loss": 1.887,
      "step": 22563
    },
    {
      "epoch": 0.5014222222222222,
      "grad_norm": 1.2680609226226807,
      "learning_rate": 9.973771949322071e-05,
      "loss": 1.0275,
      "step": 22564
    },
    {
      "epoch": 0.5014444444444445,
      "grad_norm": 0.1953807771205902,
      "learning_rate": 9.973327406090243e-05,
      "loss": 0.0248,
      "step": 22565
    },
    {
      "epoch": 0.5014666666666666,
      "grad_norm": 2.1827011108398438,
      "learning_rate": 9.972882862858414e-05,
      "loss": 1.031,
      "step": 22566
    },
    {
      "epoch": 0.5014888888888889,
      "grad_norm": 1.911372423171997,
      "learning_rate": 9.972438319626585e-05,
      "loss": 2.342,
      "step": 22567
    },
    {
      "epoch": 0.5015111111111111,
      "grad_norm": 1.6603097915649414,
      "learning_rate": 9.971993776394755e-05,
      "loss": 1.5396,
      "step": 22568
    },
    {
      "epoch": 0.5015333333333334,
      "grad_norm": 1.8839870691299438,
      "learning_rate": 9.971549233162926e-05,
      "loss": 1.6322,
      "step": 22569
    },
    {
      "epoch": 0.5015555555555555,
      "grad_norm": 1.676814079284668,
      "learning_rate": 9.971104689931097e-05,
      "loss": 1.5289,
      "step": 22570
    },
    {
      "epoch": 0.5015777777777778,
      "grad_norm": 1.8370643854141235,
      "learning_rate": 9.970660146699266e-05,
      "loss": 2.0396,
      "step": 22571
    },
    {
      "epoch": 0.5016,
      "grad_norm": 1.4801764488220215,
      "learning_rate": 9.970215603467437e-05,
      "loss": 1.8168,
      "step": 22572
    },
    {
      "epoch": 0.5016222222222222,
      "grad_norm": 2.0311481952667236,
      "learning_rate": 9.969771060235608e-05,
      "loss": 1.9808,
      "step": 22573
    },
    {
      "epoch": 0.5016444444444444,
      "grad_norm": 1.609879732131958,
      "learning_rate": 9.969326517003779e-05,
      "loss": 1.7218,
      "step": 22574
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 2.0754716396331787,
      "learning_rate": 9.96888197377195e-05,
      "loss": 2.7028,
      "step": 22575
    },
    {
      "epoch": 0.5016888888888889,
      "grad_norm": 1.860520839691162,
      "learning_rate": 9.968437430540121e-05,
      "loss": 2.0404,
      "step": 22576
    },
    {
      "epoch": 0.5017111111111111,
      "grad_norm": 1.5488126277923584,
      "learning_rate": 9.967992887308292e-05,
      "loss": 2.0123,
      "step": 22577
    },
    {
      "epoch": 0.5017333333333334,
      "grad_norm": 2.0356757640838623,
      "learning_rate": 9.967548344076462e-05,
      "loss": 2.0103,
      "step": 22578
    },
    {
      "epoch": 0.5017555555555555,
      "grad_norm": 1.7758336067199707,
      "learning_rate": 9.967103800844633e-05,
      "loss": 2.066,
      "step": 22579
    },
    {
      "epoch": 0.5017777777777778,
      "grad_norm": 1.1262962818145752,
      "learning_rate": 9.966659257612804e-05,
      "loss": 0.912,
      "step": 22580
    },
    {
      "epoch": 0.5018,
      "grad_norm": 1.4693816900253296,
      "learning_rate": 9.966214714380973e-05,
      "loss": 1.4563,
      "step": 22581
    },
    {
      "epoch": 0.5018222222222222,
      "grad_norm": 1.6168558597564697,
      "learning_rate": 9.965770171149144e-05,
      "loss": 1.6059,
      "step": 22582
    },
    {
      "epoch": 0.5018444444444444,
      "grad_norm": 1.820309042930603,
      "learning_rate": 9.965325627917315e-05,
      "loss": 2.2297,
      "step": 22583
    },
    {
      "epoch": 0.5018666666666667,
      "grad_norm": 1.6175507307052612,
      "learning_rate": 9.964881084685486e-05,
      "loss": 1.5747,
      "step": 22584
    },
    {
      "epoch": 0.5018888888888889,
      "grad_norm": 1.7194539308547974,
      "learning_rate": 9.964436541453657e-05,
      "loss": 2.0409,
      "step": 22585
    },
    {
      "epoch": 0.5019111111111111,
      "grad_norm": 1.9079362154006958,
      "learning_rate": 9.963991998221828e-05,
      "loss": 2.033,
      "step": 22586
    },
    {
      "epoch": 0.5019333333333333,
      "grad_norm": 1.4061357975006104,
      "learning_rate": 9.963547454989999e-05,
      "loss": 1.6199,
      "step": 22587
    },
    {
      "epoch": 0.5019555555555556,
      "grad_norm": 1.710015892982483,
      "learning_rate": 9.963102911758169e-05,
      "loss": 1.7412,
      "step": 22588
    },
    {
      "epoch": 0.5019777777777777,
      "grad_norm": 1.507445216178894,
      "learning_rate": 9.96265836852634e-05,
      "loss": 1.6237,
      "step": 22589
    },
    {
      "epoch": 0.502,
      "grad_norm": 1.9708542823791504,
      "learning_rate": 9.96221382529451e-05,
      "loss": 2.2435,
      "step": 22590
    },
    {
      "epoch": 0.5020222222222223,
      "grad_norm": 1.8412950038909912,
      "learning_rate": 9.96176928206268e-05,
      "loss": 2.0136,
      "step": 22591
    },
    {
      "epoch": 0.5020444444444444,
      "grad_norm": 1.943853735923767,
      "learning_rate": 9.961324738830851e-05,
      "loss": 1.7087,
      "step": 22592
    },
    {
      "epoch": 0.5020666666666667,
      "grad_norm": 2.0076308250427246,
      "learning_rate": 9.960880195599022e-05,
      "loss": 1.6032,
      "step": 22593
    },
    {
      "epoch": 0.5020888888888889,
      "grad_norm": 1.6803700923919678,
      "learning_rate": 9.960435652367193e-05,
      "loss": 1.6845,
      "step": 22594
    },
    {
      "epoch": 0.5021111111111111,
      "grad_norm": 1.8793913125991821,
      "learning_rate": 9.959991109135364e-05,
      "loss": 2.1614,
      "step": 22595
    },
    {
      "epoch": 0.5021333333333333,
      "grad_norm": 1.6845803260803223,
      "learning_rate": 9.959546565903535e-05,
      "loss": 1.8138,
      "step": 22596
    },
    {
      "epoch": 0.5021555555555556,
      "grad_norm": 1.8398327827453613,
      "learning_rate": 9.959102022671706e-05,
      "loss": 2.041,
      "step": 22597
    },
    {
      "epoch": 0.5021777777777777,
      "grad_norm": 1.9835301637649536,
      "learning_rate": 9.958657479439876e-05,
      "loss": 1.8926,
      "step": 22598
    },
    {
      "epoch": 0.5022,
      "grad_norm": 1.3367233276367188,
      "learning_rate": 9.958212936208047e-05,
      "loss": 1.0506,
      "step": 22599
    },
    {
      "epoch": 0.5022222222222222,
      "grad_norm": 1.4915679693222046,
      "learning_rate": 9.957768392976217e-05,
      "loss": 1.1058,
      "step": 22600
    },
    {
      "epoch": 0.5022444444444445,
      "grad_norm": 1.639115333557129,
      "learning_rate": 9.957323849744387e-05,
      "loss": 2.6259,
      "step": 22601
    },
    {
      "epoch": 0.5022666666666666,
      "grad_norm": 1.4231024980545044,
      "learning_rate": 9.95687930651256e-05,
      "loss": 2.3745,
      "step": 22602
    },
    {
      "epoch": 0.5022888888888889,
      "grad_norm": 1.2579318284988403,
      "learning_rate": 9.95643476328073e-05,
      "loss": 1.903,
      "step": 22603
    },
    {
      "epoch": 0.5023111111111112,
      "grad_norm": 1.4042173624038696,
      "learning_rate": 9.9559902200489e-05,
      "loss": 2.2651,
      "step": 22604
    },
    {
      "epoch": 0.5023333333333333,
      "grad_norm": 1.4012302160263062,
      "learning_rate": 9.955545676817071e-05,
      "loss": 2.1692,
      "step": 22605
    },
    {
      "epoch": 0.5023555555555556,
      "grad_norm": 1.678382158279419,
      "learning_rate": 9.955101133585242e-05,
      "loss": 2.2549,
      "step": 22606
    },
    {
      "epoch": 0.5023777777777778,
      "grad_norm": 1.419367790222168,
      "learning_rate": 9.954656590353413e-05,
      "loss": 2.0502,
      "step": 22607
    },
    {
      "epoch": 0.5024,
      "grad_norm": 1.4541198015213013,
      "learning_rate": 9.954212047121582e-05,
      "loss": 1.5936,
      "step": 22608
    },
    {
      "epoch": 0.5024222222222222,
      "grad_norm": 1.9489389657974243,
      "learning_rate": 9.953767503889753e-05,
      "loss": 2.1033,
      "step": 22609
    },
    {
      "epoch": 0.5024444444444445,
      "grad_norm": 1.5374107360839844,
      "learning_rate": 9.953322960657924e-05,
      "loss": 1.3328,
      "step": 22610
    },
    {
      "epoch": 0.5024666666666666,
      "grad_norm": 1.3567744493484497,
      "learning_rate": 9.952878417426095e-05,
      "loss": 1.8744,
      "step": 22611
    },
    {
      "epoch": 0.5024888888888889,
      "grad_norm": 1.9834095239639282,
      "learning_rate": 9.952433874194266e-05,
      "loss": 2.9015,
      "step": 22612
    },
    {
      "epoch": 0.5025111111111111,
      "grad_norm": 1.7105993032455444,
      "learning_rate": 9.951989330962437e-05,
      "loss": 1.3481,
      "step": 22613
    },
    {
      "epoch": 0.5025333333333334,
      "grad_norm": 1.615063190460205,
      "learning_rate": 9.951544787730608e-05,
      "loss": 2.1315,
      "step": 22614
    },
    {
      "epoch": 0.5025555555555555,
      "grad_norm": 1.483086109161377,
      "learning_rate": 9.951100244498778e-05,
      "loss": 1.8723,
      "step": 22615
    },
    {
      "epoch": 0.5025777777777778,
      "grad_norm": 1.707088828086853,
      "learning_rate": 9.950655701266949e-05,
      "loss": 2.3037,
      "step": 22616
    },
    {
      "epoch": 0.5026,
      "grad_norm": 1.9623832702636719,
      "learning_rate": 9.95021115803512e-05,
      "loss": 2.3107,
      "step": 22617
    },
    {
      "epoch": 0.5026222222222222,
      "grad_norm": 1.8576751947402954,
      "learning_rate": 9.94976661480329e-05,
      "loss": 0.9089,
      "step": 22618
    },
    {
      "epoch": 0.5026444444444444,
      "grad_norm": 1.5442029237747192,
      "learning_rate": 9.94932207157146e-05,
      "loss": 2.1105,
      "step": 22619
    },
    {
      "epoch": 0.5026666666666667,
      "grad_norm": 1.460655689239502,
      "learning_rate": 9.948877528339631e-05,
      "loss": 1.5193,
      "step": 22620
    },
    {
      "epoch": 0.5026888888888889,
      "grad_norm": 1.5612839460372925,
      "learning_rate": 9.948432985107802e-05,
      "loss": 2.0516,
      "step": 22621
    },
    {
      "epoch": 0.5027111111111111,
      "grad_norm": 1.5191911458969116,
      "learning_rate": 9.947988441875973e-05,
      "loss": 1.6583,
      "step": 22622
    },
    {
      "epoch": 0.5027333333333334,
      "grad_norm": 1.3811402320861816,
      "learning_rate": 9.947543898644144e-05,
      "loss": 2.0217,
      "step": 22623
    },
    {
      "epoch": 0.5027555555555555,
      "grad_norm": 1.4853622913360596,
      "learning_rate": 9.947099355412315e-05,
      "loss": 1.7337,
      "step": 22624
    },
    {
      "epoch": 0.5027777777777778,
      "grad_norm": 1.5896637439727783,
      "learning_rate": 9.946654812180485e-05,
      "loss": 2.1011,
      "step": 22625
    },
    {
      "epoch": 0.5028,
      "grad_norm": 2.3079354763031006,
      "learning_rate": 9.946210268948656e-05,
      "loss": 2.4668,
      "step": 22626
    },
    {
      "epoch": 0.5028222222222222,
      "grad_norm": 1.9487086534500122,
      "learning_rate": 9.945765725716827e-05,
      "loss": 2.3916,
      "step": 22627
    },
    {
      "epoch": 0.5028444444444444,
      "grad_norm": 1.5828123092651367,
      "learning_rate": 9.945321182484996e-05,
      "loss": 2.1926,
      "step": 22628
    },
    {
      "epoch": 0.5028666666666667,
      "grad_norm": 1.9862841367721558,
      "learning_rate": 9.944876639253167e-05,
      "loss": 2.312,
      "step": 22629
    },
    {
      "epoch": 0.5028888888888889,
      "grad_norm": 1.2470985651016235,
      "learning_rate": 9.944432096021338e-05,
      "loss": 0.6968,
      "step": 22630
    },
    {
      "epoch": 0.5029111111111111,
      "grad_norm": 1.3668303489685059,
      "learning_rate": 9.943987552789509e-05,
      "loss": 1.1363,
      "step": 22631
    },
    {
      "epoch": 0.5029333333333333,
      "grad_norm": 1.5521883964538574,
      "learning_rate": 9.94354300955768e-05,
      "loss": 1.8331,
      "step": 22632
    },
    {
      "epoch": 0.5029555555555556,
      "grad_norm": 1.584354281425476,
      "learning_rate": 9.943098466325851e-05,
      "loss": 1.6663,
      "step": 22633
    },
    {
      "epoch": 0.5029777777777777,
      "grad_norm": 1.662367582321167,
      "learning_rate": 9.942653923094022e-05,
      "loss": 1.638,
      "step": 22634
    },
    {
      "epoch": 0.503,
      "grad_norm": 1.8894293308258057,
      "learning_rate": 9.942209379862192e-05,
      "loss": 1.9588,
      "step": 22635
    },
    {
      "epoch": 0.5030222222222223,
      "grad_norm": 1.8139441013336182,
      "learning_rate": 9.941764836630363e-05,
      "loss": 2.192,
      "step": 22636
    },
    {
      "epoch": 0.5030444444444444,
      "grad_norm": 1.8370262384414673,
      "learning_rate": 9.941320293398534e-05,
      "loss": 1.7294,
      "step": 22637
    },
    {
      "epoch": 0.5030666666666667,
      "grad_norm": 2.165417194366455,
      "learning_rate": 9.940875750166703e-05,
      "loss": 2.228,
      "step": 22638
    },
    {
      "epoch": 0.5030888888888889,
      "grad_norm": 1.502634882926941,
      "learning_rate": 9.940431206934875e-05,
      "loss": 1.6941,
      "step": 22639
    },
    {
      "epoch": 0.5031111111111111,
      "grad_norm": 2.2354354858398438,
      "learning_rate": 9.939986663703046e-05,
      "loss": 2.036,
      "step": 22640
    },
    {
      "epoch": 0.5031333333333333,
      "grad_norm": 2.159656047821045,
      "learning_rate": 9.939542120471216e-05,
      "loss": 1.6692,
      "step": 22641
    },
    {
      "epoch": 0.5031555555555556,
      "grad_norm": 1.5624644756317139,
      "learning_rate": 9.939097577239387e-05,
      "loss": 1.8548,
      "step": 22642
    },
    {
      "epoch": 0.5031777777777777,
      "grad_norm": 1.569486379623413,
      "learning_rate": 9.938653034007558e-05,
      "loss": 1.2725,
      "step": 22643
    },
    {
      "epoch": 0.5032,
      "grad_norm": 2.0125961303710938,
      "learning_rate": 9.938208490775729e-05,
      "loss": 1.8659,
      "step": 22644
    },
    {
      "epoch": 0.5032222222222222,
      "grad_norm": 1.7482190132141113,
      "learning_rate": 9.937763947543899e-05,
      "loss": 1.9075,
      "step": 22645
    },
    {
      "epoch": 0.5032444444444445,
      "grad_norm": 2.2616851329803467,
      "learning_rate": 9.93731940431207e-05,
      "loss": 2.0982,
      "step": 22646
    },
    {
      "epoch": 0.5032666666666666,
      "grad_norm": 1.8868212699890137,
      "learning_rate": 9.93687486108024e-05,
      "loss": 1.8403,
      "step": 22647
    },
    {
      "epoch": 0.5032888888888889,
      "grad_norm": 2.0167858600616455,
      "learning_rate": 9.936430317848411e-05,
      "loss": 2.0318,
      "step": 22648
    },
    {
      "epoch": 0.5033111111111112,
      "grad_norm": 1.8645002841949463,
      "learning_rate": 9.935985774616582e-05,
      "loss": 1.7819,
      "step": 22649
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 2.22393798828125,
      "learning_rate": 9.935541231384753e-05,
      "loss": 1.7147,
      "step": 22650
    },
    {
      "epoch": 0.5033555555555556,
      "grad_norm": 1.3215172290802002,
      "learning_rate": 9.935096688152923e-05,
      "loss": 2.3868,
      "step": 22651
    },
    {
      "epoch": 0.5033777777777778,
      "grad_norm": 1.2784749269485474,
      "learning_rate": 9.934652144921094e-05,
      "loss": 2.6418,
      "step": 22652
    },
    {
      "epoch": 0.5034,
      "grad_norm": 1.4789652824401855,
      "learning_rate": 9.934207601689265e-05,
      "loss": 2.5013,
      "step": 22653
    },
    {
      "epoch": 0.5034222222222222,
      "grad_norm": 1.5627797842025757,
      "learning_rate": 9.933763058457436e-05,
      "loss": 2.6515,
      "step": 22654
    },
    {
      "epoch": 0.5034444444444445,
      "grad_norm": 1.4818402528762817,
      "learning_rate": 9.933318515225605e-05,
      "loss": 2.5065,
      "step": 22655
    },
    {
      "epoch": 0.5034666666666666,
      "grad_norm": 1.4554495811462402,
      "learning_rate": 9.932873971993776e-05,
      "loss": 1.9445,
      "step": 22656
    },
    {
      "epoch": 0.5034888888888889,
      "grad_norm": 1.5213953256607056,
      "learning_rate": 9.932429428761947e-05,
      "loss": 2.6172,
      "step": 22657
    },
    {
      "epoch": 0.5035111111111111,
      "grad_norm": 0.4473356306552887,
      "learning_rate": 9.931984885530118e-05,
      "loss": 0.0253,
      "step": 22658
    },
    {
      "epoch": 0.5035333333333334,
      "grad_norm": 1.5256482362747192,
      "learning_rate": 9.931540342298289e-05,
      "loss": 2.3058,
      "step": 22659
    },
    {
      "epoch": 0.5035555555555555,
      "grad_norm": 1.8583875894546509,
      "learning_rate": 9.93109579906646e-05,
      "loss": 2.2684,
      "step": 22660
    },
    {
      "epoch": 0.5035777777777778,
      "grad_norm": 1.7085567712783813,
      "learning_rate": 9.93065125583463e-05,
      "loss": 1.6073,
      "step": 22661
    },
    {
      "epoch": 0.5036,
      "grad_norm": 1.7499405145645142,
      "learning_rate": 9.930206712602801e-05,
      "loss": 2.3534,
      "step": 22662
    },
    {
      "epoch": 0.5036222222222222,
      "grad_norm": 2.0780081748962402,
      "learning_rate": 9.929762169370972e-05,
      "loss": 1.8495,
      "step": 22663
    },
    {
      "epoch": 0.5036444444444445,
      "grad_norm": 2.019120454788208,
      "learning_rate": 9.929317626139143e-05,
      "loss": 2.4245,
      "step": 22664
    },
    {
      "epoch": 0.5036666666666667,
      "grad_norm": 1.865012288093567,
      "learning_rate": 9.928873082907312e-05,
      "loss": 2.4453,
      "step": 22665
    },
    {
      "epoch": 0.5036888888888889,
      "grad_norm": 1.0444371700286865,
      "learning_rate": 9.928428539675483e-05,
      "loss": 1.0694,
      "step": 22666
    },
    {
      "epoch": 0.5037111111111111,
      "grad_norm": 1.5786173343658447,
      "learning_rate": 9.927983996443654e-05,
      "loss": 2.1207,
      "step": 22667
    },
    {
      "epoch": 0.5037333333333334,
      "grad_norm": 1.5107171535491943,
      "learning_rate": 9.927539453211825e-05,
      "loss": 1.3392,
      "step": 22668
    },
    {
      "epoch": 0.5037555555555555,
      "grad_norm": 1.5369130373001099,
      "learning_rate": 9.927094909979996e-05,
      "loss": 1.6635,
      "step": 22669
    },
    {
      "epoch": 0.5037777777777778,
      "grad_norm": 1.608337640762329,
      "learning_rate": 9.926650366748167e-05,
      "loss": 1.8631,
      "step": 22670
    },
    {
      "epoch": 0.5038,
      "grad_norm": 1.518891453742981,
      "learning_rate": 9.926205823516338e-05,
      "loss": 1.8777,
      "step": 22671
    },
    {
      "epoch": 0.5038222222222222,
      "grad_norm": 1.4263100624084473,
      "learning_rate": 9.925761280284508e-05,
      "loss": 1.7113,
      "step": 22672
    },
    {
      "epoch": 0.5038444444444444,
      "grad_norm": 1.795554280281067,
      "learning_rate": 9.925316737052679e-05,
      "loss": 2.0497,
      "step": 22673
    },
    {
      "epoch": 0.5038666666666667,
      "grad_norm": 1.8414835929870605,
      "learning_rate": 9.92487219382085e-05,
      "loss": 2.087,
      "step": 22674
    },
    {
      "epoch": 0.5038888888888889,
      "grad_norm": 1.7035903930664062,
      "learning_rate": 9.924427650589019e-05,
      "loss": 2.3607,
      "step": 22675
    },
    {
      "epoch": 0.5039111111111111,
      "grad_norm": 1.9827362298965454,
      "learning_rate": 9.923983107357192e-05,
      "loss": 2.3744,
      "step": 22676
    },
    {
      "epoch": 0.5039333333333333,
      "grad_norm": 2.0421364307403564,
      "learning_rate": 9.923538564125363e-05,
      "loss": 2.1079,
      "step": 22677
    },
    {
      "epoch": 0.5039555555555556,
      "grad_norm": 1.6666393280029297,
      "learning_rate": 9.923094020893532e-05,
      "loss": 1.813,
      "step": 22678
    },
    {
      "epoch": 0.5039777777777777,
      "grad_norm": 1.7460869550704956,
      "learning_rate": 9.922649477661703e-05,
      "loss": 1.6785,
      "step": 22679
    },
    {
      "epoch": 0.504,
      "grad_norm": 1.9904323816299438,
      "learning_rate": 9.922204934429874e-05,
      "loss": 1.9331,
      "step": 22680
    },
    {
      "epoch": 0.5040222222222223,
      "grad_norm": 1.6711506843566895,
      "learning_rate": 9.921760391198045e-05,
      "loss": 1.9245,
      "step": 22681
    },
    {
      "epoch": 0.5040444444444444,
      "grad_norm": 2.049618721008301,
      "learning_rate": 9.921315847966215e-05,
      "loss": 2.3557,
      "step": 22682
    },
    {
      "epoch": 0.5040666666666667,
      "grad_norm": 1.6448681354522705,
      "learning_rate": 9.920871304734386e-05,
      "loss": 1.8223,
      "step": 22683
    },
    {
      "epoch": 0.5040888888888889,
      "grad_norm": 1.8177539110183716,
      "learning_rate": 9.920426761502557e-05,
      "loss": 1.802,
      "step": 22684
    },
    {
      "epoch": 0.5041111111111111,
      "grad_norm": 2.0007731914520264,
      "learning_rate": 9.919982218270728e-05,
      "loss": 2.4059,
      "step": 22685
    },
    {
      "epoch": 0.5041333333333333,
      "grad_norm": 1.5432275533676147,
      "learning_rate": 9.919537675038899e-05,
      "loss": 1.5065,
      "step": 22686
    },
    {
      "epoch": 0.5041555555555556,
      "grad_norm": 1.6085337400436401,
      "learning_rate": 9.91909313180707e-05,
      "loss": 1.8212,
      "step": 22687
    },
    {
      "epoch": 0.5041777777777777,
      "grad_norm": 1.540164589881897,
      "learning_rate": 9.918648588575239e-05,
      "loss": 1.4751,
      "step": 22688
    },
    {
      "epoch": 0.5042,
      "grad_norm": 1.8578476905822754,
      "learning_rate": 9.91820404534341e-05,
      "loss": 1.9619,
      "step": 22689
    },
    {
      "epoch": 0.5042222222222222,
      "grad_norm": 1.5914967060089111,
      "learning_rate": 9.917759502111581e-05,
      "loss": 1.8646,
      "step": 22690
    },
    {
      "epoch": 0.5042444444444445,
      "grad_norm": 1.728102684020996,
      "learning_rate": 9.917314958879752e-05,
      "loss": 1.8171,
      "step": 22691
    },
    {
      "epoch": 0.5042666666666666,
      "grad_norm": 1.6271237134933472,
      "learning_rate": 9.916870415647922e-05,
      "loss": 2.0746,
      "step": 22692
    },
    {
      "epoch": 0.5042888888888889,
      "grad_norm": 1.97268807888031,
      "learning_rate": 9.916425872416093e-05,
      "loss": 1.4784,
      "step": 22693
    },
    {
      "epoch": 0.5043111111111112,
      "grad_norm": 1.9032707214355469,
      "learning_rate": 9.915981329184263e-05,
      "loss": 1.7547,
      "step": 22694
    },
    {
      "epoch": 0.5043333333333333,
      "grad_norm": 2.0295186042785645,
      "learning_rate": 9.915536785952434e-05,
      "loss": 1.8251,
      "step": 22695
    },
    {
      "epoch": 0.5043555555555556,
      "grad_norm": 1.6175602674484253,
      "learning_rate": 9.915092242720605e-05,
      "loss": 1.6913,
      "step": 22696
    },
    {
      "epoch": 0.5043777777777778,
      "grad_norm": 1.476393699645996,
      "learning_rate": 9.914647699488776e-05,
      "loss": 1.2101,
      "step": 22697
    },
    {
      "epoch": 0.5044,
      "grad_norm": 1.9171077013015747,
      "learning_rate": 9.914203156256946e-05,
      "loss": 1.7,
      "step": 22698
    },
    {
      "epoch": 0.5044222222222222,
      "grad_norm": 2.0770843029022217,
      "learning_rate": 9.913758613025117e-05,
      "loss": 2.2379,
      "step": 22699
    },
    {
      "epoch": 0.5044444444444445,
      "grad_norm": 1.916699767112732,
      "learning_rate": 9.913314069793288e-05,
      "loss": 1.4178,
      "step": 22700
    },
    {
      "epoch": 0.5044666666666666,
      "grad_norm": 1.7286158800125122,
      "learning_rate": 9.912869526561459e-05,
      "loss": 2.5085,
      "step": 22701
    },
    {
      "epoch": 0.5044888888888889,
      "grad_norm": 0.9805357456207275,
      "learning_rate": 9.912424983329628e-05,
      "loss": 1.2445,
      "step": 22702
    },
    {
      "epoch": 0.5045111111111111,
      "grad_norm": 1.438655138015747,
      "learning_rate": 9.9119804400978e-05,
      "loss": 2.2446,
      "step": 22703
    },
    {
      "epoch": 0.5045333333333333,
      "grad_norm": 1.4630711078643799,
      "learning_rate": 9.91153589686597e-05,
      "loss": 2.4779,
      "step": 22704
    },
    {
      "epoch": 0.5045555555555555,
      "grad_norm": 1.6147942543029785,
      "learning_rate": 9.911091353634141e-05,
      "loss": 2.3768,
      "step": 22705
    },
    {
      "epoch": 0.5045777777777778,
      "grad_norm": 1.9447332620620728,
      "learning_rate": 9.910646810402312e-05,
      "loss": 2.0744,
      "step": 22706
    },
    {
      "epoch": 0.5046,
      "grad_norm": 1.6862027645111084,
      "learning_rate": 9.910202267170483e-05,
      "loss": 2.2143,
      "step": 22707
    },
    {
      "epoch": 0.5046222222222222,
      "grad_norm": 1.5902727842330933,
      "learning_rate": 9.909757723938653e-05,
      "loss": 2.5196,
      "step": 22708
    },
    {
      "epoch": 0.5046444444444445,
      "grad_norm": 1.3940608501434326,
      "learning_rate": 9.909313180706824e-05,
      "loss": 1.9274,
      "step": 22709
    },
    {
      "epoch": 0.5046666666666667,
      "grad_norm": 1.7495903968811035,
      "learning_rate": 9.908868637474995e-05,
      "loss": 1.9858,
      "step": 22710
    },
    {
      "epoch": 0.5046888888888889,
      "grad_norm": 1.7238324880599976,
      "learning_rate": 9.908424094243166e-05,
      "loss": 2.4901,
      "step": 22711
    },
    {
      "epoch": 0.5047111111111111,
      "grad_norm": 1.8207831382751465,
      "learning_rate": 9.907979551011335e-05,
      "loss": 2.1988,
      "step": 22712
    },
    {
      "epoch": 0.5047333333333334,
      "grad_norm": 1.5851472616195679,
      "learning_rate": 9.907535007779508e-05,
      "loss": 2.1923,
      "step": 22713
    },
    {
      "epoch": 0.5047555555555555,
      "grad_norm": 1.4419746398925781,
      "learning_rate": 9.907090464547679e-05,
      "loss": 1.7014,
      "step": 22714
    },
    {
      "epoch": 0.5047777777777778,
      "grad_norm": 1.4483046531677246,
      "learning_rate": 9.906645921315848e-05,
      "loss": 2.1831,
      "step": 22715
    },
    {
      "epoch": 0.5048,
      "grad_norm": 1.7414213418960571,
      "learning_rate": 9.906201378084019e-05,
      "loss": 2.072,
      "step": 22716
    },
    {
      "epoch": 0.5048222222222222,
      "grad_norm": 1.6698894500732422,
      "learning_rate": 9.90575683485219e-05,
      "loss": 2.2563,
      "step": 22717
    },
    {
      "epoch": 0.5048444444444444,
      "grad_norm": 1.4171957969665527,
      "learning_rate": 9.90531229162036e-05,
      "loss": 1.9546,
      "step": 22718
    },
    {
      "epoch": 0.5048666666666667,
      "grad_norm": 1.6073355674743652,
      "learning_rate": 9.904867748388531e-05,
      "loss": 2.175,
      "step": 22719
    },
    {
      "epoch": 0.5048888888888889,
      "grad_norm": 1.8352463245391846,
      "learning_rate": 9.904423205156702e-05,
      "loss": 2.0522,
      "step": 22720
    },
    {
      "epoch": 0.5049111111111111,
      "grad_norm": 1.6132621765136719,
      "learning_rate": 9.903978661924873e-05,
      "loss": 2.0498,
      "step": 22721
    },
    {
      "epoch": 0.5049333333333333,
      "grad_norm": 1.738495945930481,
      "learning_rate": 9.903534118693044e-05,
      "loss": 1.6718,
      "step": 22722
    },
    {
      "epoch": 0.5049555555555556,
      "grad_norm": 1.4001338481903076,
      "learning_rate": 9.903089575461215e-05,
      "loss": 1.6889,
      "step": 22723
    },
    {
      "epoch": 0.5049777777777777,
      "grad_norm": 1.644633173942566,
      "learning_rate": 9.902645032229386e-05,
      "loss": 1.9547,
      "step": 22724
    },
    {
      "epoch": 0.505,
      "grad_norm": 1.7703708410263062,
      "learning_rate": 9.902200488997555e-05,
      "loss": 1.9866,
      "step": 22725
    },
    {
      "epoch": 0.5050222222222223,
      "grad_norm": 1.3391872644424438,
      "learning_rate": 9.901755945765726e-05,
      "loss": 1.5216,
      "step": 22726
    },
    {
      "epoch": 0.5050444444444444,
      "grad_norm": 1.5892432928085327,
      "learning_rate": 9.901311402533897e-05,
      "loss": 1.8009,
      "step": 22727
    },
    {
      "epoch": 0.5050666666666667,
      "grad_norm": 1.832493543624878,
      "learning_rate": 9.900866859302068e-05,
      "loss": 1.6808,
      "step": 22728
    },
    {
      "epoch": 0.5050888888888889,
      "grad_norm": 1.3284225463867188,
      "learning_rate": 9.900422316070238e-05,
      "loss": 1.3176,
      "step": 22729
    },
    {
      "epoch": 0.5051111111111111,
      "grad_norm": 1.6211885213851929,
      "learning_rate": 9.899977772838409e-05,
      "loss": 1.8527,
      "step": 22730
    },
    {
      "epoch": 0.5051333333333333,
      "grad_norm": 1.998940348625183,
      "learning_rate": 9.89953322960658e-05,
      "loss": 1.9863,
      "step": 22731
    },
    {
      "epoch": 0.5051555555555556,
      "grad_norm": 1.6039005517959595,
      "learning_rate": 9.89908868637475e-05,
      "loss": 1.9762,
      "step": 22732
    },
    {
      "epoch": 0.5051777777777777,
      "grad_norm": 1.8619550466537476,
      "learning_rate": 9.898644143142922e-05,
      "loss": 1.9824,
      "step": 22733
    },
    {
      "epoch": 0.5052,
      "grad_norm": 1.7930593490600586,
      "learning_rate": 9.898199599911092e-05,
      "loss": 2.5117,
      "step": 22734
    },
    {
      "epoch": 0.5052222222222222,
      "grad_norm": 1.5382168292999268,
      "learning_rate": 9.897755056679262e-05,
      "loss": 1.6631,
      "step": 22735
    },
    {
      "epoch": 0.5052444444444445,
      "grad_norm": 1.7529220581054688,
      "learning_rate": 9.897310513447433e-05,
      "loss": 2.0399,
      "step": 22736
    },
    {
      "epoch": 0.5052666666666666,
      "grad_norm": 1.0973622798919678,
      "learning_rate": 9.896865970215604e-05,
      "loss": 0.9178,
      "step": 22737
    },
    {
      "epoch": 0.5052888888888889,
      "grad_norm": 1.7307844161987305,
      "learning_rate": 9.896421426983775e-05,
      "loss": 1.7757,
      "step": 22738
    },
    {
      "epoch": 0.5053111111111112,
      "grad_norm": 1.5379616022109985,
      "learning_rate": 9.895976883751945e-05,
      "loss": 1.5293,
      "step": 22739
    },
    {
      "epoch": 0.5053333333333333,
      "grad_norm": 2.015538454055786,
      "learning_rate": 9.895532340520116e-05,
      "loss": 2.5044,
      "step": 22740
    },
    {
      "epoch": 0.5053555555555556,
      "grad_norm": 1.7827228307724,
      "learning_rate": 9.895087797288286e-05,
      "loss": 2.0218,
      "step": 22741
    },
    {
      "epoch": 0.5053777777777778,
      "grad_norm": 1.8373361825942993,
      "learning_rate": 9.894643254056457e-05,
      "loss": 2.2309,
      "step": 22742
    },
    {
      "epoch": 0.5054,
      "grad_norm": 1.7721765041351318,
      "learning_rate": 9.894198710824628e-05,
      "loss": 2.0005,
      "step": 22743
    },
    {
      "epoch": 0.5054222222222222,
      "grad_norm": 1.556115984916687,
      "learning_rate": 9.8937541675928e-05,
      "loss": 1.6993,
      "step": 22744
    },
    {
      "epoch": 0.5054444444444445,
      "grad_norm": 2.3456661701202393,
      "learning_rate": 9.893309624360969e-05,
      "loss": 2.1908,
      "step": 22745
    },
    {
      "epoch": 0.5054666666666666,
      "grad_norm": 1.873208999633789,
      "learning_rate": 9.89286508112914e-05,
      "loss": 1.9739,
      "step": 22746
    },
    {
      "epoch": 0.5054888888888889,
      "grad_norm": 1.660178542137146,
      "learning_rate": 9.892420537897311e-05,
      "loss": 1.9735,
      "step": 22747
    },
    {
      "epoch": 0.5055111111111111,
      "grad_norm": 1.4493498802185059,
      "learning_rate": 9.891975994665482e-05,
      "loss": 0.8497,
      "step": 22748
    },
    {
      "epoch": 0.5055333333333333,
      "grad_norm": 2.0080113410949707,
      "learning_rate": 9.891531451433651e-05,
      "loss": 1.6187,
      "step": 22749
    },
    {
      "epoch": 0.5055555555555555,
      "grad_norm": 1.6752921342849731,
      "learning_rate": 9.891086908201824e-05,
      "loss": 1.5176,
      "step": 22750
    },
    {
      "epoch": 0.5055777777777778,
      "grad_norm": 1.3793866634368896,
      "learning_rate": 9.890642364969995e-05,
      "loss": 2.536,
      "step": 22751
    },
    {
      "epoch": 0.5056,
      "grad_norm": 0.9247565865516663,
      "learning_rate": 9.890197821738164e-05,
      "loss": 1.199,
      "step": 22752
    },
    {
      "epoch": 0.5056222222222222,
      "grad_norm": 0.4655708968639374,
      "learning_rate": 9.889753278506335e-05,
      "loss": 0.0265,
      "step": 22753
    },
    {
      "epoch": 0.5056444444444445,
      "grad_norm": 1.288374900817871,
      "learning_rate": 9.889308735274506e-05,
      "loss": 1.8203,
      "step": 22754
    },
    {
      "epoch": 0.5056666666666667,
      "grad_norm": 1.4610316753387451,
      "learning_rate": 9.888864192042676e-05,
      "loss": 1.7219,
      "step": 22755
    },
    {
      "epoch": 0.5056888888888889,
      "grad_norm": 1.2290204763412476,
      "learning_rate": 9.888419648810847e-05,
      "loss": 2.0404,
      "step": 22756
    },
    {
      "epoch": 0.5057111111111111,
      "grad_norm": 1.5614376068115234,
      "learning_rate": 9.887975105579018e-05,
      "loss": 2.4369,
      "step": 22757
    },
    {
      "epoch": 0.5057333333333334,
      "grad_norm": 1.460482120513916,
      "learning_rate": 9.887530562347189e-05,
      "loss": 1.6161,
      "step": 22758
    },
    {
      "epoch": 0.5057555555555555,
      "grad_norm": 1.4504663944244385,
      "learning_rate": 9.88708601911536e-05,
      "loss": 1.9351,
      "step": 22759
    },
    {
      "epoch": 0.5057777777777778,
      "grad_norm": 1.4991964101791382,
      "learning_rate": 9.886641475883531e-05,
      "loss": 1.9656,
      "step": 22760
    },
    {
      "epoch": 0.5058,
      "grad_norm": 1.5380586385726929,
      "learning_rate": 9.886196932651702e-05,
      "loss": 2.1794,
      "step": 22761
    },
    {
      "epoch": 0.5058222222222222,
      "grad_norm": 1.3845301866531372,
      "learning_rate": 9.885752389419871e-05,
      "loss": 1.9983,
      "step": 22762
    },
    {
      "epoch": 0.5058444444444444,
      "grad_norm": 1.661169171333313,
      "learning_rate": 9.885307846188042e-05,
      "loss": 2.0666,
      "step": 22763
    },
    {
      "epoch": 0.5058666666666667,
      "grad_norm": 1.4820187091827393,
      "learning_rate": 9.884863302956213e-05,
      "loss": 2.1698,
      "step": 22764
    },
    {
      "epoch": 0.5058888888888889,
      "grad_norm": 1.6008177995681763,
      "learning_rate": 9.884418759724383e-05,
      "loss": 1.9216,
      "step": 22765
    },
    {
      "epoch": 0.5059111111111111,
      "grad_norm": 1.592078447341919,
      "learning_rate": 9.883974216492554e-05,
      "loss": 1.9164,
      "step": 22766
    },
    {
      "epoch": 0.5059333333333333,
      "grad_norm": 1.5317199230194092,
      "learning_rate": 9.883529673260725e-05,
      "loss": 2.1174,
      "step": 22767
    },
    {
      "epoch": 0.5059555555555556,
      "grad_norm": 1.6793125867843628,
      "learning_rate": 9.883085130028896e-05,
      "loss": 2.2005,
      "step": 22768
    },
    {
      "epoch": 0.5059777777777777,
      "grad_norm": 1.6552797555923462,
      "learning_rate": 9.882640586797067e-05,
      "loss": 1.9661,
      "step": 22769
    },
    {
      "epoch": 0.506,
      "grad_norm": 1.7161929607391357,
      "learning_rate": 9.882196043565238e-05,
      "loss": 1.9689,
      "step": 22770
    },
    {
      "epoch": 0.5060222222222223,
      "grad_norm": 1.789031744003296,
      "learning_rate": 9.881751500333409e-05,
      "loss": 1.899,
      "step": 22771
    },
    {
      "epoch": 0.5060444444444444,
      "grad_norm": 1.6074446439743042,
      "learning_rate": 9.881306957101578e-05,
      "loss": 1.7926,
      "step": 22772
    },
    {
      "epoch": 0.5060666666666667,
      "grad_norm": 0.9946810603141785,
      "learning_rate": 9.880862413869749e-05,
      "loss": 0.8338,
      "step": 22773
    },
    {
      "epoch": 0.5060888888888889,
      "grad_norm": 1.7675120830535889,
      "learning_rate": 9.88041787063792e-05,
      "loss": 2.0055,
      "step": 22774
    },
    {
      "epoch": 0.5061111111111111,
      "grad_norm": 2.0041072368621826,
      "learning_rate": 9.87997332740609e-05,
      "loss": 2.2625,
      "step": 22775
    },
    {
      "epoch": 0.5061333333333333,
      "grad_norm": 1.288985252380371,
      "learning_rate": 9.879528784174261e-05,
      "loss": 0.7843,
      "step": 22776
    },
    {
      "epoch": 0.5061555555555556,
      "grad_norm": 1.7123117446899414,
      "learning_rate": 9.879084240942432e-05,
      "loss": 1.937,
      "step": 22777
    },
    {
      "epoch": 0.5061777777777777,
      "grad_norm": 1.807010293006897,
      "learning_rate": 9.878639697710603e-05,
      "loss": 2.1932,
      "step": 22778
    },
    {
      "epoch": 0.5062,
      "grad_norm": 1.531622290611267,
      "learning_rate": 9.878195154478774e-05,
      "loss": 1.9261,
      "step": 22779
    },
    {
      "epoch": 0.5062222222222222,
      "grad_norm": 2.056607484817505,
      "learning_rate": 9.877750611246945e-05,
      "loss": 1.9612,
      "step": 22780
    },
    {
      "epoch": 0.5062444444444445,
      "grad_norm": 1.6225414276123047,
      "learning_rate": 9.877306068015115e-05,
      "loss": 1.6665,
      "step": 22781
    },
    {
      "epoch": 0.5062666666666666,
      "grad_norm": 1.4814167022705078,
      "learning_rate": 9.876861524783285e-05,
      "loss": 1.3507,
      "step": 22782
    },
    {
      "epoch": 0.5062888888888889,
      "grad_norm": 1.4506646394729614,
      "learning_rate": 9.876416981551456e-05,
      "loss": 1.8044,
      "step": 22783
    },
    {
      "epoch": 0.5063111111111112,
      "grad_norm": 1.8536959886550903,
      "learning_rate": 9.875972438319627e-05,
      "loss": 2.3592,
      "step": 22784
    },
    {
      "epoch": 0.5063333333333333,
      "grad_norm": 1.6382076740264893,
      "learning_rate": 9.875527895087798e-05,
      "loss": 1.8402,
      "step": 22785
    },
    {
      "epoch": 0.5063555555555556,
      "grad_norm": 1.6334015130996704,
      "learning_rate": 9.875083351855968e-05,
      "loss": 1.8782,
      "step": 22786
    },
    {
      "epoch": 0.5063777777777778,
      "grad_norm": 1.827166199684143,
      "learning_rate": 9.87463880862414e-05,
      "loss": 2.1662,
      "step": 22787
    },
    {
      "epoch": 0.5064,
      "grad_norm": 1.7776050567626953,
      "learning_rate": 9.874194265392311e-05,
      "loss": 2.079,
      "step": 22788
    },
    {
      "epoch": 0.5064222222222222,
      "grad_norm": 1.846631407737732,
      "learning_rate": 9.87374972216048e-05,
      "loss": 1.982,
      "step": 22789
    },
    {
      "epoch": 0.5064444444444445,
      "grad_norm": 1.6680219173431396,
      "learning_rate": 9.873305178928651e-05,
      "loss": 2.0208,
      "step": 22790
    },
    {
      "epoch": 0.5064666666666666,
      "grad_norm": 1.7138972282409668,
      "learning_rate": 9.872860635696822e-05,
      "loss": 1.71,
      "step": 22791
    },
    {
      "epoch": 0.5064888888888889,
      "grad_norm": 1.7090378999710083,
      "learning_rate": 9.872416092464992e-05,
      "loss": 2.0615,
      "step": 22792
    },
    {
      "epoch": 0.5065111111111111,
      "grad_norm": 1.8609479665756226,
      "learning_rate": 9.871971549233163e-05,
      "loss": 1.8388,
      "step": 22793
    },
    {
      "epoch": 0.5065333333333333,
      "grad_norm": 1.8659356832504272,
      "learning_rate": 9.871527006001334e-05,
      "loss": 1.9024,
      "step": 22794
    },
    {
      "epoch": 0.5065555555555555,
      "grad_norm": 1.8624085187911987,
      "learning_rate": 9.871082462769505e-05,
      "loss": 1.5278,
      "step": 22795
    },
    {
      "epoch": 0.5065777777777778,
      "grad_norm": 1.5581759214401245,
      "learning_rate": 9.870637919537676e-05,
      "loss": 0.8636,
      "step": 22796
    },
    {
      "epoch": 0.5066,
      "grad_norm": 1.6406364440917969,
      "learning_rate": 9.870193376305847e-05,
      "loss": 1.7157,
      "step": 22797
    },
    {
      "epoch": 0.5066222222222222,
      "grad_norm": 1.7858319282531738,
      "learning_rate": 9.869748833074018e-05,
      "loss": 1.531,
      "step": 22798
    },
    {
      "epoch": 0.5066444444444445,
      "grad_norm": 2.389535665512085,
      "learning_rate": 9.869304289842187e-05,
      "loss": 1.4742,
      "step": 22799
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 1.8047800064086914,
      "learning_rate": 9.868859746610358e-05,
      "loss": 1.2337,
      "step": 22800
    },
    {
      "epoch": 0.5066888888888889,
      "grad_norm": 1.6603684425354004,
      "learning_rate": 9.868415203378529e-05,
      "loss": 2.5914,
      "step": 22801
    },
    {
      "epoch": 0.5067111111111111,
      "grad_norm": 1.4568060636520386,
      "learning_rate": 9.867970660146699e-05,
      "loss": 2.217,
      "step": 22802
    },
    {
      "epoch": 0.5067333333333334,
      "grad_norm": 1.485350251197815,
      "learning_rate": 9.86752611691487e-05,
      "loss": 2.0866,
      "step": 22803
    },
    {
      "epoch": 0.5067555555555555,
      "grad_norm": 1.4604307413101196,
      "learning_rate": 9.867081573683041e-05,
      "loss": 2.0562,
      "step": 22804
    },
    {
      "epoch": 0.5067777777777778,
      "grad_norm": 1.4569878578186035,
      "learning_rate": 9.866637030451212e-05,
      "loss": 2.0486,
      "step": 22805
    },
    {
      "epoch": 0.5068,
      "grad_norm": 1.461013674736023,
      "learning_rate": 9.866192487219383e-05,
      "loss": 2.1238,
      "step": 22806
    },
    {
      "epoch": 0.5068222222222222,
      "grad_norm": 1.5466103553771973,
      "learning_rate": 9.865747943987554e-05,
      "loss": 2.2665,
      "step": 22807
    },
    {
      "epoch": 0.5068444444444444,
      "grad_norm": 1.483254075050354,
      "learning_rate": 9.865303400755725e-05,
      "loss": 1.6523,
      "step": 22808
    },
    {
      "epoch": 0.5068666666666667,
      "grad_norm": 1.6462764739990234,
      "learning_rate": 9.864858857523894e-05,
      "loss": 1.6895,
      "step": 22809
    },
    {
      "epoch": 0.5068888888888889,
      "grad_norm": 1.538293480873108,
      "learning_rate": 9.864414314292065e-05,
      "loss": 1.9973,
      "step": 22810
    },
    {
      "epoch": 0.5069111111111111,
      "grad_norm": 1.563602089881897,
      "learning_rate": 9.863969771060236e-05,
      "loss": 1.7994,
      "step": 22811
    },
    {
      "epoch": 0.5069333333333333,
      "grad_norm": 1.3607121706008911,
      "learning_rate": 9.863525227828406e-05,
      "loss": 1.6883,
      "step": 22812
    },
    {
      "epoch": 0.5069555555555556,
      "grad_norm": 2.3145751953125,
      "learning_rate": 9.863080684596577e-05,
      "loss": 2.4247,
      "step": 22813
    },
    {
      "epoch": 0.5069777777777777,
      "grad_norm": 1.693457841873169,
      "learning_rate": 9.862636141364748e-05,
      "loss": 1.9698,
      "step": 22814
    },
    {
      "epoch": 0.507,
      "grad_norm": 2.0944039821624756,
      "learning_rate": 9.862191598132919e-05,
      "loss": 1.947,
      "step": 22815
    },
    {
      "epoch": 0.5070222222222223,
      "grad_norm": 1.4390076398849487,
      "learning_rate": 9.86174705490109e-05,
      "loss": 1.932,
      "step": 22816
    },
    {
      "epoch": 0.5070444444444444,
      "grad_norm": 1.5990055799484253,
      "learning_rate": 9.86130251166926e-05,
      "loss": 2.104,
      "step": 22817
    },
    {
      "epoch": 0.5070666666666667,
      "grad_norm": 1.813244104385376,
      "learning_rate": 9.860857968437432e-05,
      "loss": 1.8457,
      "step": 22818
    },
    {
      "epoch": 0.5070888888888889,
      "grad_norm": 1.668032169342041,
      "learning_rate": 9.860413425205601e-05,
      "loss": 2.275,
      "step": 22819
    },
    {
      "epoch": 0.5071111111111111,
      "grad_norm": 1.6162642240524292,
      "learning_rate": 9.859968881973772e-05,
      "loss": 1.9061,
      "step": 22820
    },
    {
      "epoch": 0.5071333333333333,
      "grad_norm": 1.5347342491149902,
      "learning_rate": 9.859524338741943e-05,
      "loss": 1.7752,
      "step": 22821
    },
    {
      "epoch": 0.5071555555555556,
      "grad_norm": 1.7320057153701782,
      "learning_rate": 9.859079795510113e-05,
      "loss": 1.9209,
      "step": 22822
    },
    {
      "epoch": 0.5071777777777777,
      "grad_norm": 1.8282597064971924,
      "learning_rate": 9.858635252278284e-05,
      "loss": 1.8559,
      "step": 22823
    },
    {
      "epoch": 0.5072,
      "grad_norm": 2.0644466876983643,
      "learning_rate": 9.858190709046456e-05,
      "loss": 2.4488,
      "step": 22824
    },
    {
      "epoch": 0.5072222222222222,
      "grad_norm": 1.4363124370574951,
      "learning_rate": 9.857746165814627e-05,
      "loss": 1.97,
      "step": 22825
    },
    {
      "epoch": 0.5072444444444445,
      "grad_norm": 1.4403867721557617,
      "learning_rate": 9.857301622582797e-05,
      "loss": 1.8827,
      "step": 22826
    },
    {
      "epoch": 0.5072666666666666,
      "grad_norm": 1.618865728378296,
      "learning_rate": 9.856857079350968e-05,
      "loss": 1.3597,
      "step": 22827
    },
    {
      "epoch": 0.5072888888888889,
      "grad_norm": 1.8306567668914795,
      "learning_rate": 9.856412536119139e-05,
      "loss": 1.9862,
      "step": 22828
    },
    {
      "epoch": 0.5073111111111112,
      "grad_norm": 1.5682311058044434,
      "learning_rate": 9.855967992887308e-05,
      "loss": 2.1299,
      "step": 22829
    },
    {
      "epoch": 0.5073333333333333,
      "grad_norm": 1.907923936843872,
      "learning_rate": 9.855523449655479e-05,
      "loss": 2.2278,
      "step": 22830
    },
    {
      "epoch": 0.5073555555555556,
      "grad_norm": 1.64124596118927,
      "learning_rate": 9.85507890642365e-05,
      "loss": 1.8698,
      "step": 22831
    },
    {
      "epoch": 0.5073777777777778,
      "grad_norm": 1.335922122001648,
      "learning_rate": 9.854634363191821e-05,
      "loss": 0.8967,
      "step": 22832
    },
    {
      "epoch": 0.5074,
      "grad_norm": 1.7562651634216309,
      "learning_rate": 9.854189819959992e-05,
      "loss": 2.0043,
      "step": 22833
    },
    {
      "epoch": 0.5074222222222222,
      "grad_norm": 1.5304816961288452,
      "learning_rate": 9.853745276728163e-05,
      "loss": 1.7547,
      "step": 22834
    },
    {
      "epoch": 0.5074444444444445,
      "grad_norm": 1.3523281812667847,
      "learning_rate": 9.853300733496334e-05,
      "loss": 1.5192,
      "step": 22835
    },
    {
      "epoch": 0.5074666666666666,
      "grad_norm": 1.6587005853652954,
      "learning_rate": 9.852856190264503e-05,
      "loss": 1.9902,
      "step": 22836
    },
    {
      "epoch": 0.5074888888888889,
      "grad_norm": 1.9627397060394287,
      "learning_rate": 9.852411647032674e-05,
      "loss": 1.7452,
      "step": 22837
    },
    {
      "epoch": 0.5075111111111111,
      "grad_norm": 1.4220861196517944,
      "learning_rate": 9.851967103800845e-05,
      "loss": 1.6709,
      "step": 22838
    },
    {
      "epoch": 0.5075333333333333,
      "grad_norm": 1.7524380683898926,
      "learning_rate": 9.851522560569015e-05,
      "loss": 1.4553,
      "step": 22839
    },
    {
      "epoch": 0.5075555555555555,
      "grad_norm": 1.7879432439804077,
      "learning_rate": 9.851078017337186e-05,
      "loss": 2.052,
      "step": 22840
    },
    {
      "epoch": 0.5075777777777778,
      "grad_norm": 1.57870614528656,
      "learning_rate": 9.850633474105357e-05,
      "loss": 1.5155,
      "step": 22841
    },
    {
      "epoch": 0.5076,
      "grad_norm": 1.678455114364624,
      "learning_rate": 9.850188930873528e-05,
      "loss": 1.9303,
      "step": 22842
    },
    {
      "epoch": 0.5076222222222222,
      "grad_norm": 1.4828702211380005,
      "learning_rate": 9.849744387641699e-05,
      "loss": 1.7493,
      "step": 22843
    },
    {
      "epoch": 0.5076444444444445,
      "grad_norm": 2.0185372829437256,
      "learning_rate": 9.84929984440987e-05,
      "loss": 2.0124,
      "step": 22844
    },
    {
      "epoch": 0.5076666666666667,
      "grad_norm": 1.9791405200958252,
      "learning_rate": 9.848855301178041e-05,
      "loss": 2.2118,
      "step": 22845
    },
    {
      "epoch": 0.5076888888888889,
      "grad_norm": 1.732524037361145,
      "learning_rate": 9.84841075794621e-05,
      "loss": 1.4141,
      "step": 22846
    },
    {
      "epoch": 0.5077111111111111,
      "grad_norm": 2.001030206680298,
      "learning_rate": 9.847966214714381e-05,
      "loss": 1.775,
      "step": 22847
    },
    {
      "epoch": 0.5077333333333334,
      "grad_norm": 1.7865241765975952,
      "learning_rate": 9.847521671482552e-05,
      "loss": 2.0636,
      "step": 22848
    },
    {
      "epoch": 0.5077555555555555,
      "grad_norm": 1.9003392457962036,
      "learning_rate": 9.847077128250722e-05,
      "loss": 2.1166,
      "step": 22849
    },
    {
      "epoch": 0.5077777777777778,
      "grad_norm": 1.953875184059143,
      "learning_rate": 9.846632585018893e-05,
      "loss": 1.6037,
      "step": 22850
    },
    {
      "epoch": 0.5078,
      "grad_norm": 1.4020556211471558,
      "learning_rate": 9.846188041787064e-05,
      "loss": 2.3149,
      "step": 22851
    },
    {
      "epoch": 0.5078222222222222,
      "grad_norm": 1.4933775663375854,
      "learning_rate": 9.845743498555235e-05,
      "loss": 2.6589,
      "step": 22852
    },
    {
      "epoch": 0.5078444444444444,
      "grad_norm": 1.6533892154693604,
      "learning_rate": 9.845298955323406e-05,
      "loss": 2.3229,
      "step": 22853
    },
    {
      "epoch": 0.5078666666666667,
      "grad_norm": 2.2858686447143555,
      "learning_rate": 9.844854412091577e-05,
      "loss": 2.1031,
      "step": 22854
    },
    {
      "epoch": 0.5078888888888888,
      "grad_norm": 2.3364648818969727,
      "learning_rate": 9.844409868859748e-05,
      "loss": 2.6137,
      "step": 22855
    },
    {
      "epoch": 0.5079111111111111,
      "grad_norm": 2.045485496520996,
      "learning_rate": 9.843965325627917e-05,
      "loss": 2.5668,
      "step": 22856
    },
    {
      "epoch": 0.5079333333333333,
      "grad_norm": 1.571997046470642,
      "learning_rate": 9.843520782396088e-05,
      "loss": 1.833,
      "step": 22857
    },
    {
      "epoch": 0.5079555555555556,
      "grad_norm": 1.0950462818145752,
      "learning_rate": 9.843076239164259e-05,
      "loss": 0.9828,
      "step": 22858
    },
    {
      "epoch": 0.5079777777777778,
      "grad_norm": 1.534745216369629,
      "learning_rate": 9.842631695932429e-05,
      "loss": 2.3148,
      "step": 22859
    },
    {
      "epoch": 0.508,
      "grad_norm": 1.4554039239883423,
      "learning_rate": 9.8421871527006e-05,
      "loss": 1.9401,
      "step": 22860
    },
    {
      "epoch": 0.5080222222222223,
      "grad_norm": 1.4679644107818604,
      "learning_rate": 9.841742609468772e-05,
      "loss": 1.7742,
      "step": 22861
    },
    {
      "epoch": 0.5080444444444444,
      "grad_norm": 1.462907314300537,
      "learning_rate": 9.841298066236943e-05,
      "loss": 2.1208,
      "step": 22862
    },
    {
      "epoch": 0.5080666666666667,
      "grad_norm": 1.349972128868103,
      "learning_rate": 9.840853523005113e-05,
      "loss": 1.7693,
      "step": 22863
    },
    {
      "epoch": 0.5080888888888889,
      "grad_norm": 1.3010532855987549,
      "learning_rate": 9.840408979773284e-05,
      "loss": 1.2779,
      "step": 22864
    },
    {
      "epoch": 0.5081111111111111,
      "grad_norm": 1.778438925743103,
      "learning_rate": 9.839964436541455e-05,
      "loss": 2.2718,
      "step": 22865
    },
    {
      "epoch": 0.5081333333333333,
      "grad_norm": 1.3609575033187866,
      "learning_rate": 9.839519893309624e-05,
      "loss": 1.842,
      "step": 22866
    },
    {
      "epoch": 0.5081555555555556,
      "grad_norm": 1.3719847202301025,
      "learning_rate": 9.839075350077795e-05,
      "loss": 1.7621,
      "step": 22867
    },
    {
      "epoch": 0.5081777777777777,
      "grad_norm": 1.75985848903656,
      "learning_rate": 9.838630806845966e-05,
      "loss": 2.1597,
      "step": 22868
    },
    {
      "epoch": 0.5082,
      "grad_norm": 1.6021108627319336,
      "learning_rate": 9.838186263614137e-05,
      "loss": 1.7585,
      "step": 22869
    },
    {
      "epoch": 0.5082222222222222,
      "grad_norm": 1.5625145435333252,
      "learning_rate": 9.837741720382308e-05,
      "loss": 1.8455,
      "step": 22870
    },
    {
      "epoch": 0.5082444444444445,
      "grad_norm": 1.4653847217559814,
      "learning_rate": 9.837297177150479e-05,
      "loss": 1.5489,
      "step": 22871
    },
    {
      "epoch": 0.5082666666666666,
      "grad_norm": 1.786070704460144,
      "learning_rate": 9.83685263391865e-05,
      "loss": 2.2978,
      "step": 22872
    },
    {
      "epoch": 0.5082888888888889,
      "grad_norm": 1.5264159440994263,
      "learning_rate": 9.83640809068682e-05,
      "loss": 1.727,
      "step": 22873
    },
    {
      "epoch": 0.5083111111111112,
      "grad_norm": 1.5694947242736816,
      "learning_rate": 9.83596354745499e-05,
      "loss": 2.07,
      "step": 22874
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 1.65812349319458,
      "learning_rate": 9.835519004223162e-05,
      "loss": 1.8513,
      "step": 22875
    },
    {
      "epoch": 0.5083555555555556,
      "grad_norm": 1.3259053230285645,
      "learning_rate": 9.835074460991331e-05,
      "loss": 1.8283,
      "step": 22876
    },
    {
      "epoch": 0.5083777777777778,
      "grad_norm": 1.699294924736023,
      "learning_rate": 9.834629917759502e-05,
      "loss": 1.9708,
      "step": 22877
    },
    {
      "epoch": 0.5084,
      "grad_norm": 1.6953245401382446,
      "learning_rate": 9.834185374527673e-05,
      "loss": 2.0451,
      "step": 22878
    },
    {
      "epoch": 0.5084222222222222,
      "grad_norm": 1.488325595855713,
      "learning_rate": 9.833740831295844e-05,
      "loss": 1.7389,
      "step": 22879
    },
    {
      "epoch": 0.5084444444444445,
      "grad_norm": 1.453145146369934,
      "learning_rate": 9.833296288064015e-05,
      "loss": 1.9192,
      "step": 22880
    },
    {
      "epoch": 0.5084666666666666,
      "grad_norm": 1.5782984495162964,
      "learning_rate": 9.832851744832186e-05,
      "loss": 1.4367,
      "step": 22881
    },
    {
      "epoch": 0.5084888888888889,
      "grad_norm": 1.7562049627304077,
      "learning_rate": 9.832407201600357e-05,
      "loss": 1.9949,
      "step": 22882
    },
    {
      "epoch": 0.5085111111111111,
      "grad_norm": 1.8627506494522095,
      "learning_rate": 9.831962658368526e-05,
      "loss": 2.299,
      "step": 22883
    },
    {
      "epoch": 0.5085333333333333,
      "grad_norm": 1.660140037536621,
      "learning_rate": 9.831518115136697e-05,
      "loss": 1.7844,
      "step": 22884
    },
    {
      "epoch": 0.5085555555555555,
      "grad_norm": 1.9441044330596924,
      "learning_rate": 9.831073571904868e-05,
      "loss": 1.8891,
      "step": 22885
    },
    {
      "epoch": 0.5085777777777778,
      "grad_norm": 1.7433816194534302,
      "learning_rate": 9.830629028673038e-05,
      "loss": 1.7922,
      "step": 22886
    },
    {
      "epoch": 0.5086,
      "grad_norm": 2.2884066104888916,
      "learning_rate": 9.830184485441209e-05,
      "loss": 1.5749,
      "step": 22887
    },
    {
      "epoch": 0.5086222222222222,
      "grad_norm": 1.7331091165542603,
      "learning_rate": 9.82973994220938e-05,
      "loss": 2.0003,
      "step": 22888
    },
    {
      "epoch": 0.5086444444444445,
      "grad_norm": 2.0362677574157715,
      "learning_rate": 9.829295398977551e-05,
      "loss": 2.0793,
      "step": 22889
    },
    {
      "epoch": 0.5086666666666667,
      "grad_norm": 2.045729398727417,
      "learning_rate": 9.828850855745722e-05,
      "loss": 1.7026,
      "step": 22890
    },
    {
      "epoch": 0.5086888888888889,
      "grad_norm": 2.0522563457489014,
      "learning_rate": 9.828406312513893e-05,
      "loss": 1.9915,
      "step": 22891
    },
    {
      "epoch": 0.5087111111111111,
      "grad_norm": 5.3348541259765625,
      "learning_rate": 9.827961769282064e-05,
      "loss": 1.9292,
      "step": 22892
    },
    {
      "epoch": 0.5087333333333334,
      "grad_norm": 1.7417895793914795,
      "learning_rate": 9.827517226050233e-05,
      "loss": 1.8637,
      "step": 22893
    },
    {
      "epoch": 0.5087555555555555,
      "grad_norm": 1.7346042394638062,
      "learning_rate": 9.827072682818404e-05,
      "loss": 1.7051,
      "step": 22894
    },
    {
      "epoch": 0.5087777777777778,
      "grad_norm": 1.874619960784912,
      "learning_rate": 9.826628139586575e-05,
      "loss": 2.1582,
      "step": 22895
    },
    {
      "epoch": 0.5088,
      "grad_norm": 2.189819812774658,
      "learning_rate": 9.826183596354745e-05,
      "loss": 1.8427,
      "step": 22896
    },
    {
      "epoch": 0.5088222222222222,
      "grad_norm": 1.7519097328186035,
      "learning_rate": 9.825739053122916e-05,
      "loss": 2.0383,
      "step": 22897
    },
    {
      "epoch": 0.5088444444444444,
      "grad_norm": 2.272891044616699,
      "learning_rate": 9.825294509891088e-05,
      "loss": 2.0015,
      "step": 22898
    },
    {
      "epoch": 0.5088666666666667,
      "grad_norm": 1.9523310661315918,
      "learning_rate": 9.824849966659259e-05,
      "loss": 1.2495,
      "step": 22899
    },
    {
      "epoch": 0.5088888888888888,
      "grad_norm": 0.7294511795043945,
      "learning_rate": 9.824405423427429e-05,
      "loss": 0.239,
      "step": 22900
    },
    {
      "epoch": 0.5089111111111111,
      "grad_norm": 1.2688071727752686,
      "learning_rate": 9.8239608801956e-05,
      "loss": 2.5192,
      "step": 22901
    },
    {
      "epoch": 0.5089333333333333,
      "grad_norm": 1.4804506301879883,
      "learning_rate": 9.823516336963771e-05,
      "loss": 1.8492,
      "step": 22902
    },
    {
      "epoch": 0.5089555555555556,
      "grad_norm": 1.2049707174301147,
      "learning_rate": 9.82307179373194e-05,
      "loss": 1.3116,
      "step": 22903
    },
    {
      "epoch": 0.5089777777777778,
      "grad_norm": 1.6208577156066895,
      "learning_rate": 9.822627250500111e-05,
      "loss": 2.4064,
      "step": 22904
    },
    {
      "epoch": 0.509,
      "grad_norm": 1.3767502307891846,
      "learning_rate": 9.822182707268282e-05,
      "loss": 2.2672,
      "step": 22905
    },
    {
      "epoch": 0.5090222222222223,
      "grad_norm": 1.510108470916748,
      "learning_rate": 9.821738164036453e-05,
      "loss": 2.0712,
      "step": 22906
    },
    {
      "epoch": 0.5090444444444444,
      "grad_norm": 1.5649434328079224,
      "learning_rate": 9.821293620804624e-05,
      "loss": 2.4183,
      "step": 22907
    },
    {
      "epoch": 0.5090666666666667,
      "grad_norm": 1.846688151359558,
      "learning_rate": 9.820849077572795e-05,
      "loss": 2.3069,
      "step": 22908
    },
    {
      "epoch": 0.5090888888888889,
      "grad_norm": 1.5089644193649292,
      "learning_rate": 9.820404534340966e-05,
      "loss": 2.3215,
      "step": 22909
    },
    {
      "epoch": 0.5091111111111111,
      "grad_norm": 1.446662425994873,
      "learning_rate": 9.819959991109136e-05,
      "loss": 2.5671,
      "step": 22910
    },
    {
      "epoch": 0.5091333333333333,
      "grad_norm": 1.2825648784637451,
      "learning_rate": 9.819515447877307e-05,
      "loss": 1.2225,
      "step": 22911
    },
    {
      "epoch": 0.5091555555555556,
      "grad_norm": 1.2497122287750244,
      "learning_rate": 9.819070904645478e-05,
      "loss": 1.5665,
      "step": 22912
    },
    {
      "epoch": 0.5091777777777777,
      "grad_norm": 1.9548873901367188,
      "learning_rate": 9.818626361413647e-05,
      "loss": 2.1785,
      "step": 22913
    },
    {
      "epoch": 0.5092,
      "grad_norm": 1.672981858253479,
      "learning_rate": 9.818181818181818e-05,
      "loss": 2.3298,
      "step": 22914
    },
    {
      "epoch": 0.5092222222222222,
      "grad_norm": 1.774196743965149,
      "learning_rate": 9.817737274949989e-05,
      "loss": 1.9273,
      "step": 22915
    },
    {
      "epoch": 0.5092444444444445,
      "grad_norm": 1.7475911378860474,
      "learning_rate": 9.81729273171816e-05,
      "loss": 2.1462,
      "step": 22916
    },
    {
      "epoch": 0.5092666666666666,
      "grad_norm": 1.7171202898025513,
      "learning_rate": 9.816848188486331e-05,
      "loss": 1.9642,
      "step": 22917
    },
    {
      "epoch": 0.5092888888888889,
      "grad_norm": 1.6471742391586304,
      "learning_rate": 9.816403645254502e-05,
      "loss": 2.0066,
      "step": 22918
    },
    {
      "epoch": 0.5093111111111112,
      "grad_norm": 1.7809935808181763,
      "learning_rate": 9.815959102022673e-05,
      "loss": 1.794,
      "step": 22919
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 1.8511406183242798,
      "learning_rate": 9.815514558790843e-05,
      "loss": 2.1155,
      "step": 22920
    },
    {
      "epoch": 0.5093555555555556,
      "grad_norm": 1.6928319931030273,
      "learning_rate": 9.815070015559014e-05,
      "loss": 2.0904,
      "step": 22921
    },
    {
      "epoch": 0.5093777777777778,
      "grad_norm": 1.6495857238769531,
      "learning_rate": 9.814625472327185e-05,
      "loss": 1.9587,
      "step": 22922
    },
    {
      "epoch": 0.5094,
      "grad_norm": 1.7870267629623413,
      "learning_rate": 9.814180929095354e-05,
      "loss": 2.3098,
      "step": 22923
    },
    {
      "epoch": 0.5094222222222222,
      "grad_norm": 1.4853159189224243,
      "learning_rate": 9.813736385863525e-05,
      "loss": 1.7774,
      "step": 22924
    },
    {
      "epoch": 0.5094444444444445,
      "grad_norm": 1.1189208030700684,
      "learning_rate": 9.813291842631696e-05,
      "loss": 0.9834,
      "step": 22925
    },
    {
      "epoch": 0.5094666666666666,
      "grad_norm": 1.9472378492355347,
      "learning_rate": 9.812847299399867e-05,
      "loss": 2.175,
      "step": 22926
    },
    {
      "epoch": 0.5094888888888889,
      "grad_norm": 1.9348188638687134,
      "learning_rate": 9.812402756168038e-05,
      "loss": 2.2497,
      "step": 22927
    },
    {
      "epoch": 0.5095111111111111,
      "grad_norm": 1.9071909189224243,
      "learning_rate": 9.811958212936209e-05,
      "loss": 1.9945,
      "step": 22928
    },
    {
      "epoch": 0.5095333333333333,
      "grad_norm": 1.5124977827072144,
      "learning_rate": 9.81151366970438e-05,
      "loss": 2.2276,
      "step": 22929
    },
    {
      "epoch": 0.5095555555555555,
      "grad_norm": 1.9876453876495361,
      "learning_rate": 9.81106912647255e-05,
      "loss": 2.325,
      "step": 22930
    },
    {
      "epoch": 0.5095777777777778,
      "grad_norm": 1.7098299264907837,
      "learning_rate": 9.81062458324072e-05,
      "loss": 1.7675,
      "step": 22931
    },
    {
      "epoch": 0.5096,
      "grad_norm": 1.60735023021698,
      "learning_rate": 9.810180040008891e-05,
      "loss": 2.1786,
      "step": 22932
    },
    {
      "epoch": 0.5096222222222222,
      "grad_norm": 1.4715970754623413,
      "learning_rate": 9.809735496777061e-05,
      "loss": 1.7371,
      "step": 22933
    },
    {
      "epoch": 0.5096444444444445,
      "grad_norm": 1.5409586429595947,
      "learning_rate": 9.809290953545232e-05,
      "loss": 1.8905,
      "step": 22934
    },
    {
      "epoch": 0.5096666666666667,
      "grad_norm": 1.6075735092163086,
      "learning_rate": 9.808846410313404e-05,
      "loss": 0.6831,
      "step": 22935
    },
    {
      "epoch": 0.5096888888888889,
      "grad_norm": 1.4512864351272583,
      "learning_rate": 9.808401867081574e-05,
      "loss": 1.5406,
      "step": 22936
    },
    {
      "epoch": 0.5097111111111111,
      "grad_norm": 1.6435214281082153,
      "learning_rate": 9.807957323849745e-05,
      "loss": 2.1879,
      "step": 22937
    },
    {
      "epoch": 0.5097333333333334,
      "grad_norm": 1.5156505107879639,
      "learning_rate": 9.807512780617916e-05,
      "loss": 1.4633,
      "step": 22938
    },
    {
      "epoch": 0.5097555555555555,
      "grad_norm": 1.3738712072372437,
      "learning_rate": 9.807068237386087e-05,
      "loss": 1.6876,
      "step": 22939
    },
    {
      "epoch": 0.5097777777777778,
      "grad_norm": 2.4741978645324707,
      "learning_rate": 9.806623694154256e-05,
      "loss": 2.128,
      "step": 22940
    },
    {
      "epoch": 0.5098,
      "grad_norm": 1.722565770149231,
      "learning_rate": 9.806179150922427e-05,
      "loss": 1.4641,
      "step": 22941
    },
    {
      "epoch": 0.5098222222222222,
      "grad_norm": 1.8699474334716797,
      "learning_rate": 9.805734607690598e-05,
      "loss": 2.106,
      "step": 22942
    },
    {
      "epoch": 0.5098444444444444,
      "grad_norm": 1.489395022392273,
      "learning_rate": 9.805290064458769e-05,
      "loss": 1.4652,
      "step": 22943
    },
    {
      "epoch": 0.5098666666666667,
      "grad_norm": 1.9612679481506348,
      "learning_rate": 9.80484552122694e-05,
      "loss": 1.6481,
      "step": 22944
    },
    {
      "epoch": 0.5098888888888888,
      "grad_norm": 1.3956401348114014,
      "learning_rate": 9.804400977995111e-05,
      "loss": 1.4483,
      "step": 22945
    },
    {
      "epoch": 0.5099111111111111,
      "grad_norm": 1.6371499300003052,
      "learning_rate": 9.803956434763282e-05,
      "loss": 0.7415,
      "step": 22946
    },
    {
      "epoch": 0.5099333333333333,
      "grad_norm": 2.480607271194458,
      "learning_rate": 9.803511891531452e-05,
      "loss": 1.7574,
      "step": 22947
    },
    {
      "epoch": 0.5099555555555556,
      "grad_norm": 1.675282597541809,
      "learning_rate": 9.803067348299623e-05,
      "loss": 1.7542,
      "step": 22948
    },
    {
      "epoch": 0.5099777777777778,
      "grad_norm": 1.815335750579834,
      "learning_rate": 9.802622805067794e-05,
      "loss": 1.5801,
      "step": 22949
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7481966018676758,
      "learning_rate": 9.802178261835963e-05,
      "loss": 1.4952,
      "step": 22950
    },
    {
      "epoch": 0.5100222222222223,
      "grad_norm": 1.4392369985580444,
      "learning_rate": 9.801733718604134e-05,
      "loss": 2.3239,
      "step": 22951
    },
    {
      "epoch": 0.5100444444444444,
      "grad_norm": 1.4146201610565186,
      "learning_rate": 9.801289175372305e-05,
      "loss": 2.4714,
      "step": 22952
    },
    {
      "epoch": 0.5100666666666667,
      "grad_norm": 1.7083793878555298,
      "learning_rate": 9.800844632140476e-05,
      "loss": 2.6639,
      "step": 22953
    },
    {
      "epoch": 0.5100888888888889,
      "grad_norm": 1.6575005054473877,
      "learning_rate": 9.800400088908647e-05,
      "loss": 2.6025,
      "step": 22954
    },
    {
      "epoch": 0.5101111111111111,
      "grad_norm": 1.360453724861145,
      "learning_rate": 9.799955545676818e-05,
      "loss": 2.1064,
      "step": 22955
    },
    {
      "epoch": 0.5101333333333333,
      "grad_norm": 1.592871904373169,
      "learning_rate": 9.799511002444989e-05,
      "loss": 2.4558,
      "step": 22956
    },
    {
      "epoch": 0.5101555555555556,
      "grad_norm": 1.585853934288025,
      "learning_rate": 9.799066459213159e-05,
      "loss": 1.9909,
      "step": 22957
    },
    {
      "epoch": 0.5101777777777777,
      "grad_norm": 1.3064993619918823,
      "learning_rate": 9.79862191598133e-05,
      "loss": 1.6103,
      "step": 22958
    },
    {
      "epoch": 0.5102,
      "grad_norm": 0.18474498391151428,
      "learning_rate": 9.7981773727495e-05,
      "loss": 0.0186,
      "step": 22959
    },
    {
      "epoch": 0.5102222222222222,
      "grad_norm": 1.9111696481704712,
      "learning_rate": 9.79773282951767e-05,
      "loss": 1.8501,
      "step": 22960
    },
    {
      "epoch": 0.5102444444444444,
      "grad_norm": 1.6869380474090576,
      "learning_rate": 9.797288286285841e-05,
      "loss": 2.2419,
      "step": 22961
    },
    {
      "epoch": 0.5102666666666666,
      "grad_norm": 2.0075228214263916,
      "learning_rate": 9.796843743054012e-05,
      "loss": 2.1123,
      "step": 22962
    },
    {
      "epoch": 0.5102888888888889,
      "grad_norm": 1.5354845523834229,
      "learning_rate": 9.796399199822183e-05,
      "loss": 1.9893,
      "step": 22963
    },
    {
      "epoch": 0.5103111111111112,
      "grad_norm": 1.4463913440704346,
      "learning_rate": 9.795954656590354e-05,
      "loss": 1.4743,
      "step": 22964
    },
    {
      "epoch": 0.5103333333333333,
      "grad_norm": 2.891706705093384,
      "learning_rate": 9.795510113358525e-05,
      "loss": 1.7169,
      "step": 22965
    },
    {
      "epoch": 0.5103555555555556,
      "grad_norm": 1.4385595321655273,
      "learning_rate": 9.795065570126696e-05,
      "loss": 2.1101,
      "step": 22966
    },
    {
      "epoch": 0.5103777777777778,
      "grad_norm": 1.8216251134872437,
      "learning_rate": 9.794621026894866e-05,
      "loss": 2.2931,
      "step": 22967
    },
    {
      "epoch": 0.5104,
      "grad_norm": 1.359257698059082,
      "learning_rate": 9.794176483663037e-05,
      "loss": 1.6601,
      "step": 22968
    },
    {
      "epoch": 0.5104222222222222,
      "grad_norm": 1.7814412117004395,
      "learning_rate": 9.793731940431208e-05,
      "loss": 1.9733,
      "step": 22969
    },
    {
      "epoch": 0.5104444444444445,
      "grad_norm": 1.6057467460632324,
      "learning_rate": 9.793287397199377e-05,
      "loss": 1.8599,
      "step": 22970
    },
    {
      "epoch": 0.5104666666666666,
      "grad_norm": 2.035155773162842,
      "learning_rate": 9.792842853967548e-05,
      "loss": 2.2411,
      "step": 22971
    },
    {
      "epoch": 0.5104888888888889,
      "grad_norm": 1.805794358253479,
      "learning_rate": 9.79239831073572e-05,
      "loss": 2.5568,
      "step": 22972
    },
    {
      "epoch": 0.5105111111111111,
      "grad_norm": 1.463555932044983,
      "learning_rate": 9.79195376750389e-05,
      "loss": 1.6906,
      "step": 22973
    },
    {
      "epoch": 0.5105333333333333,
      "grad_norm": 1.7146354913711548,
      "learning_rate": 9.791509224272061e-05,
      "loss": 2.3886,
      "step": 22974
    },
    {
      "epoch": 0.5105555555555555,
      "grad_norm": 1.5528552532196045,
      "learning_rate": 9.791064681040232e-05,
      "loss": 1.8479,
      "step": 22975
    },
    {
      "epoch": 0.5105777777777778,
      "grad_norm": 1.731376051902771,
      "learning_rate": 9.790620137808403e-05,
      "loss": 1.6162,
      "step": 22976
    },
    {
      "epoch": 0.5106,
      "grad_norm": 1.6410503387451172,
      "learning_rate": 9.790175594576573e-05,
      "loss": 1.878,
      "step": 22977
    },
    {
      "epoch": 0.5106222222222222,
      "grad_norm": 1.8906491994857788,
      "learning_rate": 9.789731051344743e-05,
      "loss": 2.2937,
      "step": 22978
    },
    {
      "epoch": 0.5106444444444445,
      "grad_norm": 1.555052638053894,
      "learning_rate": 9.789286508112914e-05,
      "loss": 1.6684,
      "step": 22979
    },
    {
      "epoch": 0.5106666666666667,
      "grad_norm": 1.74234938621521,
      "learning_rate": 9.788841964881085e-05,
      "loss": 2.3391,
      "step": 22980
    },
    {
      "epoch": 0.5106888888888889,
      "grad_norm": 3.585895538330078,
      "learning_rate": 9.788397421649256e-05,
      "loss": 1.191,
      "step": 22981
    },
    {
      "epoch": 0.5107111111111111,
      "grad_norm": 1.647806167602539,
      "learning_rate": 9.787952878417427e-05,
      "loss": 2.1855,
      "step": 22982
    },
    {
      "epoch": 0.5107333333333334,
      "grad_norm": 1.8240159749984741,
      "learning_rate": 9.787508335185597e-05,
      "loss": 1.9948,
      "step": 22983
    },
    {
      "epoch": 0.5107555555555555,
      "grad_norm": 1.4752856492996216,
      "learning_rate": 9.787063791953768e-05,
      "loss": 1.8151,
      "step": 22984
    },
    {
      "epoch": 0.5107777777777778,
      "grad_norm": 1.581908106803894,
      "learning_rate": 9.786619248721939e-05,
      "loss": 1.8709,
      "step": 22985
    },
    {
      "epoch": 0.5108,
      "grad_norm": 1.4316327571868896,
      "learning_rate": 9.78617470549011e-05,
      "loss": 1.4097,
      "step": 22986
    },
    {
      "epoch": 0.5108222222222222,
      "grad_norm": 2.8164548873901367,
      "learning_rate": 9.78573016225828e-05,
      "loss": 2.187,
      "step": 22987
    },
    {
      "epoch": 0.5108444444444444,
      "grad_norm": 1.7959791421890259,
      "learning_rate": 9.78528561902645e-05,
      "loss": 2.2415,
      "step": 22988
    },
    {
      "epoch": 0.5108666666666667,
      "grad_norm": 2.1436023712158203,
      "learning_rate": 9.784841075794621e-05,
      "loss": 1.8719,
      "step": 22989
    },
    {
      "epoch": 0.5108888888888888,
      "grad_norm": 1.8205732107162476,
      "learning_rate": 9.784396532562792e-05,
      "loss": 1.9352,
      "step": 22990
    },
    {
      "epoch": 0.5109111111111111,
      "grad_norm": 2.2879674434661865,
      "learning_rate": 9.783951989330963e-05,
      "loss": 2.1333,
      "step": 22991
    },
    {
      "epoch": 0.5109333333333334,
      "grad_norm": 1.5966124534606934,
      "learning_rate": 9.783507446099134e-05,
      "loss": 1.9751,
      "step": 22992
    },
    {
      "epoch": 0.5109555555555556,
      "grad_norm": 1.4446803331375122,
      "learning_rate": 9.783062902867305e-05,
      "loss": 1.5922,
      "step": 22993
    },
    {
      "epoch": 0.5109777777777778,
      "grad_norm": 1.8930996656417847,
      "learning_rate": 9.782618359635475e-05,
      "loss": 1.5106,
      "step": 22994
    },
    {
      "epoch": 0.511,
      "grad_norm": 1.8620328903198242,
      "learning_rate": 9.782173816403646e-05,
      "loss": 1.6654,
      "step": 22995
    },
    {
      "epoch": 0.5110222222222223,
      "grad_norm": 1.5781047344207764,
      "learning_rate": 9.781729273171817e-05,
      "loss": 1.8981,
      "step": 22996
    },
    {
      "epoch": 0.5110444444444444,
      "grad_norm": 1.4393874406814575,
      "learning_rate": 9.781284729939986e-05,
      "loss": 1.381,
      "step": 22997
    },
    {
      "epoch": 0.5110666666666667,
      "grad_norm": 2.0102810859680176,
      "learning_rate": 9.780840186708157e-05,
      "loss": 2.3614,
      "step": 22998
    },
    {
      "epoch": 0.5110888888888889,
      "grad_norm": 1.4878044128417969,
      "learning_rate": 9.780395643476328e-05,
      "loss": 1.2618,
      "step": 22999
    },
    {
      "epoch": 0.5111111111111111,
      "grad_norm": 2.2894065380096436,
      "learning_rate": 9.779951100244499e-05,
      "loss": 1.7491,
      "step": 23000
    },
    {
      "epoch": 0.5111333333333333,
      "grad_norm": 1.1956069469451904,
      "learning_rate": 9.77950655701267e-05,
      "loss": 2.2941,
      "step": 23001
    },
    {
      "epoch": 0.5111555555555556,
      "grad_norm": 1.505369782447815,
      "learning_rate": 9.779062013780841e-05,
      "loss": 2.4236,
      "step": 23002
    },
    {
      "epoch": 0.5111777777777777,
      "grad_norm": 1.2297368049621582,
      "learning_rate": 9.778617470549012e-05,
      "loss": 1.1426,
      "step": 23003
    },
    {
      "epoch": 0.5112,
      "grad_norm": 1.9977338314056396,
      "learning_rate": 9.778172927317182e-05,
      "loss": 1.1843,
      "step": 23004
    },
    {
      "epoch": 0.5112222222222222,
      "grad_norm": 0.8861866593360901,
      "learning_rate": 9.777728384085353e-05,
      "loss": 1.1458,
      "step": 23005
    },
    {
      "epoch": 0.5112444444444444,
      "grad_norm": 1.6658333539962769,
      "learning_rate": 9.777283840853524e-05,
      "loss": 2.2368,
      "step": 23006
    },
    {
      "epoch": 0.5112666666666666,
      "grad_norm": 1.6477097272872925,
      "learning_rate": 9.776839297621693e-05,
      "loss": 2.1606,
      "step": 23007
    },
    {
      "epoch": 0.5112888888888889,
      "grad_norm": 1.682665228843689,
      "learning_rate": 9.776394754389864e-05,
      "loss": 2.3724,
      "step": 23008
    },
    {
      "epoch": 0.5113111111111112,
      "grad_norm": 1.7604362964630127,
      "learning_rate": 9.775950211158037e-05,
      "loss": 2.2669,
      "step": 23009
    },
    {
      "epoch": 0.5113333333333333,
      "grad_norm": 1.6250029802322388,
      "learning_rate": 9.775505667926206e-05,
      "loss": 2.0081,
      "step": 23010
    },
    {
      "epoch": 0.5113555555555556,
      "grad_norm": 1.5996084213256836,
      "learning_rate": 9.775061124694377e-05,
      "loss": 2.5124,
      "step": 23011
    },
    {
      "epoch": 0.5113777777777778,
      "grad_norm": 1.4683916568756104,
      "learning_rate": 9.774616581462548e-05,
      "loss": 1.6736,
      "step": 23012
    },
    {
      "epoch": 0.5114,
      "grad_norm": 1.3675564527511597,
      "learning_rate": 9.774172038230719e-05,
      "loss": 1.8582,
      "step": 23013
    },
    {
      "epoch": 0.5114222222222222,
      "grad_norm": 1.5960406064987183,
      "learning_rate": 9.773727494998889e-05,
      "loss": 1.9987,
      "step": 23014
    },
    {
      "epoch": 0.5114444444444445,
      "grad_norm": 1.5617033243179321,
      "learning_rate": 9.77328295176706e-05,
      "loss": 1.4988,
      "step": 23015
    },
    {
      "epoch": 0.5114666666666666,
      "grad_norm": 1.810428261756897,
      "learning_rate": 9.77283840853523e-05,
      "loss": 2.3359,
      "step": 23016
    },
    {
      "epoch": 0.5114888888888889,
      "grad_norm": 1.6250826120376587,
      "learning_rate": 9.772393865303402e-05,
      "loss": 2.0489,
      "step": 23017
    },
    {
      "epoch": 0.5115111111111111,
      "grad_norm": 1.951767921447754,
      "learning_rate": 9.771949322071572e-05,
      "loss": 2.0653,
      "step": 23018
    },
    {
      "epoch": 0.5115333333333333,
      "grad_norm": 1.6854490041732788,
      "learning_rate": 9.771504778839743e-05,
      "loss": 2.2674,
      "step": 23019
    },
    {
      "epoch": 0.5115555555555555,
      "grad_norm": 1.4744360446929932,
      "learning_rate": 9.771060235607913e-05,
      "loss": 2.3615,
      "step": 23020
    },
    {
      "epoch": 0.5115777777777778,
      "grad_norm": 1.6478310823440552,
      "learning_rate": 9.770615692376084e-05,
      "loss": 2.0291,
      "step": 23021
    },
    {
      "epoch": 0.5116,
      "grad_norm": 1.5129934549331665,
      "learning_rate": 9.770171149144255e-05,
      "loss": 1.7646,
      "step": 23022
    },
    {
      "epoch": 0.5116222222222222,
      "grad_norm": 1.4559606313705444,
      "learning_rate": 9.769726605912426e-05,
      "loss": 2.0644,
      "step": 23023
    },
    {
      "epoch": 0.5116444444444445,
      "grad_norm": 1.573291301727295,
      "learning_rate": 9.769282062680596e-05,
      "loss": 2.1093,
      "step": 23024
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 1.825655221939087,
      "learning_rate": 9.768837519448766e-05,
      "loss": 1.6708,
      "step": 23025
    },
    {
      "epoch": 0.5116888888888889,
      "grad_norm": 1.5944397449493408,
      "learning_rate": 9.768392976216937e-05,
      "loss": 1.7857,
      "step": 23026
    },
    {
      "epoch": 0.5117111111111111,
      "grad_norm": 1.6856037378311157,
      "learning_rate": 9.767948432985108e-05,
      "loss": 2.1133,
      "step": 23027
    },
    {
      "epoch": 0.5117333333333334,
      "grad_norm": 1.5395984649658203,
      "learning_rate": 9.76750388975328e-05,
      "loss": 2.1036,
      "step": 23028
    },
    {
      "epoch": 0.5117555555555555,
      "grad_norm": 1.5495089292526245,
      "learning_rate": 9.76705934652145e-05,
      "loss": 1.4606,
      "step": 23029
    },
    {
      "epoch": 0.5117777777777778,
      "grad_norm": 1.7096775770187378,
      "learning_rate": 9.76661480328962e-05,
      "loss": 1.5889,
      "step": 23030
    },
    {
      "epoch": 0.5118,
      "grad_norm": 1.8691035509109497,
      "learning_rate": 9.766170260057791e-05,
      "loss": 1.7459,
      "step": 23031
    },
    {
      "epoch": 0.5118222222222222,
      "grad_norm": 1.5652011632919312,
      "learning_rate": 9.765725716825962e-05,
      "loss": 2.0997,
      "step": 23032
    },
    {
      "epoch": 0.5118444444444444,
      "grad_norm": 1.5696512460708618,
      "learning_rate": 9.765281173594133e-05,
      "loss": 1.7491,
      "step": 23033
    },
    {
      "epoch": 0.5118666666666667,
      "grad_norm": 1.1491954326629639,
      "learning_rate": 9.764836630362302e-05,
      "loss": 0.5405,
      "step": 23034
    },
    {
      "epoch": 0.5118888888888888,
      "grad_norm": 1.7667309045791626,
      "learning_rate": 9.764392087130473e-05,
      "loss": 1.8492,
      "step": 23035
    },
    {
      "epoch": 0.5119111111111111,
      "grad_norm": 1.884093165397644,
      "learning_rate": 9.763947543898644e-05,
      "loss": 1.4376,
      "step": 23036
    },
    {
      "epoch": 0.5119333333333334,
      "grad_norm": 1.7246997356414795,
      "learning_rate": 9.763503000666815e-05,
      "loss": 1.8284,
      "step": 23037
    },
    {
      "epoch": 0.5119555555555556,
      "grad_norm": 1.6312922239303589,
      "learning_rate": 9.763058457434986e-05,
      "loss": 1.9378,
      "step": 23038
    },
    {
      "epoch": 0.5119777777777778,
      "grad_norm": 1.6517655849456787,
      "learning_rate": 9.762613914203157e-05,
      "loss": 1.6749,
      "step": 23039
    },
    {
      "epoch": 0.512,
      "grad_norm": 2.0079166889190674,
      "learning_rate": 9.762169370971327e-05,
      "loss": 2.0965,
      "step": 23040
    },
    {
      "epoch": 0.5120222222222223,
      "grad_norm": 2.4205398559570312,
      "learning_rate": 9.761724827739498e-05,
      "loss": 1.7885,
      "step": 23041
    },
    {
      "epoch": 0.5120444444444444,
      "grad_norm": 2.2173893451690674,
      "learning_rate": 9.761280284507669e-05,
      "loss": 2.2166,
      "step": 23042
    },
    {
      "epoch": 0.5120666666666667,
      "grad_norm": 1.5996383428573608,
      "learning_rate": 9.76083574127584e-05,
      "loss": 1.6511,
      "step": 23043
    },
    {
      "epoch": 0.5120888888888889,
      "grad_norm": 2.185760259628296,
      "learning_rate": 9.76039119804401e-05,
      "loss": 1.8746,
      "step": 23044
    },
    {
      "epoch": 0.5121111111111111,
      "grad_norm": 1.7386174201965332,
      "learning_rate": 9.75994665481218e-05,
      "loss": 1.9772,
      "step": 23045
    },
    {
      "epoch": 0.5121333333333333,
      "grad_norm": 2.3399758338928223,
      "learning_rate": 9.759502111580353e-05,
      "loss": 1.9836,
      "step": 23046
    },
    {
      "epoch": 0.5121555555555556,
      "grad_norm": 1.8586093187332153,
      "learning_rate": 9.759057568348522e-05,
      "loss": 2.1432,
      "step": 23047
    },
    {
      "epoch": 0.5121777777777777,
      "grad_norm": 1.536559820175171,
      "learning_rate": 9.758613025116693e-05,
      "loss": 0.9567,
      "step": 23048
    },
    {
      "epoch": 0.5122,
      "grad_norm": 2.0590546131134033,
      "learning_rate": 9.758168481884864e-05,
      "loss": 1.715,
      "step": 23049
    },
    {
      "epoch": 0.5122222222222222,
      "grad_norm": 1.823835015296936,
      "learning_rate": 9.757723938653035e-05,
      "loss": 1.4058,
      "step": 23050
    },
    {
      "epoch": 0.5122444444444444,
      "grad_norm": 1.545039176940918,
      "learning_rate": 9.757279395421205e-05,
      "loss": 2.6054,
      "step": 23051
    },
    {
      "epoch": 0.5122666666666666,
      "grad_norm": 1.8955223560333252,
      "learning_rate": 9.756834852189376e-05,
      "loss": 2.7917,
      "step": 23052
    },
    {
      "epoch": 0.5122888888888889,
      "grad_norm": 1.4482182264328003,
      "learning_rate": 9.756390308957547e-05,
      "loss": 2.7428,
      "step": 23053
    },
    {
      "epoch": 0.5123111111111112,
      "grad_norm": 1.6049336194992065,
      "learning_rate": 9.755945765725718e-05,
      "loss": 2.0819,
      "step": 23054
    },
    {
      "epoch": 0.5123333333333333,
      "grad_norm": 1.4779945611953735,
      "learning_rate": 9.755501222493889e-05,
      "loss": 2.147,
      "step": 23055
    },
    {
      "epoch": 0.5123555555555556,
      "grad_norm": 1.4021011590957642,
      "learning_rate": 9.75505667926206e-05,
      "loss": 2.2792,
      "step": 23056
    },
    {
      "epoch": 0.5123777777777778,
      "grad_norm": 1.5466879606246948,
      "learning_rate": 9.754612136030229e-05,
      "loss": 1.9641,
      "step": 23057
    },
    {
      "epoch": 0.5124,
      "grad_norm": 1.654787540435791,
      "learning_rate": 9.7541675927984e-05,
      "loss": 2.4547,
      "step": 23058
    },
    {
      "epoch": 0.5124222222222222,
      "grad_norm": 1.539131999015808,
      "learning_rate": 9.753723049566571e-05,
      "loss": 1.8135,
      "step": 23059
    },
    {
      "epoch": 0.5124444444444445,
      "grad_norm": 1.3426320552825928,
      "learning_rate": 9.753278506334742e-05,
      "loss": 1.8236,
      "step": 23060
    },
    {
      "epoch": 0.5124666666666666,
      "grad_norm": 1.8220237493515015,
      "learning_rate": 9.752833963102912e-05,
      "loss": 1.8887,
      "step": 23061
    },
    {
      "epoch": 0.5124888888888889,
      "grad_norm": 1.6138502359390259,
      "learning_rate": 9.752389419871083e-05,
      "loss": 1.6647,
      "step": 23062
    },
    {
      "epoch": 0.5125111111111111,
      "grad_norm": 1.613146185874939,
      "learning_rate": 9.751944876639254e-05,
      "loss": 2.2134,
      "step": 23063
    },
    {
      "epoch": 0.5125333333333333,
      "grad_norm": 1.6184555292129517,
      "learning_rate": 9.751500333407425e-05,
      "loss": 2.0955,
      "step": 23064
    },
    {
      "epoch": 0.5125555555555555,
      "grad_norm": 1.709598422050476,
      "learning_rate": 9.751055790175595e-05,
      "loss": 1.6483,
      "step": 23065
    },
    {
      "epoch": 0.5125777777777778,
      "grad_norm": 2.306786298751831,
      "learning_rate": 9.750611246943766e-05,
      "loss": 2.7155,
      "step": 23066
    },
    {
      "epoch": 0.5126,
      "grad_norm": 1.6708242893218994,
      "learning_rate": 9.750166703711936e-05,
      "loss": 2.0043,
      "step": 23067
    },
    {
      "epoch": 0.5126222222222222,
      "grad_norm": 1.7249809503555298,
      "learning_rate": 9.749722160480107e-05,
      "loss": 1.9506,
      "step": 23068
    },
    {
      "epoch": 0.5126444444444445,
      "grad_norm": 2.007690191268921,
      "learning_rate": 9.749277617248278e-05,
      "loss": 1.8492,
      "step": 23069
    },
    {
      "epoch": 0.5126666666666667,
      "grad_norm": 1.6750630140304565,
      "learning_rate": 9.748833074016449e-05,
      "loss": 1.5808,
      "step": 23070
    },
    {
      "epoch": 0.5126888888888889,
      "grad_norm": 1.5687074661254883,
      "learning_rate": 9.748388530784619e-05,
      "loss": 1.8808,
      "step": 23071
    },
    {
      "epoch": 0.5127111111111111,
      "grad_norm": 1.592808485031128,
      "learning_rate": 9.74794398755279e-05,
      "loss": 1.8051,
      "step": 23072
    },
    {
      "epoch": 0.5127333333333334,
      "grad_norm": 1.8086460828781128,
      "learning_rate": 9.74749944432096e-05,
      "loss": 2.0848,
      "step": 23073
    },
    {
      "epoch": 0.5127555555555555,
      "grad_norm": 1.4344861507415771,
      "learning_rate": 9.747054901089131e-05,
      "loss": 1.6719,
      "step": 23074
    },
    {
      "epoch": 0.5127777777777778,
      "grad_norm": 1.7158581018447876,
      "learning_rate": 9.746610357857302e-05,
      "loss": 1.6518,
      "step": 23075
    },
    {
      "epoch": 0.5128,
      "grad_norm": 1.9126949310302734,
      "learning_rate": 9.746165814625473e-05,
      "loss": 1.7637,
      "step": 23076
    },
    {
      "epoch": 0.5128222222222222,
      "grad_norm": 1.7484816312789917,
      "learning_rate": 9.745721271393643e-05,
      "loss": 2.2878,
      "step": 23077
    },
    {
      "epoch": 0.5128444444444444,
      "grad_norm": 1.435341715812683,
      "learning_rate": 9.745276728161814e-05,
      "loss": 1.9603,
      "step": 23078
    },
    {
      "epoch": 0.5128666666666667,
      "grad_norm": 1.4543768167495728,
      "learning_rate": 9.744832184929985e-05,
      "loss": 1.5492,
      "step": 23079
    },
    {
      "epoch": 0.5128888888888888,
      "grad_norm": 1.725714921951294,
      "learning_rate": 9.744387641698156e-05,
      "loss": 2.3587,
      "step": 23080
    },
    {
      "epoch": 0.5129111111111111,
      "grad_norm": 1.3831982612609863,
      "learning_rate": 9.743943098466325e-05,
      "loss": 1.1402,
      "step": 23081
    },
    {
      "epoch": 0.5129333333333334,
      "grad_norm": 1.4266483783721924,
      "learning_rate": 9.743498555234496e-05,
      "loss": 1.7264,
      "step": 23082
    },
    {
      "epoch": 0.5129555555555556,
      "grad_norm": 1.440187692642212,
      "learning_rate": 9.743054012002669e-05,
      "loss": 1.0783,
      "step": 23083
    },
    {
      "epoch": 0.5129777777777778,
      "grad_norm": 1.5684813261032104,
      "learning_rate": 9.742609468770838e-05,
      "loss": 1.814,
      "step": 23084
    },
    {
      "epoch": 0.513,
      "grad_norm": 2.138904094696045,
      "learning_rate": 9.742164925539009e-05,
      "loss": 2.267,
      "step": 23085
    },
    {
      "epoch": 0.5130222222222223,
      "grad_norm": 1.932881474494934,
      "learning_rate": 9.74172038230718e-05,
      "loss": 2.0922,
      "step": 23086
    },
    {
      "epoch": 0.5130444444444444,
      "grad_norm": 1.9092787504196167,
      "learning_rate": 9.74127583907535e-05,
      "loss": 2.062,
      "step": 23087
    },
    {
      "epoch": 0.5130666666666667,
      "grad_norm": 1.82472562789917,
      "learning_rate": 9.740831295843521e-05,
      "loss": 1.9211,
      "step": 23088
    },
    {
      "epoch": 0.5130888888888889,
      "grad_norm": 1.6632062196731567,
      "learning_rate": 9.740386752611692e-05,
      "loss": 1.9275,
      "step": 23089
    },
    {
      "epoch": 0.5131111111111111,
      "grad_norm": 2.0783748626708984,
      "learning_rate": 9.739942209379863e-05,
      "loss": 2.4545,
      "step": 23090
    },
    {
      "epoch": 0.5131333333333333,
      "grad_norm": 1.3681892156600952,
      "learning_rate": 9.739497666148034e-05,
      "loss": 1.5467,
      "step": 23091
    },
    {
      "epoch": 0.5131555555555556,
      "grad_norm": 1.6539819240570068,
      "learning_rate": 9.739053122916205e-05,
      "loss": 1.9078,
      "step": 23092
    },
    {
      "epoch": 0.5131777777777777,
      "grad_norm": 2.1682426929473877,
      "learning_rate": 9.738608579684376e-05,
      "loss": 1.9653,
      "step": 23093
    },
    {
      "epoch": 0.5132,
      "grad_norm": 1.6399449110031128,
      "learning_rate": 9.738164036452545e-05,
      "loss": 1.7225,
      "step": 23094
    },
    {
      "epoch": 0.5132222222222222,
      "grad_norm": 2.3552534580230713,
      "learning_rate": 9.737719493220716e-05,
      "loss": 2.268,
      "step": 23095
    },
    {
      "epoch": 0.5132444444444444,
      "grad_norm": 1.6455727815628052,
      "learning_rate": 9.737274949988887e-05,
      "loss": 1.5848,
      "step": 23096
    },
    {
      "epoch": 0.5132666666666666,
      "grad_norm": 1.7701847553253174,
      "learning_rate": 9.736830406757057e-05,
      "loss": 1.5615,
      "step": 23097
    },
    {
      "epoch": 0.5132888888888889,
      "grad_norm": 1.3409740924835205,
      "learning_rate": 9.736385863525228e-05,
      "loss": 1.2492,
      "step": 23098
    },
    {
      "epoch": 0.5133111111111112,
      "grad_norm": 2.043398380279541,
      "learning_rate": 9.735941320293399e-05,
      "loss": 1.8905,
      "step": 23099
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 1.5320091247558594,
      "learning_rate": 9.73549677706157e-05,
      "loss": 0.993,
      "step": 23100
    },
    {
      "epoch": 0.5133555555555556,
      "grad_norm": 1.411181926727295,
      "learning_rate": 9.73505223382974e-05,
      "loss": 2.5214,
      "step": 23101
    },
    {
      "epoch": 0.5133777777777778,
      "grad_norm": 1.3846232891082764,
      "learning_rate": 9.734607690597912e-05,
      "loss": 2.4386,
      "step": 23102
    },
    {
      "epoch": 0.5134,
      "grad_norm": 1.516087293624878,
      "learning_rate": 9.734163147366083e-05,
      "loss": 2.0781,
      "step": 23103
    },
    {
      "epoch": 0.5134222222222222,
      "grad_norm": 1.2812927961349487,
      "learning_rate": 9.733718604134252e-05,
      "loss": 1.6462,
      "step": 23104
    },
    {
      "epoch": 0.5134444444444445,
      "grad_norm": 1.5279680490493774,
      "learning_rate": 9.733274060902423e-05,
      "loss": 2.1541,
      "step": 23105
    },
    {
      "epoch": 0.5134666666666666,
      "grad_norm": 1.436509609222412,
      "learning_rate": 9.732829517670594e-05,
      "loss": 1.9863,
      "step": 23106
    },
    {
      "epoch": 0.5134888888888889,
      "grad_norm": 1.393679141998291,
      "learning_rate": 9.732384974438765e-05,
      "loss": 1.8594,
      "step": 23107
    },
    {
      "epoch": 0.5135111111111111,
      "grad_norm": 1.6942346096038818,
      "learning_rate": 9.731940431206935e-05,
      "loss": 2.4618,
      "step": 23108
    },
    {
      "epoch": 0.5135333333333333,
      "grad_norm": 1.5729790925979614,
      "learning_rate": 9.731495887975106e-05,
      "loss": 1.9258,
      "step": 23109
    },
    {
      "epoch": 0.5135555555555555,
      "grad_norm": 1.9431859254837036,
      "learning_rate": 9.731051344743277e-05,
      "loss": 2.3546,
      "step": 23110
    },
    {
      "epoch": 0.5135777777777778,
      "grad_norm": 1.5125818252563477,
      "learning_rate": 9.730606801511448e-05,
      "loss": 1.7665,
      "step": 23111
    },
    {
      "epoch": 0.5136,
      "grad_norm": 1.8274272680282593,
      "learning_rate": 9.730162258279618e-05,
      "loss": 2.1875,
      "step": 23112
    },
    {
      "epoch": 0.5136222222222222,
      "grad_norm": 1.5984307527542114,
      "learning_rate": 9.72971771504779e-05,
      "loss": 2.2112,
      "step": 23113
    },
    {
      "epoch": 0.5136444444444445,
      "grad_norm": 1.750909686088562,
      "learning_rate": 9.729273171815959e-05,
      "loss": 2.2162,
      "step": 23114
    },
    {
      "epoch": 0.5136666666666667,
      "grad_norm": 1.5283570289611816,
      "learning_rate": 9.72882862858413e-05,
      "loss": 2.1114,
      "step": 23115
    },
    {
      "epoch": 0.5136888888888889,
      "grad_norm": 1.0576549768447876,
      "learning_rate": 9.728384085352301e-05,
      "loss": 0.9948,
      "step": 23116
    },
    {
      "epoch": 0.5137111111111111,
      "grad_norm": 1.9021114110946655,
      "learning_rate": 9.727939542120472e-05,
      "loss": 1.9937,
      "step": 23117
    },
    {
      "epoch": 0.5137333333333334,
      "grad_norm": 1.869811773300171,
      "learning_rate": 9.727494998888642e-05,
      "loss": 2.1751,
      "step": 23118
    },
    {
      "epoch": 0.5137555555555555,
      "grad_norm": 1.9203027486801147,
      "learning_rate": 9.727050455656813e-05,
      "loss": 2.4493,
      "step": 23119
    },
    {
      "epoch": 0.5137777777777778,
      "grad_norm": 1.7235569953918457,
      "learning_rate": 9.726605912424985e-05,
      "loss": 1.9748,
      "step": 23120
    },
    {
      "epoch": 0.5138,
      "grad_norm": 1.6245845556259155,
      "learning_rate": 9.726161369193154e-05,
      "loss": 1.8303,
      "step": 23121
    },
    {
      "epoch": 0.5138222222222222,
      "grad_norm": 1.6930656433105469,
      "learning_rate": 9.725716825961325e-05,
      "loss": 2.348,
      "step": 23122
    },
    {
      "epoch": 0.5138444444444444,
      "grad_norm": 2.1376466751098633,
      "learning_rate": 9.725272282729496e-05,
      "loss": 2.6233,
      "step": 23123
    },
    {
      "epoch": 0.5138666666666667,
      "grad_norm": 1.9943958520889282,
      "learning_rate": 9.724827739497666e-05,
      "loss": 2.3325,
      "step": 23124
    },
    {
      "epoch": 0.5138888888888888,
      "grad_norm": 1.4501960277557373,
      "learning_rate": 9.724383196265837e-05,
      "loss": 1.7999,
      "step": 23125
    },
    {
      "epoch": 0.5139111111111111,
      "grad_norm": 1.5941320657730103,
      "learning_rate": 9.723938653034008e-05,
      "loss": 2.2142,
      "step": 23126
    },
    {
      "epoch": 0.5139333333333334,
      "grad_norm": 1.6166619062423706,
      "learning_rate": 9.723494109802179e-05,
      "loss": 2.059,
      "step": 23127
    },
    {
      "epoch": 0.5139555555555556,
      "grad_norm": 1.6395279169082642,
      "learning_rate": 9.72304956657035e-05,
      "loss": 1.991,
      "step": 23128
    },
    {
      "epoch": 0.5139777777777778,
      "grad_norm": 1.751142144203186,
      "learning_rate": 9.722605023338521e-05,
      "loss": 1.8594,
      "step": 23129
    },
    {
      "epoch": 0.514,
      "grad_norm": 1.6679072380065918,
      "learning_rate": 9.722160480106692e-05,
      "loss": 2.2461,
      "step": 23130
    },
    {
      "epoch": 0.5140222222222223,
      "grad_norm": 1.6359459161758423,
      "learning_rate": 9.721715936874861e-05,
      "loss": 2.4263,
      "step": 23131
    },
    {
      "epoch": 0.5140444444444444,
      "grad_norm": 1.2973476648330688,
      "learning_rate": 9.721271393643032e-05,
      "loss": 1.0859,
      "step": 23132
    },
    {
      "epoch": 0.5140666666666667,
      "grad_norm": 1.417837381362915,
      "learning_rate": 9.720826850411203e-05,
      "loss": 1.898,
      "step": 23133
    },
    {
      "epoch": 0.5140888888888889,
      "grad_norm": 1.5412108898162842,
      "learning_rate": 9.720382307179373e-05,
      "loss": 1.8176,
      "step": 23134
    },
    {
      "epoch": 0.5141111111111111,
      "grad_norm": 1.9329038858413696,
      "learning_rate": 9.719937763947544e-05,
      "loss": 2.008,
      "step": 23135
    },
    {
      "epoch": 0.5141333333333333,
      "grad_norm": 1.7341489791870117,
      "learning_rate": 9.719493220715715e-05,
      "loss": 2.3982,
      "step": 23136
    },
    {
      "epoch": 0.5141555555555556,
      "grad_norm": 1.5102192163467407,
      "learning_rate": 9.719048677483886e-05,
      "loss": 1.5217,
      "step": 23137
    },
    {
      "epoch": 0.5141777777777777,
      "grad_norm": 1.4328583478927612,
      "learning_rate": 9.718604134252057e-05,
      "loss": 1.0739,
      "step": 23138
    },
    {
      "epoch": 0.5142,
      "grad_norm": 1.6546179056167603,
      "learning_rate": 9.718159591020228e-05,
      "loss": 1.7273,
      "step": 23139
    },
    {
      "epoch": 0.5142222222222222,
      "grad_norm": 1.5746006965637207,
      "learning_rate": 9.717715047788399e-05,
      "loss": 1.6849,
      "step": 23140
    },
    {
      "epoch": 0.5142444444444444,
      "grad_norm": 1.5052191019058228,
      "learning_rate": 9.717270504556568e-05,
      "loss": 1.7764,
      "step": 23141
    },
    {
      "epoch": 0.5142666666666666,
      "grad_norm": 1.6500329971313477,
      "learning_rate": 9.716825961324739e-05,
      "loss": 1.8561,
      "step": 23142
    },
    {
      "epoch": 0.5142888888888889,
      "grad_norm": 1.6365102529525757,
      "learning_rate": 9.71638141809291e-05,
      "loss": 1.7249,
      "step": 23143
    },
    {
      "epoch": 0.5143111111111112,
      "grad_norm": 1.595531702041626,
      "learning_rate": 9.71593687486108e-05,
      "loss": 1.4966,
      "step": 23144
    },
    {
      "epoch": 0.5143333333333333,
      "grad_norm": 2.5913844108581543,
      "learning_rate": 9.715492331629251e-05,
      "loss": 1.7125,
      "step": 23145
    },
    {
      "epoch": 0.5143555555555556,
      "grad_norm": 2.0194830894470215,
      "learning_rate": 9.715047788397422e-05,
      "loss": 1.6361,
      "step": 23146
    },
    {
      "epoch": 0.5143777777777778,
      "grad_norm": 1.853287935256958,
      "learning_rate": 9.714603245165593e-05,
      "loss": 2.1508,
      "step": 23147
    },
    {
      "epoch": 0.5144,
      "grad_norm": 1.7236076593399048,
      "learning_rate": 9.714158701933764e-05,
      "loss": 1.778,
      "step": 23148
    },
    {
      "epoch": 0.5144222222222222,
      "grad_norm": 1.0986753702163696,
      "learning_rate": 9.713714158701935e-05,
      "loss": 0.7741,
      "step": 23149
    },
    {
      "epoch": 0.5144444444444445,
      "grad_norm": 1.8491188287734985,
      "learning_rate": 9.713269615470106e-05,
      "loss": 1.3256,
      "step": 23150
    },
    {
      "epoch": 0.5144666666666666,
      "grad_norm": 1.5203423500061035,
      "learning_rate": 9.712825072238275e-05,
      "loss": 1.1674,
      "step": 23151
    },
    {
      "epoch": 0.5144888888888889,
      "grad_norm": 1.4248366355895996,
      "learning_rate": 9.712380529006446e-05,
      "loss": 2.0219,
      "step": 23152
    },
    {
      "epoch": 0.5145111111111111,
      "grad_norm": 0.9732041358947754,
      "learning_rate": 9.711935985774617e-05,
      "loss": 1.0497,
      "step": 23153
    },
    {
      "epoch": 0.5145333333333333,
      "grad_norm": 1.6606292724609375,
      "learning_rate": 9.711491442542787e-05,
      "loss": 1.3367,
      "step": 23154
    },
    {
      "epoch": 0.5145555555555555,
      "grad_norm": 1.704160213470459,
      "learning_rate": 9.711046899310958e-05,
      "loss": 2.3715,
      "step": 23155
    },
    {
      "epoch": 0.5145777777777778,
      "grad_norm": 1.5797507762908936,
      "learning_rate": 9.710602356079129e-05,
      "loss": 2.2042,
      "step": 23156
    },
    {
      "epoch": 0.5146,
      "grad_norm": 1.546263575553894,
      "learning_rate": 9.710157812847301e-05,
      "loss": 1.6967,
      "step": 23157
    },
    {
      "epoch": 0.5146222222222222,
      "grad_norm": 1.4818196296691895,
      "learning_rate": 9.70971326961547e-05,
      "loss": 2.1582,
      "step": 23158
    },
    {
      "epoch": 0.5146444444444445,
      "grad_norm": 1.6285725831985474,
      "learning_rate": 9.709268726383642e-05,
      "loss": 1.7854,
      "step": 23159
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 1.721218466758728,
      "learning_rate": 9.708824183151812e-05,
      "loss": 2.5996,
      "step": 23160
    },
    {
      "epoch": 0.5146888888888889,
      "grad_norm": 1.5874989032745361,
      "learning_rate": 9.708379639919982e-05,
      "loss": 2.2204,
      "step": 23161
    },
    {
      "epoch": 0.5147111111111111,
      "grad_norm": 1.74274480342865,
      "learning_rate": 9.707935096688153e-05,
      "loss": 1.4854,
      "step": 23162
    },
    {
      "epoch": 0.5147333333333334,
      "grad_norm": 1.711734652519226,
      "learning_rate": 9.707490553456324e-05,
      "loss": 1.7114,
      "step": 23163
    },
    {
      "epoch": 0.5147555555555555,
      "grad_norm": 1.5327433347702026,
      "learning_rate": 9.707046010224495e-05,
      "loss": 1.8793,
      "step": 23164
    },
    {
      "epoch": 0.5147777777777778,
      "grad_norm": 1.410262942314148,
      "learning_rate": 9.706601466992666e-05,
      "loss": 1.8652,
      "step": 23165
    },
    {
      "epoch": 0.5148,
      "grad_norm": 1.8740594387054443,
      "learning_rate": 9.706156923760837e-05,
      "loss": 1.9548,
      "step": 23166
    },
    {
      "epoch": 0.5148222222222222,
      "grad_norm": 1.9446321725845337,
      "learning_rate": 9.705712380529008e-05,
      "loss": 2.3224,
      "step": 23167
    },
    {
      "epoch": 0.5148444444444444,
      "grad_norm": 1.9879004955291748,
      "learning_rate": 9.705267837297177e-05,
      "loss": 1.9575,
      "step": 23168
    },
    {
      "epoch": 0.5148666666666667,
      "grad_norm": 1.5804022550582886,
      "learning_rate": 9.704823294065348e-05,
      "loss": 1.9511,
      "step": 23169
    },
    {
      "epoch": 0.5148888888888888,
      "grad_norm": 1.6575545072555542,
      "learning_rate": 9.70437875083352e-05,
      "loss": 2.3349,
      "step": 23170
    },
    {
      "epoch": 0.5149111111111111,
      "grad_norm": 2.1578407287597656,
      "learning_rate": 9.703934207601689e-05,
      "loss": 2.4474,
      "step": 23171
    },
    {
      "epoch": 0.5149333333333334,
      "grad_norm": 1.5732507705688477,
      "learning_rate": 9.70348966436986e-05,
      "loss": 2.1138,
      "step": 23172
    },
    {
      "epoch": 0.5149555555555556,
      "grad_norm": 1.7158033847808838,
      "learning_rate": 9.703045121138031e-05,
      "loss": 2.3975,
      "step": 23173
    },
    {
      "epoch": 0.5149777777777778,
      "grad_norm": 1.554044485092163,
      "learning_rate": 9.702600577906202e-05,
      "loss": 2.0279,
      "step": 23174
    },
    {
      "epoch": 0.515,
      "grad_norm": 1.9329140186309814,
      "learning_rate": 9.702156034674373e-05,
      "loss": 2.2233,
      "step": 23175
    },
    {
      "epoch": 0.5150222222222223,
      "grad_norm": 1.5526012182235718,
      "learning_rate": 9.701711491442544e-05,
      "loss": 2.1803,
      "step": 23176
    },
    {
      "epoch": 0.5150444444444444,
      "grad_norm": 1.346209168434143,
      "learning_rate": 9.701266948210715e-05,
      "loss": 1.5391,
      "step": 23177
    },
    {
      "epoch": 0.5150666666666667,
      "grad_norm": 1.3014334440231323,
      "learning_rate": 9.700822404978884e-05,
      "loss": 1.2693,
      "step": 23178
    },
    {
      "epoch": 0.5150888888888889,
      "grad_norm": 1.6989833116531372,
      "learning_rate": 9.700377861747055e-05,
      "loss": 1.7469,
      "step": 23179
    },
    {
      "epoch": 0.5151111111111111,
      "grad_norm": 1.6606312990188599,
      "learning_rate": 9.699933318515226e-05,
      "loss": 1.8949,
      "step": 23180
    },
    {
      "epoch": 0.5151333333333333,
      "grad_norm": 1.8265345096588135,
      "learning_rate": 9.699488775283396e-05,
      "loss": 2.2959,
      "step": 23181
    },
    {
      "epoch": 0.5151555555555556,
      "grad_norm": 1.8741905689239502,
      "learning_rate": 9.699044232051567e-05,
      "loss": 1.9747,
      "step": 23182
    },
    {
      "epoch": 0.5151777777777777,
      "grad_norm": 1.5099825859069824,
      "learning_rate": 9.698599688819738e-05,
      "loss": 1.6597,
      "step": 23183
    },
    {
      "epoch": 0.5152,
      "grad_norm": 1.7766538858413696,
      "learning_rate": 9.698155145587909e-05,
      "loss": 1.8128,
      "step": 23184
    },
    {
      "epoch": 0.5152222222222222,
      "grad_norm": 1.3722177743911743,
      "learning_rate": 9.69771060235608e-05,
      "loss": 1.231,
      "step": 23185
    },
    {
      "epoch": 0.5152444444444444,
      "grad_norm": 1.7995750904083252,
      "learning_rate": 9.697266059124251e-05,
      "loss": 2.1442,
      "step": 23186
    },
    {
      "epoch": 0.5152666666666667,
      "grad_norm": 1.6888569593429565,
      "learning_rate": 9.696821515892422e-05,
      "loss": 1.5857,
      "step": 23187
    },
    {
      "epoch": 0.5152888888888889,
      "grad_norm": 1.7874109745025635,
      "learning_rate": 9.696376972660591e-05,
      "loss": 1.9917,
      "step": 23188
    },
    {
      "epoch": 0.5153111111111112,
      "grad_norm": 1.7223049402236938,
      "learning_rate": 9.695932429428762e-05,
      "loss": 1.6653,
      "step": 23189
    },
    {
      "epoch": 0.5153333333333333,
      "grad_norm": 1.8302719593048096,
      "learning_rate": 9.695487886196933e-05,
      "loss": 2.1065,
      "step": 23190
    },
    {
      "epoch": 0.5153555555555556,
      "grad_norm": 1.8682173490524292,
      "learning_rate": 9.695043342965103e-05,
      "loss": 1.665,
      "step": 23191
    },
    {
      "epoch": 0.5153777777777778,
      "grad_norm": 1.7128394842147827,
      "learning_rate": 9.694598799733274e-05,
      "loss": 1.9778,
      "step": 23192
    },
    {
      "epoch": 0.5154,
      "grad_norm": 1.4106701612472534,
      "learning_rate": 9.694154256501445e-05,
      "loss": 1.4335,
      "step": 23193
    },
    {
      "epoch": 0.5154222222222222,
      "grad_norm": 1.4745135307312012,
      "learning_rate": 9.693709713269617e-05,
      "loss": 1.7616,
      "step": 23194
    },
    {
      "epoch": 0.5154444444444445,
      "grad_norm": 1.6436662673950195,
      "learning_rate": 9.693265170037787e-05,
      "loss": 1.7189,
      "step": 23195
    },
    {
      "epoch": 0.5154666666666666,
      "grad_norm": 1.7547415494918823,
      "learning_rate": 9.692820626805958e-05,
      "loss": 1.7128,
      "step": 23196
    },
    {
      "epoch": 0.5154888888888889,
      "grad_norm": 2.196955680847168,
      "learning_rate": 9.692376083574129e-05,
      "loss": 2.2442,
      "step": 23197
    },
    {
      "epoch": 0.5155111111111111,
      "grad_norm": 1.9022250175476074,
      "learning_rate": 9.691931540342298e-05,
      "loss": 2.0189,
      "step": 23198
    },
    {
      "epoch": 0.5155333333333333,
      "grad_norm": 1.851448655128479,
      "learning_rate": 9.691486997110469e-05,
      "loss": 1.7624,
      "step": 23199
    },
    {
      "epoch": 0.5155555555555555,
      "grad_norm": 1.8493125438690186,
      "learning_rate": 9.69104245387864e-05,
      "loss": 1.6888,
      "step": 23200
    },
    {
      "epoch": 0.5155777777777778,
      "grad_norm": 1.502746820449829,
      "learning_rate": 9.69059791064681e-05,
      "loss": 2.3986,
      "step": 23201
    },
    {
      "epoch": 0.5156,
      "grad_norm": 1.3307987451553345,
      "learning_rate": 9.690153367414982e-05,
      "loss": 2.2154,
      "step": 23202
    },
    {
      "epoch": 0.5156222222222222,
      "grad_norm": 1.5060081481933594,
      "learning_rate": 9.689708824183153e-05,
      "loss": 2.3528,
      "step": 23203
    },
    {
      "epoch": 0.5156444444444445,
      "grad_norm": 1.3392525911331177,
      "learning_rate": 9.689264280951324e-05,
      "loss": 2.2146,
      "step": 23204
    },
    {
      "epoch": 0.5156666666666667,
      "grad_norm": 1.4231196641921997,
      "learning_rate": 9.688819737719494e-05,
      "loss": 2.311,
      "step": 23205
    },
    {
      "epoch": 0.5156888888888889,
      "grad_norm": 2.0766165256500244,
      "learning_rate": 9.688375194487665e-05,
      "loss": 2.4423,
      "step": 23206
    },
    {
      "epoch": 0.5157111111111111,
      "grad_norm": 1.597639560699463,
      "learning_rate": 9.687930651255835e-05,
      "loss": 2.3023,
      "step": 23207
    },
    {
      "epoch": 0.5157333333333334,
      "grad_norm": 1.4854867458343506,
      "learning_rate": 9.687486108024005e-05,
      "loss": 1.572,
      "step": 23208
    },
    {
      "epoch": 0.5157555555555555,
      "grad_norm": 1.7627302408218384,
      "learning_rate": 9.687041564792176e-05,
      "loss": 2.3271,
      "step": 23209
    },
    {
      "epoch": 0.5157777777777778,
      "grad_norm": 1.1589735746383667,
      "learning_rate": 9.686597021560347e-05,
      "loss": 1.3537,
      "step": 23210
    },
    {
      "epoch": 0.5158,
      "grad_norm": 1.5674506425857544,
      "learning_rate": 9.686152478328518e-05,
      "loss": 2.0431,
      "step": 23211
    },
    {
      "epoch": 0.5158222222222222,
      "grad_norm": 1.411564588546753,
      "learning_rate": 9.685707935096689e-05,
      "loss": 2.172,
      "step": 23212
    },
    {
      "epoch": 0.5158444444444444,
      "grad_norm": 1.2656798362731934,
      "learning_rate": 9.68526339186486e-05,
      "loss": 1.5366,
      "step": 23213
    },
    {
      "epoch": 0.5158666666666667,
      "grad_norm": 1.8143181800842285,
      "learning_rate": 9.684818848633031e-05,
      "loss": 2.356,
      "step": 23214
    },
    {
      "epoch": 0.5158888888888888,
      "grad_norm": 1.82963228225708,
      "learning_rate": 9.6843743054012e-05,
      "loss": 2.0305,
      "step": 23215
    },
    {
      "epoch": 0.5159111111111111,
      "grad_norm": 1.647188425064087,
      "learning_rate": 9.683929762169371e-05,
      "loss": 2.0503,
      "step": 23216
    },
    {
      "epoch": 0.5159333333333334,
      "grad_norm": 2.3496594429016113,
      "learning_rate": 9.683485218937542e-05,
      "loss": 2.366,
      "step": 23217
    },
    {
      "epoch": 0.5159555555555555,
      "grad_norm": 1.2985628843307495,
      "learning_rate": 9.683040675705712e-05,
      "loss": 1.449,
      "step": 23218
    },
    {
      "epoch": 0.5159777777777778,
      "grad_norm": 1.75935697555542,
      "learning_rate": 9.682596132473883e-05,
      "loss": 1.9769,
      "step": 23219
    },
    {
      "epoch": 0.516,
      "grad_norm": 1.5038111209869385,
      "learning_rate": 9.682151589242054e-05,
      "loss": 1.7443,
      "step": 23220
    },
    {
      "epoch": 0.5160222222222223,
      "grad_norm": 1.5663632154464722,
      "learning_rate": 9.681707046010225e-05,
      "loss": 2.0987,
      "step": 23221
    },
    {
      "epoch": 0.5160444444444444,
      "grad_norm": 1.6646978855133057,
      "learning_rate": 9.681262502778396e-05,
      "loss": 1.3839,
      "step": 23222
    },
    {
      "epoch": 0.5160666666666667,
      "grad_norm": 1.6843856573104858,
      "learning_rate": 9.680817959546567e-05,
      "loss": 1.8912,
      "step": 23223
    },
    {
      "epoch": 0.5160888888888889,
      "grad_norm": 1.350628137588501,
      "learning_rate": 9.680373416314738e-05,
      "loss": 1.4906,
      "step": 23224
    },
    {
      "epoch": 0.5161111111111111,
      "grad_norm": 1.5487253665924072,
      "learning_rate": 9.679928873082907e-05,
      "loss": 1.891,
      "step": 23225
    },
    {
      "epoch": 0.5161333333333333,
      "grad_norm": 1.5324265956878662,
      "learning_rate": 9.679484329851078e-05,
      "loss": 1.7145,
      "step": 23226
    },
    {
      "epoch": 0.5161555555555556,
      "grad_norm": 2.0529301166534424,
      "learning_rate": 9.679039786619249e-05,
      "loss": 2.0552,
      "step": 23227
    },
    {
      "epoch": 0.5161777777777777,
      "grad_norm": 1.645099401473999,
      "learning_rate": 9.678595243387419e-05,
      "loss": 2.3314,
      "step": 23228
    },
    {
      "epoch": 0.5162,
      "grad_norm": 1.6773072481155396,
      "learning_rate": 9.67815070015559e-05,
      "loss": 2.0629,
      "step": 23229
    },
    {
      "epoch": 0.5162222222222222,
      "grad_norm": 1.7652145624160767,
      "learning_rate": 9.677706156923761e-05,
      "loss": 1.8849,
      "step": 23230
    },
    {
      "epoch": 0.5162444444444444,
      "grad_norm": 1.6464495658874512,
      "learning_rate": 9.677261613691933e-05,
      "loss": 1.7268,
      "step": 23231
    },
    {
      "epoch": 0.5162666666666667,
      "grad_norm": 1.5224961042404175,
      "learning_rate": 9.676817070460103e-05,
      "loss": 1.9023,
      "step": 23232
    },
    {
      "epoch": 0.5162888888888889,
      "grad_norm": 1.650439977645874,
      "learning_rate": 9.676372527228274e-05,
      "loss": 2.1473,
      "step": 23233
    },
    {
      "epoch": 0.5163111111111112,
      "grad_norm": 1.9834716320037842,
      "learning_rate": 9.675927983996445e-05,
      "loss": 2.176,
      "step": 23234
    },
    {
      "epoch": 0.5163333333333333,
      "grad_norm": 1.1170785427093506,
      "learning_rate": 9.675483440764614e-05,
      "loss": 0.9725,
      "step": 23235
    },
    {
      "epoch": 0.5163555555555556,
      "grad_norm": 1.7836037874221802,
      "learning_rate": 9.675038897532785e-05,
      "loss": 1.9929,
      "step": 23236
    },
    {
      "epoch": 0.5163777777777778,
      "grad_norm": 1.872135877609253,
      "learning_rate": 9.674594354300956e-05,
      "loss": 1.9051,
      "step": 23237
    },
    {
      "epoch": 0.5164,
      "grad_norm": 2.1464903354644775,
      "learning_rate": 9.674149811069126e-05,
      "loss": 1.4361,
      "step": 23238
    },
    {
      "epoch": 0.5164222222222222,
      "grad_norm": 1.8241262435913086,
      "learning_rate": 9.673705267837298e-05,
      "loss": 1.8512,
      "step": 23239
    },
    {
      "epoch": 0.5164444444444445,
      "grad_norm": 1.7057807445526123,
      "learning_rate": 9.673260724605469e-05,
      "loss": 1.8416,
      "step": 23240
    },
    {
      "epoch": 0.5164666666666666,
      "grad_norm": 2.0130341053009033,
      "learning_rate": 9.67281618137364e-05,
      "loss": 2.2872,
      "step": 23241
    },
    {
      "epoch": 0.5164888888888889,
      "grad_norm": 1.5788486003875732,
      "learning_rate": 9.67237163814181e-05,
      "loss": 1.64,
      "step": 23242
    },
    {
      "epoch": 0.5165111111111111,
      "grad_norm": 1.7089968919754028,
      "learning_rate": 9.67192709490998e-05,
      "loss": 1.7366,
      "step": 23243
    },
    {
      "epoch": 0.5165333333333333,
      "grad_norm": 1.8485071659088135,
      "learning_rate": 9.671482551678152e-05,
      "loss": 2.239,
      "step": 23244
    },
    {
      "epoch": 0.5165555555555555,
      "grad_norm": 1.4487273693084717,
      "learning_rate": 9.671038008446321e-05,
      "loss": 1.3551,
      "step": 23245
    },
    {
      "epoch": 0.5165777777777778,
      "grad_norm": 2.041252851486206,
      "learning_rate": 9.670593465214492e-05,
      "loss": 1.5522,
      "step": 23246
    },
    {
      "epoch": 0.5166,
      "grad_norm": 1.7827682495117188,
      "learning_rate": 9.670148921982663e-05,
      "loss": 1.8598,
      "step": 23247
    },
    {
      "epoch": 0.5166222222222222,
      "grad_norm": 1.3379935026168823,
      "learning_rate": 9.669704378750834e-05,
      "loss": 1.0859,
      "step": 23248
    },
    {
      "epoch": 0.5166444444444445,
      "grad_norm": 2.128199815750122,
      "learning_rate": 9.669259835519005e-05,
      "loss": 2.2057,
      "step": 23249
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 1.6500742435455322,
      "learning_rate": 9.668815292287176e-05,
      "loss": 1.6618,
      "step": 23250
    },
    {
      "epoch": 0.5166888888888889,
      "grad_norm": 0.9652012586593628,
      "learning_rate": 9.668370749055347e-05,
      "loss": 0.0319,
      "step": 23251
    },
    {
      "epoch": 0.5167111111111111,
      "grad_norm": 1.827897071838379,
      "learning_rate": 9.667926205823517e-05,
      "loss": 2.0925,
      "step": 23252
    },
    {
      "epoch": 0.5167333333333334,
      "grad_norm": 1.5354574918746948,
      "learning_rate": 9.667481662591688e-05,
      "loss": 2.5288,
      "step": 23253
    },
    {
      "epoch": 0.5167555555555555,
      "grad_norm": 1.0685710906982422,
      "learning_rate": 9.667037119359858e-05,
      "loss": 1.2062,
      "step": 23254
    },
    {
      "epoch": 0.5167777777777778,
      "grad_norm": 1.4621326923370361,
      "learning_rate": 9.666592576128028e-05,
      "loss": 2.1666,
      "step": 23255
    },
    {
      "epoch": 0.5168,
      "grad_norm": 1.3733171224594116,
      "learning_rate": 9.666148032896199e-05,
      "loss": 1.9295,
      "step": 23256
    },
    {
      "epoch": 0.5168222222222222,
      "grad_norm": 1.540122389793396,
      "learning_rate": 9.66570348966437e-05,
      "loss": 2.5778,
      "step": 23257
    },
    {
      "epoch": 0.5168444444444444,
      "grad_norm": 1.5061571598052979,
      "learning_rate": 9.665258946432541e-05,
      "loss": 1.8611,
      "step": 23258
    },
    {
      "epoch": 0.5168666666666667,
      "grad_norm": 1.4461593627929688,
      "learning_rate": 9.664814403200712e-05,
      "loss": 1.7713,
      "step": 23259
    },
    {
      "epoch": 0.5168888888888888,
      "grad_norm": 2.1230568885803223,
      "learning_rate": 9.664369859968883e-05,
      "loss": 2.6853,
      "step": 23260
    },
    {
      "epoch": 0.5169111111111111,
      "grad_norm": 1.5822793245315552,
      "learning_rate": 9.663925316737054e-05,
      "loss": 2.2162,
      "step": 23261
    },
    {
      "epoch": 0.5169333333333334,
      "grad_norm": 1.736082673072815,
      "learning_rate": 9.663480773505223e-05,
      "loss": 0.7837,
      "step": 23262
    },
    {
      "epoch": 0.5169555555555555,
      "grad_norm": 1.481756567955017,
      "learning_rate": 9.663036230273394e-05,
      "loss": 1.6319,
      "step": 23263
    },
    {
      "epoch": 0.5169777777777778,
      "grad_norm": 1.4438295364379883,
      "learning_rate": 9.662591687041565e-05,
      "loss": 1.9139,
      "step": 23264
    },
    {
      "epoch": 0.517,
      "grad_norm": 1.4345812797546387,
      "learning_rate": 9.662147143809735e-05,
      "loss": 1.7941,
      "step": 23265
    },
    {
      "epoch": 0.5170222222222223,
      "grad_norm": 1.2027246952056885,
      "learning_rate": 9.661702600577906e-05,
      "loss": 1.1507,
      "step": 23266
    },
    {
      "epoch": 0.5170444444444444,
      "grad_norm": 1.3817445039749146,
      "learning_rate": 9.661258057346077e-05,
      "loss": 1.4165,
      "step": 23267
    },
    {
      "epoch": 0.5170666666666667,
      "grad_norm": 2.063687562942505,
      "learning_rate": 9.660813514114249e-05,
      "loss": 1.9332,
      "step": 23268
    },
    {
      "epoch": 0.5170888888888889,
      "grad_norm": 1.597621202468872,
      "learning_rate": 9.660368970882419e-05,
      "loss": 1.8279,
      "step": 23269
    },
    {
      "epoch": 0.5171111111111111,
      "grad_norm": 1.7354167699813843,
      "learning_rate": 9.65992442765059e-05,
      "loss": 2.1576,
      "step": 23270
    },
    {
      "epoch": 0.5171333333333333,
      "grad_norm": 1.6124422550201416,
      "learning_rate": 9.659479884418761e-05,
      "loss": 1.9688,
      "step": 23271
    },
    {
      "epoch": 0.5171555555555556,
      "grad_norm": 1.5744091272354126,
      "learning_rate": 9.65903534118693e-05,
      "loss": 1.7732,
      "step": 23272
    },
    {
      "epoch": 0.5171777777777777,
      "grad_norm": 1.6277282238006592,
      "learning_rate": 9.658590797955101e-05,
      "loss": 1.5206,
      "step": 23273
    },
    {
      "epoch": 0.5172,
      "grad_norm": 1.647251844406128,
      "learning_rate": 9.658146254723272e-05,
      "loss": 2.0304,
      "step": 23274
    },
    {
      "epoch": 0.5172222222222222,
      "grad_norm": 1.6209434270858765,
      "learning_rate": 9.657701711491442e-05,
      "loss": 1.8,
      "step": 23275
    },
    {
      "epoch": 0.5172444444444444,
      "grad_norm": 1.5671143531799316,
      "learning_rate": 9.657257168259614e-05,
      "loss": 1.9277,
      "step": 23276
    },
    {
      "epoch": 0.5172666666666667,
      "grad_norm": 1.7615083456039429,
      "learning_rate": 9.656812625027785e-05,
      "loss": 1.75,
      "step": 23277
    },
    {
      "epoch": 0.5172888888888889,
      "grad_norm": 1.7809573411941528,
      "learning_rate": 9.656368081795956e-05,
      "loss": 1.5419,
      "step": 23278
    },
    {
      "epoch": 0.5173111111111112,
      "grad_norm": 1.7455817461013794,
      "learning_rate": 9.655923538564126e-05,
      "loss": 2.3428,
      "step": 23279
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 1.7645580768585205,
      "learning_rate": 9.655478995332297e-05,
      "loss": 1.7613,
      "step": 23280
    },
    {
      "epoch": 0.5173555555555556,
      "grad_norm": 2.0676119327545166,
      "learning_rate": 9.655034452100468e-05,
      "loss": 2.0579,
      "step": 23281
    },
    {
      "epoch": 0.5173777777777778,
      "grad_norm": 1.9543275833129883,
      "learning_rate": 9.654589908868637e-05,
      "loss": 2.0149,
      "step": 23282
    },
    {
      "epoch": 0.5174,
      "grad_norm": 1.7973787784576416,
      "learning_rate": 9.654145365636808e-05,
      "loss": 1.7709,
      "step": 23283
    },
    {
      "epoch": 0.5174222222222222,
      "grad_norm": 1.6083984375,
      "learning_rate": 9.653700822404979e-05,
      "loss": 1.6817,
      "step": 23284
    },
    {
      "epoch": 0.5174444444444445,
      "grad_norm": 2.0489604473114014,
      "learning_rate": 9.65325627917315e-05,
      "loss": 2.6525,
      "step": 23285
    },
    {
      "epoch": 0.5174666666666666,
      "grad_norm": 1.5561115741729736,
      "learning_rate": 9.652811735941321e-05,
      "loss": 1.5184,
      "step": 23286
    },
    {
      "epoch": 0.5174888888888889,
      "grad_norm": 1.4986991882324219,
      "learning_rate": 9.652367192709492e-05,
      "loss": 1.5228,
      "step": 23287
    },
    {
      "epoch": 0.5175111111111111,
      "grad_norm": 1.708831787109375,
      "learning_rate": 9.651922649477663e-05,
      "loss": 1.5838,
      "step": 23288
    },
    {
      "epoch": 0.5175333333333333,
      "grad_norm": 1.924713373184204,
      "learning_rate": 9.651478106245833e-05,
      "loss": 1.9342,
      "step": 23289
    },
    {
      "epoch": 0.5175555555555555,
      "grad_norm": 1.8703020811080933,
      "learning_rate": 9.651033563014004e-05,
      "loss": 1.7984,
      "step": 23290
    },
    {
      "epoch": 0.5175777777777778,
      "grad_norm": 1.4751800298690796,
      "learning_rate": 9.650589019782175e-05,
      "loss": 1.3088,
      "step": 23291
    },
    {
      "epoch": 0.5176,
      "grad_norm": 1.7581549882888794,
      "learning_rate": 9.650144476550344e-05,
      "loss": 1.4759,
      "step": 23292
    },
    {
      "epoch": 0.5176222222222222,
      "grad_norm": 1.6100444793701172,
      "learning_rate": 9.649699933318515e-05,
      "loss": 1.9044,
      "step": 23293
    },
    {
      "epoch": 0.5176444444444445,
      "grad_norm": 1.6932939291000366,
      "learning_rate": 9.649255390086686e-05,
      "loss": 2.0045,
      "step": 23294
    },
    {
      "epoch": 0.5176666666666667,
      "grad_norm": 2.021913766860962,
      "learning_rate": 9.648810846854857e-05,
      "loss": 1.5582,
      "step": 23295
    },
    {
      "epoch": 0.5176888888888889,
      "grad_norm": 1.8883211612701416,
      "learning_rate": 9.648366303623028e-05,
      "loss": 2.1025,
      "step": 23296
    },
    {
      "epoch": 0.5177111111111111,
      "grad_norm": 2.0818662643432617,
      "learning_rate": 9.647921760391199e-05,
      "loss": 1.9954,
      "step": 23297
    },
    {
      "epoch": 0.5177333333333334,
      "grad_norm": 1.4866681098937988,
      "learning_rate": 9.64747721715937e-05,
      "loss": 0.8822,
      "step": 23298
    },
    {
      "epoch": 0.5177555555555555,
      "grad_norm": 1.4477192163467407,
      "learning_rate": 9.64703267392754e-05,
      "loss": 1.2839,
      "step": 23299
    },
    {
      "epoch": 0.5177777777777778,
      "grad_norm": 2.396223545074463,
      "learning_rate": 9.64658813069571e-05,
      "loss": 1.3829,
      "step": 23300
    },
    {
      "epoch": 0.5178,
      "grad_norm": 1.0855128765106201,
      "learning_rate": 9.646143587463882e-05,
      "loss": 0.9834,
      "step": 23301
    },
    {
      "epoch": 0.5178222222222222,
      "grad_norm": 1.3156890869140625,
      "learning_rate": 9.645699044232051e-05,
      "loss": 2.1088,
      "step": 23302
    },
    {
      "epoch": 0.5178444444444444,
      "grad_norm": 1.5375803709030151,
      "learning_rate": 9.645254501000222e-05,
      "loss": 2.268,
      "step": 23303
    },
    {
      "epoch": 0.5178666666666667,
      "grad_norm": 1.843248724937439,
      "learning_rate": 9.644809957768393e-05,
      "loss": 2.4091,
      "step": 23304
    },
    {
      "epoch": 0.5178888888888888,
      "grad_norm": 1.3068907260894775,
      "learning_rate": 9.644365414536564e-05,
      "loss": 1.8841,
      "step": 23305
    },
    {
      "epoch": 0.5179111111111111,
      "grad_norm": 1.418007254600525,
      "learning_rate": 9.643920871304735e-05,
      "loss": 1.8684,
      "step": 23306
    },
    {
      "epoch": 0.5179333333333334,
      "grad_norm": 1.4441531896591187,
      "learning_rate": 9.643476328072906e-05,
      "loss": 1.0858,
      "step": 23307
    },
    {
      "epoch": 0.5179555555555555,
      "grad_norm": 1.665166974067688,
      "learning_rate": 9.643031784841077e-05,
      "loss": 2.4155,
      "step": 23308
    },
    {
      "epoch": 0.5179777777777778,
      "grad_norm": 1.5136308670043945,
      "learning_rate": 9.642587241609246e-05,
      "loss": 2.0175,
      "step": 23309
    },
    {
      "epoch": 0.518,
      "grad_norm": 1.5290905237197876,
      "learning_rate": 9.642142698377417e-05,
      "loss": 2.2329,
      "step": 23310
    },
    {
      "epoch": 0.5180222222222223,
      "grad_norm": 1.4537514448165894,
      "learning_rate": 9.641698155145588e-05,
      "loss": 2.2525,
      "step": 23311
    },
    {
      "epoch": 0.5180444444444444,
      "grad_norm": 1.948608636856079,
      "learning_rate": 9.641253611913758e-05,
      "loss": 1.9121,
      "step": 23312
    },
    {
      "epoch": 0.5180666666666667,
      "grad_norm": 1.5735212564468384,
      "learning_rate": 9.64080906868193e-05,
      "loss": 1.3808,
      "step": 23313
    },
    {
      "epoch": 0.5180888888888889,
      "grad_norm": 1.695756435394287,
      "learning_rate": 9.640364525450101e-05,
      "loss": 2.1801,
      "step": 23314
    },
    {
      "epoch": 0.5181111111111111,
      "grad_norm": 1.5840004682540894,
      "learning_rate": 9.639919982218271e-05,
      "loss": 2.2108,
      "step": 23315
    },
    {
      "epoch": 0.5181333333333333,
      "grad_norm": 1.4025864601135254,
      "learning_rate": 9.639475438986442e-05,
      "loss": 1.9523,
      "step": 23316
    },
    {
      "epoch": 0.5181555555555556,
      "grad_norm": 1.6641885042190552,
      "learning_rate": 9.639030895754613e-05,
      "loss": 2.3855,
      "step": 23317
    },
    {
      "epoch": 0.5181777777777777,
      "grad_norm": 1.7027679681777954,
      "learning_rate": 9.638586352522784e-05,
      "loss": 1.9994,
      "step": 23318
    },
    {
      "epoch": 0.5182,
      "grad_norm": 1.3141151666641235,
      "learning_rate": 9.638141809290953e-05,
      "loss": 0.9735,
      "step": 23319
    },
    {
      "epoch": 0.5182222222222223,
      "grad_norm": 1.7161680459976196,
      "learning_rate": 9.637697266059124e-05,
      "loss": 2.3324,
      "step": 23320
    },
    {
      "epoch": 0.5182444444444444,
      "grad_norm": 1.600536584854126,
      "learning_rate": 9.637252722827295e-05,
      "loss": 1.9914,
      "step": 23321
    },
    {
      "epoch": 0.5182666666666667,
      "grad_norm": 1.7013400793075562,
      "learning_rate": 9.636808179595466e-05,
      "loss": 2.027,
      "step": 23322
    },
    {
      "epoch": 0.5182888888888889,
      "grad_norm": 1.5546132326126099,
      "learning_rate": 9.636363636363637e-05,
      "loss": 2.1501,
      "step": 23323
    },
    {
      "epoch": 0.5183111111111111,
      "grad_norm": 2.122866630554199,
      "learning_rate": 9.635919093131808e-05,
      "loss": 1.9201,
      "step": 23324
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 1.9745476245880127,
      "learning_rate": 9.635474549899979e-05,
      "loss": 2.0211,
      "step": 23325
    },
    {
      "epoch": 0.5183555555555556,
      "grad_norm": 1.7698743343353271,
      "learning_rate": 9.635030006668149e-05,
      "loss": 1.5517,
      "step": 23326
    },
    {
      "epoch": 0.5183777777777778,
      "grad_norm": 1.7743686437606812,
      "learning_rate": 9.63458546343632e-05,
      "loss": 2.2407,
      "step": 23327
    },
    {
      "epoch": 0.5184,
      "grad_norm": 2.3775064945220947,
      "learning_rate": 9.634140920204491e-05,
      "loss": 2.2225,
      "step": 23328
    },
    {
      "epoch": 0.5184222222222222,
      "grad_norm": 1.4079575538635254,
      "learning_rate": 9.63369637697266e-05,
      "loss": 2.0072,
      "step": 23329
    },
    {
      "epoch": 0.5184444444444445,
      "grad_norm": 1.4854669570922852,
      "learning_rate": 9.633251833740831e-05,
      "loss": 1.878,
      "step": 23330
    },
    {
      "epoch": 0.5184666666666666,
      "grad_norm": 1.8983196020126343,
      "learning_rate": 9.632807290509002e-05,
      "loss": 2.269,
      "step": 23331
    },
    {
      "epoch": 0.5184888888888889,
      "grad_norm": 1.4937403202056885,
      "learning_rate": 9.632362747277173e-05,
      "loss": 1.6752,
      "step": 23332
    },
    {
      "epoch": 0.5185111111111111,
      "grad_norm": 2.021176338195801,
      "learning_rate": 9.631918204045344e-05,
      "loss": 2.028,
      "step": 23333
    },
    {
      "epoch": 0.5185333333333333,
      "grad_norm": 1.3114475011825562,
      "learning_rate": 9.631473660813515e-05,
      "loss": 1.4753,
      "step": 23334
    },
    {
      "epoch": 0.5185555555555555,
      "grad_norm": 1.396561861038208,
      "learning_rate": 9.631029117581686e-05,
      "loss": 1.0549,
      "step": 23335
    },
    {
      "epoch": 0.5185777777777778,
      "grad_norm": 1.738264560699463,
      "learning_rate": 9.630584574349856e-05,
      "loss": 2.514,
      "step": 23336
    },
    {
      "epoch": 0.5186,
      "grad_norm": 1.6673188209533691,
      "learning_rate": 9.630140031118027e-05,
      "loss": 1.612,
      "step": 23337
    },
    {
      "epoch": 0.5186222222222222,
      "grad_norm": 1.8933171033859253,
      "learning_rate": 9.629695487886198e-05,
      "loss": 1.6046,
      "step": 23338
    },
    {
      "epoch": 0.5186444444444445,
      "grad_norm": 1.6997740268707275,
      "learning_rate": 9.629250944654367e-05,
      "loss": 1.6171,
      "step": 23339
    },
    {
      "epoch": 0.5186666666666667,
      "grad_norm": 1.9095087051391602,
      "learning_rate": 9.628806401422538e-05,
      "loss": 2.4682,
      "step": 23340
    },
    {
      "epoch": 0.5186888888888889,
      "grad_norm": 1.4984523057937622,
      "learning_rate": 9.628361858190709e-05,
      "loss": 1.5071,
      "step": 23341
    },
    {
      "epoch": 0.5187111111111111,
      "grad_norm": 1.7479802370071411,
      "learning_rate": 9.62791731495888e-05,
      "loss": 1.8732,
      "step": 23342
    },
    {
      "epoch": 0.5187333333333334,
      "grad_norm": 1.8936560153961182,
      "learning_rate": 9.627472771727051e-05,
      "loss": 2.1764,
      "step": 23343
    },
    {
      "epoch": 0.5187555555555555,
      "grad_norm": 1.707017183303833,
      "learning_rate": 9.627028228495222e-05,
      "loss": 1.8594,
      "step": 23344
    },
    {
      "epoch": 0.5187777777777778,
      "grad_norm": 1.5478342771530151,
      "learning_rate": 9.626583685263393e-05,
      "loss": 1.8165,
      "step": 23345
    },
    {
      "epoch": 0.5188,
      "grad_norm": 1.5987601280212402,
      "learning_rate": 9.626139142031563e-05,
      "loss": 1.8698,
      "step": 23346
    },
    {
      "epoch": 0.5188222222222222,
      "grad_norm": 1.6152642965316772,
      "learning_rate": 9.625694598799734e-05,
      "loss": 1.8111,
      "step": 23347
    },
    {
      "epoch": 0.5188444444444444,
      "grad_norm": 2.132530450820923,
      "learning_rate": 9.625250055567905e-05,
      "loss": 2.1305,
      "step": 23348
    },
    {
      "epoch": 0.5188666666666667,
      "grad_norm": 1.8404029607772827,
      "learning_rate": 9.624805512336074e-05,
      "loss": 1.6791,
      "step": 23349
    },
    {
      "epoch": 0.5188888888888888,
      "grad_norm": 2.430065393447876,
      "learning_rate": 9.624360969104246e-05,
      "loss": 1.6032,
      "step": 23350
    },
    {
      "epoch": 0.5189111111111111,
      "grad_norm": 2.126769542694092,
      "learning_rate": 9.623916425872417e-05,
      "loss": 2.6202,
      "step": 23351
    },
    {
      "epoch": 0.5189333333333334,
      "grad_norm": 1.4194138050079346,
      "learning_rate": 9.623471882640587e-05,
      "loss": 2.2064,
      "step": 23352
    },
    {
      "epoch": 0.5189555555555555,
      "grad_norm": 1.5815802812576294,
      "learning_rate": 9.623027339408758e-05,
      "loss": 2.4023,
      "step": 23353
    },
    {
      "epoch": 0.5189777777777778,
      "grad_norm": 0.19370320439338684,
      "learning_rate": 9.622582796176929e-05,
      "loss": 0.0176,
      "step": 23354
    },
    {
      "epoch": 0.519,
      "grad_norm": 1.4503183364868164,
      "learning_rate": 9.6221382529451e-05,
      "loss": 2.6391,
      "step": 23355
    },
    {
      "epoch": 0.5190222222222223,
      "grad_norm": 1.3513809442520142,
      "learning_rate": 9.62169370971327e-05,
      "loss": 2.2462,
      "step": 23356
    },
    {
      "epoch": 0.5190444444444444,
      "grad_norm": 1.4663017988204956,
      "learning_rate": 9.62124916648144e-05,
      "loss": 2.3153,
      "step": 23357
    },
    {
      "epoch": 0.5190666666666667,
      "grad_norm": 1.5669894218444824,
      "learning_rate": 9.620804623249611e-05,
      "loss": 1.9673,
      "step": 23358
    },
    {
      "epoch": 0.5190888888888889,
      "grad_norm": 1.6538448333740234,
      "learning_rate": 9.620360080017782e-05,
      "loss": 2.0487,
      "step": 23359
    },
    {
      "epoch": 0.5191111111111111,
      "grad_norm": 1.6081663370132446,
      "learning_rate": 9.619915536785953e-05,
      "loss": 2.1167,
      "step": 23360
    },
    {
      "epoch": 0.5191333333333333,
      "grad_norm": 1.6677024364471436,
      "learning_rate": 9.619470993554124e-05,
      "loss": 2.5902,
      "step": 23361
    },
    {
      "epoch": 0.5191555555555556,
      "grad_norm": 1.8470662832260132,
      "learning_rate": 9.619026450322294e-05,
      "loss": 2.5085,
      "step": 23362
    },
    {
      "epoch": 0.5191777777777777,
      "grad_norm": 1.6709184646606445,
      "learning_rate": 9.618581907090465e-05,
      "loss": 2.3585,
      "step": 23363
    },
    {
      "epoch": 0.5192,
      "grad_norm": 1.4999699592590332,
      "learning_rate": 9.618137363858636e-05,
      "loss": 1.8541,
      "step": 23364
    },
    {
      "epoch": 0.5192222222222223,
      "grad_norm": 1.9199457168579102,
      "learning_rate": 9.617692820626807e-05,
      "loss": 2.1077,
      "step": 23365
    },
    {
      "epoch": 0.5192444444444444,
      "grad_norm": 1.5080746412277222,
      "learning_rate": 9.617248277394976e-05,
      "loss": 2.1013,
      "step": 23366
    },
    {
      "epoch": 0.5192666666666667,
      "grad_norm": 1.4945917129516602,
      "learning_rate": 9.616803734163147e-05,
      "loss": 1.9204,
      "step": 23367
    },
    {
      "epoch": 0.5192888888888889,
      "grad_norm": 1.4797730445861816,
      "learning_rate": 9.616359190931318e-05,
      "loss": 2.0544,
      "step": 23368
    },
    {
      "epoch": 0.5193111111111111,
      "grad_norm": 1.5065271854400635,
      "learning_rate": 9.615914647699489e-05,
      "loss": 2.0986,
      "step": 23369
    },
    {
      "epoch": 0.5193333333333333,
      "grad_norm": 1.7448323965072632,
      "learning_rate": 9.61547010446766e-05,
      "loss": 1.8711,
      "step": 23370
    },
    {
      "epoch": 0.5193555555555556,
      "grad_norm": 1.3443858623504639,
      "learning_rate": 9.615025561235831e-05,
      "loss": 1.7643,
      "step": 23371
    },
    {
      "epoch": 0.5193777777777778,
      "grad_norm": 1.5031484365463257,
      "learning_rate": 9.614581018004001e-05,
      "loss": 1.8737,
      "step": 23372
    },
    {
      "epoch": 0.5194,
      "grad_norm": 1.6011879444122314,
      "learning_rate": 9.614136474772172e-05,
      "loss": 1.8478,
      "step": 23373
    },
    {
      "epoch": 0.5194222222222222,
      "grad_norm": 1.6996047496795654,
      "learning_rate": 9.613691931540343e-05,
      "loss": 2.0887,
      "step": 23374
    },
    {
      "epoch": 0.5194444444444445,
      "grad_norm": 1.5662046670913696,
      "learning_rate": 9.613247388308514e-05,
      "loss": 1.5057,
      "step": 23375
    },
    {
      "epoch": 0.5194666666666666,
      "grad_norm": 1.6907312870025635,
      "learning_rate": 9.612802845076683e-05,
      "loss": 2.2764,
      "step": 23376
    },
    {
      "epoch": 0.5194888888888889,
      "grad_norm": 1.4157841205596924,
      "learning_rate": 9.612358301844854e-05,
      "loss": 1.5015,
      "step": 23377
    },
    {
      "epoch": 0.5195111111111111,
      "grad_norm": 1.4930452108383179,
      "learning_rate": 9.611913758613025e-05,
      "loss": 1.7667,
      "step": 23378
    },
    {
      "epoch": 0.5195333333333333,
      "grad_norm": 1.8200182914733887,
      "learning_rate": 9.611469215381196e-05,
      "loss": 2.0361,
      "step": 23379
    },
    {
      "epoch": 0.5195555555555555,
      "grad_norm": 1.5360500812530518,
      "learning_rate": 9.611024672149367e-05,
      "loss": 1.8089,
      "step": 23380
    },
    {
      "epoch": 0.5195777777777778,
      "grad_norm": 1.6270356178283691,
      "learning_rate": 9.610580128917538e-05,
      "loss": 2.0497,
      "step": 23381
    },
    {
      "epoch": 0.5196,
      "grad_norm": 1.8541111946105957,
      "learning_rate": 9.610135585685709e-05,
      "loss": 2.1086,
      "step": 23382
    },
    {
      "epoch": 0.5196222222222222,
      "grad_norm": 1.801723837852478,
      "learning_rate": 9.609691042453879e-05,
      "loss": 1.6666,
      "step": 23383
    },
    {
      "epoch": 0.5196444444444445,
      "grad_norm": 1.6421573162078857,
      "learning_rate": 9.60924649922205e-05,
      "loss": 1.4821,
      "step": 23384
    },
    {
      "epoch": 0.5196666666666667,
      "grad_norm": 1.5045015811920166,
      "learning_rate": 9.60880195599022e-05,
      "loss": 1.6483,
      "step": 23385
    },
    {
      "epoch": 0.5196888888888889,
      "grad_norm": 1.5181773900985718,
      "learning_rate": 9.60835741275839e-05,
      "loss": 1.6647,
      "step": 23386
    },
    {
      "epoch": 0.5197111111111111,
      "grad_norm": 1.7174891233444214,
      "learning_rate": 9.607912869526563e-05,
      "loss": 2.1083,
      "step": 23387
    },
    {
      "epoch": 0.5197333333333334,
      "grad_norm": 1.7970659732818604,
      "learning_rate": 9.607468326294734e-05,
      "loss": 2.2085,
      "step": 23388
    },
    {
      "epoch": 0.5197555555555555,
      "grad_norm": 2.0025951862335205,
      "learning_rate": 9.607023783062903e-05,
      "loss": 1.9894,
      "step": 23389
    },
    {
      "epoch": 0.5197777777777778,
      "grad_norm": 1.585881233215332,
      "learning_rate": 9.606579239831074e-05,
      "loss": 2.1887,
      "step": 23390
    },
    {
      "epoch": 0.5198,
      "grad_norm": 1.6766836643218994,
      "learning_rate": 9.606134696599245e-05,
      "loss": 1.9229,
      "step": 23391
    },
    {
      "epoch": 0.5198222222222222,
      "grad_norm": 1.934832215309143,
      "learning_rate": 9.605690153367416e-05,
      "loss": 1.7988,
      "step": 23392
    },
    {
      "epoch": 0.5198444444444444,
      "grad_norm": 1.919701337814331,
      "learning_rate": 9.605245610135586e-05,
      "loss": 1.7399,
      "step": 23393
    },
    {
      "epoch": 0.5198666666666667,
      "grad_norm": 1.5322779417037964,
      "learning_rate": 9.604801066903757e-05,
      "loss": 1.6425,
      "step": 23394
    },
    {
      "epoch": 0.5198888888888888,
      "grad_norm": 1.7682863473892212,
      "learning_rate": 9.604356523671928e-05,
      "loss": 1.7425,
      "step": 23395
    },
    {
      "epoch": 0.5199111111111111,
      "grad_norm": 1.760672688484192,
      "learning_rate": 9.603911980440098e-05,
      "loss": 2.1024,
      "step": 23396
    },
    {
      "epoch": 0.5199333333333334,
      "grad_norm": 1.6764789819717407,
      "learning_rate": 9.60346743720827e-05,
      "loss": 1.3404,
      "step": 23397
    },
    {
      "epoch": 0.5199555555555555,
      "grad_norm": 1.3474384546279907,
      "learning_rate": 9.60302289397644e-05,
      "loss": 0.9073,
      "step": 23398
    },
    {
      "epoch": 0.5199777777777778,
      "grad_norm": 1.6816264390945435,
      "learning_rate": 9.60257835074461e-05,
      "loss": 1.7072,
      "step": 23399
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.110281467437744,
      "learning_rate": 9.602133807512781e-05,
      "loss": 1.8565,
      "step": 23400
    },
    {
      "epoch": 0.5200222222222223,
      "grad_norm": 1.5322684049606323,
      "learning_rate": 9.601689264280952e-05,
      "loss": 2.5088,
      "step": 23401
    },
    {
      "epoch": 0.5200444444444444,
      "grad_norm": 1.3157522678375244,
      "learning_rate": 9.601244721049123e-05,
      "loss": 2.0429,
      "step": 23402
    },
    {
      "epoch": 0.5200666666666667,
      "grad_norm": 1.2573989629745483,
      "learning_rate": 9.600800177817293e-05,
      "loss": 1.1713,
      "step": 23403
    },
    {
      "epoch": 0.5200888888888889,
      "grad_norm": 1.3652368783950806,
      "learning_rate": 9.600355634585463e-05,
      "loss": 2.1819,
      "step": 23404
    },
    {
      "epoch": 0.5201111111111111,
      "grad_norm": 1.5218243598937988,
      "learning_rate": 9.599911091353634e-05,
      "loss": 2.4661,
      "step": 23405
    },
    {
      "epoch": 0.5201333333333333,
      "grad_norm": 1.4911686182022095,
      "learning_rate": 9.599466548121805e-05,
      "loss": 2.2611,
      "step": 23406
    },
    {
      "epoch": 0.5201555555555556,
      "grad_norm": 1.5177046060562134,
      "learning_rate": 9.599022004889976e-05,
      "loss": 2.0808,
      "step": 23407
    },
    {
      "epoch": 0.5201777777777777,
      "grad_norm": 1.444928765296936,
      "learning_rate": 9.598577461658147e-05,
      "loss": 2.1006,
      "step": 23408
    },
    {
      "epoch": 0.5202,
      "grad_norm": 1.6025302410125732,
      "learning_rate": 9.598132918426317e-05,
      "loss": 2.3765,
      "step": 23409
    },
    {
      "epoch": 0.5202222222222223,
      "grad_norm": 0.6890952587127686,
      "learning_rate": 9.597688375194488e-05,
      "loss": 0.0238,
      "step": 23410
    },
    {
      "epoch": 0.5202444444444444,
      "grad_norm": 1.4577072858810425,
      "learning_rate": 9.597243831962659e-05,
      "loss": 1.8476,
      "step": 23411
    },
    {
      "epoch": 0.5202666666666667,
      "grad_norm": 1.4800466299057007,
      "learning_rate": 9.59679928873083e-05,
      "loss": 1.9312,
      "step": 23412
    },
    {
      "epoch": 0.5202888888888889,
      "grad_norm": 1.586534857749939,
      "learning_rate": 9.596354745499e-05,
      "loss": 1.4461,
      "step": 23413
    },
    {
      "epoch": 0.5203111111111111,
      "grad_norm": 1.524072289466858,
      "learning_rate": 9.59591020226717e-05,
      "loss": 2.2151,
      "step": 23414
    },
    {
      "epoch": 0.5203333333333333,
      "grad_norm": 1.5938053131103516,
      "learning_rate": 9.595465659035341e-05,
      "loss": 1.9205,
      "step": 23415
    },
    {
      "epoch": 0.5203555555555556,
      "grad_norm": 1.6950509548187256,
      "learning_rate": 9.595021115803512e-05,
      "loss": 2.0413,
      "step": 23416
    },
    {
      "epoch": 0.5203777777777778,
      "grad_norm": 1.1358160972595215,
      "learning_rate": 9.594576572571683e-05,
      "loss": 1.0889,
      "step": 23417
    },
    {
      "epoch": 0.5204,
      "grad_norm": 1.6229822635650635,
      "learning_rate": 9.594132029339854e-05,
      "loss": 1.9122,
      "step": 23418
    },
    {
      "epoch": 0.5204222222222222,
      "grad_norm": 1.845414638519287,
      "learning_rate": 9.593687486108024e-05,
      "loss": 1.9093,
      "step": 23419
    },
    {
      "epoch": 0.5204444444444445,
      "grad_norm": 1.7727241516113281,
      "learning_rate": 9.593242942876195e-05,
      "loss": 1.9632,
      "step": 23420
    },
    {
      "epoch": 0.5204666666666666,
      "grad_norm": 2.094722270965576,
      "learning_rate": 9.592798399644366e-05,
      "loss": 2.4619,
      "step": 23421
    },
    {
      "epoch": 0.5204888888888889,
      "grad_norm": 1.2790113687515259,
      "learning_rate": 9.592353856412537e-05,
      "loss": 1.4457,
      "step": 23422
    },
    {
      "epoch": 0.5205111111111111,
      "grad_norm": 1.7527289390563965,
      "learning_rate": 9.591909313180706e-05,
      "loss": 2.1899,
      "step": 23423
    },
    {
      "epoch": 0.5205333333333333,
      "grad_norm": 1.9801127910614014,
      "learning_rate": 9.591464769948879e-05,
      "loss": 1.6762,
      "step": 23424
    },
    {
      "epoch": 0.5205555555555555,
      "grad_norm": 1.6637624502182007,
      "learning_rate": 9.59102022671705e-05,
      "loss": 1.8582,
      "step": 23425
    },
    {
      "epoch": 0.5205777777777778,
      "grad_norm": 0.9972699880599976,
      "learning_rate": 9.590575683485219e-05,
      "loss": 0.8686,
      "step": 23426
    },
    {
      "epoch": 0.5206,
      "grad_norm": 1.7044216394424438,
      "learning_rate": 9.59013114025339e-05,
      "loss": 2.1882,
      "step": 23427
    },
    {
      "epoch": 0.5206222222222222,
      "grad_norm": 1.7376374006271362,
      "learning_rate": 9.589686597021561e-05,
      "loss": 2.0016,
      "step": 23428
    },
    {
      "epoch": 0.5206444444444445,
      "grad_norm": 1.5799753665924072,
      "learning_rate": 9.589242053789732e-05,
      "loss": 1.6078,
      "step": 23429
    },
    {
      "epoch": 0.5206666666666667,
      "grad_norm": 1.7051866054534912,
      "learning_rate": 9.588797510557902e-05,
      "loss": 2.0726,
      "step": 23430
    },
    {
      "epoch": 0.5206888888888889,
      "grad_norm": 1.6092500686645508,
      "learning_rate": 9.588352967326073e-05,
      "loss": 2.16,
      "step": 23431
    },
    {
      "epoch": 0.5207111111111111,
      "grad_norm": 1.1065479516983032,
      "learning_rate": 9.587908424094244e-05,
      "loss": 0.7453,
      "step": 23432
    },
    {
      "epoch": 0.5207333333333334,
      "grad_norm": 1.1353650093078613,
      "learning_rate": 9.587463880862415e-05,
      "loss": 0.8762,
      "step": 23433
    },
    {
      "epoch": 0.5207555555555555,
      "grad_norm": 1.6936259269714355,
      "learning_rate": 9.587019337630586e-05,
      "loss": 1.8917,
      "step": 23434
    },
    {
      "epoch": 0.5207777777777778,
      "grad_norm": 1.5808970928192139,
      "learning_rate": 9.586574794398757e-05,
      "loss": 1.8423,
      "step": 23435
    },
    {
      "epoch": 0.5208,
      "grad_norm": 1.7819162607192993,
      "learning_rate": 9.586130251166926e-05,
      "loss": 2.4129,
      "step": 23436
    },
    {
      "epoch": 0.5208222222222222,
      "grad_norm": 1.7504135370254517,
      "learning_rate": 9.585685707935097e-05,
      "loss": 2.137,
      "step": 23437
    },
    {
      "epoch": 0.5208444444444444,
      "grad_norm": 1.9170637130737305,
      "learning_rate": 9.585241164703268e-05,
      "loss": 2.115,
      "step": 23438
    },
    {
      "epoch": 0.5208666666666667,
      "grad_norm": 1.6050792932510376,
      "learning_rate": 9.584796621471439e-05,
      "loss": 1.653,
      "step": 23439
    },
    {
      "epoch": 0.5208888888888888,
      "grad_norm": 2.2042133808135986,
      "learning_rate": 9.584352078239609e-05,
      "loss": 2.4085,
      "step": 23440
    },
    {
      "epoch": 0.5209111111111111,
      "grad_norm": 1.7753957509994507,
      "learning_rate": 9.58390753500778e-05,
      "loss": 1.8717,
      "step": 23441
    },
    {
      "epoch": 0.5209333333333334,
      "grad_norm": 1.812455415725708,
      "learning_rate": 9.58346299177595e-05,
      "loss": 2.2311,
      "step": 23442
    },
    {
      "epoch": 0.5209555555555555,
      "grad_norm": 1.632392168045044,
      "learning_rate": 9.583018448544122e-05,
      "loss": 1.6954,
      "step": 23443
    },
    {
      "epoch": 0.5209777777777778,
      "grad_norm": 1.8336743116378784,
      "learning_rate": 9.582573905312292e-05,
      "loss": 1.8571,
      "step": 23444
    },
    {
      "epoch": 0.521,
      "grad_norm": 1.6397935152053833,
      "learning_rate": 9.582129362080463e-05,
      "loss": 1.6509,
      "step": 23445
    },
    {
      "epoch": 0.5210222222222223,
      "grad_norm": 1.5943433046340942,
      "learning_rate": 9.581684818848633e-05,
      "loss": 2.2234,
      "step": 23446
    },
    {
      "epoch": 0.5210444444444444,
      "grad_norm": 2.445002317428589,
      "learning_rate": 9.581240275616804e-05,
      "loss": 1.6314,
      "step": 23447
    },
    {
      "epoch": 0.5210666666666667,
      "grad_norm": 1.9026970863342285,
      "learning_rate": 9.580795732384975e-05,
      "loss": 2.2815,
      "step": 23448
    },
    {
      "epoch": 0.5210888888888889,
      "grad_norm": 2.117591619491577,
      "learning_rate": 9.580351189153146e-05,
      "loss": 2.2176,
      "step": 23449
    },
    {
      "epoch": 0.5211111111111111,
      "grad_norm": 1.8388599157333374,
      "learning_rate": 9.579906645921316e-05,
      "loss": 1.8567,
      "step": 23450
    },
    {
      "epoch": 0.5211333333333333,
      "grad_norm": 1.4413343667984009,
      "learning_rate": 9.579462102689486e-05,
      "loss": 2.0103,
      "step": 23451
    },
    {
      "epoch": 0.5211555555555556,
      "grad_norm": 1.5503820180892944,
      "learning_rate": 9.579017559457657e-05,
      "loss": 2.3935,
      "step": 23452
    },
    {
      "epoch": 0.5211777777777777,
      "grad_norm": 1.305333137512207,
      "learning_rate": 9.578573016225828e-05,
      "loss": 2.377,
      "step": 23453
    },
    {
      "epoch": 0.5212,
      "grad_norm": 1.5049962997436523,
      "learning_rate": 9.578128472994e-05,
      "loss": 2.5682,
      "step": 23454
    },
    {
      "epoch": 0.5212222222222223,
      "grad_norm": 1.4639840126037598,
      "learning_rate": 9.57768392976217e-05,
      "loss": 2.2377,
      "step": 23455
    },
    {
      "epoch": 0.5212444444444444,
      "grad_norm": 1.4329148530960083,
      "learning_rate": 9.57723938653034e-05,
      "loss": 2.5552,
      "step": 23456
    },
    {
      "epoch": 0.5212666666666667,
      "grad_norm": 1.303725004196167,
      "learning_rate": 9.576794843298511e-05,
      "loss": 1.8975,
      "step": 23457
    },
    {
      "epoch": 0.5212888888888889,
      "grad_norm": 2.307758331298828,
      "learning_rate": 9.576350300066682e-05,
      "loss": 0.51,
      "step": 23458
    },
    {
      "epoch": 0.5213111111111111,
      "grad_norm": 1.6741983890533447,
      "learning_rate": 9.575905756834853e-05,
      "loss": 1.9716,
      "step": 23459
    },
    {
      "epoch": 0.5213333333333333,
      "grad_norm": 1.379691243171692,
      "learning_rate": 9.575461213603022e-05,
      "loss": 2.4198,
      "step": 23460
    },
    {
      "epoch": 0.5213555555555556,
      "grad_norm": 1.822167992591858,
      "learning_rate": 9.575016670371195e-05,
      "loss": 2.2737,
      "step": 23461
    },
    {
      "epoch": 0.5213777777777778,
      "grad_norm": 1.4408025741577148,
      "learning_rate": 9.574572127139366e-05,
      "loss": 2.0604,
      "step": 23462
    },
    {
      "epoch": 0.5214,
      "grad_norm": 1.4681105613708496,
      "learning_rate": 9.574127583907535e-05,
      "loss": 2.0005,
      "step": 23463
    },
    {
      "epoch": 0.5214222222222222,
      "grad_norm": 1.727253794670105,
      "learning_rate": 9.573683040675706e-05,
      "loss": 2.1698,
      "step": 23464
    },
    {
      "epoch": 0.5214444444444445,
      "grad_norm": 1.765559434890747,
      "learning_rate": 9.573238497443877e-05,
      "loss": 2.1068,
      "step": 23465
    },
    {
      "epoch": 0.5214666666666666,
      "grad_norm": 1.6635223627090454,
      "learning_rate": 9.572793954212047e-05,
      "loss": 1.7711,
      "step": 23466
    },
    {
      "epoch": 0.5214888888888889,
      "grad_norm": 1.4502700567245483,
      "learning_rate": 9.572349410980218e-05,
      "loss": 1.7507,
      "step": 23467
    },
    {
      "epoch": 0.5215111111111111,
      "grad_norm": 1.2328991889953613,
      "learning_rate": 9.571904867748389e-05,
      "loss": 0.8677,
      "step": 23468
    },
    {
      "epoch": 0.5215333333333333,
      "grad_norm": 1.5196393728256226,
      "learning_rate": 9.57146032451656e-05,
      "loss": 2.2161,
      "step": 23469
    },
    {
      "epoch": 0.5215555555555556,
      "grad_norm": 1.842067003250122,
      "learning_rate": 9.571015781284731e-05,
      "loss": 1.7318,
      "step": 23470
    },
    {
      "epoch": 0.5215777777777778,
      "grad_norm": 1.4092096090316772,
      "learning_rate": 9.570571238052902e-05,
      "loss": 1.8067,
      "step": 23471
    },
    {
      "epoch": 0.5216,
      "grad_norm": 1.4433478116989136,
      "learning_rate": 9.570126694821073e-05,
      "loss": 2.0469,
      "step": 23472
    },
    {
      "epoch": 0.5216222222222222,
      "grad_norm": 1.75784170627594,
      "learning_rate": 9.569682151589242e-05,
      "loss": 2.2914,
      "step": 23473
    },
    {
      "epoch": 0.5216444444444445,
      "grad_norm": 1.8414697647094727,
      "learning_rate": 9.569237608357413e-05,
      "loss": 1.8388,
      "step": 23474
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 1.516353726387024,
      "learning_rate": 9.568793065125584e-05,
      "loss": 1.8072,
      "step": 23475
    },
    {
      "epoch": 0.5216888888888889,
      "grad_norm": 1.3558088541030884,
      "learning_rate": 9.568348521893754e-05,
      "loss": 1.6376,
      "step": 23476
    },
    {
      "epoch": 0.5217111111111111,
      "grad_norm": 2.099708318710327,
      "learning_rate": 9.567903978661925e-05,
      "loss": 2.2698,
      "step": 23477
    },
    {
      "epoch": 0.5217333333333334,
      "grad_norm": 1.5956395864486694,
      "learning_rate": 9.567459435430096e-05,
      "loss": 1.6638,
      "step": 23478
    },
    {
      "epoch": 0.5217555555555555,
      "grad_norm": 1.6301766633987427,
      "learning_rate": 9.567014892198267e-05,
      "loss": 1.9673,
      "step": 23479
    },
    {
      "epoch": 0.5217777777777778,
      "grad_norm": 1.4816209077835083,
      "learning_rate": 9.566570348966438e-05,
      "loss": 1.9766,
      "step": 23480
    },
    {
      "epoch": 0.5218,
      "grad_norm": 1.8621330261230469,
      "learning_rate": 9.566125805734609e-05,
      "loss": 2.0578,
      "step": 23481
    },
    {
      "epoch": 0.5218222222222222,
      "grad_norm": 1.5356357097625732,
      "learning_rate": 9.56568126250278e-05,
      "loss": 1.8936,
      "step": 23482
    },
    {
      "epoch": 0.5218444444444444,
      "grad_norm": 1.6859182119369507,
      "learning_rate": 9.565236719270949e-05,
      "loss": 2.0329,
      "step": 23483
    },
    {
      "epoch": 0.5218666666666667,
      "grad_norm": 1.8420737981796265,
      "learning_rate": 9.56479217603912e-05,
      "loss": 2.1507,
      "step": 23484
    },
    {
      "epoch": 0.5218888888888888,
      "grad_norm": 1.4702306985855103,
      "learning_rate": 9.564347632807291e-05,
      "loss": 1.7509,
      "step": 23485
    },
    {
      "epoch": 0.5219111111111111,
      "grad_norm": 1.1014586687088013,
      "learning_rate": 9.563903089575462e-05,
      "loss": 0.8687,
      "step": 23486
    },
    {
      "epoch": 0.5219333333333334,
      "grad_norm": 1.6705024242401123,
      "learning_rate": 9.563458546343632e-05,
      "loss": 1.9305,
      "step": 23487
    },
    {
      "epoch": 0.5219555555555555,
      "grad_norm": 1.5798425674438477,
      "learning_rate": 9.563014003111803e-05,
      "loss": 1.7677,
      "step": 23488
    },
    {
      "epoch": 0.5219777777777778,
      "grad_norm": 2.192758083343506,
      "learning_rate": 9.562569459879974e-05,
      "loss": 2.2154,
      "step": 23489
    },
    {
      "epoch": 0.522,
      "grad_norm": 1.4398466348648071,
      "learning_rate": 9.562124916648145e-05,
      "loss": 1.6438,
      "step": 23490
    },
    {
      "epoch": 0.5220222222222223,
      "grad_norm": 1.5397881269454956,
      "learning_rate": 9.561680373416315e-05,
      "loss": 1.3354,
      "step": 23491
    },
    {
      "epoch": 0.5220444444444444,
      "grad_norm": 1.5958529710769653,
      "learning_rate": 9.561235830184486e-05,
      "loss": 1.7771,
      "step": 23492
    },
    {
      "epoch": 0.5220666666666667,
      "grad_norm": 1.8021150827407837,
      "learning_rate": 9.560791286952656e-05,
      "loss": 2.0401,
      "step": 23493
    },
    {
      "epoch": 0.5220888888888889,
      "grad_norm": 1.7623194456100464,
      "learning_rate": 9.560346743720827e-05,
      "loss": 1.7763,
      "step": 23494
    },
    {
      "epoch": 0.5221111111111111,
      "grad_norm": 1.4957431554794312,
      "learning_rate": 9.559902200488998e-05,
      "loss": 1.3758,
      "step": 23495
    },
    {
      "epoch": 0.5221333333333333,
      "grad_norm": 1.8175302743911743,
      "learning_rate": 9.559457657257169e-05,
      "loss": 1.8168,
      "step": 23496
    },
    {
      "epoch": 0.5221555555555556,
      "grad_norm": 1.7955820560455322,
      "learning_rate": 9.559013114025339e-05,
      "loss": 1.641,
      "step": 23497
    },
    {
      "epoch": 0.5221777777777777,
      "grad_norm": 1.781311273574829,
      "learning_rate": 9.558568570793511e-05,
      "loss": 1.5973,
      "step": 23498
    },
    {
      "epoch": 0.5222,
      "grad_norm": 1.2632025480270386,
      "learning_rate": 9.558124027561682e-05,
      "loss": 0.7998,
      "step": 23499
    },
    {
      "epoch": 0.5222222222222223,
      "grad_norm": 1.7112289667129517,
      "learning_rate": 9.557679484329851e-05,
      "loss": 1.8733,
      "step": 23500
    },
    {
      "epoch": 0.5222444444444444,
      "grad_norm": 1.4835841655731201,
      "learning_rate": 9.557234941098022e-05,
      "loss": 2.3305,
      "step": 23501
    },
    {
      "epoch": 0.5222666666666667,
      "grad_norm": 1.103073000907898,
      "learning_rate": 9.556790397866193e-05,
      "loss": 1.0324,
      "step": 23502
    },
    {
      "epoch": 0.5222888888888889,
      "grad_norm": 1.7280179262161255,
      "learning_rate": 9.556345854634363e-05,
      "loss": 2.2469,
      "step": 23503
    },
    {
      "epoch": 0.5223111111111111,
      "grad_norm": 1.640415906906128,
      "learning_rate": 9.555901311402534e-05,
      "loss": 2.6767,
      "step": 23504
    },
    {
      "epoch": 0.5223333333333333,
      "grad_norm": 1.5583909749984741,
      "learning_rate": 9.555456768170705e-05,
      "loss": 2.0078,
      "step": 23505
    },
    {
      "epoch": 0.5223555555555556,
      "grad_norm": 1.4140359163284302,
      "learning_rate": 9.555012224938876e-05,
      "loss": 2.147,
      "step": 23506
    },
    {
      "epoch": 0.5223777777777778,
      "grad_norm": 1.6202985048294067,
      "learning_rate": 9.554567681707047e-05,
      "loss": 2.4525,
      "step": 23507
    },
    {
      "epoch": 0.5224,
      "grad_norm": 1.237894058227539,
      "learning_rate": 9.554123138475218e-05,
      "loss": 1.6839,
      "step": 23508
    },
    {
      "epoch": 0.5224222222222222,
      "grad_norm": 1.5144234895706177,
      "learning_rate": 9.553678595243389e-05,
      "loss": 2.3383,
      "step": 23509
    },
    {
      "epoch": 0.5224444444444445,
      "grad_norm": 1.5032013654708862,
      "learning_rate": 9.553234052011558e-05,
      "loss": 1.0992,
      "step": 23510
    },
    {
      "epoch": 0.5224666666666666,
      "grad_norm": 1.9866136312484741,
      "learning_rate": 9.552789508779729e-05,
      "loss": 2.138,
      "step": 23511
    },
    {
      "epoch": 0.5224888888888889,
      "grad_norm": 1.3902287483215332,
      "learning_rate": 9.5523449655479e-05,
      "loss": 1.7401,
      "step": 23512
    },
    {
      "epoch": 0.5225111111111111,
      "grad_norm": 1.659925103187561,
      "learning_rate": 9.55190042231607e-05,
      "loss": 2.1693,
      "step": 23513
    },
    {
      "epoch": 0.5225333333333333,
      "grad_norm": 2.143366813659668,
      "learning_rate": 9.551455879084241e-05,
      "loss": 2.0791,
      "step": 23514
    },
    {
      "epoch": 0.5225555555555556,
      "grad_norm": 1.4109333753585815,
      "learning_rate": 9.551011335852412e-05,
      "loss": 1.6677,
      "step": 23515
    },
    {
      "epoch": 0.5225777777777778,
      "grad_norm": 1.7577686309814453,
      "learning_rate": 9.550566792620583e-05,
      "loss": 2.4373,
      "step": 23516
    },
    {
      "epoch": 0.5226,
      "grad_norm": 1.7646067142486572,
      "learning_rate": 9.550122249388754e-05,
      "loss": 1.9755,
      "step": 23517
    },
    {
      "epoch": 0.5226222222222222,
      "grad_norm": 1.4974846839904785,
      "learning_rate": 9.549677706156925e-05,
      "loss": 1.5671,
      "step": 23518
    },
    {
      "epoch": 0.5226444444444445,
      "grad_norm": 2.060166835784912,
      "learning_rate": 9.549233162925096e-05,
      "loss": 2.051,
      "step": 23519
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 1.6145113706588745,
      "learning_rate": 9.548788619693265e-05,
      "loss": 2.0319,
      "step": 23520
    },
    {
      "epoch": 0.5226888888888889,
      "grad_norm": 1.5974271297454834,
      "learning_rate": 9.548344076461436e-05,
      "loss": 2.0151,
      "step": 23521
    },
    {
      "epoch": 0.5227111111111111,
      "grad_norm": 1.5854755640029907,
      "learning_rate": 9.547899533229607e-05,
      "loss": 1.8022,
      "step": 23522
    },
    {
      "epoch": 0.5227333333333334,
      "grad_norm": 1.83101487159729,
      "learning_rate": 9.547454989997777e-05,
      "loss": 1.9426,
      "step": 23523
    },
    {
      "epoch": 0.5227555555555555,
      "grad_norm": 1.936417579650879,
      "learning_rate": 9.547010446765948e-05,
      "loss": 2.0007,
      "step": 23524
    },
    {
      "epoch": 0.5227777777777778,
      "grad_norm": 1.1954988241195679,
      "learning_rate": 9.546565903534119e-05,
      "loss": 0.8639,
      "step": 23525
    },
    {
      "epoch": 0.5228,
      "grad_norm": 1.6230175495147705,
      "learning_rate": 9.54612136030229e-05,
      "loss": 1.6841,
      "step": 23526
    },
    {
      "epoch": 0.5228222222222222,
      "grad_norm": 1.5885339975357056,
      "learning_rate": 9.54567681707046e-05,
      "loss": 1.7461,
      "step": 23527
    },
    {
      "epoch": 0.5228444444444444,
      "grad_norm": 1.4620612859725952,
      "learning_rate": 9.545232273838632e-05,
      "loss": 1.6316,
      "step": 23528
    },
    {
      "epoch": 0.5228666666666667,
      "grad_norm": 1.6057885885238647,
      "learning_rate": 9.544787730606803e-05,
      "loss": 1.9449,
      "step": 23529
    },
    {
      "epoch": 0.5228888888888888,
      "grad_norm": 1.7422218322753906,
      "learning_rate": 9.544343187374972e-05,
      "loss": 1.8956,
      "step": 23530
    },
    {
      "epoch": 0.5229111111111111,
      "grad_norm": 1.468239665031433,
      "learning_rate": 9.543898644143143e-05,
      "loss": 1.9019,
      "step": 23531
    },
    {
      "epoch": 0.5229333333333334,
      "grad_norm": 1.5810474157333374,
      "learning_rate": 9.543454100911314e-05,
      "loss": 1.8744,
      "step": 23532
    },
    {
      "epoch": 0.5229555555555555,
      "grad_norm": 2.1194381713867188,
      "learning_rate": 9.543009557679484e-05,
      "loss": 2.1736,
      "step": 23533
    },
    {
      "epoch": 0.5229777777777778,
      "grad_norm": 1.6405680179595947,
      "learning_rate": 9.542565014447655e-05,
      "loss": 1.9595,
      "step": 23534
    },
    {
      "epoch": 0.523,
      "grad_norm": 1.5961873531341553,
      "learning_rate": 9.542120471215827e-05,
      "loss": 1.5682,
      "step": 23535
    },
    {
      "epoch": 0.5230222222222223,
      "grad_norm": 1.2993148565292358,
      "learning_rate": 9.541675927983998e-05,
      "loss": 1.0726,
      "step": 23536
    },
    {
      "epoch": 0.5230444444444444,
      "grad_norm": 1.6592140197753906,
      "learning_rate": 9.541231384752168e-05,
      "loss": 1.1734,
      "step": 23537
    },
    {
      "epoch": 0.5230666666666667,
      "grad_norm": 1.5329574346542358,
      "learning_rate": 9.540786841520338e-05,
      "loss": 1.5839,
      "step": 23538
    },
    {
      "epoch": 0.5230888888888889,
      "grad_norm": 2.2126946449279785,
      "learning_rate": 9.54034229828851e-05,
      "loss": 2.2898,
      "step": 23539
    },
    {
      "epoch": 0.5231111111111111,
      "grad_norm": 2.091524600982666,
      "learning_rate": 9.539897755056679e-05,
      "loss": 2.2356,
      "step": 23540
    },
    {
      "epoch": 0.5231333333333333,
      "grad_norm": 1.6573108434677124,
      "learning_rate": 9.53945321182485e-05,
      "loss": 1.4941,
      "step": 23541
    },
    {
      "epoch": 0.5231555555555556,
      "grad_norm": 1.6273657083511353,
      "learning_rate": 9.539008668593021e-05,
      "loss": 1.7543,
      "step": 23542
    },
    {
      "epoch": 0.5231777777777777,
      "grad_norm": 1.4890210628509521,
      "learning_rate": 9.538564125361192e-05,
      "loss": 1.6662,
      "step": 23543
    },
    {
      "epoch": 0.5232,
      "grad_norm": 1.7088744640350342,
      "learning_rate": 9.538119582129363e-05,
      "loss": 1.8056,
      "step": 23544
    },
    {
      "epoch": 0.5232222222222223,
      "grad_norm": 1.6012723445892334,
      "learning_rate": 9.537675038897534e-05,
      "loss": 1.8574,
      "step": 23545
    },
    {
      "epoch": 0.5232444444444444,
      "grad_norm": 1.8876159191131592,
      "learning_rate": 9.537230495665705e-05,
      "loss": 2.0749,
      "step": 23546
    },
    {
      "epoch": 0.5232666666666667,
      "grad_norm": 1.8407843112945557,
      "learning_rate": 9.536785952433874e-05,
      "loss": 1.9056,
      "step": 23547
    },
    {
      "epoch": 0.5232888888888889,
      "grad_norm": 1.8275058269500732,
      "learning_rate": 9.536341409202045e-05,
      "loss": 1.9346,
      "step": 23548
    },
    {
      "epoch": 0.5233111111111111,
      "grad_norm": 1.4653319120407104,
      "learning_rate": 9.535896865970216e-05,
      "loss": 1.5898,
      "step": 23549
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 1.9945684671401978,
      "learning_rate": 9.535452322738386e-05,
      "loss": 1.7367,
      "step": 23550
    },
    {
      "epoch": 0.5233555555555556,
      "grad_norm": 1.4161890745162964,
      "learning_rate": 9.535007779506557e-05,
      "loss": 2.4742,
      "step": 23551
    },
    {
      "epoch": 0.5233777777777778,
      "grad_norm": 1.435149073600769,
      "learning_rate": 9.534563236274728e-05,
      "loss": 2.7165,
      "step": 23552
    },
    {
      "epoch": 0.5234,
      "grad_norm": 1.1686402559280396,
      "learning_rate": 9.534118693042899e-05,
      "loss": 0.9636,
      "step": 23553
    },
    {
      "epoch": 0.5234222222222222,
      "grad_norm": 1.390217900276184,
      "learning_rate": 9.53367414981107e-05,
      "loss": 2.1834,
      "step": 23554
    },
    {
      "epoch": 0.5234444444444445,
      "grad_norm": 1.7385919094085693,
      "learning_rate": 9.533229606579241e-05,
      "loss": 2.8302,
      "step": 23555
    },
    {
      "epoch": 0.5234666666666666,
      "grad_norm": 1.3181490898132324,
      "learning_rate": 9.532785063347412e-05,
      "loss": 1.9458,
      "step": 23556
    },
    {
      "epoch": 0.5234888888888889,
      "grad_norm": 1.522361397743225,
      "learning_rate": 9.532340520115581e-05,
      "loss": 1.8067,
      "step": 23557
    },
    {
      "epoch": 0.5235111111111111,
      "grad_norm": 1.5265544652938843,
      "learning_rate": 9.531895976883752e-05,
      "loss": 1.8463,
      "step": 23558
    },
    {
      "epoch": 0.5235333333333333,
      "grad_norm": 1.6376625299453735,
      "learning_rate": 9.531451433651923e-05,
      "loss": 2.4348,
      "step": 23559
    },
    {
      "epoch": 0.5235555555555556,
      "grad_norm": 2.1457009315490723,
      "learning_rate": 9.531006890420093e-05,
      "loss": 2.2596,
      "step": 23560
    },
    {
      "epoch": 0.5235777777777778,
      "grad_norm": 1.5697799921035767,
      "learning_rate": 9.530562347188264e-05,
      "loss": 1.5333,
      "step": 23561
    },
    {
      "epoch": 0.5236,
      "grad_norm": 1.5279335975646973,
      "learning_rate": 9.530117803956435e-05,
      "loss": 2.3092,
      "step": 23562
    },
    {
      "epoch": 0.5236222222222222,
      "grad_norm": 1.5674400329589844,
      "learning_rate": 9.529673260724606e-05,
      "loss": 1.5029,
      "step": 23563
    },
    {
      "epoch": 0.5236444444444445,
      "grad_norm": 1.7324440479278564,
      "learning_rate": 9.529228717492777e-05,
      "loss": 1.9599,
      "step": 23564
    },
    {
      "epoch": 0.5236666666666666,
      "grad_norm": 1.5891133546829224,
      "learning_rate": 9.528784174260948e-05,
      "loss": 1.7257,
      "step": 23565
    },
    {
      "epoch": 0.5236888888888889,
      "grad_norm": 1.681810736656189,
      "learning_rate": 9.528339631029119e-05,
      "loss": 1.6507,
      "step": 23566
    },
    {
      "epoch": 0.5237111111111111,
      "grad_norm": 1.7371851205825806,
      "learning_rate": 9.527895087797288e-05,
      "loss": 2.0281,
      "step": 23567
    },
    {
      "epoch": 0.5237333333333334,
      "grad_norm": 1.6733086109161377,
      "learning_rate": 9.527450544565459e-05,
      "loss": 1.9563,
      "step": 23568
    },
    {
      "epoch": 0.5237555555555555,
      "grad_norm": 1.6236867904663086,
      "learning_rate": 9.52700600133363e-05,
      "loss": 2.356,
      "step": 23569
    },
    {
      "epoch": 0.5237777777777778,
      "grad_norm": 1.559304118156433,
      "learning_rate": 9.5265614581018e-05,
      "loss": 2.0787,
      "step": 23570
    },
    {
      "epoch": 0.5238,
      "grad_norm": 1.35281503200531,
      "learning_rate": 9.526116914869971e-05,
      "loss": 1.844,
      "step": 23571
    },
    {
      "epoch": 0.5238222222222222,
      "grad_norm": 1.4692257642745972,
      "learning_rate": 9.525672371638143e-05,
      "loss": 1.5367,
      "step": 23572
    },
    {
      "epoch": 0.5238444444444444,
      "grad_norm": 1.5528080463409424,
      "learning_rate": 9.525227828406314e-05,
      "loss": 1.6426,
      "step": 23573
    },
    {
      "epoch": 0.5238666666666667,
      "grad_norm": 1.6573721170425415,
      "learning_rate": 9.524783285174484e-05,
      "loss": 2.1233,
      "step": 23574
    },
    {
      "epoch": 0.5238888888888888,
      "grad_norm": 1.665436029434204,
      "learning_rate": 9.524338741942655e-05,
      "loss": 1.4603,
      "step": 23575
    },
    {
      "epoch": 0.5239111111111111,
      "grad_norm": 1.8047367334365845,
      "learning_rate": 9.523894198710826e-05,
      "loss": 1.9533,
      "step": 23576
    },
    {
      "epoch": 0.5239333333333334,
      "grad_norm": 1.7372205257415771,
      "learning_rate": 9.523449655478995e-05,
      "loss": 1.6413,
      "step": 23577
    },
    {
      "epoch": 0.5239555555555555,
      "grad_norm": 1.6203618049621582,
      "learning_rate": 9.523005112247166e-05,
      "loss": 2.0505,
      "step": 23578
    },
    {
      "epoch": 0.5239777777777778,
      "grad_norm": 0.4280156195163727,
      "learning_rate": 9.522560569015337e-05,
      "loss": 0.0267,
      "step": 23579
    },
    {
      "epoch": 0.524,
      "grad_norm": 2.010307550430298,
      "learning_rate": 9.522116025783507e-05,
      "loss": 1.8199,
      "step": 23580
    },
    {
      "epoch": 0.5240222222222222,
      "grad_norm": 1.6656157970428467,
      "learning_rate": 9.521671482551679e-05,
      "loss": 1.8276,
      "step": 23581
    },
    {
      "epoch": 0.5240444444444444,
      "grad_norm": 1.467685341835022,
      "learning_rate": 9.52122693931985e-05,
      "loss": 1.5836,
      "step": 23582
    },
    {
      "epoch": 0.5240666666666667,
      "grad_norm": 1.7960227727890015,
      "learning_rate": 9.520782396088021e-05,
      "loss": 1.9735,
      "step": 23583
    },
    {
      "epoch": 0.5240888888888889,
      "grad_norm": 1.5254795551300049,
      "learning_rate": 9.52033785285619e-05,
      "loss": 1.6288,
      "step": 23584
    },
    {
      "epoch": 0.5241111111111111,
      "grad_norm": 1.6993683576583862,
      "learning_rate": 9.519893309624361e-05,
      "loss": 1.6072,
      "step": 23585
    },
    {
      "epoch": 0.5241333333333333,
      "grad_norm": 1.7190238237380981,
      "learning_rate": 9.519448766392532e-05,
      "loss": 1.8338,
      "step": 23586
    },
    {
      "epoch": 0.5241555555555556,
      "grad_norm": 2.22283935546875,
      "learning_rate": 9.519004223160702e-05,
      "loss": 2.0974,
      "step": 23587
    },
    {
      "epoch": 0.5241777777777777,
      "grad_norm": 1.7088874578475952,
      "learning_rate": 9.518559679928873e-05,
      "loss": 1.7974,
      "step": 23588
    },
    {
      "epoch": 0.5242,
      "grad_norm": 1.3593264818191528,
      "learning_rate": 9.518115136697044e-05,
      "loss": 1.4887,
      "step": 23589
    },
    {
      "epoch": 0.5242222222222223,
      "grad_norm": 2.1444132328033447,
      "learning_rate": 9.517670593465215e-05,
      "loss": 2.2625,
      "step": 23590
    },
    {
      "epoch": 0.5242444444444444,
      "grad_norm": 1.5282096862792969,
      "learning_rate": 9.517226050233386e-05,
      "loss": 1.6738,
      "step": 23591
    },
    {
      "epoch": 0.5242666666666667,
      "grad_norm": 1.9921473264694214,
      "learning_rate": 9.516781507001557e-05,
      "loss": 2.4265,
      "step": 23592
    },
    {
      "epoch": 0.5242888888888889,
      "grad_norm": 1.6820412874221802,
      "learning_rate": 9.516336963769728e-05,
      "loss": 1.6365,
      "step": 23593
    },
    {
      "epoch": 0.5243111111111111,
      "grad_norm": 1.572200894355774,
      "learning_rate": 9.515892420537897e-05,
      "loss": 1.5811,
      "step": 23594
    },
    {
      "epoch": 0.5243333333333333,
      "grad_norm": 2.207819938659668,
      "learning_rate": 9.515447877306068e-05,
      "loss": 2.0769,
      "step": 23595
    },
    {
      "epoch": 0.5243555555555556,
      "grad_norm": 2.415825128555298,
      "learning_rate": 9.51500333407424e-05,
      "loss": 2.5808,
      "step": 23596
    },
    {
      "epoch": 0.5243777777777778,
      "grad_norm": 1.8326358795166016,
      "learning_rate": 9.514558790842409e-05,
      "loss": 1.7439,
      "step": 23597
    },
    {
      "epoch": 0.5244,
      "grad_norm": 1.9195904731750488,
      "learning_rate": 9.51411424761058e-05,
      "loss": 1.9384,
      "step": 23598
    },
    {
      "epoch": 0.5244222222222222,
      "grad_norm": 1.3317803144454956,
      "learning_rate": 9.513669704378751e-05,
      "loss": 0.9504,
      "step": 23599
    },
    {
      "epoch": 0.5244444444444445,
      "grad_norm": 0.9950332045555115,
      "learning_rate": 9.513225161146922e-05,
      "loss": 0.5862,
      "step": 23600
    },
    {
      "epoch": 0.5244666666666666,
      "grad_norm": 1.746961236000061,
      "learning_rate": 9.512780617915093e-05,
      "loss": 2.2317,
      "step": 23601
    },
    {
      "epoch": 0.5244888888888889,
      "grad_norm": 1.7097283601760864,
      "learning_rate": 9.512336074683264e-05,
      "loss": 2.974,
      "step": 23602
    },
    {
      "epoch": 0.5245111111111112,
      "grad_norm": 1.4731758832931519,
      "learning_rate": 9.511891531451435e-05,
      "loss": 2.4865,
      "step": 23603
    },
    {
      "epoch": 0.5245333333333333,
      "grad_norm": 1.4921091794967651,
      "learning_rate": 9.511446988219604e-05,
      "loss": 2.051,
      "step": 23604
    },
    {
      "epoch": 0.5245555555555556,
      "grad_norm": 1.3914109468460083,
      "learning_rate": 9.511002444987775e-05,
      "loss": 2.5035,
      "step": 23605
    },
    {
      "epoch": 0.5245777777777778,
      "grad_norm": 1.6267725229263306,
      "learning_rate": 9.510557901755946e-05,
      "loss": 2.4337,
      "step": 23606
    },
    {
      "epoch": 0.5246,
      "grad_norm": 1.4721976518630981,
      "learning_rate": 9.510113358524116e-05,
      "loss": 2.0028,
      "step": 23607
    },
    {
      "epoch": 0.5246222222222222,
      "grad_norm": 1.7352125644683838,
      "learning_rate": 9.509668815292287e-05,
      "loss": 2.4256,
      "step": 23608
    },
    {
      "epoch": 0.5246444444444445,
      "grad_norm": 1.8731094598770142,
      "learning_rate": 9.509224272060459e-05,
      "loss": 2.7542,
      "step": 23609
    },
    {
      "epoch": 0.5246666666666666,
      "grad_norm": 1.6215654611587524,
      "learning_rate": 9.50877972882863e-05,
      "loss": 2.2316,
      "step": 23610
    },
    {
      "epoch": 0.5246888888888889,
      "grad_norm": 1.7369816303253174,
      "learning_rate": 9.5083351855968e-05,
      "loss": 1.7516,
      "step": 23611
    },
    {
      "epoch": 0.5247111111111111,
      "grad_norm": 1.635297179222107,
      "learning_rate": 9.507890642364971e-05,
      "loss": 1.9743,
      "step": 23612
    },
    {
      "epoch": 0.5247333333333334,
      "grad_norm": 1.324048399925232,
      "learning_rate": 9.507446099133142e-05,
      "loss": 1.6915,
      "step": 23613
    },
    {
      "epoch": 0.5247555555555555,
      "grad_norm": 1.5517498254776,
      "learning_rate": 9.507001555901311e-05,
      "loss": 2.157,
      "step": 23614
    },
    {
      "epoch": 0.5247777777777778,
      "grad_norm": 1.7579244375228882,
      "learning_rate": 9.506557012669482e-05,
      "loss": 2.105,
      "step": 23615
    },
    {
      "epoch": 0.5248,
      "grad_norm": 1.8180476427078247,
      "learning_rate": 9.506112469437653e-05,
      "loss": 1.9283,
      "step": 23616
    },
    {
      "epoch": 0.5248222222222222,
      "grad_norm": 1.6535323858261108,
      "learning_rate": 9.505667926205824e-05,
      "loss": 2.3869,
      "step": 23617
    },
    {
      "epoch": 0.5248444444444444,
      "grad_norm": 1.388588786125183,
      "learning_rate": 9.505223382973995e-05,
      "loss": 1.5709,
      "step": 23618
    },
    {
      "epoch": 0.5248666666666667,
      "grad_norm": 1.6025274991989136,
      "learning_rate": 9.504778839742166e-05,
      "loss": 2.2582,
      "step": 23619
    },
    {
      "epoch": 0.5248888888888888,
      "grad_norm": 2.247967004776001,
      "learning_rate": 9.504334296510337e-05,
      "loss": 2.4614,
      "step": 23620
    },
    {
      "epoch": 0.5249111111111111,
      "grad_norm": 1.6598678827285767,
      "learning_rate": 9.503889753278507e-05,
      "loss": 2.2759,
      "step": 23621
    },
    {
      "epoch": 0.5249333333333334,
      "grad_norm": 1.8915812969207764,
      "learning_rate": 9.503445210046678e-05,
      "loss": 1.9739,
      "step": 23622
    },
    {
      "epoch": 0.5249555555555555,
      "grad_norm": 1.6219621896743774,
      "learning_rate": 9.503000666814849e-05,
      "loss": 1.8984,
      "step": 23623
    },
    {
      "epoch": 0.5249777777777778,
      "grad_norm": 1.593651294708252,
      "learning_rate": 9.502556123583018e-05,
      "loss": 2.1007,
      "step": 23624
    },
    {
      "epoch": 0.525,
      "grad_norm": 1.6501320600509644,
      "learning_rate": 9.502111580351189e-05,
      "loss": 2.1724,
      "step": 23625
    },
    {
      "epoch": 0.5250222222222222,
      "grad_norm": 1.7225689888000488,
      "learning_rate": 9.50166703711936e-05,
      "loss": 2.0118,
      "step": 23626
    },
    {
      "epoch": 0.5250444444444444,
      "grad_norm": 2.086867332458496,
      "learning_rate": 9.501222493887531e-05,
      "loss": 1.8498,
      "step": 23627
    },
    {
      "epoch": 0.5250666666666667,
      "grad_norm": 1.8514620065689087,
      "learning_rate": 9.500777950655702e-05,
      "loss": 1.7767,
      "step": 23628
    },
    {
      "epoch": 0.5250888888888889,
      "grad_norm": 1.8607709407806396,
      "learning_rate": 9.500333407423873e-05,
      "loss": 1.944,
      "step": 23629
    },
    {
      "epoch": 0.5251111111111111,
      "grad_norm": 2.2615954875946045,
      "learning_rate": 9.499888864192044e-05,
      "loss": 2.0199,
      "step": 23630
    },
    {
      "epoch": 0.5251333333333333,
      "grad_norm": 1.8198668956756592,
      "learning_rate": 9.499444320960214e-05,
      "loss": 2.1563,
      "step": 23631
    },
    {
      "epoch": 0.5251555555555556,
      "grad_norm": 1.6202014684677124,
      "learning_rate": 9.498999777728385e-05,
      "loss": 1.9066,
      "step": 23632
    },
    {
      "epoch": 0.5251777777777777,
      "grad_norm": 1.1832908391952515,
      "learning_rate": 9.498555234496555e-05,
      "loss": 0.8782,
      "step": 23633
    },
    {
      "epoch": 0.5252,
      "grad_norm": 1.8035393953323364,
      "learning_rate": 9.498110691264725e-05,
      "loss": 2.1625,
      "step": 23634
    },
    {
      "epoch": 0.5252222222222223,
      "grad_norm": 1.6987273693084717,
      "learning_rate": 9.497666148032896e-05,
      "loss": 1.9065,
      "step": 23635
    },
    {
      "epoch": 0.5252444444444444,
      "grad_norm": 1.71159029006958,
      "learning_rate": 9.497221604801067e-05,
      "loss": 2.1478,
      "step": 23636
    },
    {
      "epoch": 0.5252666666666667,
      "grad_norm": 1.837618112564087,
      "learning_rate": 9.496777061569238e-05,
      "loss": 2.1235,
      "step": 23637
    },
    {
      "epoch": 0.5252888888888889,
      "grad_norm": 1.698433518409729,
      "learning_rate": 9.496332518337409e-05,
      "loss": 1.5332,
      "step": 23638
    },
    {
      "epoch": 0.5253111111111111,
      "grad_norm": 1.5105230808258057,
      "learning_rate": 9.49588797510558e-05,
      "loss": 1.417,
      "step": 23639
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 1.7959957122802734,
      "learning_rate": 9.495443431873751e-05,
      "loss": 2.0392,
      "step": 23640
    },
    {
      "epoch": 0.5253555555555556,
      "grad_norm": 1.4776732921600342,
      "learning_rate": 9.49499888864192e-05,
      "loss": 1.4472,
      "step": 23641
    },
    {
      "epoch": 0.5253777777777778,
      "grad_norm": 1.7529984712600708,
      "learning_rate": 9.494554345410091e-05,
      "loss": 1.9439,
      "step": 23642
    },
    {
      "epoch": 0.5254,
      "grad_norm": 1.6508597135543823,
      "learning_rate": 9.494109802178262e-05,
      "loss": 1.5688,
      "step": 23643
    },
    {
      "epoch": 0.5254222222222222,
      "grad_norm": 2.1327075958251953,
      "learning_rate": 9.493665258946432e-05,
      "loss": 2.0392,
      "step": 23644
    },
    {
      "epoch": 0.5254444444444445,
      "grad_norm": 1.5916261672973633,
      "learning_rate": 9.493220715714603e-05,
      "loss": 1.7006,
      "step": 23645
    },
    {
      "epoch": 0.5254666666666666,
      "grad_norm": 1.8575446605682373,
      "learning_rate": 9.492776172482775e-05,
      "loss": 1.0601,
      "step": 23646
    },
    {
      "epoch": 0.5254888888888889,
      "grad_norm": 2.141474723815918,
      "learning_rate": 9.492331629250946e-05,
      "loss": 2.0946,
      "step": 23647
    },
    {
      "epoch": 0.5255111111111112,
      "grad_norm": 1.5194348096847534,
      "learning_rate": 9.491887086019116e-05,
      "loss": 1.4118,
      "step": 23648
    },
    {
      "epoch": 0.5255333333333333,
      "grad_norm": 1.2321689128875732,
      "learning_rate": 9.491442542787287e-05,
      "loss": 0.9218,
      "step": 23649
    },
    {
      "epoch": 0.5255555555555556,
      "grad_norm": 1.638822317123413,
      "learning_rate": 9.490997999555458e-05,
      "loss": 1.4836,
      "step": 23650
    },
    {
      "epoch": 0.5255777777777778,
      "grad_norm": 1.42263925075531,
      "learning_rate": 9.490553456323627e-05,
      "loss": 2.2919,
      "step": 23651
    },
    {
      "epoch": 0.5256,
      "grad_norm": 1.5745683908462524,
      "learning_rate": 9.490108913091798e-05,
      "loss": 2.5049,
      "step": 23652
    },
    {
      "epoch": 0.5256222222222222,
      "grad_norm": 1.5664008855819702,
      "learning_rate": 9.489664369859969e-05,
      "loss": 2.3209,
      "step": 23653
    },
    {
      "epoch": 0.5256444444444445,
      "grad_norm": 1.6103432178497314,
      "learning_rate": 9.48921982662814e-05,
      "loss": 1.9515,
      "step": 23654
    },
    {
      "epoch": 0.5256666666666666,
      "grad_norm": 1.4541568756103516,
      "learning_rate": 9.488775283396311e-05,
      "loss": 2.2676,
      "step": 23655
    },
    {
      "epoch": 0.5256888888888889,
      "grad_norm": 1.53663969039917,
      "learning_rate": 9.488330740164482e-05,
      "loss": 2.1447,
      "step": 23656
    },
    {
      "epoch": 0.5257111111111111,
      "grad_norm": 1.6185568571090698,
      "learning_rate": 9.487886196932653e-05,
      "loss": 2.3021,
      "step": 23657
    },
    {
      "epoch": 0.5257333333333334,
      "grad_norm": 1.7894415855407715,
      "learning_rate": 9.487441653700823e-05,
      "loss": 2.634,
      "step": 23658
    },
    {
      "epoch": 0.5257555555555555,
      "grad_norm": 1.498635172843933,
      "learning_rate": 9.486997110468994e-05,
      "loss": 2.3226,
      "step": 23659
    },
    {
      "epoch": 0.5257777777777778,
      "grad_norm": 1.5947479009628296,
      "learning_rate": 9.486552567237165e-05,
      "loss": 1.9302,
      "step": 23660
    },
    {
      "epoch": 0.5258,
      "grad_norm": 1.4704395532608032,
      "learning_rate": 9.486108024005334e-05,
      "loss": 1.7616,
      "step": 23661
    },
    {
      "epoch": 0.5258222222222222,
      "grad_norm": 1.5122017860412598,
      "learning_rate": 9.485663480773505e-05,
      "loss": 1.9051,
      "step": 23662
    },
    {
      "epoch": 0.5258444444444444,
      "grad_norm": 1.9431722164154053,
      "learning_rate": 9.485218937541676e-05,
      "loss": 2.2057,
      "step": 23663
    },
    {
      "epoch": 0.5258666666666667,
      "grad_norm": 1.6983226537704468,
      "learning_rate": 9.484774394309847e-05,
      "loss": 2.0365,
      "step": 23664
    },
    {
      "epoch": 0.5258888888888889,
      "grad_norm": 1.4536004066467285,
      "learning_rate": 9.484329851078018e-05,
      "loss": 2.0021,
      "step": 23665
    },
    {
      "epoch": 0.5259111111111111,
      "grad_norm": 1.6756590604782104,
      "learning_rate": 9.483885307846189e-05,
      "loss": 2.3229,
      "step": 23666
    },
    {
      "epoch": 0.5259333333333334,
      "grad_norm": 1.6245148181915283,
      "learning_rate": 9.48344076461436e-05,
      "loss": 1.9934,
      "step": 23667
    },
    {
      "epoch": 0.5259555555555555,
      "grad_norm": 0.933047890663147,
      "learning_rate": 9.48299622138253e-05,
      "loss": 0.8002,
      "step": 23668
    },
    {
      "epoch": 0.5259777777777778,
      "grad_norm": 1.5941871404647827,
      "learning_rate": 9.4825516781507e-05,
      "loss": 2.5263,
      "step": 23669
    },
    {
      "epoch": 0.526,
      "grad_norm": 1.5445572137832642,
      "learning_rate": 9.482107134918872e-05,
      "loss": 1.7002,
      "step": 23670
    },
    {
      "epoch": 0.5260222222222222,
      "grad_norm": 1.5460585355758667,
      "learning_rate": 9.481662591687041e-05,
      "loss": 2.0405,
      "step": 23671
    },
    {
      "epoch": 0.5260444444444444,
      "grad_norm": 1.7182495594024658,
      "learning_rate": 9.481218048455212e-05,
      "loss": 2.2519,
      "step": 23672
    },
    {
      "epoch": 0.5260666666666667,
      "grad_norm": 1.9375160932540894,
      "learning_rate": 9.480773505223383e-05,
      "loss": 2.3815,
      "step": 23673
    },
    {
      "epoch": 0.5260888888888889,
      "grad_norm": 1.7995977401733398,
      "learning_rate": 9.480328961991554e-05,
      "loss": 2.1137,
      "step": 23674
    },
    {
      "epoch": 0.5261111111111111,
      "grad_norm": 2.004695415496826,
      "learning_rate": 9.479884418759725e-05,
      "loss": 2.0737,
      "step": 23675
    },
    {
      "epoch": 0.5261333333333333,
      "grad_norm": 1.8226720094680786,
      "learning_rate": 9.479439875527896e-05,
      "loss": 2.0293,
      "step": 23676
    },
    {
      "epoch": 0.5261555555555556,
      "grad_norm": 1.7104474306106567,
      "learning_rate": 9.478995332296067e-05,
      "loss": 1.6502,
      "step": 23677
    },
    {
      "epoch": 0.5261777777777777,
      "grad_norm": 1.6581238508224487,
      "learning_rate": 9.478550789064237e-05,
      "loss": 1.5561,
      "step": 23678
    },
    {
      "epoch": 0.5262,
      "grad_norm": 1.7359737157821655,
      "learning_rate": 9.478106245832408e-05,
      "loss": 2.0735,
      "step": 23679
    },
    {
      "epoch": 0.5262222222222223,
      "grad_norm": 1.707967758178711,
      "learning_rate": 9.477661702600578e-05,
      "loss": 1.5254,
      "step": 23680
    },
    {
      "epoch": 0.5262444444444444,
      "grad_norm": 1.2937772274017334,
      "learning_rate": 9.477217159368748e-05,
      "loss": 0.9205,
      "step": 23681
    },
    {
      "epoch": 0.5262666666666667,
      "grad_norm": 1.605036973953247,
      "learning_rate": 9.476772616136919e-05,
      "loss": 1.8984,
      "step": 23682
    },
    {
      "epoch": 0.5262888888888889,
      "grad_norm": 1.5752992630004883,
      "learning_rate": 9.476328072905091e-05,
      "loss": 1.7513,
      "step": 23683
    },
    {
      "epoch": 0.5263111111111111,
      "grad_norm": 1.61064612865448,
      "learning_rate": 9.475883529673261e-05,
      "loss": 1.8202,
      "step": 23684
    },
    {
      "epoch": 0.5263333333333333,
      "grad_norm": 1.5076121091842651,
      "learning_rate": 9.475438986441432e-05,
      "loss": 1.5548,
      "step": 23685
    },
    {
      "epoch": 0.5263555555555556,
      "grad_norm": 1.8648066520690918,
      "learning_rate": 9.474994443209603e-05,
      "loss": 1.7631,
      "step": 23686
    },
    {
      "epoch": 0.5263777777777778,
      "grad_norm": 1.3826918601989746,
      "learning_rate": 9.474549899977774e-05,
      "loss": 1.4976,
      "step": 23687
    },
    {
      "epoch": 0.5264,
      "grad_norm": 1.7908716201782227,
      "learning_rate": 9.474105356745943e-05,
      "loss": 1.8232,
      "step": 23688
    },
    {
      "epoch": 0.5264222222222222,
      "grad_norm": 1.603614091873169,
      "learning_rate": 9.473660813514114e-05,
      "loss": 1.7587,
      "step": 23689
    },
    {
      "epoch": 0.5264444444444445,
      "grad_norm": 2.4668169021606445,
      "learning_rate": 9.473216270282285e-05,
      "loss": 1.9511,
      "step": 23690
    },
    {
      "epoch": 0.5264666666666666,
      "grad_norm": 1.740543246269226,
      "learning_rate": 9.472771727050456e-05,
      "loss": 2.0548,
      "step": 23691
    },
    {
      "epoch": 0.5264888888888889,
      "grad_norm": 1.936492919921875,
      "learning_rate": 9.472327183818627e-05,
      "loss": 1.8,
      "step": 23692
    },
    {
      "epoch": 0.5265111111111112,
      "grad_norm": 1.7561182975769043,
      "learning_rate": 9.471882640586798e-05,
      "loss": 1.5935,
      "step": 23693
    },
    {
      "epoch": 0.5265333333333333,
      "grad_norm": 1.6438767910003662,
      "learning_rate": 9.471438097354968e-05,
      "loss": 1.479,
      "step": 23694
    },
    {
      "epoch": 0.5265555555555556,
      "grad_norm": 1.8297717571258545,
      "learning_rate": 9.470993554123139e-05,
      "loss": 1.6924,
      "step": 23695
    },
    {
      "epoch": 0.5265777777777778,
      "grad_norm": 1.4581587314605713,
      "learning_rate": 9.47054901089131e-05,
      "loss": 1.1013,
      "step": 23696
    },
    {
      "epoch": 0.5266,
      "grad_norm": 1.4344416856765747,
      "learning_rate": 9.470104467659481e-05,
      "loss": 1.0486,
      "step": 23697
    },
    {
      "epoch": 0.5266222222222222,
      "grad_norm": 1.6188619136810303,
      "learning_rate": 9.46965992442765e-05,
      "loss": 1.8213,
      "step": 23698
    },
    {
      "epoch": 0.5266444444444445,
      "grad_norm": 1.8744381666183472,
      "learning_rate": 9.469215381195821e-05,
      "loss": 1.5866,
      "step": 23699
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 1.790950894355774,
      "learning_rate": 9.468770837963992e-05,
      "loss": 1.2077,
      "step": 23700
    },
    {
      "epoch": 0.5266888888888889,
      "grad_norm": 1.8078699111938477,
      "learning_rate": 9.468326294732163e-05,
      "loss": 3.126,
      "step": 23701
    },
    {
      "epoch": 0.5267111111111111,
      "grad_norm": 1.3800537586212158,
      "learning_rate": 9.467881751500334e-05,
      "loss": 2.5915,
      "step": 23702
    },
    {
      "epoch": 0.5267333333333334,
      "grad_norm": 1.1992135047912598,
      "learning_rate": 9.467437208268505e-05,
      "loss": 1.2636,
      "step": 23703
    },
    {
      "epoch": 0.5267555555555555,
      "grad_norm": 1.3606702089309692,
      "learning_rate": 9.466992665036676e-05,
      "loss": 2.2304,
      "step": 23704
    },
    {
      "epoch": 0.5267777777777778,
      "grad_norm": 1.790583848953247,
      "learning_rate": 9.466548121804846e-05,
      "loss": 2.4546,
      "step": 23705
    },
    {
      "epoch": 0.5268,
      "grad_norm": 1.4719483852386475,
      "learning_rate": 9.466103578573017e-05,
      "loss": 2.0247,
      "step": 23706
    },
    {
      "epoch": 0.5268222222222222,
      "grad_norm": 1.771531343460083,
      "learning_rate": 9.465659035341188e-05,
      "loss": 2.5341,
      "step": 23707
    },
    {
      "epoch": 0.5268444444444444,
      "grad_norm": 1.7952773571014404,
      "learning_rate": 9.465214492109357e-05,
      "loss": 2.0759,
      "step": 23708
    },
    {
      "epoch": 0.5268666666666667,
      "grad_norm": 1.3723912239074707,
      "learning_rate": 9.464769948877528e-05,
      "loss": 1.9207,
      "step": 23709
    },
    {
      "epoch": 0.5268888888888889,
      "grad_norm": 1.6083816289901733,
      "learning_rate": 9.464325405645699e-05,
      "loss": 2.0633,
      "step": 23710
    },
    {
      "epoch": 0.5269111111111111,
      "grad_norm": 1.809015154838562,
      "learning_rate": 9.46388086241387e-05,
      "loss": 2.3048,
      "step": 23711
    },
    {
      "epoch": 0.5269333333333334,
      "grad_norm": 1.6084463596343994,
      "learning_rate": 9.463436319182041e-05,
      "loss": 2.1493,
      "step": 23712
    },
    {
      "epoch": 0.5269555555555555,
      "grad_norm": 1.813439130783081,
      "learning_rate": 9.462991775950212e-05,
      "loss": 2.2737,
      "step": 23713
    },
    {
      "epoch": 0.5269777777777778,
      "grad_norm": 1.7677758932113647,
      "learning_rate": 9.462547232718383e-05,
      "loss": 2.1471,
      "step": 23714
    },
    {
      "epoch": 0.527,
      "grad_norm": 1.6612886190414429,
      "learning_rate": 9.462102689486553e-05,
      "loss": 2.1635,
      "step": 23715
    },
    {
      "epoch": 0.5270222222222222,
      "grad_norm": 1.6213492155075073,
      "learning_rate": 9.461658146254724e-05,
      "loss": 1.6913,
      "step": 23716
    },
    {
      "epoch": 0.5270444444444444,
      "grad_norm": 1.3587576150894165,
      "learning_rate": 9.461213603022895e-05,
      "loss": 1.433,
      "step": 23717
    },
    {
      "epoch": 0.5270666666666667,
      "grad_norm": 1.5279505252838135,
      "learning_rate": 9.460769059791064e-05,
      "loss": 1.9381,
      "step": 23718
    },
    {
      "epoch": 0.5270888888888889,
      "grad_norm": 1.9542356729507446,
      "learning_rate": 9.460324516559235e-05,
      "loss": 1.9787,
      "step": 23719
    },
    {
      "epoch": 0.5271111111111111,
      "grad_norm": 1.4533320665359497,
      "learning_rate": 9.459879973327407e-05,
      "loss": 1.7029,
      "step": 23720
    },
    {
      "epoch": 0.5271333333333333,
      "grad_norm": 1.29677152633667,
      "learning_rate": 9.459435430095577e-05,
      "loss": 1.4501,
      "step": 23721
    },
    {
      "epoch": 0.5271555555555556,
      "grad_norm": 1.597881555557251,
      "learning_rate": 9.458990886863748e-05,
      "loss": 1.8903,
      "step": 23722
    },
    {
      "epoch": 0.5271777777777777,
      "grad_norm": 1.613997220993042,
      "learning_rate": 9.458546343631919e-05,
      "loss": 1.7147,
      "step": 23723
    },
    {
      "epoch": 0.5272,
      "grad_norm": 1.5654476881027222,
      "learning_rate": 9.45810180040009e-05,
      "loss": 1.7678,
      "step": 23724
    },
    {
      "epoch": 0.5272222222222223,
      "grad_norm": 1.6260709762573242,
      "learning_rate": 9.45765725716826e-05,
      "loss": 1.7308,
      "step": 23725
    },
    {
      "epoch": 0.5272444444444444,
      "grad_norm": 1.0459957122802734,
      "learning_rate": 9.45721271393643e-05,
      "loss": 0.9838,
      "step": 23726
    },
    {
      "epoch": 0.5272666666666667,
      "grad_norm": 1.7303098440170288,
      "learning_rate": 9.456768170704601e-05,
      "loss": 1.6512,
      "step": 23727
    },
    {
      "epoch": 0.5272888888888889,
      "grad_norm": 1.8635573387145996,
      "learning_rate": 9.456323627472772e-05,
      "loss": 2.0471,
      "step": 23728
    },
    {
      "epoch": 0.5273111111111111,
      "grad_norm": 1.8313472270965576,
      "learning_rate": 9.455879084240943e-05,
      "loss": 1.8289,
      "step": 23729
    },
    {
      "epoch": 0.5273333333333333,
      "grad_norm": 1.8268100023269653,
      "learning_rate": 9.455434541009114e-05,
      "loss": 2.072,
      "step": 23730
    },
    {
      "epoch": 0.5273555555555556,
      "grad_norm": 1.666477918624878,
      "learning_rate": 9.454989997777284e-05,
      "loss": 2.0224,
      "step": 23731
    },
    {
      "epoch": 0.5273777777777777,
      "grad_norm": 1.5069160461425781,
      "learning_rate": 9.454545454545455e-05,
      "loss": 1.7322,
      "step": 23732
    },
    {
      "epoch": 0.5274,
      "grad_norm": 1.6947526931762695,
      "learning_rate": 9.454100911313626e-05,
      "loss": 1.958,
      "step": 23733
    },
    {
      "epoch": 0.5274222222222222,
      "grad_norm": 1.6047391891479492,
      "learning_rate": 9.453656368081797e-05,
      "loss": 1.3436,
      "step": 23734
    },
    {
      "epoch": 0.5274444444444445,
      "grad_norm": 1.532564640045166,
      "learning_rate": 9.453211824849966e-05,
      "loss": 1.7717,
      "step": 23735
    },
    {
      "epoch": 0.5274666666666666,
      "grad_norm": 1.527804970741272,
      "learning_rate": 9.452767281618137e-05,
      "loss": 1.6125,
      "step": 23736
    },
    {
      "epoch": 0.5274888888888889,
      "grad_norm": 2.055504083633423,
      "learning_rate": 9.452322738386308e-05,
      "loss": 2.0984,
      "step": 23737
    },
    {
      "epoch": 0.5275111111111112,
      "grad_norm": 1.7780077457427979,
      "learning_rate": 9.45187819515448e-05,
      "loss": 1.9247,
      "step": 23738
    },
    {
      "epoch": 0.5275333333333333,
      "grad_norm": 1.8316158056259155,
      "learning_rate": 9.45143365192265e-05,
      "loss": 1.9434,
      "step": 23739
    },
    {
      "epoch": 0.5275555555555556,
      "grad_norm": 1.7091200351715088,
      "learning_rate": 9.450989108690821e-05,
      "loss": 1.8159,
      "step": 23740
    },
    {
      "epoch": 0.5275777777777778,
      "grad_norm": 1.94760000705719,
      "learning_rate": 9.450544565458991e-05,
      "loss": 2.0671,
      "step": 23741
    },
    {
      "epoch": 0.5276,
      "grad_norm": 2.032891035079956,
      "learning_rate": 9.450100022227162e-05,
      "loss": 2.0027,
      "step": 23742
    },
    {
      "epoch": 0.5276222222222222,
      "grad_norm": 1.6991949081420898,
      "learning_rate": 9.449655478995333e-05,
      "loss": 1.8985,
      "step": 23743
    },
    {
      "epoch": 0.5276444444444445,
      "grad_norm": 1.748841404914856,
      "learning_rate": 9.449210935763504e-05,
      "loss": 1.7717,
      "step": 23744
    },
    {
      "epoch": 0.5276666666666666,
      "grad_norm": 2.068502426147461,
      "learning_rate": 9.448766392531673e-05,
      "loss": 2.1942,
      "step": 23745
    },
    {
      "epoch": 0.5276888888888889,
      "grad_norm": 1.5958765745162964,
      "learning_rate": 9.448321849299844e-05,
      "loss": 1.573,
      "step": 23746
    },
    {
      "epoch": 0.5277111111111111,
      "grad_norm": 1.8207731246948242,
      "learning_rate": 9.447877306068015e-05,
      "loss": 1.909,
      "step": 23747
    },
    {
      "epoch": 0.5277333333333334,
      "grad_norm": 1.6712983846664429,
      "learning_rate": 9.447432762836186e-05,
      "loss": 1.8474,
      "step": 23748
    },
    {
      "epoch": 0.5277555555555555,
      "grad_norm": 2.3490779399871826,
      "learning_rate": 9.446988219604357e-05,
      "loss": 1.4803,
      "step": 23749
    },
    {
      "epoch": 0.5277777777777778,
      "grad_norm": 1.5817666053771973,
      "learning_rate": 9.446543676372528e-05,
      "loss": 1.0461,
      "step": 23750
    },
    {
      "epoch": 0.5278,
      "grad_norm": 1.3044332265853882,
      "learning_rate": 9.446099133140698e-05,
      "loss": 1.1508,
      "step": 23751
    },
    {
      "epoch": 0.5278222222222222,
      "grad_norm": 1.8387796878814697,
      "learning_rate": 9.445654589908869e-05,
      "loss": 3.1997,
      "step": 23752
    },
    {
      "epoch": 0.5278444444444444,
      "grad_norm": 1.2939718961715698,
      "learning_rate": 9.44521004667704e-05,
      "loss": 1.6348,
      "step": 23753
    },
    {
      "epoch": 0.5278666666666667,
      "grad_norm": 1.495360016822815,
      "learning_rate": 9.444765503445211e-05,
      "loss": 2.4047,
      "step": 23754
    },
    {
      "epoch": 0.5278888888888889,
      "grad_norm": 1.6197452545166016,
      "learning_rate": 9.44432096021338e-05,
      "loss": 2.614,
      "step": 23755
    },
    {
      "epoch": 0.5279111111111111,
      "grad_norm": 1.7753567695617676,
      "learning_rate": 9.443876416981551e-05,
      "loss": 2.2976,
      "step": 23756
    },
    {
      "epoch": 0.5279333333333334,
      "grad_norm": 1.0268545150756836,
      "learning_rate": 9.443431873749724e-05,
      "loss": 1.0418,
      "step": 23757
    },
    {
      "epoch": 0.5279555555555555,
      "grad_norm": 1.7673306465148926,
      "learning_rate": 9.442987330517893e-05,
      "loss": 2.5048,
      "step": 23758
    },
    {
      "epoch": 0.5279777777777778,
      "grad_norm": 1.7780965566635132,
      "learning_rate": 9.442542787286064e-05,
      "loss": 1.8517,
      "step": 23759
    },
    {
      "epoch": 0.528,
      "grad_norm": 1.8917262554168701,
      "learning_rate": 9.442098244054235e-05,
      "loss": 2.3145,
      "step": 23760
    },
    {
      "epoch": 0.5280222222222222,
      "grad_norm": 1.6870315074920654,
      "learning_rate": 9.441653700822406e-05,
      "loss": 2.5018,
      "step": 23761
    },
    {
      "epoch": 0.5280444444444444,
      "grad_norm": 1.5207806825637817,
      "learning_rate": 9.441209157590576e-05,
      "loss": 1.7255,
      "step": 23762
    },
    {
      "epoch": 0.5280666666666667,
      "grad_norm": 1.564706563949585,
      "learning_rate": 9.440764614358747e-05,
      "loss": 2.0935,
      "step": 23763
    },
    {
      "epoch": 0.5280888888888889,
      "grad_norm": 1.4345976114273071,
      "learning_rate": 9.440320071126918e-05,
      "loss": 1.9767,
      "step": 23764
    },
    {
      "epoch": 0.5281111111111111,
      "grad_norm": 1.5628924369812012,
      "learning_rate": 9.439875527895089e-05,
      "loss": 1.8697,
      "step": 23765
    },
    {
      "epoch": 0.5281333333333333,
      "grad_norm": 1.8985925912857056,
      "learning_rate": 9.43943098466326e-05,
      "loss": 1.6917,
      "step": 23766
    },
    {
      "epoch": 0.5281555555555556,
      "grad_norm": 8.75491714477539,
      "learning_rate": 9.43898644143143e-05,
      "loss": 0.7137,
      "step": 23767
    },
    {
      "epoch": 0.5281777777777777,
      "grad_norm": 1.7457693815231323,
      "learning_rate": 9.4385418981996e-05,
      "loss": 2.2458,
      "step": 23768
    },
    {
      "epoch": 0.5282,
      "grad_norm": 1.682776927947998,
      "learning_rate": 9.438097354967771e-05,
      "loss": 1.8588,
      "step": 23769
    },
    {
      "epoch": 0.5282222222222223,
      "grad_norm": 1.5693022012710571,
      "learning_rate": 9.437652811735942e-05,
      "loss": 1.5944,
      "step": 23770
    },
    {
      "epoch": 0.5282444444444444,
      "grad_norm": 2.006547451019287,
      "learning_rate": 9.437208268504113e-05,
      "loss": 2.4428,
      "step": 23771
    },
    {
      "epoch": 0.5282666666666667,
      "grad_norm": 1.5155055522918701,
      "learning_rate": 9.436763725272283e-05,
      "loss": 1.964,
      "step": 23772
    },
    {
      "epoch": 0.5282888888888889,
      "grad_norm": 1.872380018234253,
      "learning_rate": 9.436319182040454e-05,
      "loss": 1.6972,
      "step": 23773
    },
    {
      "epoch": 0.5283111111111111,
      "grad_norm": 1.5140862464904785,
      "learning_rate": 9.435874638808625e-05,
      "loss": 1.4416,
      "step": 23774
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 1.5991860628128052,
      "learning_rate": 9.435430095576795e-05,
      "loss": 1.7576,
      "step": 23775
    },
    {
      "epoch": 0.5283555555555556,
      "grad_norm": 1.8210022449493408,
      "learning_rate": 9.434985552344966e-05,
      "loss": 1.9572,
      "step": 23776
    },
    {
      "epoch": 0.5283777777777777,
      "grad_norm": 1.9062343835830688,
      "learning_rate": 9.434541009113137e-05,
      "loss": 2.0114,
      "step": 23777
    },
    {
      "epoch": 0.5284,
      "grad_norm": 1.0986946821212769,
      "learning_rate": 9.434096465881307e-05,
      "loss": 0.9833,
      "step": 23778
    },
    {
      "epoch": 0.5284222222222222,
      "grad_norm": 1.5446134805679321,
      "learning_rate": 9.433651922649478e-05,
      "loss": 2.0128,
      "step": 23779
    },
    {
      "epoch": 0.5284444444444445,
      "grad_norm": 1.7657054662704468,
      "learning_rate": 9.433207379417649e-05,
      "loss": 2.3226,
      "step": 23780
    },
    {
      "epoch": 0.5284666666666666,
      "grad_norm": 0.2036164402961731,
      "learning_rate": 9.43276283618582e-05,
      "loss": 0.0271,
      "step": 23781
    },
    {
      "epoch": 0.5284888888888889,
      "grad_norm": 1.8714773654937744,
      "learning_rate": 9.43231829295399e-05,
      "loss": 2.1247,
      "step": 23782
    },
    {
      "epoch": 0.5285111111111112,
      "grad_norm": 1.403578281402588,
      "learning_rate": 9.43187374972216e-05,
      "loss": 1.7378,
      "step": 23783
    },
    {
      "epoch": 0.5285333333333333,
      "grad_norm": 1.7367151975631714,
      "learning_rate": 9.431429206490331e-05,
      "loss": 1.8014,
      "step": 23784
    },
    {
      "epoch": 0.5285555555555556,
      "grad_norm": 1.510583519935608,
      "learning_rate": 9.430984663258502e-05,
      "loss": 1.9568,
      "step": 23785
    },
    {
      "epoch": 0.5285777777777778,
      "grad_norm": 1.3760234117507935,
      "learning_rate": 9.430540120026673e-05,
      "loss": 1.7451,
      "step": 23786
    },
    {
      "epoch": 0.5286,
      "grad_norm": 2.0960423946380615,
      "learning_rate": 9.430095576794844e-05,
      "loss": 2.0488,
      "step": 23787
    },
    {
      "epoch": 0.5286222222222222,
      "grad_norm": 0.9487600326538086,
      "learning_rate": 9.429651033563014e-05,
      "loss": 0.76,
      "step": 23788
    },
    {
      "epoch": 0.5286444444444445,
      "grad_norm": 1.6237478256225586,
      "learning_rate": 9.429206490331185e-05,
      "loss": 1.9339,
      "step": 23789
    },
    {
      "epoch": 0.5286666666666666,
      "grad_norm": 1.821803092956543,
      "learning_rate": 9.428761947099356e-05,
      "loss": 1.8564,
      "step": 23790
    },
    {
      "epoch": 0.5286888888888889,
      "grad_norm": 1.7401374578475952,
      "learning_rate": 9.428317403867527e-05,
      "loss": 1.7834,
      "step": 23791
    },
    {
      "epoch": 0.5287111111111111,
      "grad_norm": 1.8575642108917236,
      "learning_rate": 9.427872860635696e-05,
      "loss": 2.0013,
      "step": 23792
    },
    {
      "epoch": 0.5287333333333334,
      "grad_norm": 1.8081876039505005,
      "learning_rate": 9.427428317403867e-05,
      "loss": 1.8895,
      "step": 23793
    },
    {
      "epoch": 0.5287555555555555,
      "grad_norm": 1.7736563682556152,
      "learning_rate": 9.42698377417204e-05,
      "loss": 2.0426,
      "step": 23794
    },
    {
      "epoch": 0.5287777777777778,
      "grad_norm": 2.2674002647399902,
      "learning_rate": 9.426539230940209e-05,
      "loss": 1.4817,
      "step": 23795
    },
    {
      "epoch": 0.5288,
      "grad_norm": 2.0505170822143555,
      "learning_rate": 9.42609468770838e-05,
      "loss": 2.1207,
      "step": 23796
    },
    {
      "epoch": 0.5288222222222222,
      "grad_norm": 1.6754682064056396,
      "learning_rate": 9.425650144476551e-05,
      "loss": 1.5619,
      "step": 23797
    },
    {
      "epoch": 0.5288444444444445,
      "grad_norm": 1.8610202074050903,
      "learning_rate": 9.425205601244721e-05,
      "loss": 1.833,
      "step": 23798
    },
    {
      "epoch": 0.5288666666666667,
      "grad_norm": 1.6374008655548096,
      "learning_rate": 9.424761058012892e-05,
      "loss": 1.4726,
      "step": 23799
    },
    {
      "epoch": 0.5288888888888889,
      "grad_norm": 1.3524909019470215,
      "learning_rate": 9.424316514781063e-05,
      "loss": 0.8318,
      "step": 23800
    },
    {
      "epoch": 0.5289111111111111,
      "grad_norm": 1.0480737686157227,
      "learning_rate": 9.423871971549234e-05,
      "loss": 1.4786,
      "step": 23801
    },
    {
      "epoch": 0.5289333333333334,
      "grad_norm": 1.0483719110488892,
      "learning_rate": 9.423427428317405e-05,
      "loss": 1.2369,
      "step": 23802
    },
    {
      "epoch": 0.5289555555555555,
      "grad_norm": 1.5438247919082642,
      "learning_rate": 9.422982885085576e-05,
      "loss": 2.5028,
      "step": 23803
    },
    {
      "epoch": 0.5289777777777778,
      "grad_norm": 1.481898307800293,
      "learning_rate": 9.422538341853747e-05,
      "loss": 2.255,
      "step": 23804
    },
    {
      "epoch": 0.529,
      "grad_norm": 1.7581030130386353,
      "learning_rate": 9.422093798621916e-05,
      "loss": 1.6896,
      "step": 23805
    },
    {
      "epoch": 0.5290222222222222,
      "grad_norm": 1.8693004846572876,
      "learning_rate": 9.421649255390087e-05,
      "loss": 2.2172,
      "step": 23806
    },
    {
      "epoch": 0.5290444444444444,
      "grad_norm": 1.4418998956680298,
      "learning_rate": 9.421204712158258e-05,
      "loss": 1.9245,
      "step": 23807
    },
    {
      "epoch": 0.5290666666666667,
      "grad_norm": 1.4418998956680298,
      "learning_rate": 9.420760168926429e-05,
      "loss": 1.6688,
      "step": 23808
    },
    {
      "epoch": 0.5290888888888889,
      "grad_norm": 1.6258938312530518,
      "learning_rate": 9.420315625694599e-05,
      "loss": 1.5825,
      "step": 23809
    },
    {
      "epoch": 0.5291111111111111,
      "grad_norm": 1.6237809658050537,
      "learning_rate": 9.41987108246277e-05,
      "loss": 2.2221,
      "step": 23810
    },
    {
      "epoch": 0.5291333333333333,
      "grad_norm": 1.6486645936965942,
      "learning_rate": 9.41942653923094e-05,
      "loss": 2.1356,
      "step": 23811
    },
    {
      "epoch": 0.5291555555555556,
      "grad_norm": 1.712456464767456,
      "learning_rate": 9.418981995999112e-05,
      "loss": 2.0298,
      "step": 23812
    },
    {
      "epoch": 0.5291777777777777,
      "grad_norm": 1.5311872959136963,
      "learning_rate": 9.418537452767283e-05,
      "loss": 1.6388,
      "step": 23813
    },
    {
      "epoch": 0.5292,
      "grad_norm": 1.7606791257858276,
      "learning_rate": 9.418092909535453e-05,
      "loss": 2.3974,
      "step": 23814
    },
    {
      "epoch": 0.5292222222222223,
      "grad_norm": 1.0421794652938843,
      "learning_rate": 9.417648366303623e-05,
      "loss": 0.0261,
      "step": 23815
    },
    {
      "epoch": 0.5292444444444444,
      "grad_norm": 1.533532977104187,
      "learning_rate": 9.417203823071794e-05,
      "loss": 1.9892,
      "step": 23816
    },
    {
      "epoch": 0.5292666666666667,
      "grad_norm": 2.0800487995147705,
      "learning_rate": 9.416759279839965e-05,
      "loss": 2.4606,
      "step": 23817
    },
    {
      "epoch": 0.5292888888888889,
      "grad_norm": 1.6267350912094116,
      "learning_rate": 9.416314736608136e-05,
      "loss": 2.2829,
      "step": 23818
    },
    {
      "epoch": 0.5293111111111111,
      "grad_norm": 1.637833595275879,
      "learning_rate": 9.415870193376306e-05,
      "loss": 2.2197,
      "step": 23819
    },
    {
      "epoch": 0.5293333333333333,
      "grad_norm": 1.5694398880004883,
      "learning_rate": 9.415425650144477e-05,
      "loss": 1.7004,
      "step": 23820
    },
    {
      "epoch": 0.5293555555555556,
      "grad_norm": 1.5314193964004517,
      "learning_rate": 9.414981106912648e-05,
      "loss": 1.8668,
      "step": 23821
    },
    {
      "epoch": 0.5293777777777777,
      "grad_norm": 1.9004710912704468,
      "learning_rate": 9.414536563680818e-05,
      "loss": 2.0398,
      "step": 23822
    },
    {
      "epoch": 0.5294,
      "grad_norm": 1.5450775623321533,
      "learning_rate": 9.41409202044899e-05,
      "loss": 2.0298,
      "step": 23823
    },
    {
      "epoch": 0.5294222222222222,
      "grad_norm": 2.183375835418701,
      "learning_rate": 9.41364747721716e-05,
      "loss": 1.5786,
      "step": 23824
    },
    {
      "epoch": 0.5294444444444445,
      "grad_norm": 1.7565172910690308,
      "learning_rate": 9.41320293398533e-05,
      "loss": 2.1798,
      "step": 23825
    },
    {
      "epoch": 0.5294666666666666,
      "grad_norm": 1.6879966259002686,
      "learning_rate": 9.412758390753501e-05,
      "loss": 2.1727,
      "step": 23826
    },
    {
      "epoch": 0.5294888888888889,
      "grad_norm": 1.6399136781692505,
      "learning_rate": 9.412313847521672e-05,
      "loss": 1.894,
      "step": 23827
    },
    {
      "epoch": 0.5295111111111112,
      "grad_norm": 1.5306897163391113,
      "learning_rate": 9.411869304289843e-05,
      "loss": 1.8151,
      "step": 23828
    },
    {
      "epoch": 0.5295333333333333,
      "grad_norm": 0.9331537485122681,
      "learning_rate": 9.411424761058013e-05,
      "loss": 0.6597,
      "step": 23829
    },
    {
      "epoch": 0.5295555555555556,
      "grad_norm": 1.4729750156402588,
      "learning_rate": 9.410980217826183e-05,
      "loss": 1.7047,
      "step": 23830
    },
    {
      "epoch": 0.5295777777777778,
      "grad_norm": 2.1637351512908936,
      "learning_rate": 9.410535674594356e-05,
      "loss": 2.1573,
      "step": 23831
    },
    {
      "epoch": 0.5296,
      "grad_norm": 1.497808575630188,
      "learning_rate": 9.410091131362525e-05,
      "loss": 1.412,
      "step": 23832
    },
    {
      "epoch": 0.5296222222222222,
      "grad_norm": 1.5860686302185059,
      "learning_rate": 9.409646588130696e-05,
      "loss": 1.9991,
      "step": 23833
    },
    {
      "epoch": 0.5296444444444445,
      "grad_norm": 1.6456290483474731,
      "learning_rate": 9.409202044898867e-05,
      "loss": 2.0452,
      "step": 23834
    },
    {
      "epoch": 0.5296666666666666,
      "grad_norm": 1.9336551427841187,
      "learning_rate": 9.408757501667037e-05,
      "loss": 2.0487,
      "step": 23835
    },
    {
      "epoch": 0.5296888888888889,
      "grad_norm": 1.7959725856781006,
      "learning_rate": 9.408312958435208e-05,
      "loss": 2.0068,
      "step": 23836
    },
    {
      "epoch": 0.5297111111111111,
      "grad_norm": 1.7567949295043945,
      "learning_rate": 9.407868415203379e-05,
      "loss": 1.9416,
      "step": 23837
    },
    {
      "epoch": 0.5297333333333333,
      "grad_norm": 1.629780888557434,
      "learning_rate": 9.40742387197155e-05,
      "loss": 1.9193,
      "step": 23838
    },
    {
      "epoch": 0.5297555555555555,
      "grad_norm": 1.480790376663208,
      "learning_rate": 9.406979328739721e-05,
      "loss": 1.4525,
      "step": 23839
    },
    {
      "epoch": 0.5297777777777778,
      "grad_norm": 1.4683445692062378,
      "learning_rate": 9.406534785507892e-05,
      "loss": 1.6692,
      "step": 23840
    },
    {
      "epoch": 0.5298,
      "grad_norm": 1.7921984195709229,
      "learning_rate": 9.406090242276063e-05,
      "loss": 1.8903,
      "step": 23841
    },
    {
      "epoch": 0.5298222222222222,
      "grad_norm": 1.4881842136383057,
      "learning_rate": 9.405645699044232e-05,
      "loss": 1.2354,
      "step": 23842
    },
    {
      "epoch": 0.5298444444444445,
      "grad_norm": 1.7012430429458618,
      "learning_rate": 9.405201155812403e-05,
      "loss": 1.7729,
      "step": 23843
    },
    {
      "epoch": 0.5298666666666667,
      "grad_norm": 1.9946684837341309,
      "learning_rate": 9.404756612580574e-05,
      "loss": 2.0861,
      "step": 23844
    },
    {
      "epoch": 0.5298888888888889,
      "grad_norm": 1.7489064931869507,
      "learning_rate": 9.404312069348744e-05,
      "loss": 1.6265,
      "step": 23845
    },
    {
      "epoch": 0.5299111111111111,
      "grad_norm": 1.4882090091705322,
      "learning_rate": 9.403867526116915e-05,
      "loss": 1.2288,
      "step": 23846
    },
    {
      "epoch": 0.5299333333333334,
      "grad_norm": 1.7851414680480957,
      "learning_rate": 9.403422982885086e-05,
      "loss": 1.629,
      "step": 23847
    },
    {
      "epoch": 0.5299555555555555,
      "grad_norm": 1.9564120769500732,
      "learning_rate": 9.402978439653257e-05,
      "loss": 2.0697,
      "step": 23848
    },
    {
      "epoch": 0.5299777777777778,
      "grad_norm": 2.2161993980407715,
      "learning_rate": 9.402533896421428e-05,
      "loss": 1.7052,
      "step": 23849
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.5698559284210205,
      "learning_rate": 9.402089353189599e-05,
      "loss": 2.0646,
      "step": 23850
    },
    {
      "epoch": 0.5300222222222222,
      "grad_norm": 1.1143614053726196,
      "learning_rate": 9.40164480995777e-05,
      "loss": 1.2453,
      "step": 23851
    },
    {
      "epoch": 0.5300444444444444,
      "grad_norm": 1.658089518547058,
      "learning_rate": 9.401200266725939e-05,
      "loss": 1.8676,
      "step": 23852
    },
    {
      "epoch": 0.5300666666666667,
      "grad_norm": 1.9362707138061523,
      "learning_rate": 9.40075572349411e-05,
      "loss": 2.3451,
      "step": 23853
    },
    {
      "epoch": 0.5300888888888889,
      "grad_norm": 1.398591160774231,
      "learning_rate": 9.400311180262281e-05,
      "loss": 1.8521,
      "step": 23854
    },
    {
      "epoch": 0.5301111111111111,
      "grad_norm": 1.449852705001831,
      "learning_rate": 9.399866637030451e-05,
      "loss": 2.4143,
      "step": 23855
    },
    {
      "epoch": 0.5301333333333333,
      "grad_norm": 1.8626195192337036,
      "learning_rate": 9.399422093798622e-05,
      "loss": 2.2301,
      "step": 23856
    },
    {
      "epoch": 0.5301555555555556,
      "grad_norm": 1.531662106513977,
      "learning_rate": 9.398977550566793e-05,
      "loss": 1.9935,
      "step": 23857
    },
    {
      "epoch": 0.5301777777777777,
      "grad_norm": 1.3779700994491577,
      "learning_rate": 9.398533007334964e-05,
      "loss": 0.9681,
      "step": 23858
    },
    {
      "epoch": 0.5302,
      "grad_norm": 1.56081223487854,
      "learning_rate": 9.398088464103135e-05,
      "loss": 2.4025,
      "step": 23859
    },
    {
      "epoch": 0.5302222222222223,
      "grad_norm": 1.6369576454162598,
      "learning_rate": 9.397643920871306e-05,
      "loss": 2.0929,
      "step": 23860
    },
    {
      "epoch": 0.5302444444444444,
      "grad_norm": 1.4617159366607666,
      "learning_rate": 9.397199377639477e-05,
      "loss": 1.1538,
      "step": 23861
    },
    {
      "epoch": 0.5302666666666667,
      "grad_norm": 1.8617253303527832,
      "learning_rate": 9.396754834407646e-05,
      "loss": 2.0755,
      "step": 23862
    },
    {
      "epoch": 0.5302888888888889,
      "grad_norm": 1.572175145149231,
      "learning_rate": 9.396310291175817e-05,
      "loss": 2.1643,
      "step": 23863
    },
    {
      "epoch": 0.5303111111111111,
      "grad_norm": 1.6506000757217407,
      "learning_rate": 9.395865747943988e-05,
      "loss": 2.2589,
      "step": 23864
    },
    {
      "epoch": 0.5303333333333333,
      "grad_norm": 1.61785089969635,
      "learning_rate": 9.395421204712159e-05,
      "loss": 2.161,
      "step": 23865
    },
    {
      "epoch": 0.5303555555555556,
      "grad_norm": 1.3866997957229614,
      "learning_rate": 9.394976661480329e-05,
      "loss": 1.6557,
      "step": 23866
    },
    {
      "epoch": 0.5303777777777777,
      "grad_norm": 1.633400797843933,
      "learning_rate": 9.3945321182485e-05,
      "loss": 2.0618,
      "step": 23867
    },
    {
      "epoch": 0.5304,
      "grad_norm": 1.4585044384002686,
      "learning_rate": 9.394087575016672e-05,
      "loss": 1.7791,
      "step": 23868
    },
    {
      "epoch": 0.5304222222222222,
      "grad_norm": 2.0047008991241455,
      "learning_rate": 9.393643031784841e-05,
      "loss": 2.3868,
      "step": 23869
    },
    {
      "epoch": 0.5304444444444445,
      "grad_norm": 1.7163702249526978,
      "learning_rate": 9.393198488553012e-05,
      "loss": 1.8802,
      "step": 23870
    },
    {
      "epoch": 0.5304666666666666,
      "grad_norm": 1.7321525812149048,
      "learning_rate": 9.392753945321183e-05,
      "loss": 2.0288,
      "step": 23871
    },
    {
      "epoch": 0.5304888888888889,
      "grad_norm": 1.5888490676879883,
      "learning_rate": 9.392309402089353e-05,
      "loss": 1.8878,
      "step": 23872
    },
    {
      "epoch": 0.5305111111111112,
      "grad_norm": 2.2782115936279297,
      "learning_rate": 9.391864858857524e-05,
      "loss": 1.7771,
      "step": 23873
    },
    {
      "epoch": 0.5305333333333333,
      "grad_norm": 1.537502646446228,
      "learning_rate": 9.391420315625695e-05,
      "loss": 2.1747,
      "step": 23874
    },
    {
      "epoch": 0.5305555555555556,
      "grad_norm": 1.9788844585418701,
      "learning_rate": 9.390975772393866e-05,
      "loss": 2.2979,
      "step": 23875
    },
    {
      "epoch": 0.5305777777777778,
      "grad_norm": 0.9690554738044739,
      "learning_rate": 9.390531229162037e-05,
      "loss": 0.9094,
      "step": 23876
    },
    {
      "epoch": 0.5306,
      "grad_norm": 1.7329068183898926,
      "learning_rate": 9.390086685930208e-05,
      "loss": 1.7509,
      "step": 23877
    },
    {
      "epoch": 0.5306222222222222,
      "grad_norm": 1.4397491216659546,
      "learning_rate": 9.389642142698379e-05,
      "loss": 1.7765,
      "step": 23878
    },
    {
      "epoch": 0.5306444444444445,
      "grad_norm": 1.6349369287490845,
      "learning_rate": 9.389197599466548e-05,
      "loss": 2.0669,
      "step": 23879
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 1.7751617431640625,
      "learning_rate": 9.38875305623472e-05,
      "loss": 2.1058,
      "step": 23880
    },
    {
      "epoch": 0.5306888888888889,
      "grad_norm": 1.7927343845367432,
      "learning_rate": 9.38830851300289e-05,
      "loss": 2.0088,
      "step": 23881
    },
    {
      "epoch": 0.5307111111111111,
      "grad_norm": 1.584852933883667,
      "learning_rate": 9.38786396977106e-05,
      "loss": 1.6367,
      "step": 23882
    },
    {
      "epoch": 0.5307333333333333,
      "grad_norm": 1.8202944993972778,
      "learning_rate": 9.387419426539231e-05,
      "loss": 1.6587,
      "step": 23883
    },
    {
      "epoch": 0.5307555555555555,
      "grad_norm": 1.959709644317627,
      "learning_rate": 9.386974883307402e-05,
      "loss": 1.9887,
      "step": 23884
    },
    {
      "epoch": 0.5307777777777778,
      "grad_norm": 1.517803430557251,
      "learning_rate": 9.386530340075573e-05,
      "loss": 1.8873,
      "step": 23885
    },
    {
      "epoch": 0.5308,
      "grad_norm": 1.7361570596694946,
      "learning_rate": 9.386085796843744e-05,
      "loss": 2.0233,
      "step": 23886
    },
    {
      "epoch": 0.5308222222222222,
      "grad_norm": 1.8811596632003784,
      "learning_rate": 9.385641253611915e-05,
      "loss": 2.0856,
      "step": 23887
    },
    {
      "epoch": 0.5308444444444445,
      "grad_norm": 1.9688259363174438,
      "learning_rate": 9.385196710380086e-05,
      "loss": 1.6323,
      "step": 23888
    },
    {
      "epoch": 0.5308666666666667,
      "grad_norm": 1.6845289468765259,
      "learning_rate": 9.384752167148255e-05,
      "loss": 1.7813,
      "step": 23889
    },
    {
      "epoch": 0.5308888888888889,
      "grad_norm": 1.829102635383606,
      "learning_rate": 9.384307623916426e-05,
      "loss": 2.1772,
      "step": 23890
    },
    {
      "epoch": 0.5309111111111111,
      "grad_norm": 1.6522727012634277,
      "learning_rate": 9.383863080684597e-05,
      "loss": 1.7798,
      "step": 23891
    },
    {
      "epoch": 0.5309333333333334,
      "grad_norm": 2.076544761657715,
      "learning_rate": 9.383418537452767e-05,
      "loss": 2.3199,
      "step": 23892
    },
    {
      "epoch": 0.5309555555555555,
      "grad_norm": 1.9452385902404785,
      "learning_rate": 9.382973994220938e-05,
      "loss": 2.0926,
      "step": 23893
    },
    {
      "epoch": 0.5309777777777778,
      "grad_norm": 1.771012544631958,
      "learning_rate": 9.382529450989109e-05,
      "loss": 1.9097,
      "step": 23894
    },
    {
      "epoch": 0.531,
      "grad_norm": 1.4973200559616089,
      "learning_rate": 9.38208490775728e-05,
      "loss": 1.6657,
      "step": 23895
    },
    {
      "epoch": 0.5310222222222222,
      "grad_norm": 1.8883335590362549,
      "learning_rate": 9.381640364525451e-05,
      "loss": 2.1324,
      "step": 23896
    },
    {
      "epoch": 0.5310444444444444,
      "grad_norm": 1.5649967193603516,
      "learning_rate": 9.381195821293622e-05,
      "loss": 1.3412,
      "step": 23897
    },
    {
      "epoch": 0.5310666666666667,
      "grad_norm": 0.994055449962616,
      "learning_rate": 9.380751278061793e-05,
      "loss": 0.746,
      "step": 23898
    },
    {
      "epoch": 0.5310888888888889,
      "grad_norm": 1.94300377368927,
      "learning_rate": 9.380306734829962e-05,
      "loss": 1.8895,
      "step": 23899
    },
    {
      "epoch": 0.5311111111111111,
      "grad_norm": 1.8750193119049072,
      "learning_rate": 9.379862191598133e-05,
      "loss": 1.7497,
      "step": 23900
    },
    {
      "epoch": 0.5311333333333333,
      "grad_norm": 2.338092803955078,
      "learning_rate": 9.379417648366304e-05,
      "loss": 2.1328,
      "step": 23901
    },
    {
      "epoch": 0.5311555555555556,
      "grad_norm": 1.561437726020813,
      "learning_rate": 9.378973105134474e-05,
      "loss": 2.5403,
      "step": 23902
    },
    {
      "epoch": 0.5311777777777777,
      "grad_norm": 1.684001088142395,
      "learning_rate": 9.378528561902645e-05,
      "loss": 1.9189,
      "step": 23903
    },
    {
      "epoch": 0.5312,
      "grad_norm": 1.872896671295166,
      "learning_rate": 9.378084018670816e-05,
      "loss": 2.0661,
      "step": 23904
    },
    {
      "epoch": 0.5312222222222223,
      "grad_norm": 1.6795347929000854,
      "learning_rate": 9.377639475438988e-05,
      "loss": 2.4469,
      "step": 23905
    },
    {
      "epoch": 0.5312444444444444,
      "grad_norm": 1.4447704553604126,
      "learning_rate": 9.377194932207158e-05,
      "loss": 2.3336,
      "step": 23906
    },
    {
      "epoch": 0.5312666666666667,
      "grad_norm": 1.6066997051239014,
      "learning_rate": 9.376750388975329e-05,
      "loss": 2.1172,
      "step": 23907
    },
    {
      "epoch": 0.5312888888888889,
      "grad_norm": 1.637965440750122,
      "learning_rate": 9.3763058457435e-05,
      "loss": 2.5892,
      "step": 23908
    },
    {
      "epoch": 0.5313111111111111,
      "grad_norm": 1.5127832889556885,
      "learning_rate": 9.375861302511669e-05,
      "loss": 2.1815,
      "step": 23909
    },
    {
      "epoch": 0.5313333333333333,
      "grad_norm": 1.5117733478546143,
      "learning_rate": 9.37541675927984e-05,
      "loss": 1.9485,
      "step": 23910
    },
    {
      "epoch": 0.5313555555555556,
      "grad_norm": 1.3909775018692017,
      "learning_rate": 9.374972216048011e-05,
      "loss": 2.0538,
      "step": 23911
    },
    {
      "epoch": 0.5313777777777777,
      "grad_norm": 1.3542191982269287,
      "learning_rate": 9.37452767281618e-05,
      "loss": 1.8785,
      "step": 23912
    },
    {
      "epoch": 0.5314,
      "grad_norm": 1.6719965934753418,
      "learning_rate": 9.374083129584353e-05,
      "loss": 2.5819,
      "step": 23913
    },
    {
      "epoch": 0.5314222222222222,
      "grad_norm": 1.8671547174453735,
      "learning_rate": 9.373638586352524e-05,
      "loss": 2.4126,
      "step": 23914
    },
    {
      "epoch": 0.5314444444444445,
      "grad_norm": 1.9189709424972534,
      "learning_rate": 9.373194043120695e-05,
      "loss": 1.778,
      "step": 23915
    },
    {
      "epoch": 0.5314666666666666,
      "grad_norm": 1.4282804727554321,
      "learning_rate": 9.372749499888865e-05,
      "loss": 1.3331,
      "step": 23916
    },
    {
      "epoch": 0.5314888888888889,
      "grad_norm": 1.474055290222168,
      "learning_rate": 9.372304956657035e-05,
      "loss": 2.1078,
      "step": 23917
    },
    {
      "epoch": 0.5315111111111112,
      "grad_norm": 1.778058648109436,
      "learning_rate": 9.371860413425206e-05,
      "loss": 1.1391,
      "step": 23918
    },
    {
      "epoch": 0.5315333333333333,
      "grad_norm": 1.6658940315246582,
      "learning_rate": 9.371415870193376e-05,
      "loss": 1.6865,
      "step": 23919
    },
    {
      "epoch": 0.5315555555555556,
      "grad_norm": 1.5484250783920288,
      "learning_rate": 9.370971326961547e-05,
      "loss": 1.7041,
      "step": 23920
    },
    {
      "epoch": 0.5315777777777778,
      "grad_norm": 1.4604076147079468,
      "learning_rate": 9.370526783729718e-05,
      "loss": 1.8891,
      "step": 23921
    },
    {
      "epoch": 0.5316,
      "grad_norm": 1.4705491065979004,
      "learning_rate": 9.370082240497889e-05,
      "loss": 1.7508,
      "step": 23922
    },
    {
      "epoch": 0.5316222222222222,
      "grad_norm": 1.7675535678863525,
      "learning_rate": 9.36963769726606e-05,
      "loss": 2.0137,
      "step": 23923
    },
    {
      "epoch": 0.5316444444444445,
      "grad_norm": 1.6507214307785034,
      "learning_rate": 9.369193154034231e-05,
      "loss": 2.1735,
      "step": 23924
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 2.1510093212127686,
      "learning_rate": 9.368748610802402e-05,
      "loss": 2.4916,
      "step": 23925
    },
    {
      "epoch": 0.5316888888888889,
      "grad_norm": 2.06966495513916,
      "learning_rate": 9.368304067570571e-05,
      "loss": 2.286,
      "step": 23926
    },
    {
      "epoch": 0.5317111111111111,
      "grad_norm": 1.561200499534607,
      "learning_rate": 9.367859524338742e-05,
      "loss": 1.5583,
      "step": 23927
    },
    {
      "epoch": 0.5317333333333333,
      "grad_norm": 1.4622918367385864,
      "learning_rate": 9.367414981106913e-05,
      "loss": 1.5133,
      "step": 23928
    },
    {
      "epoch": 0.5317555555555555,
      "grad_norm": 1.9748564958572388,
      "learning_rate": 9.366970437875083e-05,
      "loss": 1.5158,
      "step": 23929
    },
    {
      "epoch": 0.5317777777777778,
      "grad_norm": 1.5488486289978027,
      "learning_rate": 9.366525894643254e-05,
      "loss": 1.6589,
      "step": 23930
    },
    {
      "epoch": 0.5318,
      "grad_norm": 1.5920798778533936,
      "learning_rate": 9.366081351411425e-05,
      "loss": 1.6134,
      "step": 23931
    },
    {
      "epoch": 0.5318222222222222,
      "grad_norm": 1.7279751300811768,
      "learning_rate": 9.365636808179596e-05,
      "loss": 1.857,
      "step": 23932
    },
    {
      "epoch": 0.5318444444444445,
      "grad_norm": 1.4006227254867554,
      "learning_rate": 9.365192264947767e-05,
      "loss": 1.4977,
      "step": 23933
    },
    {
      "epoch": 0.5318666666666667,
      "grad_norm": 1.6310771703720093,
      "learning_rate": 9.364747721715938e-05,
      "loss": 1.9666,
      "step": 23934
    },
    {
      "epoch": 0.5318888888888889,
      "grad_norm": 1.701729416847229,
      "learning_rate": 9.364303178484109e-05,
      "loss": 1.7547,
      "step": 23935
    },
    {
      "epoch": 0.5319111111111111,
      "grad_norm": 1.8875113725662231,
      "learning_rate": 9.363858635252278e-05,
      "loss": 1.9612,
      "step": 23936
    },
    {
      "epoch": 0.5319333333333334,
      "grad_norm": 1.8573662042617798,
      "learning_rate": 9.363414092020449e-05,
      "loss": 2.1935,
      "step": 23937
    },
    {
      "epoch": 0.5319555555555555,
      "grad_norm": 1.2353343963623047,
      "learning_rate": 9.36296954878862e-05,
      "loss": 0.9472,
      "step": 23938
    },
    {
      "epoch": 0.5319777777777778,
      "grad_norm": 1.6409540176391602,
      "learning_rate": 9.36252500555679e-05,
      "loss": 1.7657,
      "step": 23939
    },
    {
      "epoch": 0.532,
      "grad_norm": 1.6059409379959106,
      "learning_rate": 9.362080462324961e-05,
      "loss": 1.6788,
      "step": 23940
    },
    {
      "epoch": 0.5320222222222222,
      "grad_norm": 1.7782083749771118,
      "learning_rate": 9.361635919093132e-05,
      "loss": 1.4168,
      "step": 23941
    },
    {
      "epoch": 0.5320444444444444,
      "grad_norm": 2.031219482421875,
      "learning_rate": 9.361191375861304e-05,
      "loss": 1.9047,
      "step": 23942
    },
    {
      "epoch": 0.5320666666666667,
      "grad_norm": 1.9407871961593628,
      "learning_rate": 9.360746832629474e-05,
      "loss": 1.9149,
      "step": 23943
    },
    {
      "epoch": 0.5320888888888888,
      "grad_norm": 1.7494772672653198,
      "learning_rate": 9.360302289397645e-05,
      "loss": 2.2662,
      "step": 23944
    },
    {
      "epoch": 0.5321111111111111,
      "grad_norm": 1.861161708831787,
      "learning_rate": 9.359857746165816e-05,
      "loss": 2.1449,
      "step": 23945
    },
    {
      "epoch": 0.5321333333333333,
      "grad_norm": 1.7185732126235962,
      "learning_rate": 9.359413202933985e-05,
      "loss": 1.2406,
      "step": 23946
    },
    {
      "epoch": 0.5321555555555556,
      "grad_norm": 2.0432510375976562,
      "learning_rate": 9.358968659702156e-05,
      "loss": 2.1446,
      "step": 23947
    },
    {
      "epoch": 0.5321777777777777,
      "grad_norm": 1.9533871412277222,
      "learning_rate": 9.358524116470327e-05,
      "loss": 2.202,
      "step": 23948
    },
    {
      "epoch": 0.5322,
      "grad_norm": 1.953491449356079,
      "learning_rate": 9.358079573238497e-05,
      "loss": 1.9151,
      "step": 23949
    },
    {
      "epoch": 0.5322222222222223,
      "grad_norm": 1.9509320259094238,
      "learning_rate": 9.357635030006669e-05,
      "loss": 2.046,
      "step": 23950
    },
    {
      "epoch": 0.5322444444444444,
      "grad_norm": 2.3496932983398438,
      "learning_rate": 9.35719048677484e-05,
      "loss": 2.2493,
      "step": 23951
    },
    {
      "epoch": 0.5322666666666667,
      "grad_norm": 2.086132287979126,
      "learning_rate": 9.356745943543011e-05,
      "loss": 1.6728,
      "step": 23952
    },
    {
      "epoch": 0.5322888888888889,
      "grad_norm": 1.2788715362548828,
      "learning_rate": 9.35630140031118e-05,
      "loss": 0.9401,
      "step": 23953
    },
    {
      "epoch": 0.5323111111111111,
      "grad_norm": 1.1295042037963867,
      "learning_rate": 9.355856857079352e-05,
      "loss": 2.2375,
      "step": 23954
    },
    {
      "epoch": 0.5323333333333333,
      "grad_norm": 1.0135996341705322,
      "learning_rate": 9.355412313847523e-05,
      "loss": 1.1661,
      "step": 23955
    },
    {
      "epoch": 0.5323555555555556,
      "grad_norm": 1.5555094480514526,
      "learning_rate": 9.354967770615692e-05,
      "loss": 2.0163,
      "step": 23956
    },
    {
      "epoch": 0.5323777777777777,
      "grad_norm": 1.4048373699188232,
      "learning_rate": 9.354523227383863e-05,
      "loss": 1.9594,
      "step": 23957
    },
    {
      "epoch": 0.5324,
      "grad_norm": 1.5064313411712646,
      "learning_rate": 9.354078684152034e-05,
      "loss": 2.0033,
      "step": 23958
    },
    {
      "epoch": 0.5324222222222222,
      "grad_norm": 1.4887125492095947,
      "learning_rate": 9.353634140920205e-05,
      "loss": 1.9846,
      "step": 23959
    },
    {
      "epoch": 0.5324444444444445,
      "grad_norm": 1.4996654987335205,
      "learning_rate": 9.353189597688376e-05,
      "loss": 2.4123,
      "step": 23960
    },
    {
      "epoch": 0.5324666666666666,
      "grad_norm": 1.4926153421401978,
      "learning_rate": 9.352745054456547e-05,
      "loss": 2.1099,
      "step": 23961
    },
    {
      "epoch": 0.5324888888888889,
      "grad_norm": 1.6983450651168823,
      "learning_rate": 9.352300511224718e-05,
      "loss": 2.3174,
      "step": 23962
    },
    {
      "epoch": 0.5325111111111112,
      "grad_norm": 1.5789433717727661,
      "learning_rate": 9.351855967992888e-05,
      "loss": 1.7144,
      "step": 23963
    },
    {
      "epoch": 0.5325333333333333,
      "grad_norm": 1.3860604763031006,
      "learning_rate": 9.351411424761058e-05,
      "loss": 2.0159,
      "step": 23964
    },
    {
      "epoch": 0.5325555555555556,
      "grad_norm": 1.3678632974624634,
      "learning_rate": 9.35096688152923e-05,
      "loss": 1.9476,
      "step": 23965
    },
    {
      "epoch": 0.5325777777777778,
      "grad_norm": 1.728348970413208,
      "learning_rate": 9.350522338297399e-05,
      "loss": 1.896,
      "step": 23966
    },
    {
      "epoch": 0.5326,
      "grad_norm": 1.2139519453048706,
      "learning_rate": 9.35007779506557e-05,
      "loss": 1.1322,
      "step": 23967
    },
    {
      "epoch": 0.5326222222222222,
      "grad_norm": 1.7498149871826172,
      "learning_rate": 9.349633251833741e-05,
      "loss": 2.2104,
      "step": 23968
    },
    {
      "epoch": 0.5326444444444445,
      "grad_norm": 1.5855212211608887,
      "learning_rate": 9.349188708601912e-05,
      "loss": 2.104,
      "step": 23969
    },
    {
      "epoch": 0.5326666666666666,
      "grad_norm": 1.970292568206787,
      "learning_rate": 9.348744165370083e-05,
      "loss": 2.045,
      "step": 23970
    },
    {
      "epoch": 0.5326888888888889,
      "grad_norm": 1.3634182214736938,
      "learning_rate": 9.348299622138254e-05,
      "loss": 1.2303,
      "step": 23971
    },
    {
      "epoch": 0.5327111111111111,
      "grad_norm": 1.345811367034912,
      "learning_rate": 9.347855078906425e-05,
      "loss": 1.836,
      "step": 23972
    },
    {
      "epoch": 0.5327333333333333,
      "grad_norm": 1.4585015773773193,
      "learning_rate": 9.347410535674594e-05,
      "loss": 1.5902,
      "step": 23973
    },
    {
      "epoch": 0.5327555555555555,
      "grad_norm": 1.8540971279144287,
      "learning_rate": 9.346965992442765e-05,
      "loss": 2.0503,
      "step": 23974
    },
    {
      "epoch": 0.5327777777777778,
      "grad_norm": 1.8266828060150146,
      "learning_rate": 9.346521449210936e-05,
      "loss": 2.5309,
      "step": 23975
    },
    {
      "epoch": 0.5328,
      "grad_norm": 1.6741633415222168,
      "learning_rate": 9.346076905979106e-05,
      "loss": 1.7812,
      "step": 23976
    },
    {
      "epoch": 0.5328222222222222,
      "grad_norm": 1.9166332483291626,
      "learning_rate": 9.345632362747277e-05,
      "loss": 2.3061,
      "step": 23977
    },
    {
      "epoch": 0.5328444444444445,
      "grad_norm": 1.954712152481079,
      "learning_rate": 9.345187819515448e-05,
      "loss": 1.8603,
      "step": 23978
    },
    {
      "epoch": 0.5328666666666667,
      "grad_norm": 1.4905351400375366,
      "learning_rate": 9.34474327628362e-05,
      "loss": 1.9526,
      "step": 23979
    },
    {
      "epoch": 0.5328888888888889,
      "grad_norm": 1.6826584339141846,
      "learning_rate": 9.34429873305179e-05,
      "loss": 1.9567,
      "step": 23980
    },
    {
      "epoch": 0.5329111111111111,
      "grad_norm": 1.7776435613632202,
      "learning_rate": 9.343854189819961e-05,
      "loss": 1.8849,
      "step": 23981
    },
    {
      "epoch": 0.5329333333333334,
      "grad_norm": 2.0445172786712646,
      "learning_rate": 9.343409646588132e-05,
      "loss": 2.2476,
      "step": 23982
    },
    {
      "epoch": 0.5329555555555555,
      "grad_norm": 1.897587537765503,
      "learning_rate": 9.342965103356301e-05,
      "loss": 2.0034,
      "step": 23983
    },
    {
      "epoch": 0.5329777777777778,
      "grad_norm": 1.70163094997406,
      "learning_rate": 9.342520560124472e-05,
      "loss": 1.7768,
      "step": 23984
    },
    {
      "epoch": 0.533,
      "grad_norm": 1.6219412088394165,
      "learning_rate": 9.342076016892643e-05,
      "loss": 2.3594,
      "step": 23985
    },
    {
      "epoch": 0.5330222222222222,
      "grad_norm": 1.7614916563034058,
      "learning_rate": 9.341631473660813e-05,
      "loss": 2.2921,
      "step": 23986
    },
    {
      "epoch": 0.5330444444444444,
      "grad_norm": 1.7020210027694702,
      "learning_rate": 9.341186930428985e-05,
      "loss": 2.0519,
      "step": 23987
    },
    {
      "epoch": 0.5330666666666667,
      "grad_norm": 1.2762728929519653,
      "learning_rate": 9.340742387197156e-05,
      "loss": 1.0406,
      "step": 23988
    },
    {
      "epoch": 0.5330888888888888,
      "grad_norm": 1.6425122022628784,
      "learning_rate": 9.340297843965327e-05,
      "loss": 1.7956,
      "step": 23989
    },
    {
      "epoch": 0.5331111111111111,
      "grad_norm": 1.4393192529678345,
      "learning_rate": 9.339853300733497e-05,
      "loss": 1.5417,
      "step": 23990
    },
    {
      "epoch": 0.5331333333333333,
      "grad_norm": 1.8034957647323608,
      "learning_rate": 9.339408757501668e-05,
      "loss": 1.8762,
      "step": 23991
    },
    {
      "epoch": 0.5331555555555556,
      "grad_norm": 1.573151707649231,
      "learning_rate": 9.338964214269839e-05,
      "loss": 1.928,
      "step": 23992
    },
    {
      "epoch": 0.5331777777777778,
      "grad_norm": 1.800527572631836,
      "learning_rate": 9.338519671038008e-05,
      "loss": 1.8861,
      "step": 23993
    },
    {
      "epoch": 0.5332,
      "grad_norm": 1.6222960948944092,
      "learning_rate": 9.338075127806179e-05,
      "loss": 2.2572,
      "step": 23994
    },
    {
      "epoch": 0.5332222222222223,
      "grad_norm": 2.0559005737304688,
      "learning_rate": 9.33763058457435e-05,
      "loss": 2.0291,
      "step": 23995
    },
    {
      "epoch": 0.5332444444444444,
      "grad_norm": 1.8371977806091309,
      "learning_rate": 9.337186041342521e-05,
      "loss": 1.829,
      "step": 23996
    },
    {
      "epoch": 0.5332666666666667,
      "grad_norm": 1.816028356552124,
      "learning_rate": 9.336741498110692e-05,
      "loss": 1.2011,
      "step": 23997
    },
    {
      "epoch": 0.5332888888888889,
      "grad_norm": 2.052168369293213,
      "learning_rate": 9.336296954878863e-05,
      "loss": 2.3029,
      "step": 23998
    },
    {
      "epoch": 0.5333111111111111,
      "grad_norm": 1.8959852457046509,
      "learning_rate": 9.335852411647034e-05,
      "loss": 1.7093,
      "step": 23999
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 1.2713212966918945,
      "learning_rate": 9.335407868415204e-05,
      "loss": 0.8964,
      "step": 24000
    },
    {
      "epoch": 0.5333555555555556,
      "grad_norm": 1.5179612636566162,
      "learning_rate": 9.334963325183375e-05,
      "loss": 1.6798,
      "step": 24001
    },
    {
      "epoch": 0.5333777777777777,
      "grad_norm": 1.3298025131225586,
      "learning_rate": 9.334518781951546e-05,
      "loss": 2.4113,
      "step": 24002
    },
    {
      "epoch": 0.5334,
      "grad_norm": 1.0163265466690063,
      "learning_rate": 9.334074238719715e-05,
      "loss": 0.8879,
      "step": 24003
    },
    {
      "epoch": 0.5334222222222222,
      "grad_norm": 1.5504509210586548,
      "learning_rate": 9.333629695487886e-05,
      "loss": 2.5621,
      "step": 24004
    },
    {
      "epoch": 0.5334444444444445,
      "grad_norm": 1.8236836194992065,
      "learning_rate": 9.333185152256057e-05,
      "loss": 2.7291,
      "step": 24005
    },
    {
      "epoch": 0.5334666666666666,
      "grad_norm": 1.4637678861618042,
      "learning_rate": 9.332740609024228e-05,
      "loss": 2.3378,
      "step": 24006
    },
    {
      "epoch": 0.5334888888888889,
      "grad_norm": 1.8470957279205322,
      "learning_rate": 9.332296065792399e-05,
      "loss": 2.3175,
      "step": 24007
    },
    {
      "epoch": 0.5335111111111112,
      "grad_norm": 1.5548707246780396,
      "learning_rate": 9.33185152256057e-05,
      "loss": 1.9569,
      "step": 24008
    },
    {
      "epoch": 0.5335333333333333,
      "grad_norm": 2.157280445098877,
      "learning_rate": 9.331406979328741e-05,
      "loss": 1.774,
      "step": 24009
    },
    {
      "epoch": 0.5335555555555556,
      "grad_norm": 1.3260600566864014,
      "learning_rate": 9.33096243609691e-05,
      "loss": 2.1248,
      "step": 24010
    },
    {
      "epoch": 0.5335777777777778,
      "grad_norm": 1.771230697631836,
      "learning_rate": 9.330517892865081e-05,
      "loss": 2.1225,
      "step": 24011
    },
    {
      "epoch": 0.5336,
      "grad_norm": 1.5533506870269775,
      "learning_rate": 9.330073349633252e-05,
      "loss": 2.1539,
      "step": 24012
    },
    {
      "epoch": 0.5336222222222222,
      "grad_norm": 1.6904107332229614,
      "learning_rate": 9.329628806401422e-05,
      "loss": 2.8024,
      "step": 24013
    },
    {
      "epoch": 0.5336444444444445,
      "grad_norm": 1.9889146089553833,
      "learning_rate": 9.329184263169593e-05,
      "loss": 1.6731,
      "step": 24014
    },
    {
      "epoch": 0.5336666666666666,
      "grad_norm": 1.2540621757507324,
      "learning_rate": 9.328739719937764e-05,
      "loss": 1.2914,
      "step": 24015
    },
    {
      "epoch": 0.5336888888888889,
      "grad_norm": 1.5711982250213623,
      "learning_rate": 9.328295176705935e-05,
      "loss": 1.8373,
      "step": 24016
    },
    {
      "epoch": 0.5337111111111111,
      "grad_norm": 1.63615083694458,
      "learning_rate": 9.327850633474106e-05,
      "loss": 2.2822,
      "step": 24017
    },
    {
      "epoch": 0.5337333333333333,
      "grad_norm": 1.8863258361816406,
      "learning_rate": 9.327406090242277e-05,
      "loss": 1.6045,
      "step": 24018
    },
    {
      "epoch": 0.5337555555555555,
      "grad_norm": 1.666778564453125,
      "learning_rate": 9.326961547010448e-05,
      "loss": 1.7867,
      "step": 24019
    },
    {
      "epoch": 0.5337777777777778,
      "grad_norm": 1.5016566514968872,
      "learning_rate": 9.326517003778617e-05,
      "loss": 1.6546,
      "step": 24020
    },
    {
      "epoch": 0.5338,
      "grad_norm": 1.6097391843795776,
      "learning_rate": 9.326072460546788e-05,
      "loss": 1.8491,
      "step": 24021
    },
    {
      "epoch": 0.5338222222222222,
      "grad_norm": 1.6249257326126099,
      "learning_rate": 9.32562791731496e-05,
      "loss": 2.0029,
      "step": 24022
    },
    {
      "epoch": 0.5338444444444445,
      "grad_norm": 1.4894856214523315,
      "learning_rate": 9.325183374083129e-05,
      "loss": 2.1513,
      "step": 24023
    },
    {
      "epoch": 0.5338666666666667,
      "grad_norm": 1.4862111806869507,
      "learning_rate": 9.324738830851301e-05,
      "loss": 1.3276,
      "step": 24024
    },
    {
      "epoch": 0.5338888888888889,
      "grad_norm": 1.837276816368103,
      "learning_rate": 9.324294287619472e-05,
      "loss": 1.9453,
      "step": 24025
    },
    {
      "epoch": 0.5339111111111111,
      "grad_norm": 1.8236908912658691,
      "learning_rate": 9.323849744387643e-05,
      "loss": 2.4712,
      "step": 24026
    },
    {
      "epoch": 0.5339333333333334,
      "grad_norm": 1.4730247259140015,
      "learning_rate": 9.323405201155813e-05,
      "loss": 1.9805,
      "step": 24027
    },
    {
      "epoch": 0.5339555555555555,
      "grad_norm": 1.866324543952942,
      "learning_rate": 9.322960657923984e-05,
      "loss": 1.9175,
      "step": 24028
    },
    {
      "epoch": 0.5339777777777778,
      "grad_norm": 1.6722609996795654,
      "learning_rate": 9.322516114692155e-05,
      "loss": 1.9852,
      "step": 24029
    },
    {
      "epoch": 0.534,
      "grad_norm": 1.8021001815795898,
      "learning_rate": 9.322071571460324e-05,
      "loss": 2.1485,
      "step": 24030
    },
    {
      "epoch": 0.5340222222222222,
      "grad_norm": 0.9772087335586548,
      "learning_rate": 9.321627028228495e-05,
      "loss": 0.733,
      "step": 24031
    },
    {
      "epoch": 0.5340444444444444,
      "grad_norm": 1.6903386116027832,
      "learning_rate": 9.321182484996666e-05,
      "loss": 1.7447,
      "step": 24032
    },
    {
      "epoch": 0.5340666666666667,
      "grad_norm": 1.5494813919067383,
      "learning_rate": 9.320737941764837e-05,
      "loss": 1.821,
      "step": 24033
    },
    {
      "epoch": 0.5340888888888888,
      "grad_norm": 1.6524263620376587,
      "learning_rate": 9.320293398533008e-05,
      "loss": 1.637,
      "step": 24034
    },
    {
      "epoch": 0.5341111111111111,
      "grad_norm": 1.7021114826202393,
      "learning_rate": 9.319848855301179e-05,
      "loss": 1.9003,
      "step": 24035
    },
    {
      "epoch": 0.5341333333333333,
      "grad_norm": 1.8079304695129395,
      "learning_rate": 9.31940431206935e-05,
      "loss": 1.9897,
      "step": 24036
    },
    {
      "epoch": 0.5341555555555556,
      "grad_norm": 1.8632712364196777,
      "learning_rate": 9.31895976883752e-05,
      "loss": 2.057,
      "step": 24037
    },
    {
      "epoch": 0.5341777777777778,
      "grad_norm": 1.6276800632476807,
      "learning_rate": 9.318515225605691e-05,
      "loss": 1.6778,
      "step": 24038
    },
    {
      "epoch": 0.5342,
      "grad_norm": 2.3329930305480957,
      "learning_rate": 9.318070682373862e-05,
      "loss": 1.9527,
      "step": 24039
    },
    {
      "epoch": 0.5342222222222223,
      "grad_norm": 1.7751479148864746,
      "learning_rate": 9.317626139142031e-05,
      "loss": 1.9645,
      "step": 24040
    },
    {
      "epoch": 0.5342444444444444,
      "grad_norm": 1.9987848997116089,
      "learning_rate": 9.317181595910202e-05,
      "loss": 2.2226,
      "step": 24041
    },
    {
      "epoch": 0.5342666666666667,
      "grad_norm": 1.8013957738876343,
      "learning_rate": 9.316737052678373e-05,
      "loss": 1.8475,
      "step": 24042
    },
    {
      "epoch": 0.5342888888888889,
      "grad_norm": 1.8516582250595093,
      "learning_rate": 9.316292509446544e-05,
      "loss": 2.1657,
      "step": 24043
    },
    {
      "epoch": 0.5343111111111111,
      "grad_norm": 1.9956907033920288,
      "learning_rate": 9.315847966214715e-05,
      "loss": 1.7612,
      "step": 24044
    },
    {
      "epoch": 0.5343333333333333,
      "grad_norm": 1.4032182693481445,
      "learning_rate": 9.315403422982886e-05,
      "loss": 1.0765,
      "step": 24045
    },
    {
      "epoch": 0.5343555555555556,
      "grad_norm": 1.9599039554595947,
      "learning_rate": 9.314958879751057e-05,
      "loss": 2.2323,
      "step": 24046
    },
    {
      "epoch": 0.5343777777777777,
      "grad_norm": 1.9060362577438354,
      "learning_rate": 9.314514336519227e-05,
      "loss": 2.1835,
      "step": 24047
    },
    {
      "epoch": 0.5344,
      "grad_norm": 1.6466493606567383,
      "learning_rate": 9.314069793287398e-05,
      "loss": 1.6887,
      "step": 24048
    },
    {
      "epoch": 0.5344222222222222,
      "grad_norm": 2.3318257331848145,
      "learning_rate": 9.313625250055569e-05,
      "loss": 1.9467,
      "step": 24049
    },
    {
      "epoch": 0.5344444444444445,
      "grad_norm": 1.6359606981277466,
      "learning_rate": 9.313180706823738e-05,
      "loss": 1.486,
      "step": 24050
    },
    {
      "epoch": 0.5344666666666666,
      "grad_norm": 1.5074784755706787,
      "learning_rate": 9.312736163591909e-05,
      "loss": 2.1687,
      "step": 24051
    },
    {
      "epoch": 0.5344888888888889,
      "grad_norm": 1.5792757272720337,
      "learning_rate": 9.31229162036008e-05,
      "loss": 2.5611,
      "step": 24052
    },
    {
      "epoch": 0.5345111111111112,
      "grad_norm": 1.0269694328308105,
      "learning_rate": 9.311847077128251e-05,
      "loss": 1.3695,
      "step": 24053
    },
    {
      "epoch": 0.5345333333333333,
      "grad_norm": 1.5179903507232666,
      "learning_rate": 9.311402533896422e-05,
      "loss": 2.5288,
      "step": 24054
    },
    {
      "epoch": 0.5345555555555556,
      "grad_norm": 1.5874063968658447,
      "learning_rate": 9.310957990664593e-05,
      "loss": 1.3104,
      "step": 24055
    },
    {
      "epoch": 0.5345777777777778,
      "grad_norm": 1.4302685260772705,
      "learning_rate": 9.310513447432764e-05,
      "loss": 2.2695,
      "step": 24056
    },
    {
      "epoch": 0.5346,
      "grad_norm": 1.6089961528778076,
      "learning_rate": 9.310068904200934e-05,
      "loss": 2.3127,
      "step": 24057
    },
    {
      "epoch": 0.5346222222222222,
      "grad_norm": 1.4362045526504517,
      "learning_rate": 9.309624360969105e-05,
      "loss": 1.7076,
      "step": 24058
    },
    {
      "epoch": 0.5346444444444445,
      "grad_norm": 1.4631880521774292,
      "learning_rate": 9.309179817737275e-05,
      "loss": 2.1078,
      "step": 24059
    },
    {
      "epoch": 0.5346666666666666,
      "grad_norm": 1.3055776357650757,
      "learning_rate": 9.308735274505445e-05,
      "loss": 1.7027,
      "step": 24060
    },
    {
      "epoch": 0.5346888888888889,
      "grad_norm": 1.6879035234451294,
      "learning_rate": 9.308290731273617e-05,
      "loss": 2.2973,
      "step": 24061
    },
    {
      "epoch": 0.5347111111111111,
      "grad_norm": 0.976667046546936,
      "learning_rate": 9.307846188041788e-05,
      "loss": 0.9692,
      "step": 24062
    },
    {
      "epoch": 0.5347333333333333,
      "grad_norm": 1.405714750289917,
      "learning_rate": 9.307401644809958e-05,
      "loss": 2.2356,
      "step": 24063
    },
    {
      "epoch": 0.5347555555555555,
      "grad_norm": 1.3494881391525269,
      "learning_rate": 9.306957101578129e-05,
      "loss": 1.6201,
      "step": 24064
    },
    {
      "epoch": 0.5347777777777778,
      "grad_norm": 1.492094874382019,
      "learning_rate": 9.3065125583463e-05,
      "loss": 1.6232,
      "step": 24065
    },
    {
      "epoch": 0.5348,
      "grad_norm": 1.4774266481399536,
      "learning_rate": 9.306068015114471e-05,
      "loss": 1.6664,
      "step": 24066
    },
    {
      "epoch": 0.5348222222222222,
      "grad_norm": 1.3910434246063232,
      "learning_rate": 9.30562347188264e-05,
      "loss": 1.8852,
      "step": 24067
    },
    {
      "epoch": 0.5348444444444445,
      "grad_norm": 1.5760293006896973,
      "learning_rate": 9.305178928650811e-05,
      "loss": 1.9253,
      "step": 24068
    },
    {
      "epoch": 0.5348666666666667,
      "grad_norm": 1.4726719856262207,
      "learning_rate": 9.304734385418982e-05,
      "loss": 1.8513,
      "step": 24069
    },
    {
      "epoch": 0.5348888888888889,
      "grad_norm": 2.03619122505188,
      "learning_rate": 9.304289842187153e-05,
      "loss": 2.5518,
      "step": 24070
    },
    {
      "epoch": 0.5349111111111111,
      "grad_norm": 1.6907597780227661,
      "learning_rate": 9.303845298955324e-05,
      "loss": 1.9624,
      "step": 24071
    },
    {
      "epoch": 0.5349333333333334,
      "grad_norm": 1.7469596862792969,
      "learning_rate": 9.303400755723495e-05,
      "loss": 1.6457,
      "step": 24072
    },
    {
      "epoch": 0.5349555555555555,
      "grad_norm": 1.660701870918274,
      "learning_rate": 9.302956212491665e-05,
      "loss": 1.7547,
      "step": 24073
    },
    {
      "epoch": 0.5349777777777778,
      "grad_norm": 1.4283595085144043,
      "learning_rate": 9.302511669259836e-05,
      "loss": 1.7099,
      "step": 24074
    },
    {
      "epoch": 0.535,
      "grad_norm": 1.7288765907287598,
      "learning_rate": 9.302067126028007e-05,
      "loss": 2.2167,
      "step": 24075
    },
    {
      "epoch": 0.5350222222222222,
      "grad_norm": 1.6353521347045898,
      "learning_rate": 9.301622582796178e-05,
      "loss": 1.708,
      "step": 24076
    },
    {
      "epoch": 0.5350444444444444,
      "grad_norm": 1.4123598337173462,
      "learning_rate": 9.301178039564347e-05,
      "loss": 1.5884,
      "step": 24077
    },
    {
      "epoch": 0.5350666666666667,
      "grad_norm": 1.5760451555252075,
      "learning_rate": 9.300733496332518e-05,
      "loss": 1.9686,
      "step": 24078
    },
    {
      "epoch": 0.5350888888888888,
      "grad_norm": 1.8464230298995972,
      "learning_rate": 9.300288953100689e-05,
      "loss": 1.5932,
      "step": 24079
    },
    {
      "epoch": 0.5351111111111111,
      "grad_norm": 1.6339375972747803,
      "learning_rate": 9.29984440986886e-05,
      "loss": 1.17,
      "step": 24080
    },
    {
      "epoch": 0.5351333333333333,
      "grad_norm": 1.629683256149292,
      "learning_rate": 9.299399866637031e-05,
      "loss": 1.8635,
      "step": 24081
    },
    {
      "epoch": 0.5351555555555556,
      "grad_norm": 2.2781481742858887,
      "learning_rate": 9.298955323405202e-05,
      "loss": 2.1596,
      "step": 24082
    },
    {
      "epoch": 0.5351777777777778,
      "grad_norm": 1.725601315498352,
      "learning_rate": 9.298510780173373e-05,
      "loss": 2.1201,
      "step": 24083
    },
    {
      "epoch": 0.5352,
      "grad_norm": 1.1108967065811157,
      "learning_rate": 9.298066236941543e-05,
      "loss": 0.7205,
      "step": 24084
    },
    {
      "epoch": 0.5352222222222223,
      "grad_norm": 1.0130248069763184,
      "learning_rate": 9.297621693709714e-05,
      "loss": 0.886,
      "step": 24085
    },
    {
      "epoch": 0.5352444444444444,
      "grad_norm": 1.739458680152893,
      "learning_rate": 9.297177150477885e-05,
      "loss": 1.7762,
      "step": 24086
    },
    {
      "epoch": 0.5352666666666667,
      "grad_norm": 1.5671923160552979,
      "learning_rate": 9.296732607246054e-05,
      "loss": 1.8436,
      "step": 24087
    },
    {
      "epoch": 0.5352888888888889,
      "grad_norm": 1.8808441162109375,
      "learning_rate": 9.296288064014225e-05,
      "loss": 1.8779,
      "step": 24088
    },
    {
      "epoch": 0.5353111111111111,
      "grad_norm": 1.8543106317520142,
      "learning_rate": 9.295843520782396e-05,
      "loss": 2.0682,
      "step": 24089
    },
    {
      "epoch": 0.5353333333333333,
      "grad_norm": 1.575297236442566,
      "learning_rate": 9.295398977550567e-05,
      "loss": 1.4379,
      "step": 24090
    },
    {
      "epoch": 0.5353555555555556,
      "grad_norm": 1.6436753273010254,
      "learning_rate": 9.294954434318738e-05,
      "loss": 2.0834,
      "step": 24091
    },
    {
      "epoch": 0.5353777777777777,
      "grad_norm": 1.656559944152832,
      "learning_rate": 9.294509891086909e-05,
      "loss": 1.7884,
      "step": 24092
    },
    {
      "epoch": 0.5354,
      "grad_norm": 1.777658224105835,
      "learning_rate": 9.29406534785508e-05,
      "loss": 1.4345,
      "step": 24093
    },
    {
      "epoch": 0.5354222222222222,
      "grad_norm": 1.609755277633667,
      "learning_rate": 9.29362080462325e-05,
      "loss": 1.599,
      "step": 24094
    },
    {
      "epoch": 0.5354444444444444,
      "grad_norm": 1.6745773553848267,
      "learning_rate": 9.29317626139142e-05,
      "loss": 1.5356,
      "step": 24095
    },
    {
      "epoch": 0.5354666666666666,
      "grad_norm": 1.9082305431365967,
      "learning_rate": 9.292731718159592e-05,
      "loss": 1.6228,
      "step": 24096
    },
    {
      "epoch": 0.5354888888888889,
      "grad_norm": 1.8996210098266602,
      "learning_rate": 9.292287174927761e-05,
      "loss": 1.9408,
      "step": 24097
    },
    {
      "epoch": 0.5355111111111112,
      "grad_norm": 1.8461698293685913,
      "learning_rate": 9.291842631695933e-05,
      "loss": 1.7429,
      "step": 24098
    },
    {
      "epoch": 0.5355333333333333,
      "grad_norm": 1.7901020050048828,
      "learning_rate": 9.291398088464104e-05,
      "loss": 1.8257,
      "step": 24099
    },
    {
      "epoch": 0.5355555555555556,
      "grad_norm": 1.9286918640136719,
      "learning_rate": 9.290953545232274e-05,
      "loss": 1.4029,
      "step": 24100
    },
    {
      "epoch": 0.5355777777777778,
      "grad_norm": 1.5411525964736938,
      "learning_rate": 9.290509002000445e-05,
      "loss": 2.4849,
      "step": 24101
    },
    {
      "epoch": 0.5356,
      "grad_norm": 1.9404093027114868,
      "learning_rate": 9.290064458768616e-05,
      "loss": 2.3844,
      "step": 24102
    },
    {
      "epoch": 0.5356222222222222,
      "grad_norm": 1.1603944301605225,
      "learning_rate": 9.289619915536787e-05,
      "loss": 1.3359,
      "step": 24103
    },
    {
      "epoch": 0.5356444444444445,
      "grad_norm": 1.045865774154663,
      "learning_rate": 9.289175372304957e-05,
      "loss": 1.0617,
      "step": 24104
    },
    {
      "epoch": 0.5356666666666666,
      "grad_norm": 1.4463495016098022,
      "learning_rate": 9.288730829073128e-05,
      "loss": 2.4709,
      "step": 24105
    },
    {
      "epoch": 0.5356888888888889,
      "grad_norm": 1.4373189210891724,
      "learning_rate": 9.288286285841298e-05,
      "loss": 2.203,
      "step": 24106
    },
    {
      "epoch": 0.5357111111111111,
      "grad_norm": 1.627568006515503,
      "learning_rate": 9.28784174260947e-05,
      "loss": 2.4002,
      "step": 24107
    },
    {
      "epoch": 0.5357333333333333,
      "grad_norm": 1.5909349918365479,
      "learning_rate": 9.28739719937764e-05,
      "loss": 2.3739,
      "step": 24108
    },
    {
      "epoch": 0.5357555555555555,
      "grad_norm": 1.3964265584945679,
      "learning_rate": 9.286952656145811e-05,
      "loss": 2.0362,
      "step": 24109
    },
    {
      "epoch": 0.5357777777777778,
      "grad_norm": 1.4371144771575928,
      "learning_rate": 9.286508112913981e-05,
      "loss": 2.2588,
      "step": 24110
    },
    {
      "epoch": 0.5358,
      "grad_norm": 1.746584177017212,
      "learning_rate": 9.286063569682152e-05,
      "loss": 2.4616,
      "step": 24111
    },
    {
      "epoch": 0.5358222222222222,
      "grad_norm": 1.4485015869140625,
      "learning_rate": 9.285619026450323e-05,
      "loss": 1.5941,
      "step": 24112
    },
    {
      "epoch": 0.5358444444444445,
      "grad_norm": 1.5258855819702148,
      "learning_rate": 9.285174483218494e-05,
      "loss": 2.1734,
      "step": 24113
    },
    {
      "epoch": 0.5358666666666667,
      "grad_norm": 2.1012680530548096,
      "learning_rate": 9.284729939986663e-05,
      "loss": 2.484,
      "step": 24114
    },
    {
      "epoch": 0.5358888888888889,
      "grad_norm": 1.9005677700042725,
      "learning_rate": 9.284285396754834e-05,
      "loss": 1.9874,
      "step": 24115
    },
    {
      "epoch": 0.5359111111111111,
      "grad_norm": 1.19962477684021,
      "learning_rate": 9.283840853523005e-05,
      "loss": 0.9442,
      "step": 24116
    },
    {
      "epoch": 0.5359333333333334,
      "grad_norm": 1.0874289274215698,
      "learning_rate": 9.283396310291176e-05,
      "loss": 0.7323,
      "step": 24117
    },
    {
      "epoch": 0.5359555555555555,
      "grad_norm": 1.6711324453353882,
      "learning_rate": 9.282951767059347e-05,
      "loss": 2.0549,
      "step": 24118
    },
    {
      "epoch": 0.5359777777777778,
      "grad_norm": 1.659756064414978,
      "learning_rate": 9.282507223827518e-05,
      "loss": 1.9078,
      "step": 24119
    },
    {
      "epoch": 0.536,
      "grad_norm": 1.9202543497085571,
      "learning_rate": 9.282062680595688e-05,
      "loss": 2.5927,
      "step": 24120
    },
    {
      "epoch": 0.5360222222222222,
      "grad_norm": 1.7021095752716064,
      "learning_rate": 9.281618137363859e-05,
      "loss": 1.323,
      "step": 24121
    },
    {
      "epoch": 0.5360444444444444,
      "grad_norm": 1.3125813007354736,
      "learning_rate": 9.28117359413203e-05,
      "loss": 1.0316,
      "step": 24122
    },
    {
      "epoch": 0.5360666666666667,
      "grad_norm": 1.6659890413284302,
      "learning_rate": 9.280729050900201e-05,
      "loss": 2.2294,
      "step": 24123
    },
    {
      "epoch": 0.5360888888888888,
      "grad_norm": 1.4646706581115723,
      "learning_rate": 9.28028450766837e-05,
      "loss": 1.8481,
      "step": 24124
    },
    {
      "epoch": 0.5361111111111111,
      "grad_norm": 1.4951597452163696,
      "learning_rate": 9.279839964436541e-05,
      "loss": 1.7914,
      "step": 24125
    },
    {
      "epoch": 0.5361333333333334,
      "grad_norm": 1.955314040184021,
      "learning_rate": 9.279395421204712e-05,
      "loss": 2.3739,
      "step": 24126
    },
    {
      "epoch": 0.5361555555555556,
      "grad_norm": 1.550466775894165,
      "learning_rate": 9.278950877972883e-05,
      "loss": 1.7379,
      "step": 24127
    },
    {
      "epoch": 0.5361777777777778,
      "grad_norm": 1.7359737157821655,
      "learning_rate": 9.278506334741054e-05,
      "loss": 2.0136,
      "step": 24128
    },
    {
      "epoch": 0.5362,
      "grad_norm": 1.7873988151550293,
      "learning_rate": 9.278061791509225e-05,
      "loss": 2.0926,
      "step": 24129
    },
    {
      "epoch": 0.5362222222222223,
      "grad_norm": 2.319300413131714,
      "learning_rate": 9.277617248277395e-05,
      "loss": 1.8802,
      "step": 24130
    },
    {
      "epoch": 0.5362444444444444,
      "grad_norm": 1.6460970640182495,
      "learning_rate": 9.277172705045566e-05,
      "loss": 1.8218,
      "step": 24131
    },
    {
      "epoch": 0.5362666666666667,
      "grad_norm": 1.8019113540649414,
      "learning_rate": 9.276728161813737e-05,
      "loss": 1.947,
      "step": 24132
    },
    {
      "epoch": 0.5362888888888889,
      "grad_norm": 1.6525484323501587,
      "learning_rate": 9.276283618581908e-05,
      "loss": 2.3437,
      "step": 24133
    },
    {
      "epoch": 0.5363111111111111,
      "grad_norm": 1.911797285079956,
      "learning_rate": 9.275839075350077e-05,
      "loss": 2.1899,
      "step": 24134
    },
    {
      "epoch": 0.5363333333333333,
      "grad_norm": 1.602933645248413,
      "learning_rate": 9.27539453211825e-05,
      "loss": 1.9521,
      "step": 24135
    },
    {
      "epoch": 0.5363555555555556,
      "grad_norm": 1.560052514076233,
      "learning_rate": 9.27494998888642e-05,
      "loss": 1.6022,
      "step": 24136
    },
    {
      "epoch": 0.5363777777777777,
      "grad_norm": 1.618725061416626,
      "learning_rate": 9.27450544565459e-05,
      "loss": 1.7662,
      "step": 24137
    },
    {
      "epoch": 0.5364,
      "grad_norm": 1.3083173036575317,
      "learning_rate": 9.274060902422761e-05,
      "loss": 1.4479,
      "step": 24138
    },
    {
      "epoch": 0.5364222222222222,
      "grad_norm": 1.7332816123962402,
      "learning_rate": 9.273616359190932e-05,
      "loss": 1.7087,
      "step": 24139
    },
    {
      "epoch": 0.5364444444444444,
      "grad_norm": 1.839491605758667,
      "learning_rate": 9.273171815959103e-05,
      "loss": 1.9206,
      "step": 24140
    },
    {
      "epoch": 0.5364666666666666,
      "grad_norm": 1.4598127603530884,
      "learning_rate": 9.272727272727273e-05,
      "loss": 1.5046,
      "step": 24141
    },
    {
      "epoch": 0.5364888888888889,
      "grad_norm": 2.0042197704315186,
      "learning_rate": 9.272282729495444e-05,
      "loss": 2.3885,
      "step": 24142
    },
    {
      "epoch": 0.5365111111111112,
      "grad_norm": 1.7325563430786133,
      "learning_rate": 9.271838186263615e-05,
      "loss": 2.2398,
      "step": 24143
    },
    {
      "epoch": 0.5365333333333333,
      "grad_norm": 1.9332947731018066,
      "learning_rate": 9.271393643031786e-05,
      "loss": 2.2381,
      "step": 24144
    },
    {
      "epoch": 0.5365555555555556,
      "grad_norm": 1.6245112419128418,
      "learning_rate": 9.270949099799957e-05,
      "loss": 1.8951,
      "step": 24145
    },
    {
      "epoch": 0.5365777777777778,
      "grad_norm": 1.8762198686599731,
      "learning_rate": 9.270504556568127e-05,
      "loss": 1.8838,
      "step": 24146
    },
    {
      "epoch": 0.5366,
      "grad_norm": 1.9231719970703125,
      "learning_rate": 9.270060013336297e-05,
      "loss": 1.8045,
      "step": 24147
    },
    {
      "epoch": 0.5366222222222222,
      "grad_norm": 1.6903666257858276,
      "learning_rate": 9.269615470104468e-05,
      "loss": 2.0273,
      "step": 24148
    },
    {
      "epoch": 0.5366444444444445,
      "grad_norm": 1.7352534532546997,
      "learning_rate": 9.269170926872639e-05,
      "loss": 1.5342,
      "step": 24149
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 1.8815696239471436,
      "learning_rate": 9.26872638364081e-05,
      "loss": 1.2665,
      "step": 24150
    },
    {
      "epoch": 0.5366888888888889,
      "grad_norm": 1.3855862617492676,
      "learning_rate": 9.26828184040898e-05,
      "loss": 2.1503,
      "step": 24151
    },
    {
      "epoch": 0.5367111111111111,
      "grad_norm": 0.9447445869445801,
      "learning_rate": 9.26783729717715e-05,
      "loss": 0.9946,
      "step": 24152
    },
    {
      "epoch": 0.5367333333333333,
      "grad_norm": 1.5201376676559448,
      "learning_rate": 9.267392753945321e-05,
      "loss": 2.1909,
      "step": 24153
    },
    {
      "epoch": 0.5367555555555555,
      "grad_norm": 1.3373057842254639,
      "learning_rate": 9.266948210713492e-05,
      "loss": 1.6749,
      "step": 24154
    },
    {
      "epoch": 0.5367777777777778,
      "grad_norm": 1.3539923429489136,
      "learning_rate": 9.266503667481663e-05,
      "loss": 2.2758,
      "step": 24155
    },
    {
      "epoch": 0.5368,
      "grad_norm": 1.4176108837127686,
      "learning_rate": 9.266059124249834e-05,
      "loss": 1.7425,
      "step": 24156
    },
    {
      "epoch": 0.5368222222222222,
      "grad_norm": 1.6042715311050415,
      "learning_rate": 9.265614581018004e-05,
      "loss": 2.2937,
      "step": 24157
    },
    {
      "epoch": 0.5368444444444445,
      "grad_norm": 1.5007634162902832,
      "learning_rate": 9.265170037786175e-05,
      "loss": 2.0827,
      "step": 24158
    },
    {
      "epoch": 0.5368666666666667,
      "grad_norm": 1.6775437593460083,
      "learning_rate": 9.264725494554346e-05,
      "loss": 2.4215,
      "step": 24159
    },
    {
      "epoch": 0.5368888888888889,
      "grad_norm": 1.5096818208694458,
      "learning_rate": 9.264280951322517e-05,
      "loss": 2.034,
      "step": 24160
    },
    {
      "epoch": 0.5369111111111111,
      "grad_norm": 1.35044264793396,
      "learning_rate": 9.263836408090686e-05,
      "loss": 2.1907,
      "step": 24161
    },
    {
      "epoch": 0.5369333333333334,
      "grad_norm": 1.7613712549209595,
      "learning_rate": 9.263391864858857e-05,
      "loss": 2.5366,
      "step": 24162
    },
    {
      "epoch": 0.5369555555555555,
      "grad_norm": 1.607888102531433,
      "learning_rate": 9.262947321627028e-05,
      "loss": 1.494,
      "step": 24163
    },
    {
      "epoch": 0.5369777777777778,
      "grad_norm": 1.6430789232254028,
      "learning_rate": 9.2625027783952e-05,
      "loss": 2.318,
      "step": 24164
    },
    {
      "epoch": 0.537,
      "grad_norm": 1.5961322784423828,
      "learning_rate": 9.26205823516337e-05,
      "loss": 2.2994,
      "step": 24165
    },
    {
      "epoch": 0.5370222222222222,
      "grad_norm": 1.4816967248916626,
      "learning_rate": 9.261613691931541e-05,
      "loss": 2.0078,
      "step": 24166
    },
    {
      "epoch": 0.5370444444444444,
      "grad_norm": 1.5533082485198975,
      "learning_rate": 9.261169148699711e-05,
      "loss": 2.0176,
      "step": 24167
    },
    {
      "epoch": 0.5370666666666667,
      "grad_norm": 1.9637341499328613,
      "learning_rate": 9.260724605467882e-05,
      "loss": 2.6349,
      "step": 24168
    },
    {
      "epoch": 0.5370888888888888,
      "grad_norm": 1.8370013236999512,
      "learning_rate": 9.260280062236053e-05,
      "loss": 2.3677,
      "step": 24169
    },
    {
      "epoch": 0.5371111111111111,
      "grad_norm": 2.0789456367492676,
      "learning_rate": 9.259835519004224e-05,
      "loss": 2.0808,
      "step": 24170
    },
    {
      "epoch": 0.5371333333333334,
      "grad_norm": 1.8223240375518799,
      "learning_rate": 9.259390975772393e-05,
      "loss": 1.9524,
      "step": 24171
    },
    {
      "epoch": 0.5371555555555556,
      "grad_norm": 1.98124098777771,
      "learning_rate": 9.258946432540566e-05,
      "loss": 2.1149,
      "step": 24172
    },
    {
      "epoch": 0.5371777777777778,
      "grad_norm": 1.6523184776306152,
      "learning_rate": 9.258501889308737e-05,
      "loss": 1.3698,
      "step": 24173
    },
    {
      "epoch": 0.5372,
      "grad_norm": 1.3940973281860352,
      "learning_rate": 9.258057346076906e-05,
      "loss": 1.7816,
      "step": 24174
    },
    {
      "epoch": 0.5372222222222223,
      "grad_norm": 1.50014066696167,
      "learning_rate": 9.257612802845077e-05,
      "loss": 1.91,
      "step": 24175
    },
    {
      "epoch": 0.5372444444444444,
      "grad_norm": 1.6278122663497925,
      "learning_rate": 9.257168259613248e-05,
      "loss": 1.9668,
      "step": 24176
    },
    {
      "epoch": 0.5372666666666667,
      "grad_norm": 1.6550134420394897,
      "learning_rate": 9.256723716381418e-05,
      "loss": 2.1246,
      "step": 24177
    },
    {
      "epoch": 0.5372888888888889,
      "grad_norm": 1.6166373491287231,
      "learning_rate": 9.256279173149589e-05,
      "loss": 2.0864,
      "step": 24178
    },
    {
      "epoch": 0.5373111111111111,
      "grad_norm": 1.593721628189087,
      "learning_rate": 9.25583462991776e-05,
      "loss": 1.9563,
      "step": 24179
    },
    {
      "epoch": 0.5373333333333333,
      "grad_norm": 1.794532299041748,
      "learning_rate": 9.255390086685931e-05,
      "loss": 2.1146,
      "step": 24180
    },
    {
      "epoch": 0.5373555555555556,
      "grad_norm": 1.6060837507247925,
      "learning_rate": 9.254945543454102e-05,
      "loss": 1.6508,
      "step": 24181
    },
    {
      "epoch": 0.5373777777777777,
      "grad_norm": 1.1458412408828735,
      "learning_rate": 9.254501000222273e-05,
      "loss": 0.7521,
      "step": 24182
    },
    {
      "epoch": 0.5374,
      "grad_norm": 1.7521928548812866,
      "learning_rate": 9.254056456990444e-05,
      "loss": 2.0333,
      "step": 24183
    },
    {
      "epoch": 0.5374222222222222,
      "grad_norm": 1.5913389921188354,
      "learning_rate": 9.253611913758613e-05,
      "loss": 1.6606,
      "step": 24184
    },
    {
      "epoch": 0.5374444444444444,
      "grad_norm": 1.7131800651550293,
      "learning_rate": 9.253167370526784e-05,
      "loss": 2.3122,
      "step": 24185
    },
    {
      "epoch": 0.5374666666666666,
      "grad_norm": 1.6762669086456299,
      "learning_rate": 9.252722827294955e-05,
      "loss": 1.7849,
      "step": 24186
    },
    {
      "epoch": 0.5374888888888889,
      "grad_norm": 1.967310905456543,
      "learning_rate": 9.252278284063126e-05,
      "loss": 1.858,
      "step": 24187
    },
    {
      "epoch": 0.5375111111111112,
      "grad_norm": 1.841436505317688,
      "learning_rate": 9.251833740831296e-05,
      "loss": 1.9997,
      "step": 24188
    },
    {
      "epoch": 0.5375333333333333,
      "grad_norm": 1.691507339477539,
      "learning_rate": 9.251389197599467e-05,
      "loss": 1.6387,
      "step": 24189
    },
    {
      "epoch": 0.5375555555555556,
      "grad_norm": 1.7400020360946655,
      "learning_rate": 9.250944654367638e-05,
      "loss": 1.9305,
      "step": 24190
    },
    {
      "epoch": 0.5375777777777778,
      "grad_norm": 1.8032035827636719,
      "learning_rate": 9.250500111135809e-05,
      "loss": 1.8553,
      "step": 24191
    },
    {
      "epoch": 0.5376,
      "grad_norm": 1.5836119651794434,
      "learning_rate": 9.25005556790398e-05,
      "loss": 1.8059,
      "step": 24192
    },
    {
      "epoch": 0.5376222222222222,
      "grad_norm": 2.0728602409362793,
      "learning_rate": 9.24961102467215e-05,
      "loss": 1.9396,
      "step": 24193
    },
    {
      "epoch": 0.5376444444444445,
      "grad_norm": 1.9986448287963867,
      "learning_rate": 9.24916648144032e-05,
      "loss": 1.8125,
      "step": 24194
    },
    {
      "epoch": 0.5376666666666666,
      "grad_norm": 1.423795461654663,
      "learning_rate": 9.248721938208491e-05,
      "loss": 1.5472,
      "step": 24195
    },
    {
      "epoch": 0.5376888888888889,
      "grad_norm": 1.6892451047897339,
      "learning_rate": 9.248277394976662e-05,
      "loss": 1.5131,
      "step": 24196
    },
    {
      "epoch": 0.5377111111111111,
      "grad_norm": 1.6740270853042603,
      "learning_rate": 9.247832851744833e-05,
      "loss": 1.9036,
      "step": 24197
    },
    {
      "epoch": 0.5377333333333333,
      "grad_norm": 1.4740545749664307,
      "learning_rate": 9.247388308513003e-05,
      "loss": 1.4785,
      "step": 24198
    },
    {
      "epoch": 0.5377555555555555,
      "grad_norm": 1.3877766132354736,
      "learning_rate": 9.246943765281174e-05,
      "loss": 1.1572,
      "step": 24199
    },
    {
      "epoch": 0.5377777777777778,
      "grad_norm": 0.9427362084388733,
      "learning_rate": 9.246499222049344e-05,
      "loss": 0.5257,
      "step": 24200
    },
    {
      "epoch": 0.5378,
      "grad_norm": 1.768735408782959,
      "learning_rate": 9.246054678817515e-05,
      "loss": 2.22,
      "step": 24201
    },
    {
      "epoch": 0.5378222222222222,
      "grad_norm": 1.803305745124817,
      "learning_rate": 9.245610135585686e-05,
      "loss": 2.1081,
      "step": 24202
    },
    {
      "epoch": 0.5378444444444445,
      "grad_norm": 1.7342628240585327,
      "learning_rate": 9.245165592353857e-05,
      "loss": 2.2293,
      "step": 24203
    },
    {
      "epoch": 0.5378666666666667,
      "grad_norm": 1.3677726984024048,
      "learning_rate": 9.244721049122027e-05,
      "loss": 1.9319,
      "step": 24204
    },
    {
      "epoch": 0.5378888888888889,
      "grad_norm": 1.5753294229507446,
      "learning_rate": 9.244276505890198e-05,
      "loss": 2.0239,
      "step": 24205
    },
    {
      "epoch": 0.5379111111111111,
      "grad_norm": 1.4219220876693726,
      "learning_rate": 9.243831962658369e-05,
      "loss": 2.0357,
      "step": 24206
    },
    {
      "epoch": 0.5379333333333334,
      "grad_norm": 1.5500314235687256,
      "learning_rate": 9.24338741942654e-05,
      "loss": 1.6437,
      "step": 24207
    },
    {
      "epoch": 0.5379555555555555,
      "grad_norm": 1.8969265222549438,
      "learning_rate": 9.24294287619471e-05,
      "loss": 2.7342,
      "step": 24208
    },
    {
      "epoch": 0.5379777777777778,
      "grad_norm": 1.6245132684707642,
      "learning_rate": 9.242498332962882e-05,
      "loss": 2.0989,
      "step": 24209
    },
    {
      "epoch": 0.538,
      "grad_norm": 1.7485277652740479,
      "learning_rate": 9.242053789731053e-05,
      "loss": 1.9749,
      "step": 24210
    },
    {
      "epoch": 0.5380222222222222,
      "grad_norm": 2.0604054927825928,
      "learning_rate": 9.241609246499222e-05,
      "loss": 1.9928,
      "step": 24211
    },
    {
      "epoch": 0.5380444444444444,
      "grad_norm": 1.8001375198364258,
      "learning_rate": 9.241164703267393e-05,
      "loss": 1.7956,
      "step": 24212
    },
    {
      "epoch": 0.5380666666666667,
      "grad_norm": 1.4345028400421143,
      "learning_rate": 9.240720160035564e-05,
      "loss": 1.7473,
      "step": 24213
    },
    {
      "epoch": 0.5380888888888888,
      "grad_norm": 1.5486794710159302,
      "learning_rate": 9.240275616803734e-05,
      "loss": 1.7182,
      "step": 24214
    },
    {
      "epoch": 0.5381111111111111,
      "grad_norm": 1.693612813949585,
      "learning_rate": 9.239831073571905e-05,
      "loss": 2.3262,
      "step": 24215
    },
    {
      "epoch": 0.5381333333333334,
      "grad_norm": 1.549908995628357,
      "learning_rate": 9.239386530340076e-05,
      "loss": 2.1012,
      "step": 24216
    },
    {
      "epoch": 0.5381555555555556,
      "grad_norm": 1.7209110260009766,
      "learning_rate": 9.238941987108247e-05,
      "loss": 1.9374,
      "step": 24217
    },
    {
      "epoch": 0.5381777777777778,
      "grad_norm": 1.4380605220794678,
      "learning_rate": 9.238497443876418e-05,
      "loss": 1.7452,
      "step": 24218
    },
    {
      "epoch": 0.5382,
      "grad_norm": 1.5397858619689941,
      "learning_rate": 9.238052900644589e-05,
      "loss": 1.7189,
      "step": 24219
    },
    {
      "epoch": 0.5382222222222223,
      "grad_norm": 1.6111798286437988,
      "learning_rate": 9.23760835741276e-05,
      "loss": 1.5232,
      "step": 24220
    },
    {
      "epoch": 0.5382444444444444,
      "grad_norm": 1.9051533937454224,
      "learning_rate": 9.237163814180929e-05,
      "loss": 2.5263,
      "step": 24221
    },
    {
      "epoch": 0.5382666666666667,
      "grad_norm": 1.580496907234192,
      "learning_rate": 9.2367192709491e-05,
      "loss": 1.7554,
      "step": 24222
    },
    {
      "epoch": 0.5382888888888889,
      "grad_norm": 1.7110071182250977,
      "learning_rate": 9.236274727717271e-05,
      "loss": 2.0695,
      "step": 24223
    },
    {
      "epoch": 0.5383111111111111,
      "grad_norm": 1.7504749298095703,
      "learning_rate": 9.235830184485441e-05,
      "loss": 1.8902,
      "step": 24224
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 1.7252432107925415,
      "learning_rate": 9.235385641253612e-05,
      "loss": 1.9066,
      "step": 24225
    },
    {
      "epoch": 0.5383555555555556,
      "grad_norm": 1.6298823356628418,
      "learning_rate": 9.234941098021783e-05,
      "loss": 1.4737,
      "step": 24226
    },
    {
      "epoch": 0.5383777777777777,
      "grad_norm": 0.5011053681373596,
      "learning_rate": 9.234496554789954e-05,
      "loss": 0.0358,
      "step": 24227
    },
    {
      "epoch": 0.5384,
      "grad_norm": 2.103977680206299,
      "learning_rate": 9.234052011558125e-05,
      "loss": 1.987,
      "step": 24228
    },
    {
      "epoch": 0.5384222222222222,
      "grad_norm": 1.4345343112945557,
      "learning_rate": 9.233607468326296e-05,
      "loss": 0.8202,
      "step": 24229
    },
    {
      "epoch": 0.5384444444444444,
      "grad_norm": 1.173687219619751,
      "learning_rate": 9.233162925094467e-05,
      "loss": 0.7156,
      "step": 24230
    },
    {
      "epoch": 0.5384666666666666,
      "grad_norm": 2.1941349506378174,
      "learning_rate": 9.232718381862636e-05,
      "loss": 1.8409,
      "step": 24231
    },
    {
      "epoch": 0.5384888888888889,
      "grad_norm": 1.8571091890335083,
      "learning_rate": 9.232273838630807e-05,
      "loss": 1.8748,
      "step": 24232
    },
    {
      "epoch": 0.5385111111111112,
      "grad_norm": 1.7399505376815796,
      "learning_rate": 9.231829295398978e-05,
      "loss": 1.5565,
      "step": 24233
    },
    {
      "epoch": 0.5385333333333333,
      "grad_norm": 1.9333410263061523,
      "learning_rate": 9.231384752167148e-05,
      "loss": 1.9922,
      "step": 24234
    },
    {
      "epoch": 0.5385555555555556,
      "grad_norm": 1.671410083770752,
      "learning_rate": 9.230940208935319e-05,
      "loss": 2.1008,
      "step": 24235
    },
    {
      "epoch": 0.5385777777777778,
      "grad_norm": 1.7493314743041992,
      "learning_rate": 9.23049566570349e-05,
      "loss": 1.8262,
      "step": 24236
    },
    {
      "epoch": 0.5386,
      "grad_norm": 1.6475027799606323,
      "learning_rate": 9.23005112247166e-05,
      "loss": 1.8805,
      "step": 24237
    },
    {
      "epoch": 0.5386222222222222,
      "grad_norm": 1.8589097261428833,
      "learning_rate": 9.229606579239832e-05,
      "loss": 1.9607,
      "step": 24238
    },
    {
      "epoch": 0.5386444444444445,
      "grad_norm": 1.8428442478179932,
      "learning_rate": 9.229162036008003e-05,
      "loss": 2.0632,
      "step": 24239
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 1.7008553743362427,
      "learning_rate": 9.228717492776173e-05,
      "loss": 1.9247,
      "step": 24240
    },
    {
      "epoch": 0.5386888888888889,
      "grad_norm": 1.7437846660614014,
      "learning_rate": 9.228272949544343e-05,
      "loss": 1.8693,
      "step": 24241
    },
    {
      "epoch": 0.5387111111111111,
      "grad_norm": 2.0082757472991943,
      "learning_rate": 9.227828406312514e-05,
      "loss": 2.0159,
      "step": 24242
    },
    {
      "epoch": 0.5387333333333333,
      "grad_norm": 1.6835359334945679,
      "learning_rate": 9.227383863080685e-05,
      "loss": 1.5369,
      "step": 24243
    },
    {
      "epoch": 0.5387555555555555,
      "grad_norm": 2.315767526626587,
      "learning_rate": 9.226939319848856e-05,
      "loss": 1.7551,
      "step": 24244
    },
    {
      "epoch": 0.5387777777777778,
      "grad_norm": 1.3990579843521118,
      "learning_rate": 9.226494776617026e-05,
      "loss": 1.3018,
      "step": 24245
    },
    {
      "epoch": 0.5388,
      "grad_norm": 1.825427532196045,
      "learning_rate": 9.226050233385198e-05,
      "loss": 1.7736,
      "step": 24246
    },
    {
      "epoch": 0.5388222222222222,
      "grad_norm": 1.735636591911316,
      "learning_rate": 9.225605690153369e-05,
      "loss": 1.6422,
      "step": 24247
    },
    {
      "epoch": 0.5388444444444445,
      "grad_norm": 1.6055833101272583,
      "learning_rate": 9.225161146921538e-05,
      "loss": 1.5356,
      "step": 24248
    },
    {
      "epoch": 0.5388666666666667,
      "grad_norm": 1.1422131061553955,
      "learning_rate": 9.22471660368971e-05,
      "loss": 1.0471,
      "step": 24249
    },
    {
      "epoch": 0.5388888888888889,
      "grad_norm": 1.5755362510681152,
      "learning_rate": 9.22427206045788e-05,
      "loss": 1.3795,
      "step": 24250
    },
    {
      "epoch": 0.5389111111111111,
      "grad_norm": 1.4392484426498413,
      "learning_rate": 9.22382751722605e-05,
      "loss": 2.2138,
      "step": 24251
    },
    {
      "epoch": 0.5389333333333334,
      "grad_norm": 1.4037847518920898,
      "learning_rate": 9.223382973994221e-05,
      "loss": 2.4844,
      "step": 24252
    },
    {
      "epoch": 0.5389555555555555,
      "grad_norm": 1.1614964008331299,
      "learning_rate": 9.222938430762392e-05,
      "loss": 1.3244,
      "step": 24253
    },
    {
      "epoch": 0.5389777777777778,
      "grad_norm": 1.7994608879089355,
      "learning_rate": 9.222493887530563e-05,
      "loss": 2.4427,
      "step": 24254
    },
    {
      "epoch": 0.539,
      "grad_norm": 1.3628267049789429,
      "learning_rate": 9.222049344298734e-05,
      "loss": 2.2645,
      "step": 24255
    },
    {
      "epoch": 0.5390222222222222,
      "grad_norm": 1.4715933799743652,
      "learning_rate": 9.221604801066905e-05,
      "loss": 2.1631,
      "step": 24256
    },
    {
      "epoch": 0.5390444444444444,
      "grad_norm": 1.8871057033538818,
      "learning_rate": 9.221160257835076e-05,
      "loss": 2.307,
      "step": 24257
    },
    {
      "epoch": 0.5390666666666667,
      "grad_norm": 1.610376000404358,
      "learning_rate": 9.220715714603245e-05,
      "loss": 2.3539,
      "step": 24258
    },
    {
      "epoch": 0.5390888888888888,
      "grad_norm": 3.0200557708740234,
      "learning_rate": 9.220271171371416e-05,
      "loss": 0.5627,
      "step": 24259
    },
    {
      "epoch": 0.5391111111111111,
      "grad_norm": 1.6105132102966309,
      "learning_rate": 9.219826628139587e-05,
      "loss": 2.2104,
      "step": 24260
    },
    {
      "epoch": 0.5391333333333334,
      "grad_norm": 1.7769533395767212,
      "learning_rate": 9.219382084907757e-05,
      "loss": 1.9563,
      "step": 24261
    },
    {
      "epoch": 0.5391555555555556,
      "grad_norm": 1.6201224327087402,
      "learning_rate": 9.218937541675928e-05,
      "loss": 2.594,
      "step": 24262
    },
    {
      "epoch": 0.5391777777777778,
      "grad_norm": 1.5452966690063477,
      "learning_rate": 9.218492998444099e-05,
      "loss": 1.5241,
      "step": 24263
    },
    {
      "epoch": 0.5392,
      "grad_norm": 1.2729521989822388,
      "learning_rate": 9.21804845521227e-05,
      "loss": 1.0964,
      "step": 24264
    },
    {
      "epoch": 0.5392222222222223,
      "grad_norm": 1.3810008764266968,
      "learning_rate": 9.217603911980441e-05,
      "loss": 1.8737,
      "step": 24265
    },
    {
      "epoch": 0.5392444444444444,
      "grad_norm": 1.6060186624526978,
      "learning_rate": 9.217159368748612e-05,
      "loss": 2.1038,
      "step": 24266
    },
    {
      "epoch": 0.5392666666666667,
      "grad_norm": 1.019771695137024,
      "learning_rate": 9.216714825516783e-05,
      "loss": 0.9788,
      "step": 24267
    },
    {
      "epoch": 0.5392888888888889,
      "grad_norm": 1.5976265668869019,
      "learning_rate": 9.216270282284952e-05,
      "loss": 1.7434,
      "step": 24268
    },
    {
      "epoch": 0.5393111111111111,
      "grad_norm": 0.29103121161460876,
      "learning_rate": 9.215825739053123e-05,
      "loss": 0.0291,
      "step": 24269
    },
    {
      "epoch": 0.5393333333333333,
      "grad_norm": 1.7776209115982056,
      "learning_rate": 9.215381195821294e-05,
      "loss": 2.0879,
      "step": 24270
    },
    {
      "epoch": 0.5393555555555556,
      "grad_norm": 1.6049411296844482,
      "learning_rate": 9.214936652589464e-05,
      "loss": 2.1393,
      "step": 24271
    },
    {
      "epoch": 0.5393777777777777,
      "grad_norm": 1.529695987701416,
      "learning_rate": 9.214492109357635e-05,
      "loss": 1.8736,
      "step": 24272
    },
    {
      "epoch": 0.5394,
      "grad_norm": 1.6467094421386719,
      "learning_rate": 9.214047566125806e-05,
      "loss": 2.2592,
      "step": 24273
    },
    {
      "epoch": 0.5394222222222222,
      "grad_norm": 1.6591092348098755,
      "learning_rate": 9.213603022893977e-05,
      "loss": 1.8015,
      "step": 24274
    },
    {
      "epoch": 0.5394444444444444,
      "grad_norm": 2.022505283355713,
      "learning_rate": 9.213158479662148e-05,
      "loss": 1.6327,
      "step": 24275
    },
    {
      "epoch": 0.5394666666666666,
      "grad_norm": 1.5356956720352173,
      "learning_rate": 9.212713936430319e-05,
      "loss": 1.8972,
      "step": 24276
    },
    {
      "epoch": 0.5394888888888889,
      "grad_norm": 1.7382233142852783,
      "learning_rate": 9.21226939319849e-05,
      "loss": 2.2315,
      "step": 24277
    },
    {
      "epoch": 0.5395111111111112,
      "grad_norm": 1.6308012008666992,
      "learning_rate": 9.211824849966659e-05,
      "loss": 1.7288,
      "step": 24278
    },
    {
      "epoch": 0.5395333333333333,
      "grad_norm": 1.8423830270767212,
      "learning_rate": 9.21138030673483e-05,
      "loss": 1.9704,
      "step": 24279
    },
    {
      "epoch": 0.5395555555555556,
      "grad_norm": 2.0500082969665527,
      "learning_rate": 9.210935763503001e-05,
      "loss": 1.5449,
      "step": 24280
    },
    {
      "epoch": 0.5395777777777778,
      "grad_norm": 1.868631362915039,
      "learning_rate": 9.210491220271171e-05,
      "loss": 1.4363,
      "step": 24281
    },
    {
      "epoch": 0.5396,
      "grad_norm": 1.4099256992340088,
      "learning_rate": 9.210046677039342e-05,
      "loss": 1.1658,
      "step": 24282
    },
    {
      "epoch": 0.5396222222222222,
      "grad_norm": 1.4469376802444458,
      "learning_rate": 9.209602133807514e-05,
      "loss": 1.6557,
      "step": 24283
    },
    {
      "epoch": 0.5396444444444445,
      "grad_norm": 1.6047347784042358,
      "learning_rate": 9.209157590575685e-05,
      "loss": 1.7611,
      "step": 24284
    },
    {
      "epoch": 0.5396666666666666,
      "grad_norm": 1.6780246496200562,
      "learning_rate": 9.208713047343855e-05,
      "loss": 1.5512,
      "step": 24285
    },
    {
      "epoch": 0.5396888888888889,
      "grad_norm": 1.713789939880371,
      "learning_rate": 9.208268504112026e-05,
      "loss": 1.9889,
      "step": 24286
    },
    {
      "epoch": 0.5397111111111111,
      "grad_norm": 1.8748291730880737,
      "learning_rate": 9.207823960880196e-05,
      "loss": 2.1829,
      "step": 24287
    },
    {
      "epoch": 0.5397333333333333,
      "grad_norm": 1.7449747323989868,
      "learning_rate": 9.207379417648366e-05,
      "loss": 2.1627,
      "step": 24288
    },
    {
      "epoch": 0.5397555555555555,
      "grad_norm": 1.9260207414627075,
      "learning_rate": 9.206934874416537e-05,
      "loss": 2.5585,
      "step": 24289
    },
    {
      "epoch": 0.5397777777777778,
      "grad_norm": 1.6547726392745972,
      "learning_rate": 9.206490331184708e-05,
      "loss": 1.6907,
      "step": 24290
    },
    {
      "epoch": 0.5398,
      "grad_norm": 1.6199426651000977,
      "learning_rate": 9.206045787952878e-05,
      "loss": 1.7674,
      "step": 24291
    },
    {
      "epoch": 0.5398222222222222,
      "grad_norm": 2.0004703998565674,
      "learning_rate": 9.20560124472105e-05,
      "loss": 1.9906,
      "step": 24292
    },
    {
      "epoch": 0.5398444444444445,
      "grad_norm": 1.9044575691223145,
      "learning_rate": 9.205156701489221e-05,
      "loss": 2.0012,
      "step": 24293
    },
    {
      "epoch": 0.5398666666666667,
      "grad_norm": 1.7138139009475708,
      "learning_rate": 9.204712158257392e-05,
      "loss": 1.4989,
      "step": 24294
    },
    {
      "epoch": 0.5398888888888889,
      "grad_norm": 1.5831096172332764,
      "learning_rate": 9.204267615025561e-05,
      "loss": 1.8501,
      "step": 24295
    },
    {
      "epoch": 0.5399111111111111,
      "grad_norm": 1.7384941577911377,
      "learning_rate": 9.203823071793732e-05,
      "loss": 1.8593,
      "step": 24296
    },
    {
      "epoch": 0.5399333333333334,
      "grad_norm": 1.7539606094360352,
      "learning_rate": 9.203378528561903e-05,
      "loss": 1.6213,
      "step": 24297
    },
    {
      "epoch": 0.5399555555555555,
      "grad_norm": 1.741629958152771,
      "learning_rate": 9.202933985330073e-05,
      "loss": 1.9681,
      "step": 24298
    },
    {
      "epoch": 0.5399777777777778,
      "grad_norm": 1.4743075370788574,
      "learning_rate": 9.202489442098244e-05,
      "loss": 0.671,
      "step": 24299
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.5700056552886963,
      "learning_rate": 9.202044898866415e-05,
      "loss": 2.2344,
      "step": 24300
    },
    {
      "epoch": 0.5400222222222222,
      "grad_norm": 1.0747946500778198,
      "learning_rate": 9.201600355634586e-05,
      "loss": 1.0563,
      "step": 24301
    },
    {
      "epoch": 0.5400444444444444,
      "grad_norm": 1.811263918876648,
      "learning_rate": 9.201155812402757e-05,
      "loss": 2.1253,
      "step": 24302
    },
    {
      "epoch": 0.5400666666666667,
      "grad_norm": 1.4279382228851318,
      "learning_rate": 9.200711269170928e-05,
      "loss": 2.0968,
      "step": 24303
    },
    {
      "epoch": 0.5400888888888888,
      "grad_norm": 1.2818807363510132,
      "learning_rate": 9.200266725939099e-05,
      "loss": 1.9956,
      "step": 24304
    },
    {
      "epoch": 0.5401111111111111,
      "grad_norm": 1.4980734586715698,
      "learning_rate": 9.199822182707268e-05,
      "loss": 2.2431,
      "step": 24305
    },
    {
      "epoch": 0.5401333333333334,
      "grad_norm": 1.4962892532348633,
      "learning_rate": 9.19937763947544e-05,
      "loss": 2.1355,
      "step": 24306
    },
    {
      "epoch": 0.5401555555555556,
      "grad_norm": 1.673689365386963,
      "learning_rate": 9.19893309624361e-05,
      "loss": 2.0065,
      "step": 24307
    },
    {
      "epoch": 0.5401777777777778,
      "grad_norm": 1.5543932914733887,
      "learning_rate": 9.19848855301178e-05,
      "loss": 1.8548,
      "step": 24308
    },
    {
      "epoch": 0.5402,
      "grad_norm": 1.5680476427078247,
      "learning_rate": 9.198044009779951e-05,
      "loss": 2.0746,
      "step": 24309
    },
    {
      "epoch": 0.5402222222222223,
      "grad_norm": 1.7164374589920044,
      "learning_rate": 9.197599466548122e-05,
      "loss": 1.9434,
      "step": 24310
    },
    {
      "epoch": 0.5402444444444444,
      "grad_norm": 1.4239225387573242,
      "learning_rate": 9.197154923316293e-05,
      "loss": 1.9376,
      "step": 24311
    },
    {
      "epoch": 0.5402666666666667,
      "grad_norm": 1.5612722635269165,
      "learning_rate": 9.196710380084464e-05,
      "loss": 1.9019,
      "step": 24312
    },
    {
      "epoch": 0.5402888888888889,
      "grad_norm": 1.4612367153167725,
      "learning_rate": 9.196265836852635e-05,
      "loss": 2.0858,
      "step": 24313
    },
    {
      "epoch": 0.5403111111111111,
      "grad_norm": 1.7964807748794556,
      "learning_rate": 9.195821293620806e-05,
      "loss": 1.9653,
      "step": 24314
    },
    {
      "epoch": 0.5403333333333333,
      "grad_norm": 1.6063355207443237,
      "learning_rate": 9.195376750388975e-05,
      "loss": 2.1232,
      "step": 24315
    },
    {
      "epoch": 0.5403555555555556,
      "grad_norm": 1.743343472480774,
      "learning_rate": 9.194932207157146e-05,
      "loss": 1.7689,
      "step": 24316
    },
    {
      "epoch": 0.5403777777777777,
      "grad_norm": 1.851549744606018,
      "learning_rate": 9.194487663925317e-05,
      "loss": 2.2563,
      "step": 24317
    },
    {
      "epoch": 0.5404,
      "grad_norm": 1.5492125749588013,
      "learning_rate": 9.194043120693487e-05,
      "loss": 1.9859,
      "step": 24318
    },
    {
      "epoch": 0.5404222222222222,
      "grad_norm": 1.580823302268982,
      "learning_rate": 9.193598577461658e-05,
      "loss": 1.8806,
      "step": 24319
    },
    {
      "epoch": 0.5404444444444444,
      "grad_norm": 1.4809569120407104,
      "learning_rate": 9.19315403422983e-05,
      "loss": 1.5945,
      "step": 24320
    },
    {
      "epoch": 0.5404666666666667,
      "grad_norm": 1.462955355644226,
      "learning_rate": 9.192709490998001e-05,
      "loss": 1.7191,
      "step": 24321
    },
    {
      "epoch": 0.5404888888888889,
      "grad_norm": 2.0013442039489746,
      "learning_rate": 9.192264947766171e-05,
      "loss": 1.5022,
      "step": 24322
    },
    {
      "epoch": 0.5405111111111112,
      "grad_norm": 2.2558016777038574,
      "learning_rate": 9.191820404534342e-05,
      "loss": 2.2684,
      "step": 24323
    },
    {
      "epoch": 0.5405333333333333,
      "grad_norm": 1.4980980157852173,
      "learning_rate": 9.191375861302513e-05,
      "loss": 1.8537,
      "step": 24324
    },
    {
      "epoch": 0.5405555555555556,
      "grad_norm": 1.6025424003601074,
      "learning_rate": 9.190931318070682e-05,
      "loss": 1.7876,
      "step": 24325
    },
    {
      "epoch": 0.5405777777777778,
      "grad_norm": 1.7068464756011963,
      "learning_rate": 9.190486774838853e-05,
      "loss": 2.1694,
      "step": 24326
    },
    {
      "epoch": 0.5406,
      "grad_norm": 1.3960950374603271,
      "learning_rate": 9.190042231607024e-05,
      "loss": 1.0586,
      "step": 24327
    },
    {
      "epoch": 0.5406222222222222,
      "grad_norm": 1.562402367591858,
      "learning_rate": 9.189597688375194e-05,
      "loss": 1.8495,
      "step": 24328
    },
    {
      "epoch": 0.5406444444444445,
      "grad_norm": 1.84151029586792,
      "learning_rate": 9.189153145143366e-05,
      "loss": 1.9375,
      "step": 24329
    },
    {
      "epoch": 0.5406666666666666,
      "grad_norm": 1.680580735206604,
      "learning_rate": 9.188708601911537e-05,
      "loss": 1.6724,
      "step": 24330
    },
    {
      "epoch": 0.5406888888888889,
      "grad_norm": 1.8293259143829346,
      "learning_rate": 9.188264058679708e-05,
      "loss": 2.0463,
      "step": 24331
    },
    {
      "epoch": 0.5407111111111111,
      "grad_norm": 1.2298433780670166,
      "learning_rate": 9.187819515447878e-05,
      "loss": 0.9901,
      "step": 24332
    },
    {
      "epoch": 0.5407333333333333,
      "grad_norm": 1.6206929683685303,
      "learning_rate": 9.187374972216049e-05,
      "loss": 1.855,
      "step": 24333
    },
    {
      "epoch": 0.5407555555555555,
      "grad_norm": 1.7943072319030762,
      "learning_rate": 9.18693042898422e-05,
      "loss": 1.9705,
      "step": 24334
    },
    {
      "epoch": 0.5407777777777778,
      "grad_norm": 1.912986397743225,
      "learning_rate": 9.186485885752389e-05,
      "loss": 2.214,
      "step": 24335
    },
    {
      "epoch": 0.5408,
      "grad_norm": 1.4980177879333496,
      "learning_rate": 9.18604134252056e-05,
      "loss": 1.7029,
      "step": 24336
    },
    {
      "epoch": 0.5408222222222222,
      "grad_norm": 1.49661123752594,
      "learning_rate": 9.185596799288731e-05,
      "loss": 1.8988,
      "step": 24337
    },
    {
      "epoch": 0.5408444444444445,
      "grad_norm": 1.6691099405288696,
      "learning_rate": 9.185152256056902e-05,
      "loss": 1.818,
      "step": 24338
    },
    {
      "epoch": 0.5408666666666667,
      "grad_norm": 1.4381122589111328,
      "learning_rate": 9.184707712825073e-05,
      "loss": 1.5671,
      "step": 24339
    },
    {
      "epoch": 0.5408888888888889,
      "grad_norm": 1.9778162240982056,
      "learning_rate": 9.184263169593244e-05,
      "loss": 1.6316,
      "step": 24340
    },
    {
      "epoch": 0.5409111111111111,
      "grad_norm": 1.4044989347457886,
      "learning_rate": 9.183818626361415e-05,
      "loss": 1.4295,
      "step": 24341
    },
    {
      "epoch": 0.5409333333333334,
      "grad_norm": 1.7202485799789429,
      "learning_rate": 9.183374083129584e-05,
      "loss": 1.5108,
      "step": 24342
    },
    {
      "epoch": 0.5409555555555555,
      "grad_norm": 1.8587305545806885,
      "learning_rate": 9.182929539897755e-05,
      "loss": 2.06,
      "step": 24343
    },
    {
      "epoch": 0.5409777777777778,
      "grad_norm": 1.7860199213027954,
      "learning_rate": 9.182484996665926e-05,
      "loss": 2.0896,
      "step": 24344
    },
    {
      "epoch": 0.541,
      "grad_norm": 1.5160789489746094,
      "learning_rate": 9.182040453434096e-05,
      "loss": 1.6046,
      "step": 24345
    },
    {
      "epoch": 0.5410222222222222,
      "grad_norm": 1.9480901956558228,
      "learning_rate": 9.181595910202267e-05,
      "loss": 1.9569,
      "step": 24346
    },
    {
      "epoch": 0.5410444444444444,
      "grad_norm": 1.8875641822814941,
      "learning_rate": 9.181151366970438e-05,
      "loss": 2.214,
      "step": 24347
    },
    {
      "epoch": 0.5410666666666667,
      "grad_norm": 1.807037353515625,
      "learning_rate": 9.180706823738609e-05,
      "loss": 2.1442,
      "step": 24348
    },
    {
      "epoch": 0.5410888888888888,
      "grad_norm": 2.1882662773132324,
      "learning_rate": 9.18026228050678e-05,
      "loss": 2.2646,
      "step": 24349
    },
    {
      "epoch": 0.5411111111111111,
      "grad_norm": 1.6364021301269531,
      "learning_rate": 9.179817737274951e-05,
      "loss": 1.8171,
      "step": 24350
    },
    {
      "epoch": 0.5411333333333334,
      "grad_norm": 1.5006444454193115,
      "learning_rate": 9.179373194043122e-05,
      "loss": 2.195,
      "step": 24351
    },
    {
      "epoch": 0.5411555555555555,
      "grad_norm": 1.1071752309799194,
      "learning_rate": 9.178928650811291e-05,
      "loss": 1.1486,
      "step": 24352
    },
    {
      "epoch": 0.5411777777777778,
      "grad_norm": 1.3120241165161133,
      "learning_rate": 9.178484107579462e-05,
      "loss": 2.2755,
      "step": 24353
    },
    {
      "epoch": 0.5412,
      "grad_norm": 1.6047438383102417,
      "learning_rate": 9.178039564347633e-05,
      "loss": 2.1572,
      "step": 24354
    },
    {
      "epoch": 0.5412222222222223,
      "grad_norm": 1.4759230613708496,
      "learning_rate": 9.177595021115803e-05,
      "loss": 2.0629,
      "step": 24355
    },
    {
      "epoch": 0.5412444444444444,
      "grad_norm": 1.4879316091537476,
      "learning_rate": 9.177150477883974e-05,
      "loss": 2.3586,
      "step": 24356
    },
    {
      "epoch": 0.5412666666666667,
      "grad_norm": 1.4935191869735718,
      "learning_rate": 9.176705934652146e-05,
      "loss": 2.0995,
      "step": 24357
    },
    {
      "epoch": 0.5412888888888889,
      "grad_norm": 1.56699538230896,
      "learning_rate": 9.176261391420317e-05,
      "loss": 2.2533,
      "step": 24358
    },
    {
      "epoch": 0.5413111111111111,
      "grad_norm": 1.5185868740081787,
      "learning_rate": 9.175816848188487e-05,
      "loss": 2.0905,
      "step": 24359
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 1.746821403503418,
      "learning_rate": 9.175372304956658e-05,
      "loss": 2.3289,
      "step": 24360
    },
    {
      "epoch": 0.5413555555555556,
      "grad_norm": 1.5916924476623535,
      "learning_rate": 9.174927761724829e-05,
      "loss": 1.9658,
      "step": 24361
    },
    {
      "epoch": 0.5413777777777777,
      "grad_norm": 1.8154927492141724,
      "learning_rate": 9.174483218492998e-05,
      "loss": 2.0251,
      "step": 24362
    },
    {
      "epoch": 0.5414,
      "grad_norm": 1.7627227306365967,
      "learning_rate": 9.174038675261169e-05,
      "loss": 2.0084,
      "step": 24363
    },
    {
      "epoch": 0.5414222222222222,
      "grad_norm": 1.9114412069320679,
      "learning_rate": 9.17359413202934e-05,
      "loss": 2.0188,
      "step": 24364
    },
    {
      "epoch": 0.5414444444444444,
      "grad_norm": 1.10810387134552,
      "learning_rate": 9.17314958879751e-05,
      "loss": 0.901,
      "step": 24365
    },
    {
      "epoch": 0.5414666666666667,
      "grad_norm": 1.5368221998214722,
      "learning_rate": 9.172705045565682e-05,
      "loss": 1.7493,
      "step": 24366
    },
    {
      "epoch": 0.5414888888888889,
      "grad_norm": 1.3063197135925293,
      "learning_rate": 9.172260502333853e-05,
      "loss": 0.9891,
      "step": 24367
    },
    {
      "epoch": 0.5415111111111112,
      "grad_norm": 2.1157994270324707,
      "learning_rate": 9.171815959102024e-05,
      "loss": 2.2702,
      "step": 24368
    },
    {
      "epoch": 0.5415333333333333,
      "grad_norm": 1.3469016551971436,
      "learning_rate": 9.171371415870194e-05,
      "loss": 0.7583,
      "step": 24369
    },
    {
      "epoch": 0.5415555555555556,
      "grad_norm": 1.747060775756836,
      "learning_rate": 9.170926872638365e-05,
      "loss": 2.1942,
      "step": 24370
    },
    {
      "epoch": 0.5415777777777778,
      "grad_norm": 1.5353626012802124,
      "learning_rate": 9.170482329406536e-05,
      "loss": 1.8275,
      "step": 24371
    },
    {
      "epoch": 0.5416,
      "grad_norm": 1.4383972883224487,
      "learning_rate": 9.170037786174705e-05,
      "loss": 1.8167,
      "step": 24372
    },
    {
      "epoch": 0.5416222222222222,
      "grad_norm": 1.7173206806182861,
      "learning_rate": 9.169593242942876e-05,
      "loss": 2.098,
      "step": 24373
    },
    {
      "epoch": 0.5416444444444445,
      "grad_norm": 1.530241847038269,
      "learning_rate": 9.169148699711047e-05,
      "loss": 1.4228,
      "step": 24374
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 1.5487072467803955,
      "learning_rate": 9.168704156479218e-05,
      "loss": 2.0034,
      "step": 24375
    },
    {
      "epoch": 0.5416888888888889,
      "grad_norm": 1.8772834539413452,
      "learning_rate": 9.168259613247389e-05,
      "loss": 2.2936,
      "step": 24376
    },
    {
      "epoch": 0.5417111111111111,
      "grad_norm": 1.4825364351272583,
      "learning_rate": 9.16781507001556e-05,
      "loss": 1.8289,
      "step": 24377
    },
    {
      "epoch": 0.5417333333333333,
      "grad_norm": 1.6304188966751099,
      "learning_rate": 9.167370526783731e-05,
      "loss": 1.7095,
      "step": 24378
    },
    {
      "epoch": 0.5417555555555555,
      "grad_norm": 0.13717906177043915,
      "learning_rate": 9.1669259835519e-05,
      "loss": 0.0262,
      "step": 24379
    },
    {
      "epoch": 0.5417777777777778,
      "grad_norm": 2.0263285636901855,
      "learning_rate": 9.166481440320072e-05,
      "loss": 2.1072,
      "step": 24380
    },
    {
      "epoch": 0.5418,
      "grad_norm": 1.7646219730377197,
      "learning_rate": 9.166036897088243e-05,
      "loss": 2.0052,
      "step": 24381
    },
    {
      "epoch": 0.5418222222222222,
      "grad_norm": 1.580121636390686,
      "learning_rate": 9.165592353856412e-05,
      "loss": 1.654,
      "step": 24382
    },
    {
      "epoch": 0.5418444444444445,
      "grad_norm": 2.0153744220733643,
      "learning_rate": 9.165147810624583e-05,
      "loss": 2.101,
      "step": 24383
    },
    {
      "epoch": 0.5418666666666667,
      "grad_norm": 1.9782394170761108,
      "learning_rate": 9.164703267392754e-05,
      "loss": 2.5887,
      "step": 24384
    },
    {
      "epoch": 0.5418888888888889,
      "grad_norm": 2.3765270709991455,
      "learning_rate": 9.164258724160925e-05,
      "loss": 2.1597,
      "step": 24385
    },
    {
      "epoch": 0.5419111111111111,
      "grad_norm": 2.083832025527954,
      "learning_rate": 9.163814180929096e-05,
      "loss": 2.0363,
      "step": 24386
    },
    {
      "epoch": 0.5419333333333334,
      "grad_norm": 1.787867784500122,
      "learning_rate": 9.163369637697267e-05,
      "loss": 1.9339,
      "step": 24387
    },
    {
      "epoch": 0.5419555555555555,
      "grad_norm": 1.9157482385635376,
      "learning_rate": 9.162925094465438e-05,
      "loss": 1.8,
      "step": 24388
    },
    {
      "epoch": 0.5419777777777778,
      "grad_norm": 1.8856781721115112,
      "learning_rate": 9.162480551233608e-05,
      "loss": 1.9737,
      "step": 24389
    },
    {
      "epoch": 0.542,
      "grad_norm": 2.1607511043548584,
      "learning_rate": 9.162036008001778e-05,
      "loss": 2.3698,
      "step": 24390
    },
    {
      "epoch": 0.5420222222222222,
      "grad_norm": 1.5160576105117798,
      "learning_rate": 9.16159146476995e-05,
      "loss": 1.6371,
      "step": 24391
    },
    {
      "epoch": 0.5420444444444444,
      "grad_norm": 2.0538060665130615,
      "learning_rate": 9.161146921538119e-05,
      "loss": 1.9787,
      "step": 24392
    },
    {
      "epoch": 0.5420666666666667,
      "grad_norm": 1.6658519506454468,
      "learning_rate": 9.16070237830629e-05,
      "loss": 1.7451,
      "step": 24393
    },
    {
      "epoch": 0.5420888888888888,
      "grad_norm": 1.7091578245162964,
      "learning_rate": 9.160257835074462e-05,
      "loss": 1.7463,
      "step": 24394
    },
    {
      "epoch": 0.5421111111111111,
      "grad_norm": 1.5837923288345337,
      "learning_rate": 9.159813291842632e-05,
      "loss": 1.5124,
      "step": 24395
    },
    {
      "epoch": 0.5421333333333334,
      "grad_norm": 2.3551347255706787,
      "learning_rate": 9.159368748610803e-05,
      "loss": 2.1459,
      "step": 24396
    },
    {
      "epoch": 0.5421555555555555,
      "grad_norm": 2.0351219177246094,
      "learning_rate": 9.158924205378974e-05,
      "loss": 2.0548,
      "step": 24397
    },
    {
      "epoch": 0.5421777777777778,
      "grad_norm": 1.3202329874038696,
      "learning_rate": 9.158479662147145e-05,
      "loss": 0.8388,
      "step": 24398
    },
    {
      "epoch": 0.5422,
      "grad_norm": 1.5265918970108032,
      "learning_rate": 9.158035118915314e-05,
      "loss": 1.5666,
      "step": 24399
    },
    {
      "epoch": 0.5422222222222223,
      "grad_norm": 2.186910390853882,
      "learning_rate": 9.157590575683485e-05,
      "loss": 1.8622,
      "step": 24400
    },
    {
      "epoch": 0.5422444444444444,
      "grad_norm": 0.9683042168617249,
      "learning_rate": 9.157146032451656e-05,
      "loss": 0.9065,
      "step": 24401
    },
    {
      "epoch": 0.5422666666666667,
      "grad_norm": 1.8134489059448242,
      "learning_rate": 9.156701489219826e-05,
      "loss": 2.4281,
      "step": 24402
    },
    {
      "epoch": 0.5422888888888889,
      "grad_norm": 1.2657603025436401,
      "learning_rate": 9.156256945987998e-05,
      "loss": 2.1327,
      "step": 24403
    },
    {
      "epoch": 0.5423111111111111,
      "grad_norm": 1.2261289358139038,
      "learning_rate": 9.155812402756169e-05,
      "loss": 2.2457,
      "step": 24404
    },
    {
      "epoch": 0.5423333333333333,
      "grad_norm": 1.3312736749649048,
      "learning_rate": 9.15536785952434e-05,
      "loss": 1.2281,
      "step": 24405
    },
    {
      "epoch": 0.5423555555555556,
      "grad_norm": 1.6338554620742798,
      "learning_rate": 9.15492331629251e-05,
      "loss": 2.3841,
      "step": 24406
    },
    {
      "epoch": 0.5423777777777777,
      "grad_norm": 1.5240892171859741,
      "learning_rate": 9.154478773060681e-05,
      "loss": 2.0323,
      "step": 24407
    },
    {
      "epoch": 0.5424,
      "grad_norm": 2.2545177936553955,
      "learning_rate": 9.154034229828852e-05,
      "loss": 2.0862,
      "step": 24408
    },
    {
      "epoch": 0.5424222222222223,
      "grad_norm": 1.5526987314224243,
      "learning_rate": 9.153589686597021e-05,
      "loss": 2.5179,
      "step": 24409
    },
    {
      "epoch": 0.5424444444444444,
      "grad_norm": 1.8159211874008179,
      "learning_rate": 9.153145143365192e-05,
      "loss": 2.2557,
      "step": 24410
    },
    {
      "epoch": 0.5424666666666667,
      "grad_norm": 1.4153403043746948,
      "learning_rate": 9.152700600133363e-05,
      "loss": 2.0356,
      "step": 24411
    },
    {
      "epoch": 0.5424888888888889,
      "grad_norm": 1.5483129024505615,
      "learning_rate": 9.152256056901534e-05,
      "loss": 2.0158,
      "step": 24412
    },
    {
      "epoch": 0.5425111111111112,
      "grad_norm": 1.6368662118911743,
      "learning_rate": 9.151811513669705e-05,
      "loss": 1.8185,
      "step": 24413
    },
    {
      "epoch": 0.5425333333333333,
      "grad_norm": 1.4868793487548828,
      "learning_rate": 9.151366970437876e-05,
      "loss": 2.1368,
      "step": 24414
    },
    {
      "epoch": 0.5425555555555556,
      "grad_norm": 1.7166872024536133,
      "learning_rate": 9.150922427206047e-05,
      "loss": 2.0653,
      "step": 24415
    },
    {
      "epoch": 0.5425777777777778,
      "grad_norm": 1.0927098989486694,
      "learning_rate": 9.150477883974217e-05,
      "loss": 1.0366,
      "step": 24416
    },
    {
      "epoch": 0.5426,
      "grad_norm": 1.6048580408096313,
      "learning_rate": 9.150033340742388e-05,
      "loss": 1.9368,
      "step": 24417
    },
    {
      "epoch": 0.5426222222222222,
      "grad_norm": 1.6102248430252075,
      "learning_rate": 9.149588797510559e-05,
      "loss": 2.2752,
      "step": 24418
    },
    {
      "epoch": 0.5426444444444445,
      "grad_norm": 1.4927194118499756,
      "learning_rate": 9.149144254278728e-05,
      "loss": 1.7659,
      "step": 24419
    },
    {
      "epoch": 0.5426666666666666,
      "grad_norm": 1.5076714754104614,
      "learning_rate": 9.148699711046899e-05,
      "loss": 2.0647,
      "step": 24420
    },
    {
      "epoch": 0.5426888888888889,
      "grad_norm": 1.5954859256744385,
      "learning_rate": 9.14825516781507e-05,
      "loss": 1.7481,
      "step": 24421
    },
    {
      "epoch": 0.5427111111111111,
      "grad_norm": 2.0885753631591797,
      "learning_rate": 9.147810624583241e-05,
      "loss": 2.6099,
      "step": 24422
    },
    {
      "epoch": 0.5427333333333333,
      "grad_norm": 1.6554951667785645,
      "learning_rate": 9.147366081351412e-05,
      "loss": 2.0219,
      "step": 24423
    },
    {
      "epoch": 0.5427555555555555,
      "grad_norm": 2.2756025791168213,
      "learning_rate": 9.146921538119583e-05,
      "loss": 2.0386,
      "step": 24424
    },
    {
      "epoch": 0.5427777777777778,
      "grad_norm": 1.6922513246536255,
      "learning_rate": 9.146476994887754e-05,
      "loss": 2.8162,
      "step": 24425
    },
    {
      "epoch": 0.5428,
      "grad_norm": 1.554883599281311,
      "learning_rate": 9.146032451655924e-05,
      "loss": 1.8311,
      "step": 24426
    },
    {
      "epoch": 0.5428222222222222,
      "grad_norm": 1.5539159774780273,
      "learning_rate": 9.145587908424095e-05,
      "loss": 1.7801,
      "step": 24427
    },
    {
      "epoch": 0.5428444444444445,
      "grad_norm": 1.9542580842971802,
      "learning_rate": 9.145143365192266e-05,
      "loss": 1.8682,
      "step": 24428
    },
    {
      "epoch": 0.5428666666666667,
      "grad_norm": 1.934701919555664,
      "learning_rate": 9.144698821960435e-05,
      "loss": 2.3347,
      "step": 24429
    },
    {
      "epoch": 0.5428888888888889,
      "grad_norm": 1.8111357688903809,
      "learning_rate": 9.144254278728606e-05,
      "loss": 1.946,
      "step": 24430
    },
    {
      "epoch": 0.5429111111111111,
      "grad_norm": 1.1770573854446411,
      "learning_rate": 9.143809735496778e-05,
      "loss": 0.6324,
      "step": 24431
    },
    {
      "epoch": 0.5429333333333334,
      "grad_norm": 1.2166980504989624,
      "learning_rate": 9.143365192264948e-05,
      "loss": 0.8951,
      "step": 24432
    },
    {
      "epoch": 0.5429555555555555,
      "grad_norm": 1.9601166248321533,
      "learning_rate": 9.142920649033119e-05,
      "loss": 2.0529,
      "step": 24433
    },
    {
      "epoch": 0.5429777777777778,
      "grad_norm": 2.1855058670043945,
      "learning_rate": 9.14247610580129e-05,
      "loss": 2.1997,
      "step": 24434
    },
    {
      "epoch": 0.543,
      "grad_norm": 1.7167435884475708,
      "learning_rate": 9.142031562569461e-05,
      "loss": 1.978,
      "step": 24435
    },
    {
      "epoch": 0.5430222222222222,
      "grad_norm": 1.7245893478393555,
      "learning_rate": 9.14158701933763e-05,
      "loss": 1.8865,
      "step": 24436
    },
    {
      "epoch": 0.5430444444444444,
      "grad_norm": 1.5660957098007202,
      "learning_rate": 9.141142476105801e-05,
      "loss": 1.5971,
      "step": 24437
    },
    {
      "epoch": 0.5430666666666667,
      "grad_norm": 1.9008598327636719,
      "learning_rate": 9.140697932873972e-05,
      "loss": 1.7366,
      "step": 24438
    },
    {
      "epoch": 0.5430888888888888,
      "grad_norm": 1.7047338485717773,
      "learning_rate": 9.140253389642143e-05,
      "loss": 1.589,
      "step": 24439
    },
    {
      "epoch": 0.5431111111111111,
      "grad_norm": 1.8982336521148682,
      "learning_rate": 9.139808846410314e-05,
      "loss": 2.0371,
      "step": 24440
    },
    {
      "epoch": 0.5431333333333334,
      "grad_norm": 1.611432433128357,
      "learning_rate": 9.139364303178485e-05,
      "loss": 1.8805,
      "step": 24441
    },
    {
      "epoch": 0.5431555555555555,
      "grad_norm": 1.7747411727905273,
      "learning_rate": 9.138919759946655e-05,
      "loss": 2.1905,
      "step": 24442
    },
    {
      "epoch": 0.5431777777777778,
      "grad_norm": 1.9043893814086914,
      "learning_rate": 9.138475216714826e-05,
      "loss": 2.6266,
      "step": 24443
    },
    {
      "epoch": 0.5432,
      "grad_norm": 1.7826316356658936,
      "learning_rate": 9.138030673482997e-05,
      "loss": 1.8513,
      "step": 24444
    },
    {
      "epoch": 0.5432222222222223,
      "grad_norm": 1.6389578580856323,
      "learning_rate": 9.137586130251168e-05,
      "loss": 1.6079,
      "step": 24445
    },
    {
      "epoch": 0.5432444444444444,
      "grad_norm": 1.4946457147598267,
      "learning_rate": 9.137141587019337e-05,
      "loss": 1.6135,
      "step": 24446
    },
    {
      "epoch": 0.5432666666666667,
      "grad_norm": 1.654356598854065,
      "learning_rate": 9.136697043787508e-05,
      "loss": 1.7877,
      "step": 24447
    },
    {
      "epoch": 0.5432888888888889,
      "grad_norm": 1.4872088432312012,
      "learning_rate": 9.13625250055568e-05,
      "loss": 1.6702,
      "step": 24448
    },
    {
      "epoch": 0.5433111111111111,
      "grad_norm": 2.215956211090088,
      "learning_rate": 9.13580795732385e-05,
      "loss": 1.7189,
      "step": 24449
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 1.639851450920105,
      "learning_rate": 9.135363414092021e-05,
      "loss": 0.9572,
      "step": 24450
    },
    {
      "epoch": 0.5433555555555556,
      "grad_norm": 0.9290329217910767,
      "learning_rate": 9.134918870860192e-05,
      "loss": 1.1276,
      "step": 24451
    },
    {
      "epoch": 0.5433777777777777,
      "grad_norm": 1.2678290605545044,
      "learning_rate": 9.134474327628362e-05,
      "loss": 2.0697,
      "step": 24452
    },
    {
      "epoch": 0.5434,
      "grad_norm": 1.5692901611328125,
      "learning_rate": 9.134029784396533e-05,
      "loss": 2.3963,
      "step": 24453
    },
    {
      "epoch": 0.5434222222222223,
      "grad_norm": 1.8004553318023682,
      "learning_rate": 9.133585241164704e-05,
      "loss": 2.5436,
      "step": 24454
    },
    {
      "epoch": 0.5434444444444444,
      "grad_norm": 2.0018868446350098,
      "learning_rate": 9.133140697932875e-05,
      "loss": 0.6791,
      "step": 24455
    },
    {
      "epoch": 0.5434666666666667,
      "grad_norm": 1.3562251329421997,
      "learning_rate": 9.132696154701044e-05,
      "loss": 1.9499,
      "step": 24456
    },
    {
      "epoch": 0.5434888888888889,
      "grad_norm": 1.4568347930908203,
      "learning_rate": 9.132251611469215e-05,
      "loss": 1.8366,
      "step": 24457
    },
    {
      "epoch": 0.5435111111111111,
      "grad_norm": 1.440295934677124,
      "learning_rate": 9.131807068237386e-05,
      "loss": 1.1885,
      "step": 24458
    },
    {
      "epoch": 0.5435333333333333,
      "grad_norm": 1.3930357694625854,
      "learning_rate": 9.131362525005557e-05,
      "loss": 1.5787,
      "step": 24459
    },
    {
      "epoch": 0.5435555555555556,
      "grad_norm": 1.412176489830017,
      "learning_rate": 9.130917981773728e-05,
      "loss": 2.0272,
      "step": 24460
    },
    {
      "epoch": 0.5435777777777778,
      "grad_norm": 1.6326645612716675,
      "learning_rate": 9.130473438541899e-05,
      "loss": 1.488,
      "step": 24461
    },
    {
      "epoch": 0.5436,
      "grad_norm": 1.457660436630249,
      "learning_rate": 9.13002889531007e-05,
      "loss": 1.7731,
      "step": 24462
    },
    {
      "epoch": 0.5436222222222222,
      "grad_norm": 1.9310649633407593,
      "learning_rate": 9.12958435207824e-05,
      "loss": 2.231,
      "step": 24463
    },
    {
      "epoch": 0.5436444444444445,
      "grad_norm": 1.5924293994903564,
      "learning_rate": 9.12913980884641e-05,
      "loss": 2.1411,
      "step": 24464
    },
    {
      "epoch": 0.5436666666666666,
      "grad_norm": 1.6635551452636719,
      "learning_rate": 9.128695265614582e-05,
      "loss": 1.9223,
      "step": 24465
    },
    {
      "epoch": 0.5436888888888889,
      "grad_norm": 1.5432348251342773,
      "learning_rate": 9.128250722382751e-05,
      "loss": 2.1501,
      "step": 24466
    },
    {
      "epoch": 0.5437111111111111,
      "grad_norm": 1.161712408065796,
      "learning_rate": 9.127806179150922e-05,
      "loss": 1.048,
      "step": 24467
    },
    {
      "epoch": 0.5437333333333333,
      "grad_norm": 1.3724285364151,
      "learning_rate": 9.127361635919095e-05,
      "loss": 1.7038,
      "step": 24468
    },
    {
      "epoch": 0.5437555555555555,
      "grad_norm": 1.514740228652954,
      "learning_rate": 9.126917092687264e-05,
      "loss": 1.4215,
      "step": 24469
    },
    {
      "epoch": 0.5437777777777778,
      "grad_norm": 1.779136300086975,
      "learning_rate": 9.126472549455435e-05,
      "loss": 1.8079,
      "step": 24470
    },
    {
      "epoch": 0.5438,
      "grad_norm": 1.7970844507217407,
      "learning_rate": 9.126028006223606e-05,
      "loss": 2.1879,
      "step": 24471
    },
    {
      "epoch": 0.5438222222222222,
      "grad_norm": 2.068619728088379,
      "learning_rate": 9.125583462991777e-05,
      "loss": 2.3121,
      "step": 24472
    },
    {
      "epoch": 0.5438444444444445,
      "grad_norm": 1.551132082939148,
      "learning_rate": 9.125138919759947e-05,
      "loss": 1.7885,
      "step": 24473
    },
    {
      "epoch": 0.5438666666666667,
      "grad_norm": 1.5210553407669067,
      "learning_rate": 9.124694376528118e-05,
      "loss": 1.9617,
      "step": 24474
    },
    {
      "epoch": 0.5438888888888889,
      "grad_norm": 1.549670696258545,
      "learning_rate": 9.124249833296289e-05,
      "loss": 1.6732,
      "step": 24475
    },
    {
      "epoch": 0.5439111111111111,
      "grad_norm": 1.289903163909912,
      "learning_rate": 9.12380529006446e-05,
      "loss": 1.3894,
      "step": 24476
    },
    {
      "epoch": 0.5439333333333334,
      "grad_norm": 1.6918144226074219,
      "learning_rate": 9.12336074683263e-05,
      "loss": 1.9711,
      "step": 24477
    },
    {
      "epoch": 0.5439555555555555,
      "grad_norm": 1.6144096851348877,
      "learning_rate": 9.122916203600801e-05,
      "loss": 1.5897,
      "step": 24478
    },
    {
      "epoch": 0.5439777777777778,
      "grad_norm": 1.225592017173767,
      "learning_rate": 9.122471660368971e-05,
      "loss": 1.0932,
      "step": 24479
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.5056713819503784,
      "learning_rate": 9.122027117137142e-05,
      "loss": 1.7422,
      "step": 24480
    },
    {
      "epoch": 0.5440222222222222,
      "grad_norm": 1.5985829830169678,
      "learning_rate": 9.121582573905313e-05,
      "loss": 1.9084,
      "step": 24481
    },
    {
      "epoch": 0.5440444444444444,
      "grad_norm": 1.6299504041671753,
      "learning_rate": 9.121138030673484e-05,
      "loss": 2.331,
      "step": 24482
    },
    {
      "epoch": 0.5440666666666667,
      "grad_norm": 1.8390007019042969,
      "learning_rate": 9.120693487441654e-05,
      "loss": 2.3158,
      "step": 24483
    },
    {
      "epoch": 0.5440888888888888,
      "grad_norm": 1.6238490343093872,
      "learning_rate": 9.120248944209824e-05,
      "loss": 1.8709,
      "step": 24484
    },
    {
      "epoch": 0.5441111111111111,
      "grad_norm": 1.470000982284546,
      "learning_rate": 9.119804400977995e-05,
      "loss": 1.6162,
      "step": 24485
    },
    {
      "epoch": 0.5441333333333334,
      "grad_norm": 1.5235662460327148,
      "learning_rate": 9.119359857746166e-05,
      "loss": 2.0336,
      "step": 24486
    },
    {
      "epoch": 0.5441555555555555,
      "grad_norm": 1.610207200050354,
      "learning_rate": 9.118915314514337e-05,
      "loss": 1.6309,
      "step": 24487
    },
    {
      "epoch": 0.5441777777777778,
      "grad_norm": 1.7320051193237305,
      "learning_rate": 9.118470771282508e-05,
      "loss": 2.1212,
      "step": 24488
    },
    {
      "epoch": 0.5442,
      "grad_norm": 1.5428298711776733,
      "learning_rate": 9.118026228050678e-05,
      "loss": 1.983,
      "step": 24489
    },
    {
      "epoch": 0.5442222222222223,
      "grad_norm": 1.8708019256591797,
      "learning_rate": 9.117581684818849e-05,
      "loss": 2.0288,
      "step": 24490
    },
    {
      "epoch": 0.5442444444444444,
      "grad_norm": 1.8554002046585083,
      "learning_rate": 9.11713714158702e-05,
      "loss": 1.8362,
      "step": 24491
    },
    {
      "epoch": 0.5442666666666667,
      "grad_norm": 2.293640613555908,
      "learning_rate": 9.116692598355191e-05,
      "loss": 2.2843,
      "step": 24492
    },
    {
      "epoch": 0.5442888888888889,
      "grad_norm": 1.708905816078186,
      "learning_rate": 9.11624805512336e-05,
      "loss": 1.8994,
      "step": 24493
    },
    {
      "epoch": 0.5443111111111111,
      "grad_norm": 1.9124740362167358,
      "learning_rate": 9.115803511891531e-05,
      "loss": 1.9395,
      "step": 24494
    },
    {
      "epoch": 0.5443333333333333,
      "grad_norm": 1.9783927202224731,
      "learning_rate": 9.115358968659702e-05,
      "loss": 1.9252,
      "step": 24495
    },
    {
      "epoch": 0.5443555555555556,
      "grad_norm": 2.3056998252868652,
      "learning_rate": 9.114914425427873e-05,
      "loss": 2.1502,
      "step": 24496
    },
    {
      "epoch": 0.5443777777777777,
      "grad_norm": 1.574793815612793,
      "learning_rate": 9.114469882196044e-05,
      "loss": 1.5159,
      "step": 24497
    },
    {
      "epoch": 0.5444,
      "grad_norm": 1.9553143978118896,
      "learning_rate": 9.114025338964215e-05,
      "loss": 1.9559,
      "step": 24498
    },
    {
      "epoch": 0.5444222222222223,
      "grad_norm": 1.7293188571929932,
      "learning_rate": 9.113580795732385e-05,
      "loss": 1.505,
      "step": 24499
    },
    {
      "epoch": 0.5444444444444444,
      "grad_norm": 2.266680955886841,
      "learning_rate": 9.113136252500556e-05,
      "loss": 1.6836,
      "step": 24500
    },
    {
      "epoch": 0.5444666666666667,
      "grad_norm": 1.5760903358459473,
      "learning_rate": 9.112691709268727e-05,
      "loss": 2.5151,
      "step": 24501
    },
    {
      "epoch": 0.5444888888888889,
      "grad_norm": 1.460573434829712,
      "learning_rate": 9.112247166036898e-05,
      "loss": 2.2291,
      "step": 24502
    },
    {
      "epoch": 0.5445111111111111,
      "grad_norm": 1.0689289569854736,
      "learning_rate": 9.111802622805067e-05,
      "loss": 1.1676,
      "step": 24503
    },
    {
      "epoch": 0.5445333333333333,
      "grad_norm": 1.330674171447754,
      "learning_rate": 9.111358079573238e-05,
      "loss": 1.6127,
      "step": 24504
    },
    {
      "epoch": 0.5445555555555556,
      "grad_norm": 1.461479902267456,
      "learning_rate": 9.11091353634141e-05,
      "loss": 2.1499,
      "step": 24505
    },
    {
      "epoch": 0.5445777777777778,
      "grad_norm": 1.2510648965835571,
      "learning_rate": 9.11046899310958e-05,
      "loss": 1.3586,
      "step": 24506
    },
    {
      "epoch": 0.5446,
      "grad_norm": 1.219706654548645,
      "learning_rate": 9.110024449877751e-05,
      "loss": 1.664,
      "step": 24507
    },
    {
      "epoch": 0.5446222222222222,
      "grad_norm": 1.4069654941558838,
      "learning_rate": 9.109579906645922e-05,
      "loss": 1.688,
      "step": 24508
    },
    {
      "epoch": 0.5446444444444445,
      "grad_norm": 1.606002926826477,
      "learning_rate": 9.109135363414092e-05,
      "loss": 2.2837,
      "step": 24509
    },
    {
      "epoch": 0.5446666666666666,
      "grad_norm": 1.707331895828247,
      "learning_rate": 9.108690820182263e-05,
      "loss": 2.1264,
      "step": 24510
    },
    {
      "epoch": 0.5446888888888889,
      "grad_norm": 1.8560720682144165,
      "learning_rate": 9.108246276950434e-05,
      "loss": 1.7129,
      "step": 24511
    },
    {
      "epoch": 0.5447111111111111,
      "grad_norm": 1.5721896886825562,
      "learning_rate": 9.107801733718605e-05,
      "loss": 1.9882,
      "step": 24512
    },
    {
      "epoch": 0.5447333333333333,
      "grad_norm": 2.0441696643829346,
      "learning_rate": 9.107357190486776e-05,
      "loss": 1.9037,
      "step": 24513
    },
    {
      "epoch": 0.5447555555555555,
      "grad_norm": 1.908130168914795,
      "learning_rate": 9.106912647254947e-05,
      "loss": 1.4671,
      "step": 24514
    },
    {
      "epoch": 0.5447777777777778,
      "grad_norm": 1.6027462482452393,
      "learning_rate": 9.106468104023118e-05,
      "loss": 1.9395,
      "step": 24515
    },
    {
      "epoch": 0.5448,
      "grad_norm": 1.8628854751586914,
      "learning_rate": 9.106023560791287e-05,
      "loss": 2.3003,
      "step": 24516
    },
    {
      "epoch": 0.5448222222222222,
      "grad_norm": 1.4651304483413696,
      "learning_rate": 9.105579017559458e-05,
      "loss": 1.6527,
      "step": 24517
    },
    {
      "epoch": 0.5448444444444445,
      "grad_norm": 1.6237316131591797,
      "learning_rate": 9.105134474327629e-05,
      "loss": 1.8611,
      "step": 24518
    },
    {
      "epoch": 0.5448666666666667,
      "grad_norm": 1.2381608486175537,
      "learning_rate": 9.1046899310958e-05,
      "loss": 1.2552,
      "step": 24519
    },
    {
      "epoch": 0.5448888888888889,
      "grad_norm": 1.2420530319213867,
      "learning_rate": 9.10424538786397e-05,
      "loss": 1.1498,
      "step": 24520
    },
    {
      "epoch": 0.5449111111111111,
      "grad_norm": 1.3722549676895142,
      "learning_rate": 9.10380084463214e-05,
      "loss": 1.3708,
      "step": 24521
    },
    {
      "epoch": 0.5449333333333334,
      "grad_norm": 1.6035823822021484,
      "learning_rate": 9.103356301400312e-05,
      "loss": 2.02,
      "step": 24522
    },
    {
      "epoch": 0.5449555555555555,
      "grad_norm": 2.177682399749756,
      "learning_rate": 9.102911758168483e-05,
      "loss": 2.1558,
      "step": 24523
    },
    {
      "epoch": 0.5449777777777778,
      "grad_norm": 1.3815351724624634,
      "learning_rate": 9.102467214936653e-05,
      "loss": 1.7364,
      "step": 24524
    },
    {
      "epoch": 0.545,
      "grad_norm": 1.663150429725647,
      "learning_rate": 9.102022671704824e-05,
      "loss": 1.7347,
      "step": 24525
    },
    {
      "epoch": 0.5450222222222222,
      "grad_norm": 1.469934344291687,
      "learning_rate": 9.101578128472994e-05,
      "loss": 1.4969,
      "step": 24526
    },
    {
      "epoch": 0.5450444444444444,
      "grad_norm": 1.8679863214492798,
      "learning_rate": 9.101133585241165e-05,
      "loss": 2.0612,
      "step": 24527
    },
    {
      "epoch": 0.5450666666666667,
      "grad_norm": 1.6439650058746338,
      "learning_rate": 9.100689042009336e-05,
      "loss": 2.1827,
      "step": 24528
    },
    {
      "epoch": 0.5450888888888888,
      "grad_norm": 1.613097071647644,
      "learning_rate": 9.100244498777507e-05,
      "loss": 1.7756,
      "step": 24529
    },
    {
      "epoch": 0.5451111111111111,
      "grad_norm": 2.366593599319458,
      "learning_rate": 9.099799955545677e-05,
      "loss": 2.1955,
      "step": 24530
    },
    {
      "epoch": 0.5451333333333334,
      "grad_norm": 1.7278881072998047,
      "learning_rate": 9.099355412313848e-05,
      "loss": 2.1218,
      "step": 24531
    },
    {
      "epoch": 0.5451555555555555,
      "grad_norm": 1.7309423685073853,
      "learning_rate": 9.098910869082018e-05,
      "loss": 2.1512,
      "step": 24532
    },
    {
      "epoch": 0.5451777777777778,
      "grad_norm": 1.5277262926101685,
      "learning_rate": 9.09846632585019e-05,
      "loss": 1.9194,
      "step": 24533
    },
    {
      "epoch": 0.5452,
      "grad_norm": 1.9902199506759644,
      "learning_rate": 9.09802178261836e-05,
      "loss": 1.9826,
      "step": 24534
    },
    {
      "epoch": 0.5452222222222223,
      "grad_norm": 1.9239591360092163,
      "learning_rate": 9.097577239386531e-05,
      "loss": 1.8212,
      "step": 24535
    },
    {
      "epoch": 0.5452444444444444,
      "grad_norm": 1.4262409210205078,
      "learning_rate": 9.097132696154701e-05,
      "loss": 1.5952,
      "step": 24536
    },
    {
      "epoch": 0.5452666666666667,
      "grad_norm": 1.5391803979873657,
      "learning_rate": 9.096688152922872e-05,
      "loss": 1.6925,
      "step": 24537
    },
    {
      "epoch": 0.5452888888888889,
      "grad_norm": 1.8099844455718994,
      "learning_rate": 9.096243609691043e-05,
      "loss": 2.1622,
      "step": 24538
    },
    {
      "epoch": 0.5453111111111111,
      "grad_norm": 1.8503533601760864,
      "learning_rate": 9.095799066459214e-05,
      "loss": 1.6879,
      "step": 24539
    },
    {
      "epoch": 0.5453333333333333,
      "grad_norm": 1.6199365854263306,
      "learning_rate": 9.095354523227383e-05,
      "loss": 1.8224,
      "step": 24540
    },
    {
      "epoch": 0.5453555555555556,
      "grad_norm": 2.0271332263946533,
      "learning_rate": 9.094909979995554e-05,
      "loss": 1.892,
      "step": 24541
    },
    {
      "epoch": 0.5453777777777777,
      "grad_norm": 1.9658429622650146,
      "learning_rate": 9.094465436763727e-05,
      "loss": 1.9484,
      "step": 24542
    },
    {
      "epoch": 0.5454,
      "grad_norm": 1.599216341972351,
      "learning_rate": 9.094020893531896e-05,
      "loss": 1.6586,
      "step": 24543
    },
    {
      "epoch": 0.5454222222222223,
      "grad_norm": 2.0607001781463623,
      "learning_rate": 9.093576350300067e-05,
      "loss": 2.2167,
      "step": 24544
    },
    {
      "epoch": 0.5454444444444444,
      "grad_norm": 1.7925525903701782,
      "learning_rate": 9.093131807068238e-05,
      "loss": 1.6104,
      "step": 24545
    },
    {
      "epoch": 0.5454666666666667,
      "grad_norm": 1.4627230167388916,
      "learning_rate": 9.092687263836408e-05,
      "loss": 1.8458,
      "step": 24546
    },
    {
      "epoch": 0.5454888888888889,
      "grad_norm": 1.8989802598953247,
      "learning_rate": 9.092242720604579e-05,
      "loss": 2.5607,
      "step": 24547
    },
    {
      "epoch": 0.5455111111111111,
      "grad_norm": 2.182307481765747,
      "learning_rate": 9.09179817737275e-05,
      "loss": 2.0494,
      "step": 24548
    },
    {
      "epoch": 0.5455333333333333,
      "grad_norm": 1.4887185096740723,
      "learning_rate": 9.091353634140921e-05,
      "loss": 1.2456,
      "step": 24549
    },
    {
      "epoch": 0.5455555555555556,
      "grad_norm": 1.1382697820663452,
      "learning_rate": 9.090909090909092e-05,
      "loss": 0.7128,
      "step": 24550
    },
    {
      "epoch": 0.5455777777777778,
      "grad_norm": 1.0124856233596802,
      "learning_rate": 9.090464547677263e-05,
      "loss": 1.3466,
      "step": 24551
    },
    {
      "epoch": 0.5456,
      "grad_norm": 1.4324939250946045,
      "learning_rate": 9.090020004445434e-05,
      "loss": 2.3493,
      "step": 24552
    },
    {
      "epoch": 0.5456222222222222,
      "grad_norm": 1.127920389175415,
      "learning_rate": 9.089575461213603e-05,
      "loss": 0.8756,
      "step": 24553
    },
    {
      "epoch": 0.5456444444444445,
      "grad_norm": 1.3503657579421997,
      "learning_rate": 9.089130917981774e-05,
      "loss": 1.9324,
      "step": 24554
    },
    {
      "epoch": 0.5456666666666666,
      "grad_norm": 1.584816336631775,
      "learning_rate": 9.088686374749945e-05,
      "loss": 1.9642,
      "step": 24555
    },
    {
      "epoch": 0.5456888888888889,
      "grad_norm": 1.372694969177246,
      "learning_rate": 9.088241831518115e-05,
      "loss": 1.9753,
      "step": 24556
    },
    {
      "epoch": 0.5457111111111111,
      "grad_norm": 1.6503657102584839,
      "learning_rate": 9.087797288286286e-05,
      "loss": 2.1504,
      "step": 24557
    },
    {
      "epoch": 0.5457333333333333,
      "grad_norm": 1.8504019975662231,
      "learning_rate": 9.087352745054457e-05,
      "loss": 0.9734,
      "step": 24558
    },
    {
      "epoch": 0.5457555555555555,
      "grad_norm": 1.7119004726409912,
      "learning_rate": 9.086908201822628e-05,
      "loss": 2.1257,
      "step": 24559
    },
    {
      "epoch": 0.5457777777777778,
      "grad_norm": 1.582628846168518,
      "learning_rate": 9.086463658590799e-05,
      "loss": 1.8316,
      "step": 24560
    },
    {
      "epoch": 0.5458,
      "grad_norm": 1.7664796113967896,
      "learning_rate": 9.08601911535897e-05,
      "loss": 2.1725,
      "step": 24561
    },
    {
      "epoch": 0.5458222222222222,
      "grad_norm": 1.5368025302886963,
      "learning_rate": 9.08557457212714e-05,
      "loss": 1.947,
      "step": 24562
    },
    {
      "epoch": 0.5458444444444445,
      "grad_norm": 1.75711190700531,
      "learning_rate": 9.08513002889531e-05,
      "loss": 1.6977,
      "step": 24563
    },
    {
      "epoch": 0.5458666666666666,
      "grad_norm": 1.8245733976364136,
      "learning_rate": 9.084685485663481e-05,
      "loss": 2.1351,
      "step": 24564
    },
    {
      "epoch": 0.5458888888888889,
      "grad_norm": 1.7264584302902222,
      "learning_rate": 9.084240942431652e-05,
      "loss": 2.101,
      "step": 24565
    },
    {
      "epoch": 0.5459111111111111,
      "grad_norm": 1.8973206281661987,
      "learning_rate": 9.083796399199823e-05,
      "loss": 1.7249,
      "step": 24566
    },
    {
      "epoch": 0.5459333333333334,
      "grad_norm": 1.803231954574585,
      "learning_rate": 9.083351855967993e-05,
      "loss": 1.9996,
      "step": 24567
    },
    {
      "epoch": 0.5459555555555555,
      "grad_norm": 1.5748602151870728,
      "learning_rate": 9.082907312736164e-05,
      "loss": 2.3556,
      "step": 24568
    },
    {
      "epoch": 0.5459777777777778,
      "grad_norm": 1.669242024421692,
      "learning_rate": 9.082462769504335e-05,
      "loss": 2.3136,
      "step": 24569
    },
    {
      "epoch": 0.546,
      "grad_norm": 1.6219338178634644,
      "learning_rate": 9.082018226272506e-05,
      "loss": 1.7262,
      "step": 24570
    },
    {
      "epoch": 0.5460222222222222,
      "grad_norm": 1.862493872642517,
      "learning_rate": 9.081573683040676e-05,
      "loss": 1.751,
      "step": 24571
    },
    {
      "epoch": 0.5460444444444444,
      "grad_norm": 1.6271408796310425,
      "learning_rate": 9.081129139808847e-05,
      "loss": 2.357,
      "step": 24572
    },
    {
      "epoch": 0.5460666666666667,
      "grad_norm": 1.7061996459960938,
      "learning_rate": 9.080684596577017e-05,
      "loss": 1.9359,
      "step": 24573
    },
    {
      "epoch": 0.5460888888888888,
      "grad_norm": 1.7845854759216309,
      "learning_rate": 9.080240053345188e-05,
      "loss": 2.4901,
      "step": 24574
    },
    {
      "epoch": 0.5461111111111111,
      "grad_norm": 1.4152430295944214,
      "learning_rate": 9.079795510113359e-05,
      "loss": 1.6865,
      "step": 24575
    },
    {
      "epoch": 0.5461333333333334,
      "grad_norm": 1.559046983718872,
      "learning_rate": 9.07935096688153e-05,
      "loss": 1.9454,
      "step": 24576
    },
    {
      "epoch": 0.5461555555555555,
      "grad_norm": 1.6736565828323364,
      "learning_rate": 9.0789064236497e-05,
      "loss": 2.0135,
      "step": 24577
    },
    {
      "epoch": 0.5461777777777778,
      "grad_norm": 1.6260994672775269,
      "learning_rate": 9.07846188041787e-05,
      "loss": 2.3738,
      "step": 24578
    },
    {
      "epoch": 0.5462,
      "grad_norm": 1.6920363903045654,
      "learning_rate": 9.078017337186043e-05,
      "loss": 1.785,
      "step": 24579
    },
    {
      "epoch": 0.5462222222222223,
      "grad_norm": 1.627695083618164,
      "learning_rate": 9.077572793954212e-05,
      "loss": 2.1768,
      "step": 24580
    },
    {
      "epoch": 0.5462444444444444,
      "grad_norm": 1.5668545961380005,
      "learning_rate": 9.077128250722383e-05,
      "loss": 2.1309,
      "step": 24581
    },
    {
      "epoch": 0.5462666666666667,
      "grad_norm": 1.5231273174285889,
      "learning_rate": 9.076683707490554e-05,
      "loss": 1.6758,
      "step": 24582
    },
    {
      "epoch": 0.5462888888888889,
      "grad_norm": 1.470017910003662,
      "learning_rate": 9.076239164258724e-05,
      "loss": 1.9428,
      "step": 24583
    },
    {
      "epoch": 0.5463111111111111,
      "grad_norm": 1.8361258506774902,
      "learning_rate": 9.075794621026895e-05,
      "loss": 1.7942,
      "step": 24584
    },
    {
      "epoch": 0.5463333333333333,
      "grad_norm": 1.8311398029327393,
      "learning_rate": 9.075350077795066e-05,
      "loss": 2.1051,
      "step": 24585
    },
    {
      "epoch": 0.5463555555555556,
      "grad_norm": 1.6348137855529785,
      "learning_rate": 9.074905534563237e-05,
      "loss": 1.9205,
      "step": 24586
    },
    {
      "epoch": 0.5463777777777777,
      "grad_norm": 2.022808074951172,
      "learning_rate": 9.074460991331408e-05,
      "loss": 1.6189,
      "step": 24587
    },
    {
      "epoch": 0.5464,
      "grad_norm": 1.7429420948028564,
      "learning_rate": 9.074016448099579e-05,
      "loss": 1.8394,
      "step": 24588
    },
    {
      "epoch": 0.5464222222222223,
      "grad_norm": 1.3837029933929443,
      "learning_rate": 9.07357190486775e-05,
      "loss": 1.4226,
      "step": 24589
    },
    {
      "epoch": 0.5464444444444444,
      "grad_norm": 1.9966931343078613,
      "learning_rate": 9.07312736163592e-05,
      "loss": 1.9459,
      "step": 24590
    },
    {
      "epoch": 0.5464666666666667,
      "grad_norm": 1.6691346168518066,
      "learning_rate": 9.07268281840409e-05,
      "loss": 1.9431,
      "step": 24591
    },
    {
      "epoch": 0.5464888888888889,
      "grad_norm": 1.8061481714248657,
      "learning_rate": 9.072238275172261e-05,
      "loss": 2.0156,
      "step": 24592
    },
    {
      "epoch": 0.5465111111111111,
      "grad_norm": 1.5956107378005981,
      "learning_rate": 9.071793731940431e-05,
      "loss": 1.7466,
      "step": 24593
    },
    {
      "epoch": 0.5465333333333333,
      "grad_norm": 1.7091057300567627,
      "learning_rate": 9.071349188708602e-05,
      "loss": 1.7567,
      "step": 24594
    },
    {
      "epoch": 0.5465555555555556,
      "grad_norm": 1.629358172416687,
      "learning_rate": 9.070904645476773e-05,
      "loss": 1.4729,
      "step": 24595
    },
    {
      "epoch": 0.5465777777777778,
      "grad_norm": 1.9766992330551147,
      "learning_rate": 9.070460102244944e-05,
      "loss": 2.044,
      "step": 24596
    },
    {
      "epoch": 0.5466,
      "grad_norm": 2.299785614013672,
      "learning_rate": 9.070015559013115e-05,
      "loss": 2.0615,
      "step": 24597
    },
    {
      "epoch": 0.5466222222222222,
      "grad_norm": 1.6101359128952026,
      "learning_rate": 9.069571015781286e-05,
      "loss": 1.7509,
      "step": 24598
    },
    {
      "epoch": 0.5466444444444445,
      "grad_norm": 1.974792242050171,
      "learning_rate": 9.069126472549457e-05,
      "loss": 1.7344,
      "step": 24599
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 1.9489318132400513,
      "learning_rate": 9.068681929317626e-05,
      "loss": 1.695,
      "step": 24600
    },
    {
      "epoch": 0.5466888888888889,
      "grad_norm": 1.0314785242080688,
      "learning_rate": 9.068237386085797e-05,
      "loss": 1.3778,
      "step": 24601
    },
    {
      "epoch": 0.5467111111111111,
      "grad_norm": 1.309544563293457,
      "learning_rate": 9.067792842853968e-05,
      "loss": 2.1734,
      "step": 24602
    },
    {
      "epoch": 0.5467333333333333,
      "grad_norm": 1.289111614227295,
      "learning_rate": 9.067348299622138e-05,
      "loss": 1.3813,
      "step": 24603
    },
    {
      "epoch": 0.5467555555555556,
      "grad_norm": 1.5632582902908325,
      "learning_rate": 9.066903756390309e-05,
      "loss": 2.0153,
      "step": 24604
    },
    {
      "epoch": 0.5467777777777778,
      "grad_norm": 1.5163965225219727,
      "learning_rate": 9.06645921315848e-05,
      "loss": 2.1341,
      "step": 24605
    },
    {
      "epoch": 0.5468,
      "grad_norm": 1.7350069284439087,
      "learning_rate": 9.06601466992665e-05,
      "loss": 2.7358,
      "step": 24606
    },
    {
      "epoch": 0.5468222222222222,
      "grad_norm": 1.4297292232513428,
      "learning_rate": 9.065570126694822e-05,
      "loss": 1.9906,
      "step": 24607
    },
    {
      "epoch": 0.5468444444444445,
      "grad_norm": 1.4661240577697754,
      "learning_rate": 9.065125583462993e-05,
      "loss": 1.9566,
      "step": 24608
    },
    {
      "epoch": 0.5468666666666666,
      "grad_norm": 1.5057634115219116,
      "learning_rate": 9.064681040231164e-05,
      "loss": 2.3339,
      "step": 24609
    },
    {
      "epoch": 0.5468888888888889,
      "grad_norm": 1.7049815654754639,
      "learning_rate": 9.064236496999333e-05,
      "loss": 2.5442,
      "step": 24610
    },
    {
      "epoch": 0.5469111111111111,
      "grad_norm": 1.5386656522750854,
      "learning_rate": 9.063791953767504e-05,
      "loss": 1.6493,
      "step": 24611
    },
    {
      "epoch": 0.5469333333333334,
      "grad_norm": 1.8781291246414185,
      "learning_rate": 9.063347410535675e-05,
      "loss": 1.8783,
      "step": 24612
    },
    {
      "epoch": 0.5469555555555555,
      "grad_norm": 1.5009691715240479,
      "learning_rate": 9.062902867303845e-05,
      "loss": 2.2391,
      "step": 24613
    },
    {
      "epoch": 0.5469777777777778,
      "grad_norm": 1.5458403825759888,
      "learning_rate": 9.062458324072016e-05,
      "loss": 1.8177,
      "step": 24614
    },
    {
      "epoch": 0.547,
      "grad_norm": 1.5909945964813232,
      "learning_rate": 9.062013780840187e-05,
      "loss": 2.075,
      "step": 24615
    },
    {
      "epoch": 0.5470222222222222,
      "grad_norm": 1.6575005054473877,
      "learning_rate": 9.061569237608359e-05,
      "loss": 2.2437,
      "step": 24616
    },
    {
      "epoch": 0.5470444444444444,
      "grad_norm": 1.0664323568344116,
      "learning_rate": 9.061124694376529e-05,
      "loss": 0.8812,
      "step": 24617
    },
    {
      "epoch": 0.5470666666666667,
      "grad_norm": 1.8467624187469482,
      "learning_rate": 9.0606801511447e-05,
      "loss": 2.1684,
      "step": 24618
    },
    {
      "epoch": 0.5470888888888888,
      "grad_norm": 1.5937811136245728,
      "learning_rate": 9.06023560791287e-05,
      "loss": 1.4404,
      "step": 24619
    },
    {
      "epoch": 0.5471111111111111,
      "grad_norm": 2.037308692932129,
      "learning_rate": 9.05979106468104e-05,
      "loss": 2.0742,
      "step": 24620
    },
    {
      "epoch": 0.5471333333333334,
      "grad_norm": 1.5365755558013916,
      "learning_rate": 9.059346521449211e-05,
      "loss": 2.0712,
      "step": 24621
    },
    {
      "epoch": 0.5471555555555555,
      "grad_norm": 1.9697293043136597,
      "learning_rate": 9.058901978217382e-05,
      "loss": 2.248,
      "step": 24622
    },
    {
      "epoch": 0.5471777777777778,
      "grad_norm": 1.7237242460250854,
      "learning_rate": 9.058457434985553e-05,
      "loss": 2.1805,
      "step": 24623
    },
    {
      "epoch": 0.5472,
      "grad_norm": 1.5575140714645386,
      "learning_rate": 9.058012891753724e-05,
      "loss": 1.8367,
      "step": 24624
    },
    {
      "epoch": 0.5472222222222223,
      "grad_norm": 1.6423230171203613,
      "learning_rate": 9.057568348521895e-05,
      "loss": 1.8465,
      "step": 24625
    },
    {
      "epoch": 0.5472444444444444,
      "grad_norm": 1.8308281898498535,
      "learning_rate": 9.057123805290066e-05,
      "loss": 2.1256,
      "step": 24626
    },
    {
      "epoch": 0.5472666666666667,
      "grad_norm": 1.7497832775115967,
      "learning_rate": 9.056679262058235e-05,
      "loss": 2.0098,
      "step": 24627
    },
    {
      "epoch": 0.5472888888888889,
      "grad_norm": 1.650361180305481,
      "learning_rate": 9.056234718826406e-05,
      "loss": 2.0139,
      "step": 24628
    },
    {
      "epoch": 0.5473111111111111,
      "grad_norm": 1.6981749534606934,
      "learning_rate": 9.055790175594577e-05,
      "loss": 1.9724,
      "step": 24629
    },
    {
      "epoch": 0.5473333333333333,
      "grad_norm": 1.7026010751724243,
      "learning_rate": 9.055345632362747e-05,
      "loss": 2.0032,
      "step": 24630
    },
    {
      "epoch": 0.5473555555555556,
      "grad_norm": 1.8067800998687744,
      "learning_rate": 9.054901089130918e-05,
      "loss": 1.9947,
      "step": 24631
    },
    {
      "epoch": 0.5473777777777777,
      "grad_norm": 1.706624150276184,
      "learning_rate": 9.054456545899089e-05,
      "loss": 1.9351,
      "step": 24632
    },
    {
      "epoch": 0.5474,
      "grad_norm": 1.8354891538619995,
      "learning_rate": 9.05401200266726e-05,
      "loss": 2.1567,
      "step": 24633
    },
    {
      "epoch": 0.5474222222222223,
      "grad_norm": 2.342182159423828,
      "learning_rate": 9.053567459435431e-05,
      "loss": 2.172,
      "step": 24634
    },
    {
      "epoch": 0.5474444444444444,
      "grad_norm": 1.7169557809829712,
      "learning_rate": 9.053122916203602e-05,
      "loss": 1.7083,
      "step": 24635
    },
    {
      "epoch": 0.5474666666666667,
      "grad_norm": 2.2481601238250732,
      "learning_rate": 9.052678372971773e-05,
      "loss": 1.8282,
      "step": 24636
    },
    {
      "epoch": 0.5474888888888889,
      "grad_norm": 1.8874527215957642,
      "learning_rate": 9.052233829739942e-05,
      "loss": 1.846,
      "step": 24637
    },
    {
      "epoch": 0.5475111111111111,
      "grad_norm": 1.8504680395126343,
      "learning_rate": 9.051789286508113e-05,
      "loss": 2.0242,
      "step": 24638
    },
    {
      "epoch": 0.5475333333333333,
      "grad_norm": 1.5343389511108398,
      "learning_rate": 9.051344743276284e-05,
      "loss": 1.5292,
      "step": 24639
    },
    {
      "epoch": 0.5475555555555556,
      "grad_norm": 1.9566134214401245,
      "learning_rate": 9.050900200044454e-05,
      "loss": 1.7783,
      "step": 24640
    },
    {
      "epoch": 0.5475777777777778,
      "grad_norm": 2.0290729999542236,
      "learning_rate": 9.050455656812625e-05,
      "loss": 1.9065,
      "step": 24641
    },
    {
      "epoch": 0.5476,
      "grad_norm": 1.6547644138336182,
      "learning_rate": 9.050011113580796e-05,
      "loss": 1.6274,
      "step": 24642
    },
    {
      "epoch": 0.5476222222222222,
      "grad_norm": 2.1134746074676514,
      "learning_rate": 9.049566570348967e-05,
      "loss": 2.1024,
      "step": 24643
    },
    {
      "epoch": 0.5476444444444445,
      "grad_norm": 2.4690301418304443,
      "learning_rate": 9.049122027117138e-05,
      "loss": 1.865,
      "step": 24644
    },
    {
      "epoch": 0.5476666666666666,
      "grad_norm": 1.919378399848938,
      "learning_rate": 9.048677483885309e-05,
      "loss": 1.9719,
      "step": 24645
    },
    {
      "epoch": 0.5476888888888889,
      "grad_norm": 2.2430338859558105,
      "learning_rate": 9.04823294065348e-05,
      "loss": 2.0223,
      "step": 24646
    },
    {
      "epoch": 0.5477111111111111,
      "grad_norm": 2.1250438690185547,
      "learning_rate": 9.047788397421649e-05,
      "loss": 2.229,
      "step": 24647
    },
    {
      "epoch": 0.5477333333333333,
      "grad_norm": 1.6875709295272827,
      "learning_rate": 9.04734385418982e-05,
      "loss": 1.8979,
      "step": 24648
    },
    {
      "epoch": 0.5477555555555556,
      "grad_norm": 1.4409706592559814,
      "learning_rate": 9.046899310957991e-05,
      "loss": 1.7999,
      "step": 24649
    },
    {
      "epoch": 0.5477777777777778,
      "grad_norm": 1.903188705444336,
      "learning_rate": 9.046454767726161e-05,
      "loss": 1.4738,
      "step": 24650
    },
    {
      "epoch": 0.5478,
      "grad_norm": 1.0220630168914795,
      "learning_rate": 9.046010224494332e-05,
      "loss": 1.3525,
      "step": 24651
    },
    {
      "epoch": 0.5478222222222222,
      "grad_norm": 1.3735582828521729,
      "learning_rate": 9.045565681262503e-05,
      "loss": 1.9401,
      "step": 24652
    },
    {
      "epoch": 0.5478444444444445,
      "grad_norm": 1.419141173362732,
      "learning_rate": 9.045121138030675e-05,
      "loss": 2.0154,
      "step": 24653
    },
    {
      "epoch": 0.5478666666666666,
      "grad_norm": 1.839231014251709,
      "learning_rate": 9.044676594798845e-05,
      "loss": 2.5072,
      "step": 24654
    },
    {
      "epoch": 0.5478888888888889,
      "grad_norm": 1.6232424974441528,
      "learning_rate": 9.044232051567016e-05,
      "loss": 1.9861,
      "step": 24655
    },
    {
      "epoch": 0.5479111111111111,
      "grad_norm": 1.6671409606933594,
      "learning_rate": 9.043787508335187e-05,
      "loss": 1.9891,
      "step": 24656
    },
    {
      "epoch": 0.5479333333333334,
      "grad_norm": 1.9735788106918335,
      "learning_rate": 9.043342965103356e-05,
      "loss": 2.1764,
      "step": 24657
    },
    {
      "epoch": 0.5479555555555555,
      "grad_norm": 1.8430367708206177,
      "learning_rate": 9.042898421871527e-05,
      "loss": 2.2474,
      "step": 24658
    },
    {
      "epoch": 0.5479777777777778,
      "grad_norm": 1.424071192741394,
      "learning_rate": 9.042453878639698e-05,
      "loss": 2.0762,
      "step": 24659
    },
    {
      "epoch": 0.548,
      "grad_norm": 1.5279227495193481,
      "learning_rate": 9.042009335407868e-05,
      "loss": 1.7065,
      "step": 24660
    },
    {
      "epoch": 0.5480222222222222,
      "grad_norm": 1.4618217945098877,
      "learning_rate": 9.04156479217604e-05,
      "loss": 1.1802,
      "step": 24661
    },
    {
      "epoch": 0.5480444444444444,
      "grad_norm": 1.6265350580215454,
      "learning_rate": 9.041120248944211e-05,
      "loss": 2.2286,
      "step": 24662
    },
    {
      "epoch": 0.5480666666666667,
      "grad_norm": 1.65226149559021,
      "learning_rate": 9.040675705712382e-05,
      "loss": 1.7925,
      "step": 24663
    },
    {
      "epoch": 0.5480888888888888,
      "grad_norm": 1.2526535987854004,
      "learning_rate": 9.040231162480552e-05,
      "loss": 1.3807,
      "step": 24664
    },
    {
      "epoch": 0.5481111111111111,
      "grad_norm": 1.6508269309997559,
      "learning_rate": 9.039786619248723e-05,
      "loss": 2.3123,
      "step": 24665
    },
    {
      "epoch": 0.5481333333333334,
      "grad_norm": 2.0354208946228027,
      "learning_rate": 9.039342076016893e-05,
      "loss": 2.2893,
      "step": 24666
    },
    {
      "epoch": 0.5481555555555555,
      "grad_norm": 2.1087281703948975,
      "learning_rate": 9.038897532785063e-05,
      "loss": 1.6838,
      "step": 24667
    },
    {
      "epoch": 0.5481777777777778,
      "grad_norm": 1.8502254486083984,
      "learning_rate": 9.038452989553234e-05,
      "loss": 2.1897,
      "step": 24668
    },
    {
      "epoch": 0.5482,
      "grad_norm": 1.7045040130615234,
      "learning_rate": 9.038008446321405e-05,
      "loss": 2.2009,
      "step": 24669
    },
    {
      "epoch": 0.5482222222222223,
      "grad_norm": 1.8009299039840698,
      "learning_rate": 9.037563903089576e-05,
      "loss": 1.9996,
      "step": 24670
    },
    {
      "epoch": 0.5482444444444444,
      "grad_norm": 1.727236270904541,
      "learning_rate": 9.037119359857747e-05,
      "loss": 2.0132,
      "step": 24671
    },
    {
      "epoch": 0.5482666666666667,
      "grad_norm": 1.7554813623428345,
      "learning_rate": 9.036674816625918e-05,
      "loss": 2.1005,
      "step": 24672
    },
    {
      "epoch": 0.5482888888888889,
      "grad_norm": 1.6362419128417969,
      "learning_rate": 9.036230273394089e-05,
      "loss": 2.356,
      "step": 24673
    },
    {
      "epoch": 0.5483111111111111,
      "grad_norm": 2.0536370277404785,
      "learning_rate": 9.035785730162258e-05,
      "loss": 2.2727,
      "step": 24674
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 1.9798531532287598,
      "learning_rate": 9.03534118693043e-05,
      "loss": 2.4958,
      "step": 24675
    },
    {
      "epoch": 0.5483555555555556,
      "grad_norm": 1.7387580871582031,
      "learning_rate": 9.0348966436986e-05,
      "loss": 2.0707,
      "step": 24676
    },
    {
      "epoch": 0.5483777777777777,
      "grad_norm": 1.6984493732452393,
      "learning_rate": 9.03445210046677e-05,
      "loss": 1.6253,
      "step": 24677
    },
    {
      "epoch": 0.5484,
      "grad_norm": 1.5292388200759888,
      "learning_rate": 9.034007557234941e-05,
      "loss": 1.8728,
      "step": 24678
    },
    {
      "epoch": 0.5484222222222223,
      "grad_norm": 1.9387134313583374,
      "learning_rate": 9.033563014003112e-05,
      "loss": 1.9413,
      "step": 24679
    },
    {
      "epoch": 0.5484444444444444,
      "grad_norm": 1.67918860912323,
      "learning_rate": 9.033118470771283e-05,
      "loss": 1.804,
      "step": 24680
    },
    {
      "epoch": 0.5484666666666667,
      "grad_norm": 2.076035499572754,
      "learning_rate": 9.032673927539454e-05,
      "loss": 1.9412,
      "step": 24681
    },
    {
      "epoch": 0.5484888888888889,
      "grad_norm": 1.7173032760620117,
      "learning_rate": 9.032229384307625e-05,
      "loss": 1.7501,
      "step": 24682
    },
    {
      "epoch": 0.5485111111111111,
      "grad_norm": 1.8990817070007324,
      "learning_rate": 9.031784841075796e-05,
      "loss": 2.1624,
      "step": 24683
    },
    {
      "epoch": 0.5485333333333333,
      "grad_norm": 1.5406038761138916,
      "learning_rate": 9.031340297843965e-05,
      "loss": 1.7882,
      "step": 24684
    },
    {
      "epoch": 0.5485555555555556,
      "grad_norm": 1.550144910812378,
      "learning_rate": 9.030895754612136e-05,
      "loss": 2.0214,
      "step": 24685
    },
    {
      "epoch": 0.5485777777777778,
      "grad_norm": 1.6606533527374268,
      "learning_rate": 9.030451211380307e-05,
      "loss": 1.4534,
      "step": 24686
    },
    {
      "epoch": 0.5486,
      "grad_norm": 1.5466972589492798,
      "learning_rate": 9.030006668148477e-05,
      "loss": 1.8384,
      "step": 24687
    },
    {
      "epoch": 0.5486222222222222,
      "grad_norm": 1.3978136777877808,
      "learning_rate": 9.029562124916648e-05,
      "loss": 0.7883,
      "step": 24688
    },
    {
      "epoch": 0.5486444444444445,
      "grad_norm": 1.5248194932937622,
      "learning_rate": 9.029117581684819e-05,
      "loss": 0.8824,
      "step": 24689
    },
    {
      "epoch": 0.5486666666666666,
      "grad_norm": 1.6896910667419434,
      "learning_rate": 9.028673038452991e-05,
      "loss": 1.9665,
      "step": 24690
    },
    {
      "epoch": 0.5486888888888889,
      "grad_norm": 1.619576096534729,
      "learning_rate": 9.028228495221161e-05,
      "loss": 1.6296,
      "step": 24691
    },
    {
      "epoch": 0.5487111111111111,
      "grad_norm": 1.813889741897583,
      "learning_rate": 9.027783951989332e-05,
      "loss": 1.7527,
      "step": 24692
    },
    {
      "epoch": 0.5487333333333333,
      "grad_norm": 1.6180530786514282,
      "learning_rate": 9.027339408757503e-05,
      "loss": 1.5406,
      "step": 24693
    },
    {
      "epoch": 0.5487555555555556,
      "grad_norm": 1.7402122020721436,
      "learning_rate": 9.026894865525672e-05,
      "loss": 1.7359,
      "step": 24694
    },
    {
      "epoch": 0.5487777777777778,
      "grad_norm": 2.3145127296447754,
      "learning_rate": 9.026450322293843e-05,
      "loss": 1.8298,
      "step": 24695
    },
    {
      "epoch": 0.5488,
      "grad_norm": 1.9198718070983887,
      "learning_rate": 9.026005779062014e-05,
      "loss": 2.0569,
      "step": 24696
    },
    {
      "epoch": 0.5488222222222222,
      "grad_norm": 1.7072499990463257,
      "learning_rate": 9.025561235830184e-05,
      "loss": 1.6427,
      "step": 24697
    },
    {
      "epoch": 0.5488444444444445,
      "grad_norm": 1.3660404682159424,
      "learning_rate": 9.025116692598356e-05,
      "loss": 1.19,
      "step": 24698
    },
    {
      "epoch": 0.5488666666666666,
      "grad_norm": 2.083770275115967,
      "learning_rate": 9.024672149366527e-05,
      "loss": 2.1386,
      "step": 24699
    },
    {
      "epoch": 0.5488888888888889,
      "grad_norm": 1.9359906911849976,
      "learning_rate": 9.024227606134698e-05,
      "loss": 1.2721,
      "step": 24700
    },
    {
      "epoch": 0.5489111111111111,
      "grad_norm": 1.5540618896484375,
      "learning_rate": 9.023783062902868e-05,
      "loss": 2.7687,
      "step": 24701
    },
    {
      "epoch": 0.5489333333333334,
      "grad_norm": 1.6650012731552124,
      "learning_rate": 9.023338519671039e-05,
      "loss": 2.1113,
      "step": 24702
    },
    {
      "epoch": 0.5489555555555555,
      "grad_norm": 1.3400022983551025,
      "learning_rate": 9.02289397643921e-05,
      "loss": 1.6103,
      "step": 24703
    },
    {
      "epoch": 0.5489777777777778,
      "grad_norm": 2.1363918781280518,
      "learning_rate": 9.022449433207379e-05,
      "loss": 1.9278,
      "step": 24704
    },
    {
      "epoch": 0.549,
      "grad_norm": 1.6880850791931152,
      "learning_rate": 9.02200488997555e-05,
      "loss": 2.3937,
      "step": 24705
    },
    {
      "epoch": 0.5490222222222222,
      "grad_norm": 1.2917989492416382,
      "learning_rate": 9.021560346743721e-05,
      "loss": 1.9533,
      "step": 24706
    },
    {
      "epoch": 0.5490444444444444,
      "grad_norm": 1.5409678220748901,
      "learning_rate": 9.021115803511892e-05,
      "loss": 2.3214,
      "step": 24707
    },
    {
      "epoch": 0.5490666666666667,
      "grad_norm": 1.7318419218063354,
      "learning_rate": 9.020671260280063e-05,
      "loss": 2.4721,
      "step": 24708
    },
    {
      "epoch": 0.5490888888888888,
      "grad_norm": 1.5828614234924316,
      "learning_rate": 9.020226717048234e-05,
      "loss": 2.3743,
      "step": 24709
    },
    {
      "epoch": 0.5491111111111111,
      "grad_norm": 1.5381711721420288,
      "learning_rate": 9.019782173816405e-05,
      "loss": 2.2673,
      "step": 24710
    },
    {
      "epoch": 0.5491333333333334,
      "grad_norm": 1.665806770324707,
      "learning_rate": 9.019337630584575e-05,
      "loss": 2.038,
      "step": 24711
    },
    {
      "epoch": 0.5491555555555555,
      "grad_norm": 1.572815179824829,
      "learning_rate": 9.018893087352746e-05,
      "loss": 1.7889,
      "step": 24712
    },
    {
      "epoch": 0.5491777777777778,
      "grad_norm": 1.4683213233947754,
      "learning_rate": 9.018448544120916e-05,
      "loss": 1.5169,
      "step": 24713
    },
    {
      "epoch": 0.5492,
      "grad_norm": 1.7369805574417114,
      "learning_rate": 9.018004000889086e-05,
      "loss": 2.1055,
      "step": 24714
    },
    {
      "epoch": 0.5492222222222222,
      "grad_norm": 0.9822958111763,
      "learning_rate": 9.017559457657257e-05,
      "loss": 0.6714,
      "step": 24715
    },
    {
      "epoch": 0.5492444444444444,
      "grad_norm": 1.1781033277511597,
      "learning_rate": 9.017114914425428e-05,
      "loss": 1.0349,
      "step": 24716
    },
    {
      "epoch": 0.5492666666666667,
      "grad_norm": 1.5774855613708496,
      "learning_rate": 9.016670371193599e-05,
      "loss": 1.7253,
      "step": 24717
    },
    {
      "epoch": 0.5492888888888889,
      "grad_norm": 1.2607474327087402,
      "learning_rate": 9.01622582796177e-05,
      "loss": 1.0745,
      "step": 24718
    },
    {
      "epoch": 0.5493111111111111,
      "grad_norm": 1.930868148803711,
      "learning_rate": 9.015781284729941e-05,
      "loss": 1.8879,
      "step": 24719
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 1.324898362159729,
      "learning_rate": 9.015336741498112e-05,
      "loss": 1.6372,
      "step": 24720
    },
    {
      "epoch": 0.5493555555555556,
      "grad_norm": 1.814620018005371,
      "learning_rate": 9.014892198266281e-05,
      "loss": 2.311,
      "step": 24721
    },
    {
      "epoch": 0.5493777777777777,
      "grad_norm": 1.5137633085250854,
      "learning_rate": 9.014447655034452e-05,
      "loss": 1.8013,
      "step": 24722
    },
    {
      "epoch": 0.5494,
      "grad_norm": 1.840283989906311,
      "learning_rate": 9.014003111802623e-05,
      "loss": 2.4192,
      "step": 24723
    },
    {
      "epoch": 0.5494222222222223,
      "grad_norm": 1.4778708219528198,
      "learning_rate": 9.013558568570793e-05,
      "loss": 1.7512,
      "step": 24724
    },
    {
      "epoch": 0.5494444444444444,
      "grad_norm": 1.4834359884262085,
      "learning_rate": 9.013114025338964e-05,
      "loss": 2.0061,
      "step": 24725
    },
    {
      "epoch": 0.5494666666666667,
      "grad_norm": 1.5833243131637573,
      "learning_rate": 9.012669482107135e-05,
      "loss": 1.8133,
      "step": 24726
    },
    {
      "epoch": 0.5494888888888889,
      "grad_norm": 1.5723201036453247,
      "learning_rate": 9.012224938875306e-05,
      "loss": 2.0522,
      "step": 24727
    },
    {
      "epoch": 0.5495111111111111,
      "grad_norm": 2.070659637451172,
      "learning_rate": 9.011780395643477e-05,
      "loss": 2.7141,
      "step": 24728
    },
    {
      "epoch": 0.5495333333333333,
      "grad_norm": 1.7166575193405151,
      "learning_rate": 9.011335852411648e-05,
      "loss": 1.6131,
      "step": 24729
    },
    {
      "epoch": 0.5495555555555556,
      "grad_norm": 1.4859336614608765,
      "learning_rate": 9.010891309179819e-05,
      "loss": 1.7005,
      "step": 24730
    },
    {
      "epoch": 0.5495777777777778,
      "grad_norm": 1.7228928804397583,
      "learning_rate": 9.010446765947988e-05,
      "loss": 2.0946,
      "step": 24731
    },
    {
      "epoch": 0.5496,
      "grad_norm": 2.0223875045776367,
      "learning_rate": 9.01000222271616e-05,
      "loss": 2.3712,
      "step": 24732
    },
    {
      "epoch": 0.5496222222222222,
      "grad_norm": 1.918494701385498,
      "learning_rate": 9.00955767948433e-05,
      "loss": 2.1481,
      "step": 24733
    },
    {
      "epoch": 0.5496444444444445,
      "grad_norm": 1.90581476688385,
      "learning_rate": 9.0091131362525e-05,
      "loss": 1.9848,
      "step": 24734
    },
    {
      "epoch": 0.5496666666666666,
      "grad_norm": 1.7866876125335693,
      "learning_rate": 9.008668593020672e-05,
      "loss": 1.922,
      "step": 24735
    },
    {
      "epoch": 0.5496888888888889,
      "grad_norm": 1.2286916971206665,
      "learning_rate": 9.008224049788843e-05,
      "loss": 0.9652,
      "step": 24736
    },
    {
      "epoch": 0.5497111111111112,
      "grad_norm": 1.7537680864334106,
      "learning_rate": 9.007779506557014e-05,
      "loss": 1.8362,
      "step": 24737
    },
    {
      "epoch": 0.5497333333333333,
      "grad_norm": 2.122419834136963,
      "learning_rate": 9.007334963325184e-05,
      "loss": 1.8277,
      "step": 24738
    },
    {
      "epoch": 0.5497555555555556,
      "grad_norm": 1.6882179975509644,
      "learning_rate": 9.006890420093355e-05,
      "loss": 1.5319,
      "step": 24739
    },
    {
      "epoch": 0.5497777777777778,
      "grad_norm": 1.738664984703064,
      "learning_rate": 9.006445876861526e-05,
      "loss": 1.8976,
      "step": 24740
    },
    {
      "epoch": 0.5498,
      "grad_norm": 1.7327980995178223,
      "learning_rate": 9.006001333629695e-05,
      "loss": 1.8801,
      "step": 24741
    },
    {
      "epoch": 0.5498222222222222,
      "grad_norm": 1.5411710739135742,
      "learning_rate": 9.005556790397866e-05,
      "loss": 1.5693,
      "step": 24742
    },
    {
      "epoch": 0.5498444444444445,
      "grad_norm": 2.2017812728881836,
      "learning_rate": 9.005112247166037e-05,
      "loss": 1.3025,
      "step": 24743
    },
    {
      "epoch": 0.5498666666666666,
      "grad_norm": 1.8369563817977905,
      "learning_rate": 9.004667703934208e-05,
      "loss": 2.1065,
      "step": 24744
    },
    {
      "epoch": 0.5498888888888889,
      "grad_norm": 1.2887598276138306,
      "learning_rate": 9.004223160702379e-05,
      "loss": 1.0296,
      "step": 24745
    },
    {
      "epoch": 0.5499111111111111,
      "grad_norm": 1.7267102003097534,
      "learning_rate": 9.00377861747055e-05,
      "loss": 1.8261,
      "step": 24746
    },
    {
      "epoch": 0.5499333333333334,
      "grad_norm": 2.1269431114196777,
      "learning_rate": 9.003334074238721e-05,
      "loss": 0.8909,
      "step": 24747
    },
    {
      "epoch": 0.5499555555555555,
      "grad_norm": 1.4096237421035767,
      "learning_rate": 9.00288953100689e-05,
      "loss": 0.8116,
      "step": 24748
    },
    {
      "epoch": 0.5499777777777778,
      "grad_norm": 2.2154011726379395,
      "learning_rate": 9.002444987775062e-05,
      "loss": 1.6057,
      "step": 24749
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9557912349700928,
      "learning_rate": 9.002000444543233e-05,
      "loss": 1.1264,
      "step": 24750
    },
    {
      "epoch": 0.5500222222222222,
      "grad_norm": 1.372458815574646,
      "learning_rate": 9.001555901311402e-05,
      "loss": 2.2827,
      "step": 24751
    },
    {
      "epoch": 0.5500444444444444,
      "grad_norm": 1.5910978317260742,
      "learning_rate": 9.001111358079573e-05,
      "loss": 2.6937,
      "step": 24752
    },
    {
      "epoch": 0.5500666666666667,
      "grad_norm": 1.8888537883758545,
      "learning_rate": 9.000666814847744e-05,
      "loss": 2.5542,
      "step": 24753
    },
    {
      "epoch": 0.5500888888888888,
      "grad_norm": 1.437862753868103,
      "learning_rate": 9.000222271615915e-05,
      "loss": 1.985,
      "step": 24754
    },
    {
      "epoch": 0.5501111111111111,
      "grad_norm": 1.4379295110702515,
      "learning_rate": 8.999777728384086e-05,
      "loss": 2.2601,
      "step": 24755
    },
    {
      "epoch": 0.5501333333333334,
      "grad_norm": 1.5434478521347046,
      "learning_rate": 8.999333185152257e-05,
      "loss": 2.6016,
      "step": 24756
    },
    {
      "epoch": 0.5501555555555555,
      "grad_norm": 1.6547642946243286,
      "learning_rate": 8.998888641920428e-05,
      "loss": 2.3967,
      "step": 24757
    },
    {
      "epoch": 0.5501777777777778,
      "grad_norm": 2.0394845008850098,
      "learning_rate": 8.998444098688598e-05,
      "loss": 1.9775,
      "step": 24758
    },
    {
      "epoch": 0.5502,
      "grad_norm": 1.6735323667526245,
      "learning_rate": 8.997999555456769e-05,
      "loss": 2.5303,
      "step": 24759
    },
    {
      "epoch": 0.5502222222222222,
      "grad_norm": 1.5155832767486572,
      "learning_rate": 8.99755501222494e-05,
      "loss": 1.8529,
      "step": 24760
    },
    {
      "epoch": 0.5502444444444444,
      "grad_norm": 1.5779635906219482,
      "learning_rate": 8.997110468993109e-05,
      "loss": 1.6983,
      "step": 24761
    },
    {
      "epoch": 0.5502666666666667,
      "grad_norm": 1.6295652389526367,
      "learning_rate": 8.99666592576128e-05,
      "loss": 1.5506,
      "step": 24762
    },
    {
      "epoch": 0.5502888888888889,
      "grad_norm": 1.5595747232437134,
      "learning_rate": 8.996221382529451e-05,
      "loss": 1.9884,
      "step": 24763
    },
    {
      "epoch": 0.5503111111111111,
      "grad_norm": 1.672294020652771,
      "learning_rate": 8.995776839297622e-05,
      "loss": 2.2139,
      "step": 24764
    },
    {
      "epoch": 0.5503333333333333,
      "grad_norm": 1.7346720695495605,
      "learning_rate": 8.995332296065793e-05,
      "loss": 1.8242,
      "step": 24765
    },
    {
      "epoch": 0.5503555555555556,
      "grad_norm": 1.4781907796859741,
      "learning_rate": 8.994887752833964e-05,
      "loss": 2.1214,
      "step": 24766
    },
    {
      "epoch": 0.5503777777777777,
      "grad_norm": 1.4123085737228394,
      "learning_rate": 8.994443209602135e-05,
      "loss": 1.7194,
      "step": 24767
    },
    {
      "epoch": 0.5504,
      "grad_norm": 1.0646328926086426,
      "learning_rate": 8.993998666370304e-05,
      "loss": 1.2948,
      "step": 24768
    },
    {
      "epoch": 0.5504222222222223,
      "grad_norm": 1.9337890148162842,
      "learning_rate": 8.993554123138475e-05,
      "loss": 2.2875,
      "step": 24769
    },
    {
      "epoch": 0.5504444444444444,
      "grad_norm": 0.9726338386535645,
      "learning_rate": 8.993109579906646e-05,
      "loss": 0.7823,
      "step": 24770
    },
    {
      "epoch": 0.5504666666666667,
      "grad_norm": 1.4854694604873657,
      "learning_rate": 8.992665036674816e-05,
      "loss": 1.2637,
      "step": 24771
    },
    {
      "epoch": 0.5504888888888889,
      "grad_norm": 1.6985629796981812,
      "learning_rate": 8.992220493442988e-05,
      "loss": 1.9638,
      "step": 24772
    },
    {
      "epoch": 0.5505111111111111,
      "grad_norm": 1.464902639389038,
      "learning_rate": 8.991775950211159e-05,
      "loss": 1.9641,
      "step": 24773
    },
    {
      "epoch": 0.5505333333333333,
      "grad_norm": 1.673248052597046,
      "learning_rate": 8.991331406979329e-05,
      "loss": 1.9096,
      "step": 24774
    },
    {
      "epoch": 0.5505555555555556,
      "grad_norm": 1.5249696969985962,
      "learning_rate": 8.9908868637475e-05,
      "loss": 1.9053,
      "step": 24775
    },
    {
      "epoch": 0.5505777777777778,
      "grad_norm": 1.507228970527649,
      "learning_rate": 8.990442320515671e-05,
      "loss": 2.1276,
      "step": 24776
    },
    {
      "epoch": 0.5506,
      "grad_norm": 1.653289556503296,
      "learning_rate": 8.989997777283842e-05,
      "loss": 2.2263,
      "step": 24777
    },
    {
      "epoch": 0.5506222222222222,
      "grad_norm": 1.6234997510910034,
      "learning_rate": 8.989553234052011e-05,
      "loss": 1.9414,
      "step": 24778
    },
    {
      "epoch": 0.5506444444444445,
      "grad_norm": 1.7559244632720947,
      "learning_rate": 8.989108690820182e-05,
      "loss": 1.9973,
      "step": 24779
    },
    {
      "epoch": 0.5506666666666666,
      "grad_norm": 1.6430799961090088,
      "learning_rate": 8.988664147588353e-05,
      "loss": 2.3833,
      "step": 24780
    },
    {
      "epoch": 0.5506888888888889,
      "grad_norm": 1.6383056640625,
      "learning_rate": 8.988219604356524e-05,
      "loss": 1.9147,
      "step": 24781
    },
    {
      "epoch": 0.5507111111111112,
      "grad_norm": 1.8399317264556885,
      "learning_rate": 8.987775061124695e-05,
      "loss": 2.0121,
      "step": 24782
    },
    {
      "epoch": 0.5507333333333333,
      "grad_norm": 1.6535089015960693,
      "learning_rate": 8.987330517892866e-05,
      "loss": 1.8157,
      "step": 24783
    },
    {
      "epoch": 0.5507555555555556,
      "grad_norm": 1.555162787437439,
      "learning_rate": 8.986885974661037e-05,
      "loss": 1.837,
      "step": 24784
    },
    {
      "epoch": 0.5507777777777778,
      "grad_norm": 1.6732139587402344,
      "learning_rate": 8.986441431429207e-05,
      "loss": 1.9717,
      "step": 24785
    },
    {
      "epoch": 0.5508,
      "grad_norm": 2.004124402999878,
      "learning_rate": 8.985996888197378e-05,
      "loss": 2.3029,
      "step": 24786
    },
    {
      "epoch": 0.5508222222222222,
      "grad_norm": 0.8215795755386353,
      "learning_rate": 8.985552344965549e-05,
      "loss": 0.644,
      "step": 24787
    },
    {
      "epoch": 0.5508444444444445,
      "grad_norm": 1.6549550294876099,
      "learning_rate": 8.985107801733718e-05,
      "loss": 1.6865,
      "step": 24788
    },
    {
      "epoch": 0.5508666666666666,
      "grad_norm": 1.5316928625106812,
      "learning_rate": 8.984663258501889e-05,
      "loss": 1.8934,
      "step": 24789
    },
    {
      "epoch": 0.5508888888888889,
      "grad_norm": 1.8444042205810547,
      "learning_rate": 8.98421871527006e-05,
      "loss": 1.8912,
      "step": 24790
    },
    {
      "epoch": 0.5509111111111111,
      "grad_norm": 1.7964192628860474,
      "learning_rate": 8.983774172038231e-05,
      "loss": 1.9041,
      "step": 24791
    },
    {
      "epoch": 0.5509333333333334,
      "grad_norm": 1.3948408365249634,
      "learning_rate": 8.983329628806402e-05,
      "loss": 0.8593,
      "step": 24792
    },
    {
      "epoch": 0.5509555555555555,
      "grad_norm": 1.566386103630066,
      "learning_rate": 8.982885085574573e-05,
      "loss": 1.6973,
      "step": 24793
    },
    {
      "epoch": 0.5509777777777778,
      "grad_norm": 2.1903698444366455,
      "learning_rate": 8.982440542342744e-05,
      "loss": 2.3843,
      "step": 24794
    },
    {
      "epoch": 0.551,
      "grad_norm": 2.320958375930786,
      "learning_rate": 8.981995999110914e-05,
      "loss": 2.1898,
      "step": 24795
    },
    {
      "epoch": 0.5510222222222222,
      "grad_norm": 1.7905185222625732,
      "learning_rate": 8.981551455879085e-05,
      "loss": 1.8921,
      "step": 24796
    },
    {
      "epoch": 0.5510444444444444,
      "grad_norm": 1.4773224592208862,
      "learning_rate": 8.981106912647256e-05,
      "loss": 1.2508,
      "step": 24797
    },
    {
      "epoch": 0.5510666666666667,
      "grad_norm": 1.772786259651184,
      "learning_rate": 8.980662369415425e-05,
      "loss": 1.8986,
      "step": 24798
    },
    {
      "epoch": 0.5510888888888889,
      "grad_norm": 1.088841438293457,
      "learning_rate": 8.980217826183596e-05,
      "loss": 0.718,
      "step": 24799
    },
    {
      "epoch": 0.5511111111111111,
      "grad_norm": 1.7022939920425415,
      "learning_rate": 8.979773282951767e-05,
      "loss": 1.6459,
      "step": 24800
    },
    {
      "epoch": 0.5511333333333334,
      "grad_norm": 1.2957887649536133,
      "learning_rate": 8.979328739719938e-05,
      "loss": 2.3124,
      "step": 24801
    },
    {
      "epoch": 0.5511555555555555,
      "grad_norm": 1.675485610961914,
      "learning_rate": 8.978884196488109e-05,
      "loss": 2.6431,
      "step": 24802
    },
    {
      "epoch": 0.5511777777777778,
      "grad_norm": 1.5605137348175049,
      "learning_rate": 8.97843965325628e-05,
      "loss": 2.1153,
      "step": 24803
    },
    {
      "epoch": 0.5512,
      "grad_norm": 1.6639291048049927,
      "learning_rate": 8.977995110024451e-05,
      "loss": 2.2242,
      "step": 24804
    },
    {
      "epoch": 0.5512222222222222,
      "grad_norm": 1.5410064458847046,
      "learning_rate": 8.97755056679262e-05,
      "loss": 1.9046,
      "step": 24805
    },
    {
      "epoch": 0.5512444444444444,
      "grad_norm": 1.3944143056869507,
      "learning_rate": 8.977106023560792e-05,
      "loss": 1.9939,
      "step": 24806
    },
    {
      "epoch": 0.5512666666666667,
      "grad_norm": 1.641451358795166,
      "learning_rate": 8.976661480328963e-05,
      "loss": 1.8368,
      "step": 24807
    },
    {
      "epoch": 0.5512888888888889,
      "grad_norm": 1.5496830940246582,
      "learning_rate": 8.976216937097132e-05,
      "loss": 2.0431,
      "step": 24808
    },
    {
      "epoch": 0.5513111111111111,
      "grad_norm": 1.7861970663070679,
      "learning_rate": 8.975772393865304e-05,
      "loss": 2.2201,
      "step": 24809
    },
    {
      "epoch": 0.5513333333333333,
      "grad_norm": 1.5844069719314575,
      "learning_rate": 8.975327850633475e-05,
      "loss": 2.2837,
      "step": 24810
    },
    {
      "epoch": 0.5513555555555556,
      "grad_norm": 1.9750202894210815,
      "learning_rate": 8.974883307401645e-05,
      "loss": 1.6492,
      "step": 24811
    },
    {
      "epoch": 0.5513777777777777,
      "grad_norm": 1.3687421083450317,
      "learning_rate": 8.974438764169816e-05,
      "loss": 1.2463,
      "step": 24812
    },
    {
      "epoch": 0.5514,
      "grad_norm": 1.423009991645813,
      "learning_rate": 8.973994220937987e-05,
      "loss": 1.5221,
      "step": 24813
    },
    {
      "epoch": 0.5514222222222223,
      "grad_norm": 1.521270751953125,
      "learning_rate": 8.973549677706158e-05,
      "loss": 1.0995,
      "step": 24814
    },
    {
      "epoch": 0.5514444444444444,
      "grad_norm": 2.260209321975708,
      "learning_rate": 8.973105134474327e-05,
      "loss": 2.4341,
      "step": 24815
    },
    {
      "epoch": 0.5514666666666667,
      "grad_norm": 1.594785451889038,
      "learning_rate": 8.972660591242498e-05,
      "loss": 2.1022,
      "step": 24816
    },
    {
      "epoch": 0.5514888888888889,
      "grad_norm": 1.7420759201049805,
      "learning_rate": 8.97221604801067e-05,
      "loss": 2.0055,
      "step": 24817
    },
    {
      "epoch": 0.5515111111111111,
      "grad_norm": 2.286311626434326,
      "learning_rate": 8.97177150477884e-05,
      "loss": 2.1172,
      "step": 24818
    },
    {
      "epoch": 0.5515333333333333,
      "grad_norm": 2.023491144180298,
      "learning_rate": 8.971326961547011e-05,
      "loss": 1.8948,
      "step": 24819
    },
    {
      "epoch": 0.5515555555555556,
      "grad_norm": 1.619071364402771,
      "learning_rate": 8.970882418315182e-05,
      "loss": 1.9184,
      "step": 24820
    },
    {
      "epoch": 0.5515777777777777,
      "grad_norm": 1.648281455039978,
      "learning_rate": 8.970437875083352e-05,
      "loss": 1.8947,
      "step": 24821
    },
    {
      "epoch": 0.5516,
      "grad_norm": 1.9482382535934448,
      "learning_rate": 8.969993331851523e-05,
      "loss": 2.4834,
      "step": 24822
    },
    {
      "epoch": 0.5516222222222222,
      "grad_norm": 1.4207477569580078,
      "learning_rate": 8.969548788619694e-05,
      "loss": 1.5695,
      "step": 24823
    },
    {
      "epoch": 0.5516444444444445,
      "grad_norm": 1.624814748764038,
      "learning_rate": 8.969104245387865e-05,
      "loss": 1.4411,
      "step": 24824
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 2.050400972366333,
      "learning_rate": 8.968659702156034e-05,
      "loss": 2.4608,
      "step": 24825
    },
    {
      "epoch": 0.5516888888888889,
      "grad_norm": 1.8336511850357056,
      "learning_rate": 8.968215158924205e-05,
      "loss": 1.531,
      "step": 24826
    },
    {
      "epoch": 0.5517111111111112,
      "grad_norm": 1.6461644172668457,
      "learning_rate": 8.967770615692376e-05,
      "loss": 1.9248,
      "step": 24827
    },
    {
      "epoch": 0.5517333333333333,
      "grad_norm": 1.5362954139709473,
      "learning_rate": 8.967326072460547e-05,
      "loss": 1.8255,
      "step": 24828
    },
    {
      "epoch": 0.5517555555555556,
      "grad_norm": 1.4513074159622192,
      "learning_rate": 8.966881529228718e-05,
      "loss": 1.4352,
      "step": 24829
    },
    {
      "epoch": 0.5517777777777778,
      "grad_norm": 1.4246578216552734,
      "learning_rate": 8.966436985996889e-05,
      "loss": 1.4721,
      "step": 24830
    },
    {
      "epoch": 0.5518,
      "grad_norm": 1.7132625579833984,
      "learning_rate": 8.965992442765059e-05,
      "loss": 1.7752,
      "step": 24831
    },
    {
      "epoch": 0.5518222222222222,
      "grad_norm": 1.7609864473342896,
      "learning_rate": 8.96554789953323e-05,
      "loss": 1.8728,
      "step": 24832
    },
    {
      "epoch": 0.5518444444444445,
      "grad_norm": 1.8437367677688599,
      "learning_rate": 8.965103356301401e-05,
      "loss": 1.8947,
      "step": 24833
    },
    {
      "epoch": 0.5518666666666666,
      "grad_norm": 1.758980631828308,
      "learning_rate": 8.964658813069572e-05,
      "loss": 2.1183,
      "step": 24834
    },
    {
      "epoch": 0.5518888888888889,
      "grad_norm": 1.9783658981323242,
      "learning_rate": 8.964214269837741e-05,
      "loss": 2.0239,
      "step": 24835
    },
    {
      "epoch": 0.5519111111111111,
      "grad_norm": 1.7823807001113892,
      "learning_rate": 8.963769726605912e-05,
      "loss": 1.9897,
      "step": 24836
    },
    {
      "epoch": 0.5519333333333334,
      "grad_norm": 1.6345672607421875,
      "learning_rate": 8.963325183374083e-05,
      "loss": 1.8579,
      "step": 24837
    },
    {
      "epoch": 0.5519555555555555,
      "grad_norm": 1.472080945968628,
      "learning_rate": 8.962880640142254e-05,
      "loss": 1.546,
      "step": 24838
    },
    {
      "epoch": 0.5519777777777778,
      "grad_norm": 1.1927967071533203,
      "learning_rate": 8.962436096910425e-05,
      "loss": 1.0437,
      "step": 24839
    },
    {
      "epoch": 0.552,
      "grad_norm": 1.4201552867889404,
      "learning_rate": 8.961991553678596e-05,
      "loss": 1.4769,
      "step": 24840
    },
    {
      "epoch": 0.5520222222222222,
      "grad_norm": 1.6600712537765503,
      "learning_rate": 8.961547010446767e-05,
      "loss": 1.9925,
      "step": 24841
    },
    {
      "epoch": 0.5520444444444444,
      "grad_norm": 1.6191675662994385,
      "learning_rate": 8.961102467214937e-05,
      "loss": 1.6172,
      "step": 24842
    },
    {
      "epoch": 0.5520666666666667,
      "grad_norm": 2.163214683532715,
      "learning_rate": 8.960657923983108e-05,
      "loss": 2.0677,
      "step": 24843
    },
    {
      "epoch": 0.5520888888888889,
      "grad_norm": 1.6719286441802979,
      "learning_rate": 8.960213380751279e-05,
      "loss": 1.9842,
      "step": 24844
    },
    {
      "epoch": 0.5521111111111111,
      "grad_norm": 2.0201845169067383,
      "learning_rate": 8.959768837519448e-05,
      "loss": 1.6651,
      "step": 24845
    },
    {
      "epoch": 0.5521333333333334,
      "grad_norm": 1.6604876518249512,
      "learning_rate": 8.95932429428762e-05,
      "loss": 1.8113,
      "step": 24846
    },
    {
      "epoch": 0.5521555555555555,
      "grad_norm": 1.6411042213439941,
      "learning_rate": 8.958879751055792e-05,
      "loss": 1.8549,
      "step": 24847
    },
    {
      "epoch": 0.5521777777777778,
      "grad_norm": 2.198946475982666,
      "learning_rate": 8.958435207823961e-05,
      "loss": 2.2081,
      "step": 24848
    },
    {
      "epoch": 0.5522,
      "grad_norm": 1.698095679283142,
      "learning_rate": 8.957990664592132e-05,
      "loss": 1.6613,
      "step": 24849
    },
    {
      "epoch": 0.5522222222222222,
      "grad_norm": 1.8647606372833252,
      "learning_rate": 8.957546121360303e-05,
      "loss": 1.8895,
      "step": 24850
    },
    {
      "epoch": 0.5522444444444444,
      "grad_norm": 1.2953790426254272,
      "learning_rate": 8.957101578128474e-05,
      "loss": 2.3071,
      "step": 24851
    },
    {
      "epoch": 0.5522666666666667,
      "grad_norm": 2.24617600440979,
      "learning_rate": 8.956657034896644e-05,
      "loss": 2.624,
      "step": 24852
    },
    {
      "epoch": 0.5522888888888889,
      "grad_norm": 1.618116855621338,
      "learning_rate": 8.956212491664815e-05,
      "loss": 2.5946,
      "step": 24853
    },
    {
      "epoch": 0.5523111111111111,
      "grad_norm": 1.5846956968307495,
      "learning_rate": 8.955767948432986e-05,
      "loss": 1.8451,
      "step": 24854
    },
    {
      "epoch": 0.5523333333333333,
      "grad_norm": 1.5140297412872314,
      "learning_rate": 8.955323405201156e-05,
      "loss": 1.8119,
      "step": 24855
    },
    {
      "epoch": 0.5523555555555556,
      "grad_norm": 1.4432562589645386,
      "learning_rate": 8.954878861969327e-05,
      "loss": 1.7325,
      "step": 24856
    },
    {
      "epoch": 0.5523777777777777,
      "grad_norm": 1.5345252752304077,
      "learning_rate": 8.954434318737498e-05,
      "loss": 2.1354,
      "step": 24857
    },
    {
      "epoch": 0.5524,
      "grad_norm": 1.7621763944625854,
      "learning_rate": 8.953989775505668e-05,
      "loss": 2.5785,
      "step": 24858
    },
    {
      "epoch": 0.5524222222222223,
      "grad_norm": 2.4025981426239014,
      "learning_rate": 8.953545232273839e-05,
      "loss": 1.7722,
      "step": 24859
    },
    {
      "epoch": 0.5524444444444444,
      "grad_norm": 2.739605665206909,
      "learning_rate": 8.95310068904201e-05,
      "loss": 2.1357,
      "step": 24860
    },
    {
      "epoch": 0.5524666666666667,
      "grad_norm": 1.9699459075927734,
      "learning_rate": 8.952656145810181e-05,
      "loss": 2.1762,
      "step": 24861
    },
    {
      "epoch": 0.5524888888888889,
      "grad_norm": 1.6328332424163818,
      "learning_rate": 8.95221160257835e-05,
      "loss": 2.2586,
      "step": 24862
    },
    {
      "epoch": 0.5525111111111111,
      "grad_norm": 2.0219264030456543,
      "learning_rate": 8.951767059346521e-05,
      "loss": 2.4045,
      "step": 24863
    },
    {
      "epoch": 0.5525333333333333,
      "grad_norm": 1.7839304208755493,
      "learning_rate": 8.951322516114692e-05,
      "loss": 2.1398,
      "step": 24864
    },
    {
      "epoch": 0.5525555555555556,
      "grad_norm": 1.4639341831207275,
      "learning_rate": 8.950877972882863e-05,
      "loss": 1.761,
      "step": 24865
    },
    {
      "epoch": 0.5525777777777777,
      "grad_norm": 1.6503818035125732,
      "learning_rate": 8.950433429651034e-05,
      "loss": 2.2243,
      "step": 24866
    },
    {
      "epoch": 0.5526,
      "grad_norm": 1.8406811952590942,
      "learning_rate": 8.949988886419205e-05,
      "loss": 2.6188,
      "step": 24867
    },
    {
      "epoch": 0.5526222222222222,
      "grad_norm": 2.2871129512786865,
      "learning_rate": 8.949544343187375e-05,
      "loss": 2.7696,
      "step": 24868
    },
    {
      "epoch": 0.5526444444444445,
      "grad_norm": 1.7438071966171265,
      "learning_rate": 8.949099799955546e-05,
      "loss": 2.2339,
      "step": 24869
    },
    {
      "epoch": 0.5526666666666666,
      "grad_norm": 1.7102071046829224,
      "learning_rate": 8.948655256723717e-05,
      "loss": 1.8817,
      "step": 24870
    },
    {
      "epoch": 0.5526888888888889,
      "grad_norm": 1.7067567110061646,
      "learning_rate": 8.948210713491888e-05,
      "loss": 1.9812,
      "step": 24871
    },
    {
      "epoch": 0.5527111111111112,
      "grad_norm": 1.5267858505249023,
      "learning_rate": 8.947766170260057e-05,
      "loss": 1.5526,
      "step": 24872
    },
    {
      "epoch": 0.5527333333333333,
      "grad_norm": 1.5417286157608032,
      "learning_rate": 8.947321627028228e-05,
      "loss": 1.6566,
      "step": 24873
    },
    {
      "epoch": 0.5527555555555556,
      "grad_norm": 1.8098963499069214,
      "learning_rate": 8.9468770837964e-05,
      "loss": 2.2304,
      "step": 24874
    },
    {
      "epoch": 0.5527777777777778,
      "grad_norm": 1.5657075643539429,
      "learning_rate": 8.94643254056457e-05,
      "loss": 1.8707,
      "step": 24875
    },
    {
      "epoch": 0.5528,
      "grad_norm": 1.826601505279541,
      "learning_rate": 8.945987997332741e-05,
      "loss": 2.2113,
      "step": 24876
    },
    {
      "epoch": 0.5528222222222222,
      "grad_norm": 1.5156726837158203,
      "learning_rate": 8.945543454100912e-05,
      "loss": 2.2844,
      "step": 24877
    },
    {
      "epoch": 0.5528444444444445,
      "grad_norm": 1.7618491649627686,
      "learning_rate": 8.945098910869082e-05,
      "loss": 1.8232,
      "step": 24878
    },
    {
      "epoch": 0.5528666666666666,
      "grad_norm": 1.7039954662322998,
      "learning_rate": 8.944654367637253e-05,
      "loss": 1.9283,
      "step": 24879
    },
    {
      "epoch": 0.5528888888888889,
      "grad_norm": 1.0732746124267578,
      "learning_rate": 8.944209824405424e-05,
      "loss": 1.0102,
      "step": 24880
    },
    {
      "epoch": 0.5529111111111111,
      "grad_norm": 2.1620564460754395,
      "learning_rate": 8.943765281173595e-05,
      "loss": 1.9764,
      "step": 24881
    },
    {
      "epoch": 0.5529333333333334,
      "grad_norm": 2.010782480239868,
      "learning_rate": 8.943320737941764e-05,
      "loss": 2.0577,
      "step": 24882
    },
    {
      "epoch": 0.5529555555555555,
      "grad_norm": 1.5641851425170898,
      "learning_rate": 8.942876194709937e-05,
      "loss": 2.1464,
      "step": 24883
    },
    {
      "epoch": 0.5529777777777778,
      "grad_norm": 1.8582873344421387,
      "learning_rate": 8.942431651478108e-05,
      "loss": 1.4958,
      "step": 24884
    },
    {
      "epoch": 0.553,
      "grad_norm": 1.4295884370803833,
      "learning_rate": 8.941987108246277e-05,
      "loss": 1.822,
      "step": 24885
    },
    {
      "epoch": 0.5530222222222222,
      "grad_norm": 1.5487836599349976,
      "learning_rate": 8.941542565014448e-05,
      "loss": 1.6738,
      "step": 24886
    },
    {
      "epoch": 0.5530444444444444,
      "grad_norm": 1.7990812063217163,
      "learning_rate": 8.941098021782619e-05,
      "loss": 1.7538,
      "step": 24887
    },
    {
      "epoch": 0.5530666666666667,
      "grad_norm": 1.6664396524429321,
      "learning_rate": 8.940653478550789e-05,
      "loss": 2.24,
      "step": 24888
    },
    {
      "epoch": 0.5530888888888889,
      "grad_norm": 1.589643120765686,
      "learning_rate": 8.94020893531896e-05,
      "loss": 1.9433,
      "step": 24889
    },
    {
      "epoch": 0.5531111111111111,
      "grad_norm": 1.524636149406433,
      "learning_rate": 8.93976439208713e-05,
      "loss": 1.805,
      "step": 24890
    },
    {
      "epoch": 0.5531333333333334,
      "grad_norm": 1.2880325317382812,
      "learning_rate": 8.939319848855302e-05,
      "loss": 1.0736,
      "step": 24891
    },
    {
      "epoch": 0.5531555555555555,
      "grad_norm": 1.6194695234298706,
      "learning_rate": 8.938875305623473e-05,
      "loss": 2.1343,
      "step": 24892
    },
    {
      "epoch": 0.5531777777777778,
      "grad_norm": 1.9722243547439575,
      "learning_rate": 8.938430762391644e-05,
      "loss": 1.8215,
      "step": 24893
    },
    {
      "epoch": 0.5532,
      "grad_norm": 1.5921672582626343,
      "learning_rate": 8.937986219159815e-05,
      "loss": 1.5661,
      "step": 24894
    },
    {
      "epoch": 0.5532222222222222,
      "grad_norm": 1.8933743238449097,
      "learning_rate": 8.937541675927984e-05,
      "loss": 1.5346,
      "step": 24895
    },
    {
      "epoch": 0.5532444444444444,
      "grad_norm": 1.615788221359253,
      "learning_rate": 8.937097132696155e-05,
      "loss": 1.6911,
      "step": 24896
    },
    {
      "epoch": 0.5532666666666667,
      "grad_norm": 1.5719863176345825,
      "learning_rate": 8.936652589464326e-05,
      "loss": 1.6135,
      "step": 24897
    },
    {
      "epoch": 0.5532888888888889,
      "grad_norm": 1.7016061544418335,
      "learning_rate": 8.936208046232497e-05,
      "loss": 1.4308,
      "step": 24898
    },
    {
      "epoch": 0.5533111111111111,
      "grad_norm": 1.6790406703948975,
      "learning_rate": 8.935763503000667e-05,
      "loss": 1.3887,
      "step": 24899
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 1.9010106325149536,
      "learning_rate": 8.935318959768838e-05,
      "loss": 1.7705,
      "step": 24900
    },
    {
      "epoch": 0.5533555555555556,
      "grad_norm": 2.223865032196045,
      "learning_rate": 8.934874416537009e-05,
      "loss": 2.8433,
      "step": 24901
    },
    {
      "epoch": 0.5533777777777777,
      "grad_norm": 1.148510456085205,
      "learning_rate": 8.93442987330518e-05,
      "loss": 1.4384,
      "step": 24902
    },
    {
      "epoch": 0.5534,
      "grad_norm": 1.3673734664916992,
      "learning_rate": 8.93398533007335e-05,
      "loss": 2.2822,
      "step": 24903
    },
    {
      "epoch": 0.5534222222222223,
      "grad_norm": 1.6806461811065674,
      "learning_rate": 8.933540786841521e-05,
      "loss": 3.0268,
      "step": 24904
    },
    {
      "epoch": 0.5534444444444444,
      "grad_norm": 1.4586987495422363,
      "learning_rate": 8.933096243609691e-05,
      "loss": 2.0771,
      "step": 24905
    },
    {
      "epoch": 0.5534666666666667,
      "grad_norm": 2.1886396408081055,
      "learning_rate": 8.932651700377862e-05,
      "loss": 1.6761,
      "step": 24906
    },
    {
      "epoch": 0.5534888888888889,
      "grad_norm": 1.7674274444580078,
      "learning_rate": 8.932207157146033e-05,
      "loss": 2.1631,
      "step": 24907
    },
    {
      "epoch": 0.5535111111111111,
      "grad_norm": 1.3072527647018433,
      "learning_rate": 8.931762613914204e-05,
      "loss": 2.1647,
      "step": 24908
    },
    {
      "epoch": 0.5535333333333333,
      "grad_norm": 1.483435034751892,
      "learning_rate": 8.931318070682374e-05,
      "loss": 1.4827,
      "step": 24909
    },
    {
      "epoch": 0.5535555555555556,
      "grad_norm": 1.9477818012237549,
      "learning_rate": 8.930873527450544e-05,
      "loss": 1.8915,
      "step": 24910
    },
    {
      "epoch": 0.5535777777777777,
      "grad_norm": 1.4547221660614014,
      "learning_rate": 8.930428984218715e-05,
      "loss": 2.2747,
      "step": 24911
    },
    {
      "epoch": 0.5536,
      "grad_norm": 1.3932815790176392,
      "learning_rate": 8.929984440986886e-05,
      "loss": 2.0442,
      "step": 24912
    },
    {
      "epoch": 0.5536222222222222,
      "grad_norm": 1.5256872177124023,
      "learning_rate": 8.929539897755057e-05,
      "loss": 2.087,
      "step": 24913
    },
    {
      "epoch": 0.5536444444444445,
      "grad_norm": 1.690981388092041,
      "learning_rate": 8.929095354523228e-05,
      "loss": 1.6034,
      "step": 24914
    },
    {
      "epoch": 0.5536666666666666,
      "grad_norm": 1.9204357862472534,
      "learning_rate": 8.928650811291398e-05,
      "loss": 2.0148,
      "step": 24915
    },
    {
      "epoch": 0.5536888888888889,
      "grad_norm": 1.6485679149627686,
      "learning_rate": 8.928206268059569e-05,
      "loss": 1.8755,
      "step": 24916
    },
    {
      "epoch": 0.5537111111111112,
      "grad_norm": 1.4973547458648682,
      "learning_rate": 8.92776172482774e-05,
      "loss": 1.6863,
      "step": 24917
    },
    {
      "epoch": 0.5537333333333333,
      "grad_norm": 1.734578251838684,
      "learning_rate": 8.927317181595911e-05,
      "loss": 2.3444,
      "step": 24918
    },
    {
      "epoch": 0.5537555555555556,
      "grad_norm": 1.7253338098526,
      "learning_rate": 8.92687263836408e-05,
      "loss": 2.2617,
      "step": 24919
    },
    {
      "epoch": 0.5537777777777778,
      "grad_norm": 1.9081146717071533,
      "learning_rate": 8.926428095132253e-05,
      "loss": 2.3727,
      "step": 24920
    },
    {
      "epoch": 0.5538,
      "grad_norm": 1.6173945665359497,
      "learning_rate": 8.925983551900424e-05,
      "loss": 1.9137,
      "step": 24921
    },
    {
      "epoch": 0.5538222222222222,
      "grad_norm": 1.6281039714813232,
      "learning_rate": 8.925539008668593e-05,
      "loss": 2.0089,
      "step": 24922
    },
    {
      "epoch": 0.5538444444444445,
      "grad_norm": 1.4621946811676025,
      "learning_rate": 8.925094465436764e-05,
      "loss": 1.3789,
      "step": 24923
    },
    {
      "epoch": 0.5538666666666666,
      "grad_norm": 1.6714259386062622,
      "learning_rate": 8.924649922204935e-05,
      "loss": 1.7679,
      "step": 24924
    },
    {
      "epoch": 0.5538888888888889,
      "grad_norm": 1.3478062152862549,
      "learning_rate": 8.924205378973105e-05,
      "loss": 1.5799,
      "step": 24925
    },
    {
      "epoch": 0.5539111111111111,
      "grad_norm": 1.7825264930725098,
      "learning_rate": 8.923760835741276e-05,
      "loss": 2.118,
      "step": 24926
    },
    {
      "epoch": 0.5539333333333334,
      "grad_norm": 1.7589612007141113,
      "learning_rate": 8.923316292509447e-05,
      "loss": 2.0531,
      "step": 24927
    },
    {
      "epoch": 0.5539555555555555,
      "grad_norm": 1.5562021732330322,
      "learning_rate": 8.922871749277618e-05,
      "loss": 1.8524,
      "step": 24928
    },
    {
      "epoch": 0.5539777777777778,
      "grad_norm": 2.0129878520965576,
      "learning_rate": 8.922427206045789e-05,
      "loss": 2.2956,
      "step": 24929
    },
    {
      "epoch": 0.554,
      "grad_norm": 1.856088638305664,
      "learning_rate": 8.92198266281396e-05,
      "loss": 2.4434,
      "step": 24930
    },
    {
      "epoch": 0.5540222222222222,
      "grad_norm": 1.610038161277771,
      "learning_rate": 8.92153811958213e-05,
      "loss": 1.7051,
      "step": 24931
    },
    {
      "epoch": 0.5540444444444445,
      "grad_norm": 1.50918447971344,
      "learning_rate": 8.9210935763503e-05,
      "loss": 1.9326,
      "step": 24932
    },
    {
      "epoch": 0.5540666666666667,
      "grad_norm": 1.9766244888305664,
      "learning_rate": 8.920649033118471e-05,
      "loss": 1.7852,
      "step": 24933
    },
    {
      "epoch": 0.5540888888888889,
      "grad_norm": 1.685969352722168,
      "learning_rate": 8.920204489886642e-05,
      "loss": 1.6335,
      "step": 24934
    },
    {
      "epoch": 0.5541111111111111,
      "grad_norm": 1.6574807167053223,
      "learning_rate": 8.919759946654812e-05,
      "loss": 1.9635,
      "step": 24935
    },
    {
      "epoch": 0.5541333333333334,
      "grad_norm": 1.8023748397827148,
      "learning_rate": 8.919315403422983e-05,
      "loss": 2.113,
      "step": 24936
    },
    {
      "epoch": 0.5541555555555555,
      "grad_norm": 1.6396636962890625,
      "learning_rate": 8.918870860191154e-05,
      "loss": 1.929,
      "step": 24937
    },
    {
      "epoch": 0.5541777777777778,
      "grad_norm": 1.9225623607635498,
      "learning_rate": 8.918426316959325e-05,
      "loss": 2.4028,
      "step": 24938
    },
    {
      "epoch": 0.5542,
      "grad_norm": 1.6808067560195923,
      "learning_rate": 8.917981773727496e-05,
      "loss": 1.9617,
      "step": 24939
    },
    {
      "epoch": 0.5542222222222222,
      "grad_norm": 1.7821269035339355,
      "learning_rate": 8.917537230495667e-05,
      "loss": 1.5192,
      "step": 24940
    },
    {
      "epoch": 0.5542444444444444,
      "grad_norm": 1.475569248199463,
      "learning_rate": 8.917092687263838e-05,
      "loss": 1.6788,
      "step": 24941
    },
    {
      "epoch": 0.5542666666666667,
      "grad_norm": 1.8105113506317139,
      "learning_rate": 8.916648144032007e-05,
      "loss": 1.8946,
      "step": 24942
    },
    {
      "epoch": 0.5542888888888889,
      "grad_norm": 1.8225843906402588,
      "learning_rate": 8.916203600800178e-05,
      "loss": 2.2646,
      "step": 24943
    },
    {
      "epoch": 0.5543111111111111,
      "grad_norm": 1.9221556186676025,
      "learning_rate": 8.915759057568349e-05,
      "loss": 1.7877,
      "step": 24944
    },
    {
      "epoch": 0.5543333333333333,
      "grad_norm": 1.6037248373031616,
      "learning_rate": 8.91531451433652e-05,
      "loss": 1.7873,
      "step": 24945
    },
    {
      "epoch": 0.5543555555555556,
      "grad_norm": 1.7443077564239502,
      "learning_rate": 8.91486997110469e-05,
      "loss": 1.9326,
      "step": 24946
    },
    {
      "epoch": 0.5543777777777777,
      "grad_norm": 1.5469096899032593,
      "learning_rate": 8.91442542787286e-05,
      "loss": 1.514,
      "step": 24947
    },
    {
      "epoch": 0.5544,
      "grad_norm": 1.793039321899414,
      "learning_rate": 8.913980884641032e-05,
      "loss": 1.9657,
      "step": 24948
    },
    {
      "epoch": 0.5544222222222223,
      "grad_norm": 2.047421932220459,
      "learning_rate": 8.913536341409203e-05,
      "loss": 1.9421,
      "step": 24949
    },
    {
      "epoch": 0.5544444444444444,
      "grad_norm": 1.5856257677078247,
      "learning_rate": 8.913091798177373e-05,
      "loss": 1.5587,
      "step": 24950
    },
    {
      "epoch": 0.5544666666666667,
      "grad_norm": 1.486390471458435,
      "learning_rate": 8.912647254945544e-05,
      "loss": 2.3203,
      "step": 24951
    },
    {
      "epoch": 0.5544888888888889,
      "grad_norm": 1.3971341848373413,
      "learning_rate": 8.912202711713714e-05,
      "loss": 2.5701,
      "step": 24952
    },
    {
      "epoch": 0.5545111111111111,
      "grad_norm": 1.4752354621887207,
      "learning_rate": 8.911758168481885e-05,
      "loss": 1.8235,
      "step": 24953
    },
    {
      "epoch": 0.5545333333333333,
      "grad_norm": 1.4926296472549438,
      "learning_rate": 8.911313625250056e-05,
      "loss": 2.3395,
      "step": 24954
    },
    {
      "epoch": 0.5545555555555556,
      "grad_norm": 1.3474335670471191,
      "learning_rate": 8.910869082018227e-05,
      "loss": 2.1237,
      "step": 24955
    },
    {
      "epoch": 0.5545777777777777,
      "grad_norm": 1.7114723920822144,
      "learning_rate": 8.910424538786397e-05,
      "loss": 2.2171,
      "step": 24956
    },
    {
      "epoch": 0.5546,
      "grad_norm": 1.6142992973327637,
      "learning_rate": 8.909979995554569e-05,
      "loss": 2.2936,
      "step": 24957
    },
    {
      "epoch": 0.5546222222222222,
      "grad_norm": 1.3373453617095947,
      "learning_rate": 8.90953545232274e-05,
      "loss": 1.8057,
      "step": 24958
    },
    {
      "epoch": 0.5546444444444445,
      "grad_norm": 1.3603506088256836,
      "learning_rate": 8.90909090909091e-05,
      "loss": 1.881,
      "step": 24959
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 1.9595698118209839,
      "learning_rate": 8.90864636585908e-05,
      "loss": 2.1079,
      "step": 24960
    },
    {
      "epoch": 0.5546888888888889,
      "grad_norm": 1.6503281593322754,
      "learning_rate": 8.908201822627251e-05,
      "loss": 2.1423,
      "step": 24961
    },
    {
      "epoch": 0.5547111111111112,
      "grad_norm": 1.531463861465454,
      "learning_rate": 8.907757279395421e-05,
      "loss": 2.0441,
      "step": 24962
    },
    {
      "epoch": 0.5547333333333333,
      "grad_norm": 1.3303889036178589,
      "learning_rate": 8.907312736163592e-05,
      "loss": 1.8834,
      "step": 24963
    },
    {
      "epoch": 0.5547555555555556,
      "grad_norm": 0.5517140626907349,
      "learning_rate": 8.906868192931763e-05,
      "loss": 0.3456,
      "step": 24964
    },
    {
      "epoch": 0.5547777777777778,
      "grad_norm": 1.3482661247253418,
      "learning_rate": 8.906423649699934e-05,
      "loss": 1.9136,
      "step": 24965
    },
    {
      "epoch": 0.5548,
      "grad_norm": 2.2747602462768555,
      "learning_rate": 8.905979106468105e-05,
      "loss": 1.6887,
      "step": 24966
    },
    {
      "epoch": 0.5548222222222222,
      "grad_norm": 1.4649405479431152,
      "learning_rate": 8.905534563236276e-05,
      "loss": 2.1415,
      "step": 24967
    },
    {
      "epoch": 0.5548444444444445,
      "grad_norm": 1.6533114910125732,
      "learning_rate": 8.905090020004447e-05,
      "loss": 2.0617,
      "step": 24968
    },
    {
      "epoch": 0.5548666666666666,
      "grad_norm": 1.8105376958847046,
      "learning_rate": 8.904645476772616e-05,
      "loss": 2.0377,
      "step": 24969
    },
    {
      "epoch": 0.5548888888888889,
      "grad_norm": 1.458719253540039,
      "learning_rate": 8.904200933540787e-05,
      "loss": 1.831,
      "step": 24970
    },
    {
      "epoch": 0.5549111111111111,
      "grad_norm": 1.6946099996566772,
      "learning_rate": 8.903756390308958e-05,
      "loss": 1.8451,
      "step": 24971
    },
    {
      "epoch": 0.5549333333333333,
      "grad_norm": 1.5893899202346802,
      "learning_rate": 8.903311847077128e-05,
      "loss": 1.804,
      "step": 24972
    },
    {
      "epoch": 0.5549555555555555,
      "grad_norm": 1.7414647340774536,
      "learning_rate": 8.902867303845299e-05,
      "loss": 1.8778,
      "step": 24973
    },
    {
      "epoch": 0.5549777777777778,
      "grad_norm": 1.6903668642044067,
      "learning_rate": 8.90242276061347e-05,
      "loss": 1.6388,
      "step": 24974
    },
    {
      "epoch": 0.555,
      "grad_norm": 1.4265516996383667,
      "learning_rate": 8.901978217381641e-05,
      "loss": 1.6297,
      "step": 24975
    },
    {
      "epoch": 0.5550222222222222,
      "grad_norm": 1.3942720890045166,
      "learning_rate": 8.901533674149812e-05,
      "loss": 1.3223,
      "step": 24976
    },
    {
      "epoch": 0.5550444444444445,
      "grad_norm": 1.5892266035079956,
      "learning_rate": 8.901089130917983e-05,
      "loss": 2.0788,
      "step": 24977
    },
    {
      "epoch": 0.5550666666666667,
      "grad_norm": 1.700194239616394,
      "learning_rate": 8.900644587686154e-05,
      "loss": 1.9363,
      "step": 24978
    },
    {
      "epoch": 0.5550888888888889,
      "grad_norm": 1.6776753664016724,
      "learning_rate": 8.900200044454323e-05,
      "loss": 2.0023,
      "step": 24979
    },
    {
      "epoch": 0.5551111111111111,
      "grad_norm": 1.2760109901428223,
      "learning_rate": 8.899755501222494e-05,
      "loss": 1.0473,
      "step": 24980
    },
    {
      "epoch": 0.5551333333333334,
      "grad_norm": 1.9709970951080322,
      "learning_rate": 8.899310957990665e-05,
      "loss": 2.046,
      "step": 24981
    },
    {
      "epoch": 0.5551555555555555,
      "grad_norm": 1.6767927408218384,
      "learning_rate": 8.898866414758835e-05,
      "loss": 2.0825,
      "step": 24982
    },
    {
      "epoch": 0.5551777777777778,
      "grad_norm": 1.7317014932632446,
      "learning_rate": 8.898421871527006e-05,
      "loss": 1.6507,
      "step": 24983
    },
    {
      "epoch": 0.5552,
      "grad_norm": 1.8618425130844116,
      "learning_rate": 8.897977328295177e-05,
      "loss": 1.8176,
      "step": 24984
    },
    {
      "epoch": 0.5552222222222222,
      "grad_norm": 1.7525683641433716,
      "learning_rate": 8.897532785063348e-05,
      "loss": 2.0339,
      "step": 24985
    },
    {
      "epoch": 0.5552444444444444,
      "grad_norm": 1.9057458639144897,
      "learning_rate": 8.897088241831519e-05,
      "loss": 2.3798,
      "step": 24986
    },
    {
      "epoch": 0.5552666666666667,
      "grad_norm": 1.4682445526123047,
      "learning_rate": 8.89664369859969e-05,
      "loss": 1.6307,
      "step": 24987
    },
    {
      "epoch": 0.5552888888888889,
      "grad_norm": 1.0555065870285034,
      "learning_rate": 8.89619915536786e-05,
      "loss": 0.842,
      "step": 24988
    },
    {
      "epoch": 0.5553111111111111,
      "grad_norm": 1.7854535579681396,
      "learning_rate": 8.89575461213603e-05,
      "loss": 2.0488,
      "step": 24989
    },
    {
      "epoch": 0.5553333333333333,
      "grad_norm": 1.495903730392456,
      "learning_rate": 8.895310068904201e-05,
      "loss": 1.4133,
      "step": 24990
    },
    {
      "epoch": 0.5553555555555556,
      "grad_norm": 1.7645295858383179,
      "learning_rate": 8.894865525672372e-05,
      "loss": 1.7198,
      "step": 24991
    },
    {
      "epoch": 0.5553777777777777,
      "grad_norm": 1.8187181949615479,
      "learning_rate": 8.894420982440542e-05,
      "loss": 2.1564,
      "step": 24992
    },
    {
      "epoch": 0.5554,
      "grad_norm": 1.5366408824920654,
      "learning_rate": 8.893976439208713e-05,
      "loss": 1.6943,
      "step": 24993
    },
    {
      "epoch": 0.5554222222222223,
      "grad_norm": 1.606353759765625,
      "learning_rate": 8.893531895976885e-05,
      "loss": 1.6542,
      "step": 24994
    },
    {
      "epoch": 0.5554444444444444,
      "grad_norm": 1.3944003582000732,
      "learning_rate": 8.893087352745056e-05,
      "loss": 1.3498,
      "step": 24995
    },
    {
      "epoch": 0.5554666666666667,
      "grad_norm": 1.827005386352539,
      "learning_rate": 8.892642809513226e-05,
      "loss": 2.2157,
      "step": 24996
    },
    {
      "epoch": 0.5554888888888889,
      "grad_norm": 1.835194706916809,
      "learning_rate": 8.892198266281396e-05,
      "loss": 2.0505,
      "step": 24997
    },
    {
      "epoch": 0.5555111111111111,
      "grad_norm": 1.7812000513076782,
      "learning_rate": 8.891753723049567e-05,
      "loss": 2.0677,
      "step": 24998
    },
    {
      "epoch": 0.5555333333333333,
      "grad_norm": 1.6561610698699951,
      "learning_rate": 8.891309179817737e-05,
      "loss": 1.5177,
      "step": 24999
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 1.66180419921875,
      "learning_rate": 8.890864636585908e-05,
      "loss": 1.0186,
      "step": 25000
    },
    {
      "epoch": 0.5555777777777777,
      "grad_norm": 1.6018104553222656,
      "learning_rate": 8.890420093354079e-05,
      "loss": 2.7778,
      "step": 25001
    },
    {
      "epoch": 0.5556,
      "grad_norm": 1.4975850582122803,
      "learning_rate": 8.88997555012225e-05,
      "loss": 2.7011,
      "step": 25002
    },
    {
      "epoch": 0.5556222222222222,
      "grad_norm": 1.3138421773910522,
      "learning_rate": 8.889531006890421e-05,
      "loss": 2.056,
      "step": 25003
    },
    {
      "epoch": 0.5556444444444445,
      "grad_norm": 1.6650867462158203,
      "learning_rate": 8.889086463658592e-05,
      "loss": 2.3087,
      "step": 25004
    },
    {
      "epoch": 0.5556666666666666,
      "grad_norm": 1.5537450313568115,
      "learning_rate": 8.888641920426763e-05,
      "loss": 2.1625,
      "step": 25005
    },
    {
      "epoch": 0.5556888888888889,
      "grad_norm": 1.5213912725448608,
      "learning_rate": 8.888197377194932e-05,
      "loss": 2.3027,
      "step": 25006
    },
    {
      "epoch": 0.5557111111111112,
      "grad_norm": 1.4587023258209229,
      "learning_rate": 8.887752833963103e-05,
      "loss": 1.7927,
      "step": 25007
    },
    {
      "epoch": 0.5557333333333333,
      "grad_norm": 1.5978976488113403,
      "learning_rate": 8.887308290731274e-05,
      "loss": 1.9206,
      "step": 25008
    },
    {
      "epoch": 0.5557555555555556,
      "grad_norm": 1.3036267757415771,
      "learning_rate": 8.886863747499444e-05,
      "loss": 1.5741,
      "step": 25009
    },
    {
      "epoch": 0.5557777777777778,
      "grad_norm": 1.5057199001312256,
      "learning_rate": 8.886419204267615e-05,
      "loss": 1.9934,
      "step": 25010
    },
    {
      "epoch": 0.5558,
      "grad_norm": 1.617224931716919,
      "learning_rate": 8.885974661035786e-05,
      "loss": 1.5776,
      "step": 25011
    },
    {
      "epoch": 0.5558222222222222,
      "grad_norm": 1.4996505975723267,
      "learning_rate": 8.885530117803957e-05,
      "loss": 1.7387,
      "step": 25012
    },
    {
      "epoch": 0.5558444444444445,
      "grad_norm": 1.9091581106185913,
      "learning_rate": 8.885085574572128e-05,
      "loss": 2.257,
      "step": 25013
    },
    {
      "epoch": 0.5558666666666666,
      "grad_norm": 2.1841301918029785,
      "learning_rate": 8.884641031340299e-05,
      "loss": 1.6132,
      "step": 25014
    },
    {
      "epoch": 0.5558888888888889,
      "grad_norm": 1.050742268562317,
      "learning_rate": 8.88419648810847e-05,
      "loss": 0.9285,
      "step": 25015
    },
    {
      "epoch": 0.5559111111111111,
      "grad_norm": 1.4610708951950073,
      "learning_rate": 8.88375194487664e-05,
      "loss": 1.7434,
      "step": 25016
    },
    {
      "epoch": 0.5559333333333333,
      "grad_norm": 1.5033701658248901,
      "learning_rate": 8.88330740164481e-05,
      "loss": 1.4852,
      "step": 25017
    },
    {
      "epoch": 0.5559555555555555,
      "grad_norm": 1.5321849584579468,
      "learning_rate": 8.882862858412981e-05,
      "loss": 1.6994,
      "step": 25018
    },
    {
      "epoch": 0.5559777777777778,
      "grad_norm": 1.53279709815979,
      "learning_rate": 8.882418315181151e-05,
      "loss": 1.9177,
      "step": 25019
    },
    {
      "epoch": 0.556,
      "grad_norm": 1.8359917402267456,
      "learning_rate": 8.881973771949322e-05,
      "loss": 2.1219,
      "step": 25020
    },
    {
      "epoch": 0.5560222222222222,
      "grad_norm": 2.4665095806121826,
      "learning_rate": 8.881529228717493e-05,
      "loss": 2.1297,
      "step": 25021
    },
    {
      "epoch": 0.5560444444444445,
      "grad_norm": 1.7346540689468384,
      "learning_rate": 8.881084685485664e-05,
      "loss": 1.7752,
      "step": 25022
    },
    {
      "epoch": 0.5560666666666667,
      "grad_norm": 1.6376831531524658,
      "learning_rate": 8.880640142253835e-05,
      "loss": 2.2255,
      "step": 25023
    },
    {
      "epoch": 0.5560888888888889,
      "grad_norm": 2.1054024696350098,
      "learning_rate": 8.880195599022006e-05,
      "loss": 2.4414,
      "step": 25024
    },
    {
      "epoch": 0.5561111111111111,
      "grad_norm": 1.8348150253295898,
      "learning_rate": 8.879751055790177e-05,
      "loss": 1.9206,
      "step": 25025
    },
    {
      "epoch": 0.5561333333333334,
      "grad_norm": 1.9463988542556763,
      "learning_rate": 8.879306512558346e-05,
      "loss": 2.6646,
      "step": 25026
    },
    {
      "epoch": 0.5561555555555555,
      "grad_norm": 1.4555976390838623,
      "learning_rate": 8.878861969326517e-05,
      "loss": 1.7126,
      "step": 25027
    },
    {
      "epoch": 0.5561777777777778,
      "grad_norm": 1.2904547452926636,
      "learning_rate": 8.878417426094688e-05,
      "loss": 1.0135,
      "step": 25028
    },
    {
      "epoch": 0.5562,
      "grad_norm": 1.8080211877822876,
      "learning_rate": 8.877972882862858e-05,
      "loss": 2.229,
      "step": 25029
    },
    {
      "epoch": 0.5562222222222222,
      "grad_norm": 1.6538316011428833,
      "learning_rate": 8.877528339631029e-05,
      "loss": 2.2293,
      "step": 25030
    },
    {
      "epoch": 0.5562444444444444,
      "grad_norm": 1.7188304662704468,
      "learning_rate": 8.877083796399201e-05,
      "loss": 1.6404,
      "step": 25031
    },
    {
      "epoch": 0.5562666666666667,
      "grad_norm": 1.7964560985565186,
      "learning_rate": 8.876639253167372e-05,
      "loss": 1.8025,
      "step": 25032
    },
    {
      "epoch": 0.5562888888888889,
      "grad_norm": 1.527963399887085,
      "learning_rate": 8.876194709935542e-05,
      "loss": 1.8277,
      "step": 25033
    },
    {
      "epoch": 0.5563111111111111,
      "grad_norm": 1.5908809900283813,
      "learning_rate": 8.875750166703713e-05,
      "loss": 1.4329,
      "step": 25034
    },
    {
      "epoch": 0.5563333333333333,
      "grad_norm": 1.6306854486465454,
      "learning_rate": 8.875305623471884e-05,
      "loss": 2.056,
      "step": 25035
    },
    {
      "epoch": 0.5563555555555556,
      "grad_norm": 1.3418653011322021,
      "learning_rate": 8.874861080240053e-05,
      "loss": 1.1482,
      "step": 25036
    },
    {
      "epoch": 0.5563777777777777,
      "grad_norm": 1.7620158195495605,
      "learning_rate": 8.874416537008224e-05,
      "loss": 1.7257,
      "step": 25037
    },
    {
      "epoch": 0.5564,
      "grad_norm": 1.6331011056900024,
      "learning_rate": 8.873971993776395e-05,
      "loss": 1.283,
      "step": 25038
    },
    {
      "epoch": 0.5564222222222223,
      "grad_norm": 1.7324144840240479,
      "learning_rate": 8.873527450544565e-05,
      "loss": 1.9654,
      "step": 25039
    },
    {
      "epoch": 0.5564444444444444,
      "grad_norm": 1.7590289115905762,
      "learning_rate": 8.873082907312737e-05,
      "loss": 1.881,
      "step": 25040
    },
    {
      "epoch": 0.5564666666666667,
      "grad_norm": 1.5783190727233887,
      "learning_rate": 8.872638364080908e-05,
      "loss": 1.9342,
      "step": 25041
    },
    {
      "epoch": 0.5564888888888889,
      "grad_norm": 1.7162874937057495,
      "learning_rate": 8.872193820849079e-05,
      "loss": 1.9172,
      "step": 25042
    },
    {
      "epoch": 0.5565111111111111,
      "grad_norm": 1.4815313816070557,
      "learning_rate": 8.871749277617249e-05,
      "loss": 1.4027,
      "step": 25043
    },
    {
      "epoch": 0.5565333333333333,
      "grad_norm": 1.5845388174057007,
      "learning_rate": 8.87130473438542e-05,
      "loss": 1.6193,
      "step": 25044
    },
    {
      "epoch": 0.5565555555555556,
      "grad_norm": 1.7816119194030762,
      "learning_rate": 8.87086019115359e-05,
      "loss": 1.8064,
      "step": 25045
    },
    {
      "epoch": 0.5565777777777777,
      "grad_norm": 1.853499174118042,
      "learning_rate": 8.87041564792176e-05,
      "loss": 1.5769,
      "step": 25046
    },
    {
      "epoch": 0.5566,
      "grad_norm": 1.7572011947631836,
      "learning_rate": 8.869971104689931e-05,
      "loss": 1.5565,
      "step": 25047
    },
    {
      "epoch": 0.5566222222222222,
      "grad_norm": 1.6061574220657349,
      "learning_rate": 8.869526561458102e-05,
      "loss": 1.5543,
      "step": 25048
    },
    {
      "epoch": 0.5566444444444445,
      "grad_norm": 2.0534188747406006,
      "learning_rate": 8.869082018226273e-05,
      "loss": 2.089,
      "step": 25049
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 1.7749592065811157,
      "learning_rate": 8.868637474994444e-05,
      "loss": 1.5679,
      "step": 25050
    },
    {
      "epoch": 0.5566888888888889,
      "grad_norm": 1.4333471059799194,
      "learning_rate": 8.868192931762615e-05,
      "loss": 2.177,
      "step": 25051
    },
    {
      "epoch": 0.5567111111111112,
      "grad_norm": 1.3617366552352905,
      "learning_rate": 8.867748388530786e-05,
      "loss": 2.0119,
      "step": 25052
    },
    {
      "epoch": 0.5567333333333333,
      "grad_norm": 1.37482488155365,
      "learning_rate": 8.867303845298955e-05,
      "loss": 1.9341,
      "step": 25053
    },
    {
      "epoch": 0.5567555555555556,
      "grad_norm": 1.5708028078079224,
      "learning_rate": 8.866859302067126e-05,
      "loss": 2.3296,
      "step": 25054
    },
    {
      "epoch": 0.5567777777777778,
      "grad_norm": 1.42710280418396,
      "learning_rate": 8.866414758835297e-05,
      "loss": 2.0739,
      "step": 25055
    },
    {
      "epoch": 0.5568,
      "grad_norm": 1.6513372659683228,
      "learning_rate": 8.865970215603467e-05,
      "loss": 2.1563,
      "step": 25056
    },
    {
      "epoch": 0.5568222222222222,
      "grad_norm": 1.4783315658569336,
      "learning_rate": 8.865525672371638e-05,
      "loss": 1.7002,
      "step": 25057
    },
    {
      "epoch": 0.5568444444444445,
      "grad_norm": 1.4798046350479126,
      "learning_rate": 8.865081129139809e-05,
      "loss": 2.2017,
      "step": 25058
    },
    {
      "epoch": 0.5568666666666666,
      "grad_norm": 1.5378378629684448,
      "learning_rate": 8.86463658590798e-05,
      "loss": 2.1798,
      "step": 25059
    },
    {
      "epoch": 0.5568888888888889,
      "grad_norm": 1.6290702819824219,
      "learning_rate": 8.864192042676151e-05,
      "loss": 1.8907,
      "step": 25060
    },
    {
      "epoch": 0.5569111111111111,
      "grad_norm": 1.5109094381332397,
      "learning_rate": 8.863747499444322e-05,
      "loss": 2.0781,
      "step": 25061
    },
    {
      "epoch": 0.5569333333333333,
      "grad_norm": 1.7988399267196655,
      "learning_rate": 8.863302956212493e-05,
      "loss": 2.292,
      "step": 25062
    },
    {
      "epoch": 0.5569555555555555,
      "grad_norm": 1.8292760848999023,
      "learning_rate": 8.862858412980662e-05,
      "loss": 2.1439,
      "step": 25063
    },
    {
      "epoch": 0.5569777777777778,
      "grad_norm": 1.753173828125,
      "learning_rate": 8.862413869748833e-05,
      "loss": 2.0589,
      "step": 25064
    },
    {
      "epoch": 0.557,
      "grad_norm": 1.4849519729614258,
      "learning_rate": 8.861969326517004e-05,
      "loss": 1.8589,
      "step": 25065
    },
    {
      "epoch": 0.5570222222222222,
      "grad_norm": 1.563999056816101,
      "learning_rate": 8.861524783285174e-05,
      "loss": 1.8839,
      "step": 25066
    },
    {
      "epoch": 0.5570444444444445,
      "grad_norm": 2.108994245529175,
      "learning_rate": 8.861080240053345e-05,
      "loss": 1.4836,
      "step": 25067
    },
    {
      "epoch": 0.5570666666666667,
      "grad_norm": 1.462251901626587,
      "learning_rate": 8.860635696821517e-05,
      "loss": 2.081,
      "step": 25068
    },
    {
      "epoch": 0.5570888888888889,
      "grad_norm": 1.4455344676971436,
      "learning_rate": 8.860191153589688e-05,
      "loss": 1.5538,
      "step": 25069
    },
    {
      "epoch": 0.5571111111111111,
      "grad_norm": 1.5053396224975586,
      "learning_rate": 8.859746610357858e-05,
      "loss": 2.1755,
      "step": 25070
    },
    {
      "epoch": 0.5571333333333334,
      "grad_norm": 2.1108238697052,
      "learning_rate": 8.859302067126029e-05,
      "loss": 2.1607,
      "step": 25071
    },
    {
      "epoch": 0.5571555555555555,
      "grad_norm": 1.5452802181243896,
      "learning_rate": 8.8588575238942e-05,
      "loss": 2.1198,
      "step": 25072
    },
    {
      "epoch": 0.5571777777777778,
      "grad_norm": 1.305687427520752,
      "learning_rate": 8.858412980662369e-05,
      "loss": 1.3974,
      "step": 25073
    },
    {
      "epoch": 0.5572,
      "grad_norm": 1.6314971446990967,
      "learning_rate": 8.85796843743054e-05,
      "loss": 1.9672,
      "step": 25074
    },
    {
      "epoch": 0.5572222222222222,
      "grad_norm": 1.672951340675354,
      "learning_rate": 8.857523894198711e-05,
      "loss": 2.2149,
      "step": 25075
    },
    {
      "epoch": 0.5572444444444444,
      "grad_norm": 1.5819165706634521,
      "learning_rate": 8.857079350966881e-05,
      "loss": 1.5749,
      "step": 25076
    },
    {
      "epoch": 0.5572666666666667,
      "grad_norm": 1.9342191219329834,
      "learning_rate": 8.856634807735053e-05,
      "loss": 2.265,
      "step": 25077
    },
    {
      "epoch": 0.5572888888888888,
      "grad_norm": 1.6798408031463623,
      "learning_rate": 8.856190264503224e-05,
      "loss": 2.0166,
      "step": 25078
    },
    {
      "epoch": 0.5573111111111111,
      "grad_norm": 1.69929838180542,
      "learning_rate": 8.855745721271395e-05,
      "loss": 2.0431,
      "step": 25079
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 1.7669845819473267,
      "learning_rate": 8.855301178039565e-05,
      "loss": 2.2433,
      "step": 25080
    },
    {
      "epoch": 0.5573555555555556,
      "grad_norm": 1.5253289937973022,
      "learning_rate": 8.854856634807736e-05,
      "loss": 1.6538,
      "step": 25081
    },
    {
      "epoch": 0.5573777777777777,
      "grad_norm": 1.7386434078216553,
      "learning_rate": 8.854412091575907e-05,
      "loss": 1.9486,
      "step": 25082
    },
    {
      "epoch": 0.5574,
      "grad_norm": 1.0491255521774292,
      "learning_rate": 8.853967548344076e-05,
      "loss": 0.7682,
      "step": 25083
    },
    {
      "epoch": 0.5574222222222223,
      "grad_norm": 1.6801350116729736,
      "learning_rate": 8.853523005112247e-05,
      "loss": 2.12,
      "step": 25084
    },
    {
      "epoch": 0.5574444444444444,
      "grad_norm": 1.7507060766220093,
      "learning_rate": 8.853078461880418e-05,
      "loss": 2.1324,
      "step": 25085
    },
    {
      "epoch": 0.5574666666666667,
      "grad_norm": 1.7973806858062744,
      "learning_rate": 8.852633918648589e-05,
      "loss": 2.0655,
      "step": 25086
    },
    {
      "epoch": 0.5574888888888889,
      "grad_norm": 1.6366549730300903,
      "learning_rate": 8.85218937541676e-05,
      "loss": 2.0583,
      "step": 25087
    },
    {
      "epoch": 0.5575111111111111,
      "grad_norm": 1.4576225280761719,
      "learning_rate": 8.851744832184931e-05,
      "loss": 1.3184,
      "step": 25088
    },
    {
      "epoch": 0.5575333333333333,
      "grad_norm": 2.1194889545440674,
      "learning_rate": 8.851300288953102e-05,
      "loss": 1.7683,
      "step": 25089
    },
    {
      "epoch": 0.5575555555555556,
      "grad_norm": 1.4802414178848267,
      "learning_rate": 8.850855745721272e-05,
      "loss": 1.4868,
      "step": 25090
    },
    {
      "epoch": 0.5575777777777777,
      "grad_norm": 1.659393310546875,
      "learning_rate": 8.850411202489443e-05,
      "loss": 1.8494,
      "step": 25091
    },
    {
      "epoch": 0.5576,
      "grad_norm": 1.835160493850708,
      "learning_rate": 8.849966659257613e-05,
      "loss": 1.7385,
      "step": 25092
    },
    {
      "epoch": 0.5576222222222222,
      "grad_norm": 1.8487638235092163,
      "learning_rate": 8.849522116025783e-05,
      "loss": 1.9471,
      "step": 25093
    },
    {
      "epoch": 0.5576444444444445,
      "grad_norm": 1.6787410974502563,
      "learning_rate": 8.849077572793954e-05,
      "loss": 1.6944,
      "step": 25094
    },
    {
      "epoch": 0.5576666666666666,
      "grad_norm": 1.7631950378417969,
      "learning_rate": 8.848633029562125e-05,
      "loss": 1.5408,
      "step": 25095
    },
    {
      "epoch": 0.5576888888888889,
      "grad_norm": 1.939127802848816,
      "learning_rate": 8.848188486330296e-05,
      "loss": 1.6063,
      "step": 25096
    },
    {
      "epoch": 0.5577111111111112,
      "grad_norm": 1.4154397249221802,
      "learning_rate": 8.847743943098467e-05,
      "loss": 1.2231,
      "step": 25097
    },
    {
      "epoch": 0.5577333333333333,
      "grad_norm": 1.8410276174545288,
      "learning_rate": 8.847299399866638e-05,
      "loss": 1.8084,
      "step": 25098
    },
    {
      "epoch": 0.5577555555555556,
      "grad_norm": 1.5185855627059937,
      "learning_rate": 8.846854856634809e-05,
      "loss": 0.9481,
      "step": 25099
    },
    {
      "epoch": 0.5577777777777778,
      "grad_norm": 1.788804292678833,
      "learning_rate": 8.846410313402978e-05,
      "loss": 1.6403,
      "step": 25100
    },
    {
      "epoch": 0.5578,
      "grad_norm": 1.5832068920135498,
      "learning_rate": 8.84596577017115e-05,
      "loss": 1.812,
      "step": 25101
    },
    {
      "epoch": 0.5578222222222222,
      "grad_norm": 1.5860427618026733,
      "learning_rate": 8.84552122693932e-05,
      "loss": 2.5241,
      "step": 25102
    },
    {
      "epoch": 0.5578444444444445,
      "grad_norm": 1.4625405073165894,
      "learning_rate": 8.84507668370749e-05,
      "loss": 2.3494,
      "step": 25103
    },
    {
      "epoch": 0.5578666666666666,
      "grad_norm": 1.3589277267456055,
      "learning_rate": 8.844632140475661e-05,
      "loss": 2.3455,
      "step": 25104
    },
    {
      "epoch": 0.5578888888888889,
      "grad_norm": 1.4070804119110107,
      "learning_rate": 8.844187597243833e-05,
      "loss": 2.3014,
      "step": 25105
    },
    {
      "epoch": 0.5579111111111111,
      "grad_norm": 1.4124137163162231,
      "learning_rate": 8.843743054012003e-05,
      "loss": 1.0,
      "step": 25106
    },
    {
      "epoch": 0.5579333333333333,
      "grad_norm": 1.5017024278640747,
      "learning_rate": 8.843298510780174e-05,
      "loss": 1.8322,
      "step": 25107
    },
    {
      "epoch": 0.5579555555555555,
      "grad_norm": 1.6320382356643677,
      "learning_rate": 8.842853967548345e-05,
      "loss": 2.1433,
      "step": 25108
    },
    {
      "epoch": 0.5579777777777778,
      "grad_norm": 1.7392261028289795,
      "learning_rate": 8.842409424316516e-05,
      "loss": 2.0716,
      "step": 25109
    },
    {
      "epoch": 0.558,
      "grad_norm": 1.5695531368255615,
      "learning_rate": 8.841964881084685e-05,
      "loss": 2.1222,
      "step": 25110
    },
    {
      "epoch": 0.5580222222222222,
      "grad_norm": 1.5330922603607178,
      "learning_rate": 8.841520337852856e-05,
      "loss": 2.0254,
      "step": 25111
    },
    {
      "epoch": 0.5580444444444445,
      "grad_norm": 1.40812087059021,
      "learning_rate": 8.841075794621027e-05,
      "loss": 1.6054,
      "step": 25112
    },
    {
      "epoch": 0.5580666666666667,
      "grad_norm": 1.6731535196304321,
      "learning_rate": 8.840631251389197e-05,
      "loss": 1.9831,
      "step": 25113
    },
    {
      "epoch": 0.5580888888888889,
      "grad_norm": 1.7269052267074585,
      "learning_rate": 8.840186708157369e-05,
      "loss": 2.197,
      "step": 25114
    },
    {
      "epoch": 0.5581111111111111,
      "grad_norm": 1.8623415231704712,
      "learning_rate": 8.83974216492554e-05,
      "loss": 1.6876,
      "step": 25115
    },
    {
      "epoch": 0.5581333333333334,
      "grad_norm": 1.8906834125518799,
      "learning_rate": 8.839297621693711e-05,
      "loss": 2.5045,
      "step": 25116
    },
    {
      "epoch": 0.5581555555555555,
      "grad_norm": 1.070365071296692,
      "learning_rate": 8.838853078461881e-05,
      "loss": 1.1872,
      "step": 25117
    },
    {
      "epoch": 0.5581777777777778,
      "grad_norm": 0.3382456600666046,
      "learning_rate": 8.838408535230052e-05,
      "loss": 0.0277,
      "step": 25118
    },
    {
      "epoch": 0.5582,
      "grad_norm": 1.8913952112197876,
      "learning_rate": 8.837963991998223e-05,
      "loss": 2.2064,
      "step": 25119
    },
    {
      "epoch": 0.5582222222222222,
      "grad_norm": 1.9757825136184692,
      "learning_rate": 8.837519448766392e-05,
      "loss": 2.3808,
      "step": 25120
    },
    {
      "epoch": 0.5582444444444444,
      "grad_norm": 1.481068730354309,
      "learning_rate": 8.837074905534563e-05,
      "loss": 1.8185,
      "step": 25121
    },
    {
      "epoch": 0.5582666666666667,
      "grad_norm": 1.7362627983093262,
      "learning_rate": 8.836630362302734e-05,
      "loss": 2.045,
      "step": 25122
    },
    {
      "epoch": 0.5582888888888888,
      "grad_norm": 1.7237762212753296,
      "learning_rate": 8.836185819070905e-05,
      "loss": 1.9348,
      "step": 25123
    },
    {
      "epoch": 0.5583111111111111,
      "grad_norm": 1.5723251104354858,
      "learning_rate": 8.835741275839076e-05,
      "loss": 1.824,
      "step": 25124
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 2.0629472732543945,
      "learning_rate": 8.835296732607247e-05,
      "loss": 2.4707,
      "step": 25125
    },
    {
      "epoch": 0.5583555555555556,
      "grad_norm": 1.853628396987915,
      "learning_rate": 8.834852189375418e-05,
      "loss": 1.6413,
      "step": 25126
    },
    {
      "epoch": 0.5583777777777778,
      "grad_norm": 1.5292593240737915,
      "learning_rate": 8.834407646143588e-05,
      "loss": 1.7817,
      "step": 25127
    },
    {
      "epoch": 0.5584,
      "grad_norm": 1.5123380422592163,
      "learning_rate": 8.833963102911759e-05,
      "loss": 1.7791,
      "step": 25128
    },
    {
      "epoch": 0.5584222222222223,
      "grad_norm": 2.058326244354248,
      "learning_rate": 8.83351855967993e-05,
      "loss": 2.4383,
      "step": 25129
    },
    {
      "epoch": 0.5584444444444444,
      "grad_norm": 1.7544281482696533,
      "learning_rate": 8.833074016448099e-05,
      "loss": 1.9952,
      "step": 25130
    },
    {
      "epoch": 0.5584666666666667,
      "grad_norm": 1.7322680950164795,
      "learning_rate": 8.83262947321627e-05,
      "loss": 1.9922,
      "step": 25131
    },
    {
      "epoch": 0.5584888888888889,
      "grad_norm": 1.798189640045166,
      "learning_rate": 8.832184929984441e-05,
      "loss": 2.1415,
      "step": 25132
    },
    {
      "epoch": 0.5585111111111111,
      "grad_norm": 1.7430840730667114,
      "learning_rate": 8.831740386752612e-05,
      "loss": 1.8528,
      "step": 25133
    },
    {
      "epoch": 0.5585333333333333,
      "grad_norm": 1.6595499515533447,
      "learning_rate": 8.831295843520783e-05,
      "loss": 1.6088,
      "step": 25134
    },
    {
      "epoch": 0.5585555555555556,
      "grad_norm": 1.873802900314331,
      "learning_rate": 8.830851300288954e-05,
      "loss": 1.8963,
      "step": 25135
    },
    {
      "epoch": 0.5585777777777777,
      "grad_norm": 1.6037418842315674,
      "learning_rate": 8.830406757057125e-05,
      "loss": 1.9936,
      "step": 25136
    },
    {
      "epoch": 0.5586,
      "grad_norm": 1.7320588827133179,
      "learning_rate": 8.829962213825295e-05,
      "loss": 2.0704,
      "step": 25137
    },
    {
      "epoch": 0.5586222222222222,
      "grad_norm": 1.5538798570632935,
      "learning_rate": 8.829517670593466e-05,
      "loss": 1.9575,
      "step": 25138
    },
    {
      "epoch": 0.5586444444444445,
      "grad_norm": 1.7341487407684326,
      "learning_rate": 8.829073127361636e-05,
      "loss": 2.1159,
      "step": 25139
    },
    {
      "epoch": 0.5586666666666666,
      "grad_norm": 1.3691928386688232,
      "learning_rate": 8.828628584129806e-05,
      "loss": 1.4764,
      "step": 25140
    },
    {
      "epoch": 0.5586888888888889,
      "grad_norm": 1.517678141593933,
      "learning_rate": 8.828184040897977e-05,
      "loss": 1.6072,
      "step": 25141
    },
    {
      "epoch": 0.5587111111111112,
      "grad_norm": 1.7343122959136963,
      "learning_rate": 8.82773949766615e-05,
      "loss": 2.3817,
      "step": 25142
    },
    {
      "epoch": 0.5587333333333333,
      "grad_norm": 1.5004314184188843,
      "learning_rate": 8.827294954434319e-05,
      "loss": 1.9208,
      "step": 25143
    },
    {
      "epoch": 0.5587555555555556,
      "grad_norm": 2.1103506088256836,
      "learning_rate": 8.82685041120249e-05,
      "loss": 2.2693,
      "step": 25144
    },
    {
      "epoch": 0.5587777777777778,
      "grad_norm": 1.7467249631881714,
      "learning_rate": 8.826405867970661e-05,
      "loss": 2.183,
      "step": 25145
    },
    {
      "epoch": 0.5588,
      "grad_norm": 1.4826949834823608,
      "learning_rate": 8.825961324738832e-05,
      "loss": 1.545,
      "step": 25146
    },
    {
      "epoch": 0.5588222222222222,
      "grad_norm": 1.5557191371917725,
      "learning_rate": 8.825516781507001e-05,
      "loss": 1.5978,
      "step": 25147
    },
    {
      "epoch": 0.5588444444444445,
      "grad_norm": 1.6098825931549072,
      "learning_rate": 8.825072238275172e-05,
      "loss": 1.5343,
      "step": 25148
    },
    {
      "epoch": 0.5588666666666666,
      "grad_norm": 1.8505737781524658,
      "learning_rate": 8.824627695043343e-05,
      "loss": 1.8377,
      "step": 25149
    },
    {
      "epoch": 0.5588888888888889,
      "grad_norm": 1.4390512704849243,
      "learning_rate": 8.824183151811513e-05,
      "loss": 1.3804,
      "step": 25150
    },
    {
      "epoch": 0.5589111111111111,
      "grad_norm": 1.4105268716812134,
      "learning_rate": 8.823738608579685e-05,
      "loss": 2.5203,
      "step": 25151
    },
    {
      "epoch": 0.5589333333333333,
      "grad_norm": 1.429821491241455,
      "learning_rate": 8.823294065347856e-05,
      "loss": 2.5985,
      "step": 25152
    },
    {
      "epoch": 0.5589555555555555,
      "grad_norm": 1.441236138343811,
      "learning_rate": 8.822849522116026e-05,
      "loss": 0.6427,
      "step": 25153
    },
    {
      "epoch": 0.5589777777777778,
      "grad_norm": 1.460187554359436,
      "learning_rate": 8.822404978884197e-05,
      "loss": 1.9902,
      "step": 25154
    },
    {
      "epoch": 0.559,
      "grad_norm": 1.2783151865005493,
      "learning_rate": 8.821960435652368e-05,
      "loss": 1.0684,
      "step": 25155
    },
    {
      "epoch": 0.5590222222222222,
      "grad_norm": 1.341304063796997,
      "learning_rate": 8.821515892420539e-05,
      "loss": 1.911,
      "step": 25156
    },
    {
      "epoch": 0.5590444444444445,
      "grad_norm": 1.565393090248108,
      "learning_rate": 8.821071349188708e-05,
      "loss": 2.0663,
      "step": 25157
    },
    {
      "epoch": 0.5590666666666667,
      "grad_norm": 2.0223257541656494,
      "learning_rate": 8.82062680595688e-05,
      "loss": 2.627,
      "step": 25158
    },
    {
      "epoch": 0.5590888888888889,
      "grad_norm": 1.4590426683425903,
      "learning_rate": 8.82018226272505e-05,
      "loss": 1.6162,
      "step": 25159
    },
    {
      "epoch": 0.5591111111111111,
      "grad_norm": 1.4461957216262817,
      "learning_rate": 8.819737719493221e-05,
      "loss": 1.7326,
      "step": 25160
    },
    {
      "epoch": 0.5591333333333334,
      "grad_norm": 1.526092529296875,
      "learning_rate": 8.819293176261392e-05,
      "loss": 2.0117,
      "step": 25161
    },
    {
      "epoch": 0.5591555555555555,
      "grad_norm": 1.4501690864562988,
      "learning_rate": 8.818848633029563e-05,
      "loss": 1.9252,
      "step": 25162
    },
    {
      "epoch": 0.5591777777777778,
      "grad_norm": 1.68050217628479,
      "learning_rate": 8.818404089797734e-05,
      "loss": 2.2222,
      "step": 25163
    },
    {
      "epoch": 0.5592,
      "grad_norm": 1.6856437921524048,
      "learning_rate": 8.817959546565904e-05,
      "loss": 1.499,
      "step": 25164
    },
    {
      "epoch": 0.5592222222222222,
      "grad_norm": 1.6665334701538086,
      "learning_rate": 8.817515003334075e-05,
      "loss": 2.2639,
      "step": 25165
    },
    {
      "epoch": 0.5592444444444444,
      "grad_norm": 1.4440217018127441,
      "learning_rate": 8.817070460102246e-05,
      "loss": 1.7205,
      "step": 25166
    },
    {
      "epoch": 0.5592666666666667,
      "grad_norm": 1.6238607168197632,
      "learning_rate": 8.816625916870415e-05,
      "loss": 2.0203,
      "step": 25167
    },
    {
      "epoch": 0.5592888888888888,
      "grad_norm": 1.5175899267196655,
      "learning_rate": 8.816181373638586e-05,
      "loss": 1.76,
      "step": 25168
    },
    {
      "epoch": 0.5593111111111111,
      "grad_norm": 1.5204845666885376,
      "learning_rate": 8.815736830406757e-05,
      "loss": 2.231,
      "step": 25169
    },
    {
      "epoch": 0.5593333333333333,
      "grad_norm": 1.8707369565963745,
      "learning_rate": 8.815292287174928e-05,
      "loss": 2.2178,
      "step": 25170
    },
    {
      "epoch": 0.5593555555555556,
      "grad_norm": 1.6467576026916504,
      "learning_rate": 8.814847743943099e-05,
      "loss": 2.2364,
      "step": 25171
    },
    {
      "epoch": 0.5593777777777778,
      "grad_norm": 1.8275185823440552,
      "learning_rate": 8.81440320071127e-05,
      "loss": 2.1331,
      "step": 25172
    },
    {
      "epoch": 0.5594,
      "grad_norm": 1.559929370880127,
      "learning_rate": 8.813958657479441e-05,
      "loss": 2.1326,
      "step": 25173
    },
    {
      "epoch": 0.5594222222222223,
      "grad_norm": 2.1848270893096924,
      "learning_rate": 8.81351411424761e-05,
      "loss": 1.8675,
      "step": 25174
    },
    {
      "epoch": 0.5594444444444444,
      "grad_norm": 1.3665002584457397,
      "learning_rate": 8.813069571015782e-05,
      "loss": 1.4474,
      "step": 25175
    },
    {
      "epoch": 0.5594666666666667,
      "grad_norm": 1.7274236679077148,
      "learning_rate": 8.812625027783953e-05,
      "loss": 1.9424,
      "step": 25176
    },
    {
      "epoch": 0.5594888888888889,
      "grad_norm": 1.6203581094741821,
      "learning_rate": 8.812180484552122e-05,
      "loss": 1.6601,
      "step": 25177
    },
    {
      "epoch": 0.5595111111111111,
      "grad_norm": 1.8690255880355835,
      "learning_rate": 8.811735941320293e-05,
      "loss": 1.8835,
      "step": 25178
    },
    {
      "epoch": 0.5595333333333333,
      "grad_norm": 1.4840466976165771,
      "learning_rate": 8.811291398088465e-05,
      "loss": 1.9987,
      "step": 25179
    },
    {
      "epoch": 0.5595555555555556,
      "grad_norm": 1.9614216089248657,
      "learning_rate": 8.810846854856635e-05,
      "loss": 1.9445,
      "step": 25180
    },
    {
      "epoch": 0.5595777777777777,
      "grad_norm": 1.560650110244751,
      "learning_rate": 8.810402311624806e-05,
      "loss": 1.6483,
      "step": 25181
    },
    {
      "epoch": 0.5596,
      "grad_norm": 1.543728232383728,
      "learning_rate": 8.809957768392977e-05,
      "loss": 2.0516,
      "step": 25182
    },
    {
      "epoch": 0.5596222222222222,
      "grad_norm": 2.026848316192627,
      "learning_rate": 8.809513225161148e-05,
      "loss": 2.276,
      "step": 25183
    },
    {
      "epoch": 0.5596444444444445,
      "grad_norm": 2.0482680797576904,
      "learning_rate": 8.809068681929318e-05,
      "loss": 2.0603,
      "step": 25184
    },
    {
      "epoch": 0.5596666666666666,
      "grad_norm": 1.650883674621582,
      "learning_rate": 8.808624138697489e-05,
      "loss": 1.6454,
      "step": 25185
    },
    {
      "epoch": 0.5596888888888889,
      "grad_norm": 1.5135639905929565,
      "learning_rate": 8.80817959546566e-05,
      "loss": 1.7825,
      "step": 25186
    },
    {
      "epoch": 0.5597111111111112,
      "grad_norm": 1.509371042251587,
      "learning_rate": 8.807735052233829e-05,
      "loss": 1.7063,
      "step": 25187
    },
    {
      "epoch": 0.5597333333333333,
      "grad_norm": 1.7396836280822754,
      "learning_rate": 8.807290509002001e-05,
      "loss": 2.1483,
      "step": 25188
    },
    {
      "epoch": 0.5597555555555556,
      "grad_norm": 1.742016315460205,
      "learning_rate": 8.806845965770172e-05,
      "loss": 2.0434,
      "step": 25189
    },
    {
      "epoch": 0.5597777777777778,
      "grad_norm": 1.679200291633606,
      "learning_rate": 8.806401422538342e-05,
      "loss": 1.5045,
      "step": 25190
    },
    {
      "epoch": 0.5598,
      "grad_norm": 1.8576488494873047,
      "learning_rate": 8.805956879306513e-05,
      "loss": 2.1748,
      "step": 25191
    },
    {
      "epoch": 0.5598222222222222,
      "grad_norm": 1.8510833978652954,
      "learning_rate": 8.805512336074684e-05,
      "loss": 1.5863,
      "step": 25192
    },
    {
      "epoch": 0.5598444444444445,
      "grad_norm": 2.1455936431884766,
      "learning_rate": 8.805067792842855e-05,
      "loss": 2.0357,
      "step": 25193
    },
    {
      "epoch": 0.5598666666666666,
      "grad_norm": 1.841348648071289,
      "learning_rate": 8.804623249611024e-05,
      "loss": 1.9626,
      "step": 25194
    },
    {
      "epoch": 0.5598888888888889,
      "grad_norm": 1.55734384059906,
      "learning_rate": 8.804178706379195e-05,
      "loss": 1.6384,
      "step": 25195
    },
    {
      "epoch": 0.5599111111111111,
      "grad_norm": 2.034369945526123,
      "learning_rate": 8.803734163147366e-05,
      "loss": 1.8983,
      "step": 25196
    },
    {
      "epoch": 0.5599333333333333,
      "grad_norm": 1.7569447755813599,
      "learning_rate": 8.803289619915537e-05,
      "loss": 1.879,
      "step": 25197
    },
    {
      "epoch": 0.5599555555555555,
      "grad_norm": 2.063053607940674,
      "learning_rate": 8.802845076683708e-05,
      "loss": 1.8524,
      "step": 25198
    },
    {
      "epoch": 0.5599777777777778,
      "grad_norm": 1.9506410360336304,
      "learning_rate": 8.802400533451879e-05,
      "loss": 2.1881,
      "step": 25199
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5537521839141846,
      "learning_rate": 8.801955990220049e-05,
      "loss": 1.5269,
      "step": 25200
    },
    {
      "epoch": 0.5600222222222222,
      "grad_norm": 1.7377948760986328,
      "learning_rate": 8.80151144698822e-05,
      "loss": 2.5955,
      "step": 25201
    },
    {
      "epoch": 0.5600444444444445,
      "grad_norm": 1.6233863830566406,
      "learning_rate": 8.801066903756391e-05,
      "loss": 2.6002,
      "step": 25202
    },
    {
      "epoch": 0.5600666666666667,
      "grad_norm": 1.5851396322250366,
      "learning_rate": 8.800622360524562e-05,
      "loss": 2.5364,
      "step": 25203
    },
    {
      "epoch": 0.5600888888888889,
      "grad_norm": 1.334736943244934,
      "learning_rate": 8.800177817292731e-05,
      "loss": 2.1957,
      "step": 25204
    },
    {
      "epoch": 0.5601111111111111,
      "grad_norm": 1.3811289072036743,
      "learning_rate": 8.799733274060902e-05,
      "loss": 2.08,
      "step": 25205
    },
    {
      "epoch": 0.5601333333333334,
      "grad_norm": 1.5644488334655762,
      "learning_rate": 8.799288730829073e-05,
      "loss": 2.6846,
      "step": 25206
    },
    {
      "epoch": 0.5601555555555555,
      "grad_norm": 1.5639359951019287,
      "learning_rate": 8.798844187597244e-05,
      "loss": 2.0832,
      "step": 25207
    },
    {
      "epoch": 0.5601777777777778,
      "grad_norm": 1.5768216848373413,
      "learning_rate": 8.798399644365415e-05,
      "loss": 2.1764,
      "step": 25208
    },
    {
      "epoch": 0.5602,
      "grad_norm": 1.8076982498168945,
      "learning_rate": 8.797955101133586e-05,
      "loss": 2.2899,
      "step": 25209
    },
    {
      "epoch": 0.5602222222222222,
      "grad_norm": 1.1235891580581665,
      "learning_rate": 8.797510557901756e-05,
      "loss": 1.1146,
      "step": 25210
    },
    {
      "epoch": 0.5602444444444444,
      "grad_norm": 1.7415649890899658,
      "learning_rate": 8.797066014669927e-05,
      "loss": 2.2942,
      "step": 25211
    },
    {
      "epoch": 0.5602666666666667,
      "grad_norm": 1.6006947755813599,
      "learning_rate": 8.796621471438098e-05,
      "loss": 2.2651,
      "step": 25212
    },
    {
      "epoch": 0.5602888888888888,
      "grad_norm": 1.5128785371780396,
      "learning_rate": 8.796176928206269e-05,
      "loss": 1.7946,
      "step": 25213
    },
    {
      "epoch": 0.5603111111111111,
      "grad_norm": 1.5808520317077637,
      "learning_rate": 8.795732384974438e-05,
      "loss": 2.2544,
      "step": 25214
    },
    {
      "epoch": 0.5603333333333333,
      "grad_norm": 1.525814175605774,
      "learning_rate": 8.795287841742609e-05,
      "loss": 1.4875,
      "step": 25215
    },
    {
      "epoch": 0.5603555555555556,
      "grad_norm": 1.5856590270996094,
      "learning_rate": 8.794843298510782e-05,
      "loss": 1.7909,
      "step": 25216
    },
    {
      "epoch": 0.5603777777777778,
      "grad_norm": 1.6325963735580444,
      "learning_rate": 8.794398755278951e-05,
      "loss": 2.1416,
      "step": 25217
    },
    {
      "epoch": 0.5604,
      "grad_norm": 2.059194564819336,
      "learning_rate": 8.793954212047122e-05,
      "loss": 1.8765,
      "step": 25218
    },
    {
      "epoch": 0.5604222222222223,
      "grad_norm": 1.6079334020614624,
      "learning_rate": 8.793509668815293e-05,
      "loss": 2.1008,
      "step": 25219
    },
    {
      "epoch": 0.5604444444444444,
      "grad_norm": 1.5019943714141846,
      "learning_rate": 8.793065125583464e-05,
      "loss": 1.961,
      "step": 25220
    },
    {
      "epoch": 0.5604666666666667,
      "grad_norm": 1.7217684984207153,
      "learning_rate": 8.792620582351634e-05,
      "loss": 2.2064,
      "step": 25221
    },
    {
      "epoch": 0.5604888888888889,
      "grad_norm": 1.7666687965393066,
      "learning_rate": 8.792176039119805e-05,
      "loss": 1.9191,
      "step": 25222
    },
    {
      "epoch": 0.5605111111111111,
      "grad_norm": 1.4344292879104614,
      "learning_rate": 8.791731495887976e-05,
      "loss": 1.1761,
      "step": 25223
    },
    {
      "epoch": 0.5605333333333333,
      "grad_norm": 2.339412212371826,
      "learning_rate": 8.791286952656145e-05,
      "loss": 1.822,
      "step": 25224
    },
    {
      "epoch": 0.5605555555555556,
      "grad_norm": 1.6369621753692627,
      "learning_rate": 8.790842409424318e-05,
      "loss": 1.9765,
      "step": 25225
    },
    {
      "epoch": 0.5605777777777777,
      "grad_norm": 1.9765450954437256,
      "learning_rate": 8.790397866192488e-05,
      "loss": 2.1667,
      "step": 25226
    },
    {
      "epoch": 0.5606,
      "grad_norm": 1.5706331729888916,
      "learning_rate": 8.789953322960658e-05,
      "loss": 1.859,
      "step": 25227
    },
    {
      "epoch": 0.5606222222222222,
      "grad_norm": 1.4491208791732788,
      "learning_rate": 8.789508779728829e-05,
      "loss": 1.7216,
      "step": 25228
    },
    {
      "epoch": 0.5606444444444444,
      "grad_norm": 1.8563940525054932,
      "learning_rate": 8.789064236497e-05,
      "loss": 2.1766,
      "step": 25229
    },
    {
      "epoch": 0.5606666666666666,
      "grad_norm": 1.293811559677124,
      "learning_rate": 8.788619693265171e-05,
      "loss": 0.8898,
      "step": 25230
    },
    {
      "epoch": 0.5606888888888889,
      "grad_norm": 1.5508888959884644,
      "learning_rate": 8.78817515003334e-05,
      "loss": 1.8485,
      "step": 25231
    },
    {
      "epoch": 0.5607111111111112,
      "grad_norm": 1.7579081058502197,
      "learning_rate": 8.787730606801512e-05,
      "loss": 2.1352,
      "step": 25232
    },
    {
      "epoch": 0.5607333333333333,
      "grad_norm": 1.6988152265548706,
      "learning_rate": 8.787286063569683e-05,
      "loss": 1.8743,
      "step": 25233
    },
    {
      "epoch": 0.5607555555555556,
      "grad_norm": 1.710771918296814,
      "learning_rate": 8.786841520337853e-05,
      "loss": 1.9996,
      "step": 25234
    },
    {
      "epoch": 0.5607777777777778,
      "grad_norm": 1.6037424802780151,
      "learning_rate": 8.786396977106024e-05,
      "loss": 1.7988,
      "step": 25235
    },
    {
      "epoch": 0.5608,
      "grad_norm": 1.7195894718170166,
      "learning_rate": 8.785952433874195e-05,
      "loss": 1.9299,
      "step": 25236
    },
    {
      "epoch": 0.5608222222222222,
      "grad_norm": 1.5542490482330322,
      "learning_rate": 8.785507890642365e-05,
      "loss": 1.4587,
      "step": 25237
    },
    {
      "epoch": 0.5608444444444445,
      "grad_norm": 1.9157278537750244,
      "learning_rate": 8.785063347410536e-05,
      "loss": 2.0123,
      "step": 25238
    },
    {
      "epoch": 0.5608666666666666,
      "grad_norm": 1.5922707319259644,
      "learning_rate": 8.784618804178707e-05,
      "loss": 1.7134,
      "step": 25239
    },
    {
      "epoch": 0.5608888888888889,
      "grad_norm": 1.407324194908142,
      "learning_rate": 8.784174260946878e-05,
      "loss": 1.3508,
      "step": 25240
    },
    {
      "epoch": 0.5609111111111111,
      "grad_norm": 1.816657543182373,
      "learning_rate": 8.783729717715047e-05,
      "loss": 2.2265,
      "step": 25241
    },
    {
      "epoch": 0.5609333333333333,
      "grad_norm": 1.7667323350906372,
      "learning_rate": 8.783285174483218e-05,
      "loss": 1.5843,
      "step": 25242
    },
    {
      "epoch": 0.5609555555555555,
      "grad_norm": 1.7764583826065063,
      "learning_rate": 8.78284063125139e-05,
      "loss": 1.7084,
      "step": 25243
    },
    {
      "epoch": 0.5609777777777778,
      "grad_norm": 1.8567525148391724,
      "learning_rate": 8.78239608801956e-05,
      "loss": 1.9548,
      "step": 25244
    },
    {
      "epoch": 0.561,
      "grad_norm": 1.7268896102905273,
      "learning_rate": 8.781951544787731e-05,
      "loss": 2.1631,
      "step": 25245
    },
    {
      "epoch": 0.5610222222222222,
      "grad_norm": 1.588640570640564,
      "learning_rate": 8.781507001555902e-05,
      "loss": 1.6146,
      "step": 25246
    },
    {
      "epoch": 0.5610444444444445,
      "grad_norm": 2.132821798324585,
      "learning_rate": 8.781062458324072e-05,
      "loss": 1.9696,
      "step": 25247
    },
    {
      "epoch": 0.5610666666666667,
      "grad_norm": 1.6377253532409668,
      "learning_rate": 8.780617915092243e-05,
      "loss": 1.4368,
      "step": 25248
    },
    {
      "epoch": 0.5610888888888889,
      "grad_norm": 2.060591697692871,
      "learning_rate": 8.780173371860414e-05,
      "loss": 1.7435,
      "step": 25249
    },
    {
      "epoch": 0.5611111111111111,
      "grad_norm": 1.711743712425232,
      "learning_rate": 8.779728828628585e-05,
      "loss": 1.2941,
      "step": 25250
    },
    {
      "epoch": 0.5611333333333334,
      "grad_norm": 1.6078704595565796,
      "learning_rate": 8.779284285396754e-05,
      "loss": 2.4519,
      "step": 25251
    },
    {
      "epoch": 0.5611555555555555,
      "grad_norm": 1.683768391609192,
      "learning_rate": 8.778839742164925e-05,
      "loss": 2.858,
      "step": 25252
    },
    {
      "epoch": 0.5611777777777778,
      "grad_norm": 1.5357310771942139,
      "learning_rate": 8.778395198933098e-05,
      "loss": 2.8118,
      "step": 25253
    },
    {
      "epoch": 0.5612,
      "grad_norm": 1.3293133974075317,
      "learning_rate": 8.777950655701267e-05,
      "loss": 2.5063,
      "step": 25254
    },
    {
      "epoch": 0.5612222222222222,
      "grad_norm": 1.4129914045333862,
      "learning_rate": 8.777506112469438e-05,
      "loss": 2.2103,
      "step": 25255
    },
    {
      "epoch": 0.5612444444444444,
      "grad_norm": 1.5258193016052246,
      "learning_rate": 8.777061569237609e-05,
      "loss": 1.8931,
      "step": 25256
    },
    {
      "epoch": 0.5612666666666667,
      "grad_norm": 1.6168725490570068,
      "learning_rate": 8.776617026005779e-05,
      "loss": 1.9514,
      "step": 25257
    },
    {
      "epoch": 0.5612888888888888,
      "grad_norm": 1.647147297859192,
      "learning_rate": 8.77617248277395e-05,
      "loss": 2.1524,
      "step": 25258
    },
    {
      "epoch": 0.5613111111111111,
      "grad_norm": 1.4901888370513916,
      "learning_rate": 8.775727939542121e-05,
      "loss": 1.8784,
      "step": 25259
    },
    {
      "epoch": 0.5613333333333334,
      "grad_norm": 1.7015953063964844,
      "learning_rate": 8.775283396310292e-05,
      "loss": 1.7413,
      "step": 25260
    },
    {
      "epoch": 0.5613555555555556,
      "grad_norm": 1.8106613159179688,
      "learning_rate": 8.774838853078463e-05,
      "loss": 2.456,
      "step": 25261
    },
    {
      "epoch": 0.5613777777777778,
      "grad_norm": 1.8653677701950073,
      "learning_rate": 8.774394309846634e-05,
      "loss": 1.8331,
      "step": 25262
    },
    {
      "epoch": 0.5614,
      "grad_norm": 1.485082983970642,
      "learning_rate": 8.773949766614805e-05,
      "loss": 1.9771,
      "step": 25263
    },
    {
      "epoch": 0.5614222222222223,
      "grad_norm": 1.6807743310928345,
      "learning_rate": 8.773505223382974e-05,
      "loss": 2.3118,
      "step": 25264
    },
    {
      "epoch": 0.5614444444444444,
      "grad_norm": 1.4277927875518799,
      "learning_rate": 8.773060680151145e-05,
      "loss": 1.6863,
      "step": 25265
    },
    {
      "epoch": 0.5614666666666667,
      "grad_norm": 1.5671919584274292,
      "learning_rate": 8.772616136919316e-05,
      "loss": 1.9608,
      "step": 25266
    },
    {
      "epoch": 0.5614888888888889,
      "grad_norm": 1.6028257608413696,
      "learning_rate": 8.772171593687486e-05,
      "loss": 1.6542,
      "step": 25267
    },
    {
      "epoch": 0.5615111111111111,
      "grad_norm": 1.4625035524368286,
      "learning_rate": 8.771727050455657e-05,
      "loss": 2.1563,
      "step": 25268
    },
    {
      "epoch": 0.5615333333333333,
      "grad_norm": 1.9192852973937988,
      "learning_rate": 8.771282507223828e-05,
      "loss": 1.7663,
      "step": 25269
    },
    {
      "epoch": 0.5615555555555556,
      "grad_norm": 1.596518635749817,
      "learning_rate": 8.770837963991999e-05,
      "loss": 1.8391,
      "step": 25270
    },
    {
      "epoch": 0.5615777777777777,
      "grad_norm": 1.869960904121399,
      "learning_rate": 8.77039342076017e-05,
      "loss": 1.8417,
      "step": 25271
    },
    {
      "epoch": 0.5616,
      "grad_norm": 1.4895312786102295,
      "learning_rate": 8.76994887752834e-05,
      "loss": 1.9274,
      "step": 25272
    },
    {
      "epoch": 0.5616222222222222,
      "grad_norm": 1.7752124071121216,
      "learning_rate": 8.769504334296511e-05,
      "loss": 2.0309,
      "step": 25273
    },
    {
      "epoch": 0.5616444444444444,
      "grad_norm": 1.4135031700134277,
      "learning_rate": 8.769059791064681e-05,
      "loss": 1.8481,
      "step": 25274
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 1.489335298538208,
      "learning_rate": 8.768615247832852e-05,
      "loss": 1.9864,
      "step": 25275
    },
    {
      "epoch": 0.5616888888888889,
      "grad_norm": 1.7148730754852295,
      "learning_rate": 8.768170704601023e-05,
      "loss": 2.2432,
      "step": 25276
    },
    {
      "epoch": 0.5617111111111112,
      "grad_norm": 1.6796962022781372,
      "learning_rate": 8.767726161369194e-05,
      "loss": 2.3246,
      "step": 25277
    },
    {
      "epoch": 0.5617333333333333,
      "grad_norm": 1.7491155862808228,
      "learning_rate": 8.767281618137364e-05,
      "loss": 1.9976,
      "step": 25278
    },
    {
      "epoch": 0.5617555555555556,
      "grad_norm": 1.6207523345947266,
      "learning_rate": 8.766837074905535e-05,
      "loss": 1.8278,
      "step": 25279
    },
    {
      "epoch": 0.5617777777777778,
      "grad_norm": 2.00871205329895,
      "learning_rate": 8.766392531673706e-05,
      "loss": 2.0722,
      "step": 25280
    },
    {
      "epoch": 0.5618,
      "grad_norm": 1.0934069156646729,
      "learning_rate": 8.765947988441876e-05,
      "loss": 0.9379,
      "step": 25281
    },
    {
      "epoch": 0.5618222222222222,
      "grad_norm": 1.9000760316848755,
      "learning_rate": 8.765503445210047e-05,
      "loss": 1.8411,
      "step": 25282
    },
    {
      "epoch": 0.5618444444444445,
      "grad_norm": 1.752655029296875,
      "learning_rate": 8.765058901978218e-05,
      "loss": 1.9778,
      "step": 25283
    },
    {
      "epoch": 0.5618666666666666,
      "grad_norm": 1.6022640466690063,
      "learning_rate": 8.764614358746388e-05,
      "loss": 1.6126,
      "step": 25284
    },
    {
      "epoch": 0.5618888888888889,
      "grad_norm": 1.6593174934387207,
      "learning_rate": 8.764169815514559e-05,
      "loss": 2.3195,
      "step": 25285
    },
    {
      "epoch": 0.5619111111111111,
      "grad_norm": 1.9099777936935425,
      "learning_rate": 8.76372527228273e-05,
      "loss": 2.2803,
      "step": 25286
    },
    {
      "epoch": 0.5619333333333333,
      "grad_norm": 1.6091148853302002,
      "learning_rate": 8.763280729050901e-05,
      "loss": 1.8329,
      "step": 25287
    },
    {
      "epoch": 0.5619555555555555,
      "grad_norm": 2.04919171333313,
      "learning_rate": 8.76283618581907e-05,
      "loss": 2.0668,
      "step": 25288
    },
    {
      "epoch": 0.5619777777777778,
      "grad_norm": 1.6717642545700073,
      "learning_rate": 8.762391642587241e-05,
      "loss": 1.7885,
      "step": 25289
    },
    {
      "epoch": 0.562,
      "grad_norm": 2.0663769245147705,
      "learning_rate": 8.761947099355414e-05,
      "loss": 2.1753,
      "step": 25290
    },
    {
      "epoch": 0.5620222222222222,
      "grad_norm": 1.6406569480895996,
      "learning_rate": 8.761502556123583e-05,
      "loss": 2.0932,
      "step": 25291
    },
    {
      "epoch": 0.5620444444444445,
      "grad_norm": 1.6592798233032227,
      "learning_rate": 8.761058012891754e-05,
      "loss": 1.8012,
      "step": 25292
    },
    {
      "epoch": 0.5620666666666667,
      "grad_norm": 1.3389942646026611,
      "learning_rate": 8.760613469659925e-05,
      "loss": 1.4157,
      "step": 25293
    },
    {
      "epoch": 0.5620888888888889,
      "grad_norm": 1.5179102420806885,
      "learning_rate": 8.760168926428095e-05,
      "loss": 1.7008,
      "step": 25294
    },
    {
      "epoch": 0.5621111111111111,
      "grad_norm": 2.3237197399139404,
      "learning_rate": 8.759724383196266e-05,
      "loss": 2.5221,
      "step": 25295
    },
    {
      "epoch": 0.5621333333333334,
      "grad_norm": 1.9417719841003418,
      "learning_rate": 8.759279839964437e-05,
      "loss": 1.0572,
      "step": 25296
    },
    {
      "epoch": 0.5621555555555555,
      "grad_norm": 1.9588453769683838,
      "learning_rate": 8.758835296732608e-05,
      "loss": 1.8536,
      "step": 25297
    },
    {
      "epoch": 0.5621777777777778,
      "grad_norm": 1.9292761087417603,
      "learning_rate": 8.758390753500779e-05,
      "loss": 1.6143,
      "step": 25298
    },
    {
      "epoch": 0.5622,
      "grad_norm": 1.8616777658462524,
      "learning_rate": 8.75794621026895e-05,
      "loss": 1.2399,
      "step": 25299
    },
    {
      "epoch": 0.5622222222222222,
      "grad_norm": 1.3126881122589111,
      "learning_rate": 8.757501667037121e-05,
      "loss": 0.8374,
      "step": 25300
    },
    {
      "epoch": 0.5622444444444444,
      "grad_norm": 1.904229998588562,
      "learning_rate": 8.75705712380529e-05,
      "loss": 2.7687,
      "step": 25301
    },
    {
      "epoch": 0.5622666666666667,
      "grad_norm": 1.7405216693878174,
      "learning_rate": 8.756612580573461e-05,
      "loss": 2.6446,
      "step": 25302
    },
    {
      "epoch": 0.5622888888888888,
      "grad_norm": 1.3169325590133667,
      "learning_rate": 8.756168037341632e-05,
      "loss": 1.3684,
      "step": 25303
    },
    {
      "epoch": 0.5623111111111111,
      "grad_norm": 1.3349109888076782,
      "learning_rate": 8.755723494109802e-05,
      "loss": 0.9687,
      "step": 25304
    },
    {
      "epoch": 0.5623333333333334,
      "grad_norm": 1.5008281469345093,
      "learning_rate": 8.755278950877973e-05,
      "loss": 2.0184,
      "step": 25305
    },
    {
      "epoch": 0.5623555555555556,
      "grad_norm": 1.422032356262207,
      "learning_rate": 8.754834407646144e-05,
      "loss": 2.0879,
      "step": 25306
    },
    {
      "epoch": 0.5623777777777778,
      "grad_norm": 1.5428098440170288,
      "learning_rate": 8.754389864414315e-05,
      "loss": 2.2109,
      "step": 25307
    },
    {
      "epoch": 0.5624,
      "grad_norm": 1.5082614421844482,
      "learning_rate": 8.753945321182486e-05,
      "loss": 1.8282,
      "step": 25308
    },
    {
      "epoch": 0.5624222222222223,
      "grad_norm": 1.5564109086990356,
      "learning_rate": 8.753500777950657e-05,
      "loss": 2.2583,
      "step": 25309
    },
    {
      "epoch": 0.5624444444444444,
      "grad_norm": 1.4597630500793457,
      "learning_rate": 8.753056234718828e-05,
      "loss": 1.7068,
      "step": 25310
    },
    {
      "epoch": 0.5624666666666667,
      "grad_norm": 1.603948950767517,
      "learning_rate": 8.752611691486997e-05,
      "loss": 2.1259,
      "step": 25311
    },
    {
      "epoch": 0.5624888888888889,
      "grad_norm": 1.4440677165985107,
      "learning_rate": 8.752167148255168e-05,
      "loss": 1.6405,
      "step": 25312
    },
    {
      "epoch": 0.5625111111111111,
      "grad_norm": 0.9187580943107605,
      "learning_rate": 8.751722605023339e-05,
      "loss": 0.5134,
      "step": 25313
    },
    {
      "epoch": 0.5625333333333333,
      "grad_norm": 1.7306079864501953,
      "learning_rate": 8.751278061791509e-05,
      "loss": 1.9311,
      "step": 25314
    },
    {
      "epoch": 0.5625555555555556,
      "grad_norm": 1.932061791419983,
      "learning_rate": 8.75083351855968e-05,
      "loss": 2.4453,
      "step": 25315
    },
    {
      "epoch": 0.5625777777777777,
      "grad_norm": 1.70633065700531,
      "learning_rate": 8.75038897532785e-05,
      "loss": 2.3742,
      "step": 25316
    },
    {
      "epoch": 0.5626,
      "grad_norm": 1.711786150932312,
      "learning_rate": 8.749944432096022e-05,
      "loss": 1.9739,
      "step": 25317
    },
    {
      "epoch": 0.5626222222222222,
      "grad_norm": 1.4621399641036987,
      "learning_rate": 8.749499888864193e-05,
      "loss": 1.5956,
      "step": 25318
    },
    {
      "epoch": 0.5626444444444444,
      "grad_norm": 1.4943276643753052,
      "learning_rate": 8.749055345632364e-05,
      "loss": 1.9649,
      "step": 25319
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 2.1974916458129883,
      "learning_rate": 8.748610802400535e-05,
      "loss": 2.1227,
      "step": 25320
    },
    {
      "epoch": 0.5626888888888889,
      "grad_norm": 1.8154371976852417,
      "learning_rate": 8.748166259168704e-05,
      "loss": 2.022,
      "step": 25321
    },
    {
      "epoch": 0.5627111111111112,
      "grad_norm": 2.9448294639587402,
      "learning_rate": 8.747721715936875e-05,
      "loss": 2.1413,
      "step": 25322
    },
    {
      "epoch": 0.5627333333333333,
      "grad_norm": 1.6197272539138794,
      "learning_rate": 8.747277172705046e-05,
      "loss": 1.4278,
      "step": 25323
    },
    {
      "epoch": 0.5627555555555556,
      "grad_norm": 1.4971791505813599,
      "learning_rate": 8.746832629473217e-05,
      "loss": 2.0016,
      "step": 25324
    },
    {
      "epoch": 0.5627777777777778,
      "grad_norm": 1.629438042640686,
      "learning_rate": 8.746388086241387e-05,
      "loss": 1.9129,
      "step": 25325
    },
    {
      "epoch": 0.5628,
      "grad_norm": 1.8357394933700562,
      "learning_rate": 8.745943543009558e-05,
      "loss": 2.146,
      "step": 25326
    },
    {
      "epoch": 0.5628222222222222,
      "grad_norm": 2.109930992126465,
      "learning_rate": 8.74549899977773e-05,
      "loss": 2.1673,
      "step": 25327
    },
    {
      "epoch": 0.5628444444444445,
      "grad_norm": 1.9761508703231812,
      "learning_rate": 8.7450544565459e-05,
      "loss": 1.6631,
      "step": 25328
    },
    {
      "epoch": 0.5628666666666666,
      "grad_norm": 2.0955917835235596,
      "learning_rate": 8.74460991331407e-05,
      "loss": 1.9176,
      "step": 25329
    },
    {
      "epoch": 0.5628888888888889,
      "grad_norm": 1.5698069334030151,
      "learning_rate": 8.744165370082241e-05,
      "loss": 1.761,
      "step": 25330
    },
    {
      "epoch": 0.5629111111111111,
      "grad_norm": 1.6463110446929932,
      "learning_rate": 8.743720826850411e-05,
      "loss": 1.8677,
      "step": 25331
    },
    {
      "epoch": 0.5629333333333333,
      "grad_norm": 1.896437406539917,
      "learning_rate": 8.743276283618582e-05,
      "loss": 2.139,
      "step": 25332
    },
    {
      "epoch": 0.5629555555555555,
      "grad_norm": 1.5840256214141846,
      "learning_rate": 8.742831740386753e-05,
      "loss": 1.9418,
      "step": 25333
    },
    {
      "epoch": 0.5629777777777778,
      "grad_norm": 1.5916732549667358,
      "learning_rate": 8.742387197154924e-05,
      "loss": 1.9866,
      "step": 25334
    },
    {
      "epoch": 0.563,
      "grad_norm": 1.9358857870101929,
      "learning_rate": 8.741942653923095e-05,
      "loss": 1.913,
      "step": 25335
    },
    {
      "epoch": 0.5630222222222222,
      "grad_norm": 1.5716407299041748,
      "learning_rate": 8.741498110691266e-05,
      "loss": 1.6528,
      "step": 25336
    },
    {
      "epoch": 0.5630444444444445,
      "grad_norm": 1.7800015211105347,
      "learning_rate": 8.741053567459437e-05,
      "loss": 2.1893,
      "step": 25337
    },
    {
      "epoch": 0.5630666666666667,
      "grad_norm": 1.4720046520233154,
      "learning_rate": 8.740609024227606e-05,
      "loss": 1.8069,
      "step": 25338
    },
    {
      "epoch": 0.5630888888888889,
      "grad_norm": 2.0705015659332275,
      "learning_rate": 8.740164480995777e-05,
      "loss": 2.1206,
      "step": 25339
    },
    {
      "epoch": 0.5631111111111111,
      "grad_norm": 1.7749475240707397,
      "learning_rate": 8.739719937763948e-05,
      "loss": 1.988,
      "step": 25340
    },
    {
      "epoch": 0.5631333333333334,
      "grad_norm": 1.589619517326355,
      "learning_rate": 8.739275394532118e-05,
      "loss": 1.2761,
      "step": 25341
    },
    {
      "epoch": 0.5631555555555555,
      "grad_norm": 2.2986977100372314,
      "learning_rate": 8.738830851300289e-05,
      "loss": 2.5454,
      "step": 25342
    },
    {
      "epoch": 0.5631777777777778,
      "grad_norm": 1.552807331085205,
      "learning_rate": 8.73838630806846e-05,
      "loss": 1.3278,
      "step": 25343
    },
    {
      "epoch": 0.5632,
      "grad_norm": 1.748751163482666,
      "learning_rate": 8.737941764836631e-05,
      "loss": 2.0745,
      "step": 25344
    },
    {
      "epoch": 0.5632222222222222,
      "grad_norm": 1.6754921674728394,
      "learning_rate": 8.737497221604802e-05,
      "loss": 1.5605,
      "step": 25345
    },
    {
      "epoch": 0.5632444444444444,
      "grad_norm": 1.5707887411117554,
      "learning_rate": 8.737052678372973e-05,
      "loss": 1.4676,
      "step": 25346
    },
    {
      "epoch": 0.5632666666666667,
      "grad_norm": 1.522444486618042,
      "learning_rate": 8.736608135141144e-05,
      "loss": 1.5384,
      "step": 25347
    },
    {
      "epoch": 0.5632888888888888,
      "grad_norm": 1.6658782958984375,
      "learning_rate": 8.736163591909313e-05,
      "loss": 1.5798,
      "step": 25348
    },
    {
      "epoch": 0.5633111111111111,
      "grad_norm": 1.4224662780761719,
      "learning_rate": 8.735719048677484e-05,
      "loss": 1.1295,
      "step": 25349
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 1.9147154092788696,
      "learning_rate": 8.735274505445655e-05,
      "loss": 1.8996,
      "step": 25350
    },
    {
      "epoch": 0.5633555555555556,
      "grad_norm": 1.0534144639968872,
      "learning_rate": 8.734829962213825e-05,
      "loss": 1.1374,
      "step": 25351
    },
    {
      "epoch": 0.5633777777777778,
      "grad_norm": 1.0356683731079102,
      "learning_rate": 8.734385418981996e-05,
      "loss": 0.9505,
      "step": 25352
    },
    {
      "epoch": 0.5634,
      "grad_norm": 1.3017328977584839,
      "learning_rate": 8.733940875750167e-05,
      "loss": 2.0527,
      "step": 25353
    },
    {
      "epoch": 0.5634222222222223,
      "grad_norm": 1.7526426315307617,
      "learning_rate": 8.733496332518338e-05,
      "loss": 2.1973,
      "step": 25354
    },
    {
      "epoch": 0.5634444444444444,
      "grad_norm": 1.5464191436767578,
      "learning_rate": 8.733051789286509e-05,
      "loss": 2.1379,
      "step": 25355
    },
    {
      "epoch": 0.5634666666666667,
      "grad_norm": 1.9003633260726929,
      "learning_rate": 8.73260724605468e-05,
      "loss": 2.214,
      "step": 25356
    },
    {
      "epoch": 0.5634888888888889,
      "grad_norm": 1.7008228302001953,
      "learning_rate": 8.73216270282285e-05,
      "loss": 2.2851,
      "step": 25357
    },
    {
      "epoch": 0.5635111111111111,
      "grad_norm": 1.871749997138977,
      "learning_rate": 8.73171815959102e-05,
      "loss": 2.1141,
      "step": 25358
    },
    {
      "epoch": 0.5635333333333333,
      "grad_norm": 1.8267793655395508,
      "learning_rate": 8.731273616359191e-05,
      "loss": 2.3976,
      "step": 25359
    },
    {
      "epoch": 0.5635555555555556,
      "grad_norm": 1.6229313611984253,
      "learning_rate": 8.730829073127362e-05,
      "loss": 2.0573,
      "step": 25360
    },
    {
      "epoch": 0.5635777777777777,
      "grad_norm": 1.5267568826675415,
      "learning_rate": 8.730384529895532e-05,
      "loss": 1.8809,
      "step": 25361
    },
    {
      "epoch": 0.5636,
      "grad_norm": 2.0085060596466064,
      "learning_rate": 8.729939986663703e-05,
      "loss": 2.2086,
      "step": 25362
    },
    {
      "epoch": 0.5636222222222222,
      "grad_norm": 1.1693706512451172,
      "learning_rate": 8.729495443431874e-05,
      "loss": 1.1021,
      "step": 25363
    },
    {
      "epoch": 0.5636444444444444,
      "grad_norm": 1.5982754230499268,
      "learning_rate": 8.729050900200046e-05,
      "loss": 1.9899,
      "step": 25364
    },
    {
      "epoch": 0.5636666666666666,
      "grad_norm": 1.4585381746292114,
      "learning_rate": 8.728606356968216e-05,
      "loss": 1.9564,
      "step": 25365
    },
    {
      "epoch": 0.5636888888888889,
      "grad_norm": 1.5413857698440552,
      "learning_rate": 8.728161813736387e-05,
      "loss": 2.1478,
      "step": 25366
    },
    {
      "epoch": 0.5637111111111112,
      "grad_norm": 1.5745688676834106,
      "learning_rate": 8.727717270504558e-05,
      "loss": 1.9242,
      "step": 25367
    },
    {
      "epoch": 0.5637333333333333,
      "grad_norm": 1.760370135307312,
      "learning_rate": 8.727272727272727e-05,
      "loss": 1.9975,
      "step": 25368
    },
    {
      "epoch": 0.5637555555555556,
      "grad_norm": 1.6587774753570557,
      "learning_rate": 8.726828184040898e-05,
      "loss": 2.0057,
      "step": 25369
    },
    {
      "epoch": 0.5637777777777778,
      "grad_norm": 1.70685613155365,
      "learning_rate": 8.726383640809069e-05,
      "loss": 1.92,
      "step": 25370
    },
    {
      "epoch": 0.5638,
      "grad_norm": 1.9009977579116821,
      "learning_rate": 8.725939097577239e-05,
      "loss": 1.9608,
      "step": 25371
    },
    {
      "epoch": 0.5638222222222222,
      "grad_norm": 1.8968544006347656,
      "learning_rate": 8.725494554345411e-05,
      "loss": 1.8163,
      "step": 25372
    },
    {
      "epoch": 0.5638444444444445,
      "grad_norm": 1.626792311668396,
      "learning_rate": 8.725050011113582e-05,
      "loss": 2.1957,
      "step": 25373
    },
    {
      "epoch": 0.5638666666666666,
      "grad_norm": 1.4381468296051025,
      "learning_rate": 8.724605467881753e-05,
      "loss": 1.5413,
      "step": 25374
    },
    {
      "epoch": 0.5638888888888889,
      "grad_norm": 2.1948907375335693,
      "learning_rate": 8.724160924649923e-05,
      "loss": 2.0981,
      "step": 25375
    },
    {
      "epoch": 0.5639111111111111,
      "grad_norm": 1.748815894126892,
      "learning_rate": 8.723716381418093e-05,
      "loss": 2.2593,
      "step": 25376
    },
    {
      "epoch": 0.5639333333333333,
      "grad_norm": 1.7379071712493896,
      "learning_rate": 8.723271838186264e-05,
      "loss": 2.4922,
      "step": 25377
    },
    {
      "epoch": 0.5639555555555555,
      "grad_norm": 1.5309514999389648,
      "learning_rate": 8.722827294954434e-05,
      "loss": 1.9083,
      "step": 25378
    },
    {
      "epoch": 0.5639777777777778,
      "grad_norm": 1.3660348653793335,
      "learning_rate": 8.722382751722605e-05,
      "loss": 0.8973,
      "step": 25379
    },
    {
      "epoch": 0.564,
      "grad_norm": 1.711879849433899,
      "learning_rate": 8.721938208490776e-05,
      "loss": 1.8977,
      "step": 25380
    },
    {
      "epoch": 0.5640222222222222,
      "grad_norm": 1.8451247215270996,
      "learning_rate": 8.721493665258947e-05,
      "loss": 2.0085,
      "step": 25381
    },
    {
      "epoch": 0.5640444444444445,
      "grad_norm": 1.7080289125442505,
      "learning_rate": 8.721049122027118e-05,
      "loss": 2.0674,
      "step": 25382
    },
    {
      "epoch": 0.5640666666666667,
      "grad_norm": 1.6591728925704956,
      "learning_rate": 8.720604578795289e-05,
      "loss": 1.9249,
      "step": 25383
    },
    {
      "epoch": 0.5640888888888889,
      "grad_norm": 1.966254711151123,
      "learning_rate": 8.72016003556346e-05,
      "loss": 1.6539,
      "step": 25384
    },
    {
      "epoch": 0.5641111111111111,
      "grad_norm": 1.779379963874817,
      "learning_rate": 8.71971549233163e-05,
      "loss": 2.3801,
      "step": 25385
    },
    {
      "epoch": 0.5641333333333334,
      "grad_norm": 1.5594086647033691,
      "learning_rate": 8.7192709490998e-05,
      "loss": 1.9107,
      "step": 25386
    },
    {
      "epoch": 0.5641555555555555,
      "grad_norm": 2.0875155925750732,
      "learning_rate": 8.718826405867971e-05,
      "loss": 2.1634,
      "step": 25387
    },
    {
      "epoch": 0.5641777777777778,
      "grad_norm": 1.5301467180252075,
      "learning_rate": 8.718381862636141e-05,
      "loss": 1.6208,
      "step": 25388
    },
    {
      "epoch": 0.5642,
      "grad_norm": 1.5342662334442139,
      "learning_rate": 8.717937319404312e-05,
      "loss": 1.7199,
      "step": 25389
    },
    {
      "epoch": 0.5642222222222222,
      "grad_norm": 1.5771845579147339,
      "learning_rate": 8.717492776172483e-05,
      "loss": 1.8793,
      "step": 25390
    },
    {
      "epoch": 0.5642444444444444,
      "grad_norm": 1.7096185684204102,
      "learning_rate": 8.717048232940654e-05,
      "loss": 1.5729,
      "step": 25391
    },
    {
      "epoch": 0.5642666666666667,
      "grad_norm": 1.581945538520813,
      "learning_rate": 8.716603689708825e-05,
      "loss": 1.6892,
      "step": 25392
    },
    {
      "epoch": 0.5642888888888888,
      "grad_norm": 1.7134122848510742,
      "learning_rate": 8.716159146476996e-05,
      "loss": 1.5713,
      "step": 25393
    },
    {
      "epoch": 0.5643111111111111,
      "grad_norm": 1.9367319345474243,
      "learning_rate": 8.715714603245167e-05,
      "loss": 1.9274,
      "step": 25394
    },
    {
      "epoch": 0.5643333333333334,
      "grad_norm": 1.7920246124267578,
      "learning_rate": 8.715270060013336e-05,
      "loss": 1.7583,
      "step": 25395
    },
    {
      "epoch": 0.5643555555555556,
      "grad_norm": 1.793280839920044,
      "learning_rate": 8.714825516781507e-05,
      "loss": 1.9587,
      "step": 25396
    },
    {
      "epoch": 0.5643777777777778,
      "grad_norm": 1.8033382892608643,
      "learning_rate": 8.714380973549678e-05,
      "loss": 1.6978,
      "step": 25397
    },
    {
      "epoch": 0.5644,
      "grad_norm": 1.66734778881073,
      "learning_rate": 8.713936430317848e-05,
      "loss": 1.7054,
      "step": 25398
    },
    {
      "epoch": 0.5644222222222223,
      "grad_norm": 1.5701909065246582,
      "learning_rate": 8.713491887086019e-05,
      "loss": 1.5448,
      "step": 25399
    },
    {
      "epoch": 0.5644444444444444,
      "grad_norm": 1.4017804861068726,
      "learning_rate": 8.71304734385419e-05,
      "loss": 0.9378,
      "step": 25400
    },
    {
      "epoch": 0.5644666666666667,
      "grad_norm": 1.4009686708450317,
      "learning_rate": 8.712602800622362e-05,
      "loss": 2.3716,
      "step": 25401
    },
    {
      "epoch": 0.5644888888888889,
      "grad_norm": 1.7983325719833374,
      "learning_rate": 8.712158257390532e-05,
      "loss": 2.7815,
      "step": 25402
    },
    {
      "epoch": 0.5645111111111111,
      "grad_norm": 1.7624199390411377,
      "learning_rate": 8.711713714158703e-05,
      "loss": 1.9048,
      "step": 25403
    },
    {
      "epoch": 0.5645333333333333,
      "grad_norm": 1.4177815914154053,
      "learning_rate": 8.711269170926874e-05,
      "loss": 2.0578,
      "step": 25404
    },
    {
      "epoch": 0.5645555555555556,
      "grad_norm": 1.2785425186157227,
      "learning_rate": 8.710824627695043e-05,
      "loss": 1.5198,
      "step": 25405
    },
    {
      "epoch": 0.5645777777777777,
      "grad_norm": 1.5148561000823975,
      "learning_rate": 8.710380084463214e-05,
      "loss": 2.316,
      "step": 25406
    },
    {
      "epoch": 0.5646,
      "grad_norm": 1.6512395143508911,
      "learning_rate": 8.709935541231385e-05,
      "loss": 2.118,
      "step": 25407
    },
    {
      "epoch": 0.5646222222222222,
      "grad_norm": 1.554484248161316,
      "learning_rate": 8.709490997999555e-05,
      "loss": 2.4742,
      "step": 25408
    },
    {
      "epoch": 0.5646444444444444,
      "grad_norm": 1.5429123640060425,
      "learning_rate": 8.709046454767727e-05,
      "loss": 2.1788,
      "step": 25409
    },
    {
      "epoch": 0.5646666666666667,
      "grad_norm": 1.8350896835327148,
      "learning_rate": 8.708601911535898e-05,
      "loss": 2.4694,
      "step": 25410
    },
    {
      "epoch": 0.5646888888888889,
      "grad_norm": 1.7665791511535645,
      "learning_rate": 8.708157368304069e-05,
      "loss": 2.2558,
      "step": 25411
    },
    {
      "epoch": 0.5647111111111112,
      "grad_norm": 1.6597291231155396,
      "learning_rate": 8.707712825072239e-05,
      "loss": 2.2376,
      "step": 25412
    },
    {
      "epoch": 0.5647333333333333,
      "grad_norm": 1.2979716062545776,
      "learning_rate": 8.70726828184041e-05,
      "loss": 1.1761,
      "step": 25413
    },
    {
      "epoch": 0.5647555555555556,
      "grad_norm": 1.4011353254318237,
      "learning_rate": 8.70682373860858e-05,
      "loss": 1.821,
      "step": 25414
    },
    {
      "epoch": 0.5647777777777778,
      "grad_norm": 1.4270352125167847,
      "learning_rate": 8.70637919537675e-05,
      "loss": 1.8507,
      "step": 25415
    },
    {
      "epoch": 0.5648,
      "grad_norm": 1.5780997276306152,
      "learning_rate": 8.705934652144921e-05,
      "loss": 1.836,
      "step": 25416
    },
    {
      "epoch": 0.5648222222222222,
      "grad_norm": 1.5082387924194336,
      "learning_rate": 8.705490108913092e-05,
      "loss": 2.2373,
      "step": 25417
    },
    {
      "epoch": 0.5648444444444445,
      "grad_norm": 1.6113547086715698,
      "learning_rate": 8.705045565681263e-05,
      "loss": 1.6091,
      "step": 25418
    },
    {
      "epoch": 0.5648666666666666,
      "grad_norm": 1.0369369983673096,
      "learning_rate": 8.704601022449434e-05,
      "loss": 0.5911,
      "step": 25419
    },
    {
      "epoch": 0.5648888888888889,
      "grad_norm": 1.4776184558868408,
      "learning_rate": 8.704156479217605e-05,
      "loss": 1.1912,
      "step": 25420
    },
    {
      "epoch": 0.5649111111111111,
      "grad_norm": 1.6801823377609253,
      "learning_rate": 8.703711935985776e-05,
      "loss": 2.1828,
      "step": 25421
    },
    {
      "epoch": 0.5649333333333333,
      "grad_norm": 1.4651553630828857,
      "learning_rate": 8.703267392753946e-05,
      "loss": 1.4728,
      "step": 25422
    },
    {
      "epoch": 0.5649555555555555,
      "grad_norm": 1.9302335977554321,
      "learning_rate": 8.702822849522116e-05,
      "loss": 2.0986,
      "step": 25423
    },
    {
      "epoch": 0.5649777777777778,
      "grad_norm": 1.7884409427642822,
      "learning_rate": 8.702378306290287e-05,
      "loss": 2.0985,
      "step": 25424
    },
    {
      "epoch": 0.565,
      "grad_norm": 1.600262999534607,
      "learning_rate": 8.701933763058457e-05,
      "loss": 2.1894,
      "step": 25425
    },
    {
      "epoch": 0.5650222222222222,
      "grad_norm": 2.0447311401367188,
      "learning_rate": 8.701489219826628e-05,
      "loss": 2.156,
      "step": 25426
    },
    {
      "epoch": 0.5650444444444445,
      "grad_norm": 1.5858628749847412,
      "learning_rate": 8.701044676594799e-05,
      "loss": 1.6714,
      "step": 25427
    },
    {
      "epoch": 0.5650666666666667,
      "grad_norm": 1.7606112957000732,
      "learning_rate": 8.70060013336297e-05,
      "loss": 1.4105,
      "step": 25428
    },
    {
      "epoch": 0.5650888888888889,
      "grad_norm": 1.3921977281570435,
      "learning_rate": 8.700155590131141e-05,
      "loss": 1.7857,
      "step": 25429
    },
    {
      "epoch": 0.5651111111111111,
      "grad_norm": 1.7770886421203613,
      "learning_rate": 8.699711046899312e-05,
      "loss": 1.7963,
      "step": 25430
    },
    {
      "epoch": 0.5651333333333334,
      "grad_norm": 1.8601276874542236,
      "learning_rate": 8.699266503667483e-05,
      "loss": 2.1159,
      "step": 25431
    },
    {
      "epoch": 0.5651555555555555,
      "grad_norm": 1.8692203760147095,
      "learning_rate": 8.698821960435652e-05,
      "loss": 1.8525,
      "step": 25432
    },
    {
      "epoch": 0.5651777777777778,
      "grad_norm": 1.6445821523666382,
      "learning_rate": 8.698377417203823e-05,
      "loss": 0.6555,
      "step": 25433
    },
    {
      "epoch": 0.5652,
      "grad_norm": 1.7919769287109375,
      "learning_rate": 8.697932873971994e-05,
      "loss": 2.061,
      "step": 25434
    },
    {
      "epoch": 0.5652222222222222,
      "grad_norm": 2.170060396194458,
      "learning_rate": 8.697488330740164e-05,
      "loss": 2.4497,
      "step": 25435
    },
    {
      "epoch": 0.5652444444444444,
      "grad_norm": 1.3361024856567383,
      "learning_rate": 8.697043787508335e-05,
      "loss": 1.0493,
      "step": 25436
    },
    {
      "epoch": 0.5652666666666667,
      "grad_norm": 1.9073244333267212,
      "learning_rate": 8.696599244276506e-05,
      "loss": 2.2122,
      "step": 25437
    },
    {
      "epoch": 0.5652888888888888,
      "grad_norm": 1.7902787923812866,
      "learning_rate": 8.696154701044678e-05,
      "loss": 1.9999,
      "step": 25438
    },
    {
      "epoch": 0.5653111111111111,
      "grad_norm": 2.0787904262542725,
      "learning_rate": 8.695710157812848e-05,
      "loss": 2.064,
      "step": 25439
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 1.44843327999115,
      "learning_rate": 8.695265614581019e-05,
      "loss": 1.5858,
      "step": 25440
    },
    {
      "epoch": 0.5653555555555555,
      "grad_norm": 1.5655252933502197,
      "learning_rate": 8.69482107134919e-05,
      "loss": 1.8586,
      "step": 25441
    },
    {
      "epoch": 0.5653777777777778,
      "grad_norm": 1.646780014038086,
      "learning_rate": 8.69437652811736e-05,
      "loss": 1.7439,
      "step": 25442
    },
    {
      "epoch": 0.5654,
      "grad_norm": 1.7771084308624268,
      "learning_rate": 8.69393198488553e-05,
      "loss": 1.6262,
      "step": 25443
    },
    {
      "epoch": 0.5654222222222223,
      "grad_norm": 1.6789112091064453,
      "learning_rate": 8.693487441653701e-05,
      "loss": 1.8269,
      "step": 25444
    },
    {
      "epoch": 0.5654444444444444,
      "grad_norm": 2.0198254585266113,
      "learning_rate": 8.693042898421871e-05,
      "loss": 1.6695,
      "step": 25445
    },
    {
      "epoch": 0.5654666666666667,
      "grad_norm": 1.8060046434402466,
      "learning_rate": 8.692598355190043e-05,
      "loss": 1.9623,
      "step": 25446
    },
    {
      "epoch": 0.5654888888888889,
      "grad_norm": 1.9680043458938599,
      "learning_rate": 8.692153811958214e-05,
      "loss": 1.9075,
      "step": 25447
    },
    {
      "epoch": 0.5655111111111111,
      "grad_norm": 1.6656614542007446,
      "learning_rate": 8.691709268726385e-05,
      "loss": 1.648,
      "step": 25448
    },
    {
      "epoch": 0.5655333333333333,
      "grad_norm": 1.683111548423767,
      "learning_rate": 8.691264725494555e-05,
      "loss": 1.0773,
      "step": 25449
    },
    {
      "epoch": 0.5655555555555556,
      "grad_norm": 1.7862014770507812,
      "learning_rate": 8.690820182262726e-05,
      "loss": 1.8669,
      "step": 25450
    },
    {
      "epoch": 0.5655777777777777,
      "grad_norm": 1.6154983043670654,
      "learning_rate": 8.690375639030897e-05,
      "loss": 1.9956,
      "step": 25451
    },
    {
      "epoch": 0.5656,
      "grad_norm": 1.482670783996582,
      "learning_rate": 8.689931095799066e-05,
      "loss": 2.263,
      "step": 25452
    },
    {
      "epoch": 0.5656222222222222,
      "grad_norm": 1.6822906732559204,
      "learning_rate": 8.689486552567237e-05,
      "loss": 0.0431,
      "step": 25453
    },
    {
      "epoch": 0.5656444444444444,
      "grad_norm": 1.6634759902954102,
      "learning_rate": 8.689042009335408e-05,
      "loss": 2.292,
      "step": 25454
    },
    {
      "epoch": 0.5656666666666667,
      "grad_norm": 1.638785481452942,
      "learning_rate": 8.688597466103579e-05,
      "loss": 2.1165,
      "step": 25455
    },
    {
      "epoch": 0.5656888888888889,
      "grad_norm": 1.6883729696273804,
      "learning_rate": 8.68815292287175e-05,
      "loss": 2.2838,
      "step": 25456
    },
    {
      "epoch": 0.5657111111111112,
      "grad_norm": 1.673374056816101,
      "learning_rate": 8.687708379639921e-05,
      "loss": 2.4126,
      "step": 25457
    },
    {
      "epoch": 0.5657333333333333,
      "grad_norm": 1.664180040359497,
      "learning_rate": 8.687263836408092e-05,
      "loss": 2.2606,
      "step": 25458
    },
    {
      "epoch": 0.5657555555555556,
      "grad_norm": 1.4526246786117554,
      "learning_rate": 8.686819293176262e-05,
      "loss": 2.0279,
      "step": 25459
    },
    {
      "epoch": 0.5657777777777778,
      "grad_norm": 1.7229489088058472,
      "learning_rate": 8.686374749944433e-05,
      "loss": 2.5118,
      "step": 25460
    },
    {
      "epoch": 0.5658,
      "grad_norm": 1.9437999725341797,
      "learning_rate": 8.685930206712604e-05,
      "loss": 2.7655,
      "step": 25461
    },
    {
      "epoch": 0.5658222222222222,
      "grad_norm": 1.7487212419509888,
      "learning_rate": 8.685485663480773e-05,
      "loss": 2.2664,
      "step": 25462
    },
    {
      "epoch": 0.5658444444444445,
      "grad_norm": 1.682439923286438,
      "learning_rate": 8.685041120248944e-05,
      "loss": 2.0246,
      "step": 25463
    },
    {
      "epoch": 0.5658666666666666,
      "grad_norm": 1.7988824844360352,
      "learning_rate": 8.684596577017115e-05,
      "loss": 2.1121,
      "step": 25464
    },
    {
      "epoch": 0.5658888888888889,
      "grad_norm": 1.8382154703140259,
      "learning_rate": 8.684152033785286e-05,
      "loss": 2.0848,
      "step": 25465
    },
    {
      "epoch": 0.5659111111111111,
      "grad_norm": 1.9211585521697998,
      "learning_rate": 8.683707490553457e-05,
      "loss": 2.1939,
      "step": 25466
    },
    {
      "epoch": 0.5659333333333333,
      "grad_norm": 1.4006104469299316,
      "learning_rate": 8.683262947321628e-05,
      "loss": 1.895,
      "step": 25467
    },
    {
      "epoch": 0.5659555555555555,
      "grad_norm": 1.5469164848327637,
      "learning_rate": 8.682818404089799e-05,
      "loss": 2.3618,
      "step": 25468
    },
    {
      "epoch": 0.5659777777777778,
      "grad_norm": 1.4230570793151855,
      "learning_rate": 8.682373860857969e-05,
      "loss": 1.7998,
      "step": 25469
    },
    {
      "epoch": 0.566,
      "grad_norm": 1.1125915050506592,
      "learning_rate": 8.68192931762614e-05,
      "loss": 0.9492,
      "step": 25470
    },
    {
      "epoch": 0.5660222222222222,
      "grad_norm": 1.9148786067962646,
      "learning_rate": 8.68148477439431e-05,
      "loss": 1.5855,
      "step": 25471
    },
    {
      "epoch": 0.5660444444444445,
      "grad_norm": 1.9745311737060547,
      "learning_rate": 8.68104023116248e-05,
      "loss": 2.2945,
      "step": 25472
    },
    {
      "epoch": 0.5660666666666667,
      "grad_norm": 1.7374578714370728,
      "learning_rate": 8.680595687930651e-05,
      "loss": 2.0763,
      "step": 25473
    },
    {
      "epoch": 0.5660888888888889,
      "grad_norm": 1.493938684463501,
      "learning_rate": 8.680151144698822e-05,
      "loss": 2.2095,
      "step": 25474
    },
    {
      "epoch": 0.5661111111111111,
      "grad_norm": 1.388858675956726,
      "learning_rate": 8.679706601466993e-05,
      "loss": 1.9734,
      "step": 25475
    },
    {
      "epoch": 0.5661333333333334,
      "grad_norm": 1.6583508253097534,
      "learning_rate": 8.679262058235164e-05,
      "loss": 2.0741,
      "step": 25476
    },
    {
      "epoch": 0.5661555555555555,
      "grad_norm": 1.6548030376434326,
      "learning_rate": 8.678817515003335e-05,
      "loss": 2.3124,
      "step": 25477
    },
    {
      "epoch": 0.5661777777777778,
      "grad_norm": 1.4862264394760132,
      "learning_rate": 8.678372971771506e-05,
      "loss": 1.6101,
      "step": 25478
    },
    {
      "epoch": 0.5662,
      "grad_norm": 1.6298364400863647,
      "learning_rate": 8.677928428539675e-05,
      "loss": 1.9753,
      "step": 25479
    },
    {
      "epoch": 0.5662222222222222,
      "grad_norm": 1.9583399295806885,
      "learning_rate": 8.677483885307846e-05,
      "loss": 1.9028,
      "step": 25480
    },
    {
      "epoch": 0.5662444444444444,
      "grad_norm": 1.9671558141708374,
      "learning_rate": 8.677039342076017e-05,
      "loss": 2.0369,
      "step": 25481
    },
    {
      "epoch": 0.5662666666666667,
      "grad_norm": 1.336354374885559,
      "learning_rate": 8.676594798844187e-05,
      "loss": 1.4759,
      "step": 25482
    },
    {
      "epoch": 0.5662888888888888,
      "grad_norm": 1.658531665802002,
      "learning_rate": 8.676150255612359e-05,
      "loss": 2.0151,
      "step": 25483
    },
    {
      "epoch": 0.5663111111111111,
      "grad_norm": 1.5404964685440063,
      "learning_rate": 8.67570571238053e-05,
      "loss": 2.1178,
      "step": 25484
    },
    {
      "epoch": 0.5663333333333334,
      "grad_norm": 1.5054473876953125,
      "learning_rate": 8.6752611691487e-05,
      "loss": 1.8238,
      "step": 25485
    },
    {
      "epoch": 0.5663555555555555,
      "grad_norm": 1.724499225616455,
      "learning_rate": 8.674816625916871e-05,
      "loss": 1.7396,
      "step": 25486
    },
    {
      "epoch": 0.5663777777777778,
      "grad_norm": 1.8233646154403687,
      "learning_rate": 8.674372082685042e-05,
      "loss": 1.731,
      "step": 25487
    },
    {
      "epoch": 0.5664,
      "grad_norm": 1.9924031496047974,
      "learning_rate": 8.673927539453213e-05,
      "loss": 1.9948,
      "step": 25488
    },
    {
      "epoch": 0.5664222222222223,
      "grad_norm": 1.707899808883667,
      "learning_rate": 8.673482996221382e-05,
      "loss": 2.2374,
      "step": 25489
    },
    {
      "epoch": 0.5664444444444444,
      "grad_norm": 2.0084919929504395,
      "learning_rate": 8.673038452989553e-05,
      "loss": 2.199,
      "step": 25490
    },
    {
      "epoch": 0.5664666666666667,
      "grad_norm": 1.6072585582733154,
      "learning_rate": 8.672593909757724e-05,
      "loss": 1.6715,
      "step": 25491
    },
    {
      "epoch": 0.5664888888888889,
      "grad_norm": 1.8686779737472534,
      "learning_rate": 8.672149366525895e-05,
      "loss": 1.6971,
      "step": 25492
    },
    {
      "epoch": 0.5665111111111111,
      "grad_norm": 1.6931346654891968,
      "learning_rate": 8.671704823294066e-05,
      "loss": 1.9617,
      "step": 25493
    },
    {
      "epoch": 0.5665333333333333,
      "grad_norm": 1.8643832206726074,
      "learning_rate": 8.671260280062237e-05,
      "loss": 2.1704,
      "step": 25494
    },
    {
      "epoch": 0.5665555555555556,
      "grad_norm": 2.1833972930908203,
      "learning_rate": 8.670815736830408e-05,
      "loss": 2.103,
      "step": 25495
    },
    {
      "epoch": 0.5665777777777777,
      "grad_norm": 2.137716770172119,
      "learning_rate": 8.670371193598578e-05,
      "loss": 1.9764,
      "step": 25496
    },
    {
      "epoch": 0.5666,
      "grad_norm": 1.7726776599884033,
      "learning_rate": 8.669926650366749e-05,
      "loss": 1.8766,
      "step": 25497
    },
    {
      "epoch": 0.5666222222222222,
      "grad_norm": 2.3358371257781982,
      "learning_rate": 8.66948210713492e-05,
      "loss": 2.0126,
      "step": 25498
    },
    {
      "epoch": 0.5666444444444444,
      "grad_norm": 1.7990282773971558,
      "learning_rate": 8.669037563903089e-05,
      "loss": 1.8925,
      "step": 25499
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 2.0586588382720947,
      "learning_rate": 8.66859302067126e-05,
      "loss": 1.8382,
      "step": 25500
    },
    {
      "epoch": 0.5666888888888889,
      "grad_norm": 1.2641650438308716,
      "learning_rate": 8.668148477439431e-05,
      "loss": 2.1141,
      "step": 25501
    },
    {
      "epoch": 0.5667111111111112,
      "grad_norm": 1.080187201499939,
      "learning_rate": 8.667703934207602e-05,
      "loss": 1.0952,
      "step": 25502
    },
    {
      "epoch": 0.5667333333333333,
      "grad_norm": 1.647226095199585,
      "learning_rate": 8.667259390975773e-05,
      "loss": 2.2651,
      "step": 25503
    },
    {
      "epoch": 0.5667555555555556,
      "grad_norm": 1.6892226934432983,
      "learning_rate": 8.666814847743944e-05,
      "loss": 2.348,
      "step": 25504
    },
    {
      "epoch": 0.5667777777777778,
      "grad_norm": 1.515511155128479,
      "learning_rate": 8.666370304512115e-05,
      "loss": 2.0383,
      "step": 25505
    },
    {
      "epoch": 0.5668,
      "grad_norm": 1.4195060729980469,
      "learning_rate": 8.665925761280285e-05,
      "loss": 1.9549,
      "step": 25506
    },
    {
      "epoch": 0.5668222222222222,
      "grad_norm": 0.9295563697814941,
      "learning_rate": 8.665481218048456e-05,
      "loss": 0.0285,
      "step": 25507
    },
    {
      "epoch": 0.5668444444444445,
      "grad_norm": 1.2143354415893555,
      "learning_rate": 8.665036674816627e-05,
      "loss": 1.6016,
      "step": 25508
    },
    {
      "epoch": 0.5668666666666666,
      "grad_norm": 1.9575049877166748,
      "learning_rate": 8.664592131584796e-05,
      "loss": 2.2171,
      "step": 25509
    },
    {
      "epoch": 0.5668888888888889,
      "grad_norm": 1.8051297664642334,
      "learning_rate": 8.664147588352967e-05,
      "loss": 2.6714,
      "step": 25510
    },
    {
      "epoch": 0.5669111111111111,
      "grad_norm": 1.5467302799224854,
      "learning_rate": 8.663703045121138e-05,
      "loss": 1.867,
      "step": 25511
    },
    {
      "epoch": 0.5669333333333333,
      "grad_norm": 1.3129912614822388,
      "learning_rate": 8.663258501889309e-05,
      "loss": 1.8731,
      "step": 25512
    },
    {
      "epoch": 0.5669555555555555,
      "grad_norm": 1.4830926656723022,
      "learning_rate": 8.66281395865748e-05,
      "loss": 1.9213,
      "step": 25513
    },
    {
      "epoch": 0.5669777777777778,
      "grad_norm": 1.6727464199066162,
      "learning_rate": 8.662369415425651e-05,
      "loss": 2.009,
      "step": 25514
    },
    {
      "epoch": 0.567,
      "grad_norm": 1.5978381633758545,
      "learning_rate": 8.661924872193822e-05,
      "loss": 2.2661,
      "step": 25515
    },
    {
      "epoch": 0.5670222222222222,
      "grad_norm": 1.3395562171936035,
      "learning_rate": 8.661480328961992e-05,
      "loss": 1.7839,
      "step": 25516
    },
    {
      "epoch": 0.5670444444444445,
      "grad_norm": 1.7934595346450806,
      "learning_rate": 8.661035785730162e-05,
      "loss": 2.2136,
      "step": 25517
    },
    {
      "epoch": 0.5670666666666667,
      "grad_norm": 1.6741819381713867,
      "learning_rate": 8.660591242498333e-05,
      "loss": 1.6916,
      "step": 25518
    },
    {
      "epoch": 0.5670888888888889,
      "grad_norm": 1.6226348876953125,
      "learning_rate": 8.660146699266503e-05,
      "loss": 1.9363,
      "step": 25519
    },
    {
      "epoch": 0.5671111111111111,
      "grad_norm": 1.6335357427597046,
      "learning_rate": 8.659702156034675e-05,
      "loss": 1.9537,
      "step": 25520
    },
    {
      "epoch": 0.5671333333333334,
      "grad_norm": 1.6441919803619385,
      "learning_rate": 8.659257612802846e-05,
      "loss": 1.8217,
      "step": 25521
    },
    {
      "epoch": 0.5671555555555555,
      "grad_norm": 1.528879165649414,
      "learning_rate": 8.658813069571016e-05,
      "loss": 1.9105,
      "step": 25522
    },
    {
      "epoch": 0.5671777777777778,
      "grad_norm": 1.4856935739517212,
      "learning_rate": 8.658368526339187e-05,
      "loss": 1.7963,
      "step": 25523
    },
    {
      "epoch": 0.5672,
      "grad_norm": 1.4754873514175415,
      "learning_rate": 8.657923983107358e-05,
      "loss": 1.2109,
      "step": 25524
    },
    {
      "epoch": 0.5672222222222222,
      "grad_norm": 1.4310427904129028,
      "learning_rate": 8.657479439875529e-05,
      "loss": 1.24,
      "step": 25525
    },
    {
      "epoch": 0.5672444444444444,
      "grad_norm": 1.9599642753601074,
      "learning_rate": 8.657034896643698e-05,
      "loss": 2.1241,
      "step": 25526
    },
    {
      "epoch": 0.5672666666666667,
      "grad_norm": 1.650848150253296,
      "learning_rate": 8.65659035341187e-05,
      "loss": 1.9539,
      "step": 25527
    },
    {
      "epoch": 0.5672888888888888,
      "grad_norm": 1.6401448249816895,
      "learning_rate": 8.65614581018004e-05,
      "loss": 2.0195,
      "step": 25528
    },
    {
      "epoch": 0.5673111111111111,
      "grad_norm": 1.3462976217269897,
      "learning_rate": 8.655701266948211e-05,
      "loss": 1.5376,
      "step": 25529
    },
    {
      "epoch": 0.5673333333333334,
      "grad_norm": 1.7441065311431885,
      "learning_rate": 8.655256723716382e-05,
      "loss": 1.9041,
      "step": 25530
    },
    {
      "epoch": 0.5673555555555555,
      "grad_norm": 1.5822638273239136,
      "learning_rate": 8.654812180484553e-05,
      "loss": 1.932,
      "step": 25531
    },
    {
      "epoch": 0.5673777777777778,
      "grad_norm": 1.9012054204940796,
      "learning_rate": 8.654367637252723e-05,
      "loss": 1.9656,
      "step": 25532
    },
    {
      "epoch": 0.5674,
      "grad_norm": 1.0392942428588867,
      "learning_rate": 8.653923094020894e-05,
      "loss": 0.8862,
      "step": 25533
    },
    {
      "epoch": 0.5674222222222223,
      "grad_norm": 1.622781753540039,
      "learning_rate": 8.653478550789065e-05,
      "loss": 1.5679,
      "step": 25534
    },
    {
      "epoch": 0.5674444444444444,
      "grad_norm": 1.4929344654083252,
      "learning_rate": 8.653034007557236e-05,
      "loss": 1.7067,
      "step": 25535
    },
    {
      "epoch": 0.5674666666666667,
      "grad_norm": 1.837020993232727,
      "learning_rate": 8.652589464325405e-05,
      "loss": 1.6447,
      "step": 25536
    },
    {
      "epoch": 0.5674888888888889,
      "grad_norm": 1.5858163833618164,
      "learning_rate": 8.652144921093576e-05,
      "loss": 1.742,
      "step": 25537
    },
    {
      "epoch": 0.5675111111111111,
      "grad_norm": 1.4231958389282227,
      "learning_rate": 8.651700377861747e-05,
      "loss": 1.7786,
      "step": 25538
    },
    {
      "epoch": 0.5675333333333333,
      "grad_norm": 1.6966981887817383,
      "learning_rate": 8.651255834629918e-05,
      "loss": 1.8127,
      "step": 25539
    },
    {
      "epoch": 0.5675555555555556,
      "grad_norm": 1.7579383850097656,
      "learning_rate": 8.650811291398089e-05,
      "loss": 1.7069,
      "step": 25540
    },
    {
      "epoch": 0.5675777777777777,
      "grad_norm": 1.9080697298049927,
      "learning_rate": 8.65036674816626e-05,
      "loss": 1.595,
      "step": 25541
    },
    {
      "epoch": 0.5676,
      "grad_norm": 1.6535087823867798,
      "learning_rate": 8.649922204934431e-05,
      "loss": 1.7829,
      "step": 25542
    },
    {
      "epoch": 0.5676222222222223,
      "grad_norm": 1.5289617776870728,
      "learning_rate": 8.649477661702601e-05,
      "loss": 1.5355,
      "step": 25543
    },
    {
      "epoch": 0.5676444444444444,
      "grad_norm": 1.6726182699203491,
      "learning_rate": 8.649033118470772e-05,
      "loss": 1.6021,
      "step": 25544
    },
    {
      "epoch": 0.5676666666666667,
      "grad_norm": 1.7910929918289185,
      "learning_rate": 8.648588575238943e-05,
      "loss": 1.7157,
      "step": 25545
    },
    {
      "epoch": 0.5676888888888889,
      "grad_norm": 1.7049421072006226,
      "learning_rate": 8.648144032007112e-05,
      "loss": 2.0987,
      "step": 25546
    },
    {
      "epoch": 0.5677111111111112,
      "grad_norm": 1.732585072517395,
      "learning_rate": 8.647699488775283e-05,
      "loss": 1.8902,
      "step": 25547
    },
    {
      "epoch": 0.5677333333333333,
      "grad_norm": 1.5966678857803345,
      "learning_rate": 8.647254945543454e-05,
      "loss": 1.7052,
      "step": 25548
    },
    {
      "epoch": 0.5677555555555556,
      "grad_norm": 2.260141372680664,
      "learning_rate": 8.646810402311625e-05,
      "loss": 1.7403,
      "step": 25549
    },
    {
      "epoch": 0.5677777777777778,
      "grad_norm": 0.8711251020431519,
      "learning_rate": 8.646365859079796e-05,
      "loss": 0.4839,
      "step": 25550
    },
    {
      "epoch": 0.5678,
      "grad_norm": 1.83405601978302,
      "learning_rate": 8.645921315847967e-05,
      "loss": 2.4266,
      "step": 25551
    },
    {
      "epoch": 0.5678222222222222,
      "grad_norm": 1.4117273092269897,
      "learning_rate": 8.645476772616138e-05,
      "loss": 2.6935,
      "step": 25552
    },
    {
      "epoch": 0.5678444444444445,
      "grad_norm": 1.2493290901184082,
      "learning_rate": 8.645032229384308e-05,
      "loss": 2.2871,
      "step": 25553
    },
    {
      "epoch": 0.5678666666666666,
      "grad_norm": 1.019303798675537,
      "learning_rate": 8.644587686152479e-05,
      "loss": 1.1308,
      "step": 25554
    },
    {
      "epoch": 0.5678888888888889,
      "grad_norm": 1.352089524269104,
      "learning_rate": 8.64414314292065e-05,
      "loss": 2.0598,
      "step": 25555
    },
    {
      "epoch": 0.5679111111111111,
      "grad_norm": 1.6639633178710938,
      "learning_rate": 8.643698599688819e-05,
      "loss": 1.6875,
      "step": 25556
    },
    {
      "epoch": 0.5679333333333333,
      "grad_norm": 1.5251015424728394,
      "learning_rate": 8.643254056456991e-05,
      "loss": 2.0902,
      "step": 25557
    },
    {
      "epoch": 0.5679555555555555,
      "grad_norm": 1.4009424448013306,
      "learning_rate": 8.642809513225162e-05,
      "loss": 2.28,
      "step": 25558
    },
    {
      "epoch": 0.5679777777777778,
      "grad_norm": 1.5966070890426636,
      "learning_rate": 8.642364969993332e-05,
      "loss": 2.2866,
      "step": 25559
    },
    {
      "epoch": 0.568,
      "grad_norm": 1.0532625913619995,
      "learning_rate": 8.641920426761503e-05,
      "loss": 1.2138,
      "step": 25560
    },
    {
      "epoch": 0.5680222222222222,
      "grad_norm": 1.5685704946517944,
      "learning_rate": 8.641475883529674e-05,
      "loss": 2.1516,
      "step": 25561
    },
    {
      "epoch": 0.5680444444444445,
      "grad_norm": 1.348705768585205,
      "learning_rate": 8.641031340297845e-05,
      "loss": 1.7455,
      "step": 25562
    },
    {
      "epoch": 0.5680666666666667,
      "grad_norm": 1.7225929498672485,
      "learning_rate": 8.640586797066015e-05,
      "loss": 2.1124,
      "step": 25563
    },
    {
      "epoch": 0.5680888888888889,
      "grad_norm": 1.5577679872512817,
      "learning_rate": 8.640142253834186e-05,
      "loss": 1.857,
      "step": 25564
    },
    {
      "epoch": 0.5681111111111111,
      "grad_norm": 2.3156497478485107,
      "learning_rate": 8.639697710602356e-05,
      "loss": 1.6415,
      "step": 25565
    },
    {
      "epoch": 0.5681333333333334,
      "grad_norm": 1.426537036895752,
      "learning_rate": 8.639253167370527e-05,
      "loss": 1.5825,
      "step": 25566
    },
    {
      "epoch": 0.5681555555555555,
      "grad_norm": 1.494095802307129,
      "learning_rate": 8.638808624138698e-05,
      "loss": 1.8617,
      "step": 25567
    },
    {
      "epoch": 0.5681777777777778,
      "grad_norm": 1.7394038438796997,
      "learning_rate": 8.63836408090687e-05,
      "loss": 2.2626,
      "step": 25568
    },
    {
      "epoch": 0.5682,
      "grad_norm": 1.7255122661590576,
      "learning_rate": 8.637919537675039e-05,
      "loss": 2.1076,
      "step": 25569
    },
    {
      "epoch": 0.5682222222222222,
      "grad_norm": 1.3343063592910767,
      "learning_rate": 8.63747499444321e-05,
      "loss": 1.4298,
      "step": 25570
    },
    {
      "epoch": 0.5682444444444444,
      "grad_norm": 1.4318054914474487,
      "learning_rate": 8.637030451211381e-05,
      "loss": 1.8676,
      "step": 25571
    },
    {
      "epoch": 0.5682666666666667,
      "grad_norm": 1.3568811416625977,
      "learning_rate": 8.636585907979552e-05,
      "loss": 2.1097,
      "step": 25572
    },
    {
      "epoch": 0.5682888888888888,
      "grad_norm": 1.5402088165283203,
      "learning_rate": 8.636141364747721e-05,
      "loss": 1.8708,
      "step": 25573
    },
    {
      "epoch": 0.5683111111111111,
      "grad_norm": 1.8865468502044678,
      "learning_rate": 8.635696821515892e-05,
      "loss": 2.1948,
      "step": 25574
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 1.824686884880066,
      "learning_rate": 8.635252278284063e-05,
      "loss": 2.2085,
      "step": 25575
    },
    {
      "epoch": 0.5683555555555555,
      "grad_norm": 1.5992943048477173,
      "learning_rate": 8.634807735052234e-05,
      "loss": 1.893,
      "step": 25576
    },
    {
      "epoch": 0.5683777777777778,
      "grad_norm": 1.4310848712921143,
      "learning_rate": 8.634363191820405e-05,
      "loss": 1.7461,
      "step": 25577
    },
    {
      "epoch": 0.5684,
      "grad_norm": 1.4332364797592163,
      "learning_rate": 8.633918648588576e-05,
      "loss": 1.5877,
      "step": 25578
    },
    {
      "epoch": 0.5684222222222223,
      "grad_norm": 1.5231653451919556,
      "learning_rate": 8.633474105356746e-05,
      "loss": 1.9179,
      "step": 25579
    },
    {
      "epoch": 0.5684444444444444,
      "grad_norm": 1.6611709594726562,
      "learning_rate": 8.633029562124917e-05,
      "loss": 1.3753,
      "step": 25580
    },
    {
      "epoch": 0.5684666666666667,
      "grad_norm": 1.5533298254013062,
      "learning_rate": 8.632585018893088e-05,
      "loss": 1.7141,
      "step": 25581
    },
    {
      "epoch": 0.5684888888888889,
      "grad_norm": 1.7611892223358154,
      "learning_rate": 8.632140475661259e-05,
      "loss": 1.9242,
      "step": 25582
    },
    {
      "epoch": 0.5685111111111111,
      "grad_norm": 1.7563116550445557,
      "learning_rate": 8.631695932429428e-05,
      "loss": 2.3091,
      "step": 25583
    },
    {
      "epoch": 0.5685333333333333,
      "grad_norm": 1.78745436668396,
      "learning_rate": 8.6312513891976e-05,
      "loss": 1.7655,
      "step": 25584
    },
    {
      "epoch": 0.5685555555555556,
      "grad_norm": 1.9148340225219727,
      "learning_rate": 8.63080684596577e-05,
      "loss": 1.9374,
      "step": 25585
    },
    {
      "epoch": 0.5685777777777777,
      "grad_norm": 1.1031118631362915,
      "learning_rate": 8.630362302733941e-05,
      "loss": 0.9773,
      "step": 25586
    },
    {
      "epoch": 0.5686,
      "grad_norm": 1.5591325759887695,
      "learning_rate": 8.629917759502112e-05,
      "loss": 1.8767,
      "step": 25587
    },
    {
      "epoch": 0.5686222222222223,
      "grad_norm": 1.592635989189148,
      "learning_rate": 8.629473216270283e-05,
      "loss": 1.7193,
      "step": 25588
    },
    {
      "epoch": 0.5686444444444444,
      "grad_norm": 1.505963683128357,
      "learning_rate": 8.629028673038453e-05,
      "loss": 1.8382,
      "step": 25589
    },
    {
      "epoch": 0.5686666666666667,
      "grad_norm": 1.7800480127334595,
      "learning_rate": 8.628584129806624e-05,
      "loss": 1.7844,
      "step": 25590
    },
    {
      "epoch": 0.5686888888888889,
      "grad_norm": 1.703181505203247,
      "learning_rate": 8.628139586574795e-05,
      "loss": 1.8816,
      "step": 25591
    },
    {
      "epoch": 0.5687111111111111,
      "grad_norm": 1.9718616008758545,
      "learning_rate": 8.627695043342966e-05,
      "loss": 2.0569,
      "step": 25592
    },
    {
      "epoch": 0.5687333333333333,
      "grad_norm": 2.016561508178711,
      "learning_rate": 8.627250500111135e-05,
      "loss": 2.1293,
      "step": 25593
    },
    {
      "epoch": 0.5687555555555556,
      "grad_norm": 1.6165771484375,
      "learning_rate": 8.626805956879308e-05,
      "loss": 1.7433,
      "step": 25594
    },
    {
      "epoch": 0.5687777777777778,
      "grad_norm": 1.7712388038635254,
      "learning_rate": 8.626361413647479e-05,
      "loss": 1.6944,
      "step": 25595
    },
    {
      "epoch": 0.5688,
      "grad_norm": 1.5624693632125854,
      "learning_rate": 8.625916870415648e-05,
      "loss": 0.7768,
      "step": 25596
    },
    {
      "epoch": 0.5688222222222222,
      "grad_norm": 1.7532920837402344,
      "learning_rate": 8.625472327183819e-05,
      "loss": 1.9357,
      "step": 25597
    },
    {
      "epoch": 0.5688444444444445,
      "grad_norm": 1.4923877716064453,
      "learning_rate": 8.62502778395199e-05,
      "loss": 1.3285,
      "step": 25598
    },
    {
      "epoch": 0.5688666666666666,
      "grad_norm": 1.7593766450881958,
      "learning_rate": 8.624583240720161e-05,
      "loss": 1.4869,
      "step": 25599
    },
    {
      "epoch": 0.5688888888888889,
      "grad_norm": 2.146467447280884,
      "learning_rate": 8.62413869748833e-05,
      "loss": 1.6363,
      "step": 25600
    },
    {
      "epoch": 0.5689111111111111,
      "grad_norm": 1.5496854782104492,
      "learning_rate": 8.623694154256502e-05,
      "loss": 2.6966,
      "step": 25601
    },
    {
      "epoch": 0.5689333333333333,
      "grad_norm": 0.8772847652435303,
      "learning_rate": 8.623249611024673e-05,
      "loss": 1.1829,
      "step": 25602
    },
    {
      "epoch": 0.5689555555555555,
      "grad_norm": 1.0426076650619507,
      "learning_rate": 8.622805067792844e-05,
      "loss": 1.0857,
      "step": 25603
    },
    {
      "epoch": 0.5689777777777778,
      "grad_norm": 1.534347414970398,
      "learning_rate": 8.622360524561015e-05,
      "loss": 2.4706,
      "step": 25604
    },
    {
      "epoch": 0.569,
      "grad_norm": 1.4586025476455688,
      "learning_rate": 8.621915981329185e-05,
      "loss": 2.4975,
      "step": 25605
    },
    {
      "epoch": 0.5690222222222222,
      "grad_norm": 1.736374020576477,
      "learning_rate": 8.621471438097355e-05,
      "loss": 2.3636,
      "step": 25606
    },
    {
      "epoch": 0.5690444444444445,
      "grad_norm": 1.303686499595642,
      "learning_rate": 8.621026894865526e-05,
      "loss": 1.356,
      "step": 25607
    },
    {
      "epoch": 0.5690666666666667,
      "grad_norm": 1.3341532945632935,
      "learning_rate": 8.620582351633697e-05,
      "loss": 1.9148,
      "step": 25608
    },
    {
      "epoch": 0.5690888888888889,
      "grad_norm": 1.4841862916946411,
      "learning_rate": 8.620137808401868e-05,
      "loss": 1.8911,
      "step": 25609
    },
    {
      "epoch": 0.5691111111111111,
      "grad_norm": 1.6789429187774658,
      "learning_rate": 8.619693265170038e-05,
      "loss": 2.2117,
      "step": 25610
    },
    {
      "epoch": 0.5691333333333334,
      "grad_norm": 0.1538681536912918,
      "learning_rate": 8.619248721938209e-05,
      "loss": 0.0183,
      "step": 25611
    },
    {
      "epoch": 0.5691555555555555,
      "grad_norm": 1.7826683521270752,
      "learning_rate": 8.61880417870638e-05,
      "loss": 2.0759,
      "step": 25612
    },
    {
      "epoch": 0.5691777777777778,
      "grad_norm": 1.508593201637268,
      "learning_rate": 8.61835963547455e-05,
      "loss": 2.2247,
      "step": 25613
    },
    {
      "epoch": 0.5692,
      "grad_norm": 1.4140818119049072,
      "learning_rate": 8.617915092242721e-05,
      "loss": 1.613,
      "step": 25614
    },
    {
      "epoch": 0.5692222222222222,
      "grad_norm": 1.6381505727767944,
      "learning_rate": 8.617470549010892e-05,
      "loss": 2.0254,
      "step": 25615
    },
    {
      "epoch": 0.5692444444444444,
      "grad_norm": 1.8345551490783691,
      "learning_rate": 8.617026005779062e-05,
      "loss": 2.5182,
      "step": 25616
    },
    {
      "epoch": 0.5692666666666667,
      "grad_norm": 1.2683861255645752,
      "learning_rate": 8.616581462547233e-05,
      "loss": 0.8326,
      "step": 25617
    },
    {
      "epoch": 0.5692888888888888,
      "grad_norm": 1.8822568655014038,
      "learning_rate": 8.616136919315404e-05,
      "loss": 1.6483,
      "step": 25618
    },
    {
      "epoch": 0.5693111111111111,
      "grad_norm": 1.725543737411499,
      "learning_rate": 8.615692376083575e-05,
      "loss": 2.064,
      "step": 25619
    },
    {
      "epoch": 0.5693333333333334,
      "grad_norm": 2.3417868614196777,
      "learning_rate": 8.615247832851744e-05,
      "loss": 2.7043,
      "step": 25620
    },
    {
      "epoch": 0.5693555555555555,
      "grad_norm": 1.4956707954406738,
      "learning_rate": 8.614803289619915e-05,
      "loss": 1.6743,
      "step": 25621
    },
    {
      "epoch": 0.5693777777777778,
      "grad_norm": 2.0377418994903564,
      "learning_rate": 8.614358746388086e-05,
      "loss": 1.9123,
      "step": 25622
    },
    {
      "epoch": 0.5694,
      "grad_norm": 1.8327478170394897,
      "learning_rate": 8.613914203156257e-05,
      "loss": 1.9568,
      "step": 25623
    },
    {
      "epoch": 0.5694222222222223,
      "grad_norm": 1.4546701908111572,
      "learning_rate": 8.613469659924428e-05,
      "loss": 1.9495,
      "step": 25624
    },
    {
      "epoch": 0.5694444444444444,
      "grad_norm": 1.475493311882019,
      "learning_rate": 8.613025116692599e-05,
      "loss": 1.5293,
      "step": 25625
    },
    {
      "epoch": 0.5694666666666667,
      "grad_norm": 1.9478663206100464,
      "learning_rate": 8.612580573460769e-05,
      "loss": 2.33,
      "step": 25626
    },
    {
      "epoch": 0.5694888888888889,
      "grad_norm": 1.5463484525680542,
      "learning_rate": 8.61213603022894e-05,
      "loss": 1.9062,
      "step": 25627
    },
    {
      "epoch": 0.5695111111111111,
      "grad_norm": 1.953561544418335,
      "learning_rate": 8.611691486997111e-05,
      "loss": 1.9784,
      "step": 25628
    },
    {
      "epoch": 0.5695333333333333,
      "grad_norm": 1.514666199684143,
      "learning_rate": 8.611246943765282e-05,
      "loss": 1.4286,
      "step": 25629
    },
    {
      "epoch": 0.5695555555555556,
      "grad_norm": 1.5759919881820679,
      "learning_rate": 8.610802400533451e-05,
      "loss": 1.9392,
      "step": 25630
    },
    {
      "epoch": 0.5695777777777777,
      "grad_norm": 0.9849022030830383,
      "learning_rate": 8.610357857301624e-05,
      "loss": 0.8068,
      "step": 25631
    },
    {
      "epoch": 0.5696,
      "grad_norm": 1.7830392122268677,
      "learning_rate": 8.609913314069795e-05,
      "loss": 1.6613,
      "step": 25632
    },
    {
      "epoch": 0.5696222222222223,
      "grad_norm": 1.3821425437927246,
      "learning_rate": 8.609468770837964e-05,
      "loss": 0.7226,
      "step": 25633
    },
    {
      "epoch": 0.5696444444444444,
      "grad_norm": 0.15262767672538757,
      "learning_rate": 8.609024227606135e-05,
      "loss": 0.0273,
      "step": 25634
    },
    {
      "epoch": 0.5696666666666667,
      "grad_norm": 1.5773595571517944,
      "learning_rate": 8.608579684374306e-05,
      "loss": 1.8314,
      "step": 25635
    },
    {
      "epoch": 0.5696888888888889,
      "grad_norm": 1.7459397315979004,
      "learning_rate": 8.608135141142476e-05,
      "loss": 1.9914,
      "step": 25636
    },
    {
      "epoch": 0.5697111111111111,
      "grad_norm": 1.83330237865448,
      "learning_rate": 8.607690597910647e-05,
      "loss": 1.8253,
      "step": 25637
    },
    {
      "epoch": 0.5697333333333333,
      "grad_norm": 1.7723551988601685,
      "learning_rate": 8.607246054678818e-05,
      "loss": 2.0525,
      "step": 25638
    },
    {
      "epoch": 0.5697555555555556,
      "grad_norm": 2.0471293926239014,
      "learning_rate": 8.606801511446989e-05,
      "loss": 1.9065,
      "step": 25639
    },
    {
      "epoch": 0.5697777777777778,
      "grad_norm": 1.8356201648712158,
      "learning_rate": 8.60635696821516e-05,
      "loss": 2.0246,
      "step": 25640
    },
    {
      "epoch": 0.5698,
      "grad_norm": 1.7239627838134766,
      "learning_rate": 8.60591242498333e-05,
      "loss": 2.2547,
      "step": 25641
    },
    {
      "epoch": 0.5698222222222222,
      "grad_norm": 1.7103173732757568,
      "learning_rate": 8.605467881751502e-05,
      "loss": 1.8929,
      "step": 25642
    },
    {
      "epoch": 0.5698444444444445,
      "grad_norm": 1.6156359910964966,
      "learning_rate": 8.605023338519671e-05,
      "loss": 1.8456,
      "step": 25643
    },
    {
      "epoch": 0.5698666666666666,
      "grad_norm": 1.5640565156936646,
      "learning_rate": 8.604578795287842e-05,
      "loss": 1.6381,
      "step": 25644
    },
    {
      "epoch": 0.5698888888888889,
      "grad_norm": 1.4334174394607544,
      "learning_rate": 8.604134252056013e-05,
      "loss": 1.3684,
      "step": 25645
    },
    {
      "epoch": 0.5699111111111111,
      "grad_norm": 1.7092499732971191,
      "learning_rate": 8.603689708824183e-05,
      "loss": 1.8991,
      "step": 25646
    },
    {
      "epoch": 0.5699333333333333,
      "grad_norm": 2.41092586517334,
      "learning_rate": 8.603245165592354e-05,
      "loss": 1.7,
      "step": 25647
    },
    {
      "epoch": 0.5699555555555555,
      "grad_norm": 1.7601580619812012,
      "learning_rate": 8.602800622360525e-05,
      "loss": 1.7763,
      "step": 25648
    },
    {
      "epoch": 0.5699777777777778,
      "grad_norm": 1.8733407258987427,
      "learning_rate": 8.602356079128696e-05,
      "loss": 1.5541,
      "step": 25649
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.374967575073242,
      "learning_rate": 8.601911535896867e-05,
      "loss": 1.8792,
      "step": 25650
    },
    {
      "epoch": 0.5700222222222222,
      "grad_norm": 1.2829123735427856,
      "learning_rate": 8.601466992665038e-05,
      "loss": 2.0867,
      "step": 25651
    },
    {
      "epoch": 0.5700444444444445,
      "grad_norm": 1.1918680667877197,
      "learning_rate": 8.601022449433208e-05,
      "loss": 1.3664,
      "step": 25652
    },
    {
      "epoch": 0.5700666666666667,
      "grad_norm": 1.6968246698379517,
      "learning_rate": 8.600577906201378e-05,
      "loss": 2.6106,
      "step": 25653
    },
    {
      "epoch": 0.5700888888888889,
      "grad_norm": 1.7334518432617188,
      "learning_rate": 8.600133362969549e-05,
      "loss": 2.3642,
      "step": 25654
    },
    {
      "epoch": 0.5701111111111111,
      "grad_norm": 1.4948846101760864,
      "learning_rate": 8.59968881973772e-05,
      "loss": 1.7472,
      "step": 25655
    },
    {
      "epoch": 0.5701333333333334,
      "grad_norm": 1.5138331651687622,
      "learning_rate": 8.599244276505891e-05,
      "loss": 1.9211,
      "step": 25656
    },
    {
      "epoch": 0.5701555555555555,
      "grad_norm": 1.4922399520874023,
      "learning_rate": 8.59879973327406e-05,
      "loss": 1.9827,
      "step": 25657
    },
    {
      "epoch": 0.5701777777777778,
      "grad_norm": 1.9236634969711304,
      "learning_rate": 8.598355190042232e-05,
      "loss": 1.9192,
      "step": 25658
    },
    {
      "epoch": 0.5702,
      "grad_norm": 1.7816553115844727,
      "learning_rate": 8.597910646810402e-05,
      "loss": 2.12,
      "step": 25659
    },
    {
      "epoch": 0.5702222222222222,
      "grad_norm": 1.5962737798690796,
      "learning_rate": 8.597466103578573e-05,
      "loss": 1.9601,
      "step": 25660
    },
    {
      "epoch": 0.5702444444444444,
      "grad_norm": 1.6761876344680786,
      "learning_rate": 8.597021560346744e-05,
      "loss": 2.4774,
      "step": 25661
    },
    {
      "epoch": 0.5702666666666667,
      "grad_norm": 1.5479689836502075,
      "learning_rate": 8.596577017114915e-05,
      "loss": 1.9717,
      "step": 25662
    },
    {
      "epoch": 0.5702888888888888,
      "grad_norm": 1.867241621017456,
      "learning_rate": 8.596132473883085e-05,
      "loss": 1.8237,
      "step": 25663
    },
    {
      "epoch": 0.5703111111111111,
      "grad_norm": 1.7697581052780151,
      "learning_rate": 8.595687930651256e-05,
      "loss": 2.1297,
      "step": 25664
    },
    {
      "epoch": 0.5703333333333334,
      "grad_norm": 1.597586989402771,
      "learning_rate": 8.595243387419427e-05,
      "loss": 1.8777,
      "step": 25665
    },
    {
      "epoch": 0.5703555555555555,
      "grad_norm": 1.3696242570877075,
      "learning_rate": 8.594798844187598e-05,
      "loss": 1.1399,
      "step": 25666
    },
    {
      "epoch": 0.5703777777777778,
      "grad_norm": 1.4491081237792969,
      "learning_rate": 8.594354300955767e-05,
      "loss": 1.5301,
      "step": 25667
    },
    {
      "epoch": 0.5704,
      "grad_norm": 1.6953177452087402,
      "learning_rate": 8.59390975772394e-05,
      "loss": 2.0117,
      "step": 25668
    },
    {
      "epoch": 0.5704222222222223,
      "grad_norm": 1.524505376815796,
      "learning_rate": 8.593465214492111e-05,
      "loss": 1.8162,
      "step": 25669
    },
    {
      "epoch": 0.5704444444444444,
      "grad_norm": 1.861527919769287,
      "learning_rate": 8.59302067126028e-05,
      "loss": 1.4832,
      "step": 25670
    },
    {
      "epoch": 0.5704666666666667,
      "grad_norm": 1.8651635646820068,
      "learning_rate": 8.592576128028451e-05,
      "loss": 1.6583,
      "step": 25671
    },
    {
      "epoch": 0.5704888888888889,
      "grad_norm": 2.0610780715942383,
      "learning_rate": 8.592131584796622e-05,
      "loss": 2.4729,
      "step": 25672
    },
    {
      "epoch": 0.5705111111111111,
      "grad_norm": 1.5690243244171143,
      "learning_rate": 8.591687041564792e-05,
      "loss": 1.846,
      "step": 25673
    },
    {
      "epoch": 0.5705333333333333,
      "grad_norm": 1.7951501607894897,
      "learning_rate": 8.591242498332963e-05,
      "loss": 2.2787,
      "step": 25674
    },
    {
      "epoch": 0.5705555555555556,
      "grad_norm": 1.767663598060608,
      "learning_rate": 8.590797955101134e-05,
      "loss": 2.1076,
      "step": 25675
    },
    {
      "epoch": 0.5705777777777777,
      "grad_norm": 1.3374791145324707,
      "learning_rate": 8.590353411869305e-05,
      "loss": 1.065,
      "step": 25676
    },
    {
      "epoch": 0.5706,
      "grad_norm": 1.9195759296417236,
      "learning_rate": 8.589908868637476e-05,
      "loss": 2.0019,
      "step": 25677
    },
    {
      "epoch": 0.5706222222222223,
      "grad_norm": 1.859966516494751,
      "learning_rate": 8.589464325405647e-05,
      "loss": 1.7332,
      "step": 25678
    },
    {
      "epoch": 0.5706444444444444,
      "grad_norm": 1.7546013593673706,
      "learning_rate": 8.589019782173818e-05,
      "loss": 2.2428,
      "step": 25679
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 1.5671427249908447,
      "learning_rate": 8.588575238941987e-05,
      "loss": 1.851,
      "step": 25680
    },
    {
      "epoch": 0.5706888888888889,
      "grad_norm": 2.0177090167999268,
      "learning_rate": 8.588130695710158e-05,
      "loss": 2.1053,
      "step": 25681
    },
    {
      "epoch": 0.5707111111111111,
      "grad_norm": 1.8132013082504272,
      "learning_rate": 8.587686152478329e-05,
      "loss": 2.0969,
      "step": 25682
    },
    {
      "epoch": 0.5707333333333333,
      "grad_norm": 1.8457845449447632,
      "learning_rate": 8.587241609246499e-05,
      "loss": 1.8723,
      "step": 25683
    },
    {
      "epoch": 0.5707555555555556,
      "grad_norm": 1.5866272449493408,
      "learning_rate": 8.58679706601467e-05,
      "loss": 1.4801,
      "step": 25684
    },
    {
      "epoch": 0.5707777777777778,
      "grad_norm": 1.7102094888687134,
      "learning_rate": 8.586352522782841e-05,
      "loss": 1.9712,
      "step": 25685
    },
    {
      "epoch": 0.5708,
      "grad_norm": 1.9478623867034912,
      "learning_rate": 8.585907979551012e-05,
      "loss": 2.2846,
      "step": 25686
    },
    {
      "epoch": 0.5708222222222222,
      "grad_norm": 1.900810718536377,
      "learning_rate": 8.585463436319183e-05,
      "loss": 2.1442,
      "step": 25687
    },
    {
      "epoch": 0.5708444444444445,
      "grad_norm": 1.5752862691879272,
      "learning_rate": 8.585018893087354e-05,
      "loss": 1.7731,
      "step": 25688
    },
    {
      "epoch": 0.5708666666666666,
      "grad_norm": 1.7529854774475098,
      "learning_rate": 8.584574349855525e-05,
      "loss": 1.9615,
      "step": 25689
    },
    {
      "epoch": 0.5708888888888889,
      "grad_norm": 1.776617407798767,
      "learning_rate": 8.584129806623694e-05,
      "loss": 1.8497,
      "step": 25690
    },
    {
      "epoch": 0.5709111111111111,
      "grad_norm": 1.5052199363708496,
      "learning_rate": 8.583685263391865e-05,
      "loss": 1.7508,
      "step": 25691
    },
    {
      "epoch": 0.5709333333333333,
      "grad_norm": 1.5465022325515747,
      "learning_rate": 8.583240720160036e-05,
      "loss": 1.6559,
      "step": 25692
    },
    {
      "epoch": 0.5709555555555555,
      "grad_norm": 2.8852856159210205,
      "learning_rate": 8.582796176928206e-05,
      "loss": 1.7696,
      "step": 25693
    },
    {
      "epoch": 0.5709777777777778,
      "grad_norm": 1.6870107650756836,
      "learning_rate": 8.582351633696377e-05,
      "loss": 1.3945,
      "step": 25694
    },
    {
      "epoch": 0.571,
      "grad_norm": 1.3791446685791016,
      "learning_rate": 8.581907090464548e-05,
      "loss": 1.3369,
      "step": 25695
    },
    {
      "epoch": 0.5710222222222222,
      "grad_norm": 1.6492143869400024,
      "learning_rate": 8.581462547232719e-05,
      "loss": 1.6589,
      "step": 25696
    },
    {
      "epoch": 0.5710444444444445,
      "grad_norm": 1.7930784225463867,
      "learning_rate": 8.58101800400089e-05,
      "loss": 1.7328,
      "step": 25697
    },
    {
      "epoch": 0.5710666666666666,
      "grad_norm": 1.76011061668396,
      "learning_rate": 8.58057346076906e-05,
      "loss": 1.3635,
      "step": 25698
    },
    {
      "epoch": 0.5710888888888889,
      "grad_norm": 1.642624020576477,
      "learning_rate": 8.580128917537231e-05,
      "loss": 1.6686,
      "step": 25699
    },
    {
      "epoch": 0.5711111111111111,
      "grad_norm": 1.4365448951721191,
      "learning_rate": 8.579684374305401e-05,
      "loss": 0.064,
      "step": 25700
    },
    {
      "epoch": 0.5711333333333334,
      "grad_norm": 1.3209048509597778,
      "learning_rate": 8.579239831073572e-05,
      "loss": 2.0327,
      "step": 25701
    },
    {
      "epoch": 0.5711555555555555,
      "grad_norm": 1.3216556310653687,
      "learning_rate": 8.578795287841743e-05,
      "loss": 2.2464,
      "step": 25702
    },
    {
      "epoch": 0.5711777777777778,
      "grad_norm": 1.5542192459106445,
      "learning_rate": 8.578350744609913e-05,
      "loss": 2.3578,
      "step": 25703
    },
    {
      "epoch": 0.5712,
      "grad_norm": 1.7194514274597168,
      "learning_rate": 8.577906201378084e-05,
      "loss": 2.7349,
      "step": 25704
    },
    {
      "epoch": 0.5712222222222222,
      "grad_norm": 1.194679856300354,
      "learning_rate": 8.577461658146256e-05,
      "loss": 1.3133,
      "step": 25705
    },
    {
      "epoch": 0.5712444444444444,
      "grad_norm": 1.6330630779266357,
      "learning_rate": 8.577017114914427e-05,
      "loss": 2.2848,
      "step": 25706
    },
    {
      "epoch": 0.5712666666666667,
      "grad_norm": 2.1747875213623047,
      "learning_rate": 8.576572571682596e-05,
      "loss": 2.2944,
      "step": 25707
    },
    {
      "epoch": 0.5712888888888888,
      "grad_norm": 2.29811429977417,
      "learning_rate": 8.576128028450767e-05,
      "loss": 2.1093,
      "step": 25708
    },
    {
      "epoch": 0.5713111111111111,
      "grad_norm": 1.3702226877212524,
      "learning_rate": 8.575683485218938e-05,
      "loss": 1.4981,
      "step": 25709
    },
    {
      "epoch": 0.5713333333333334,
      "grad_norm": 1.570976734161377,
      "learning_rate": 8.575238941987108e-05,
      "loss": 1.6642,
      "step": 25710
    },
    {
      "epoch": 0.5713555555555555,
      "grad_norm": 1.8886852264404297,
      "learning_rate": 8.574794398755279e-05,
      "loss": 1.6982,
      "step": 25711
    },
    {
      "epoch": 0.5713777777777778,
      "grad_norm": 1.566110610961914,
      "learning_rate": 8.57434985552345e-05,
      "loss": 1.504,
      "step": 25712
    },
    {
      "epoch": 0.5714,
      "grad_norm": 1.0063490867614746,
      "learning_rate": 8.573905312291621e-05,
      "loss": 0.7414,
      "step": 25713
    },
    {
      "epoch": 0.5714222222222223,
      "grad_norm": 2.0926096439361572,
      "learning_rate": 8.573460769059792e-05,
      "loss": 1.762,
      "step": 25714
    },
    {
      "epoch": 0.5714444444444444,
      "grad_norm": 1.5999740362167358,
      "learning_rate": 8.573016225827963e-05,
      "loss": 2.0492,
      "step": 25715
    },
    {
      "epoch": 0.5714666666666667,
      "grad_norm": 2.4232420921325684,
      "learning_rate": 8.572571682596134e-05,
      "loss": 1.1813,
      "step": 25716
    },
    {
      "epoch": 0.5714888888888889,
      "grad_norm": 1.5547337532043457,
      "learning_rate": 8.572127139364303e-05,
      "loss": 1.7063,
      "step": 25717
    },
    {
      "epoch": 0.5715111111111111,
      "grad_norm": 1.738980770111084,
      "learning_rate": 8.571682596132474e-05,
      "loss": 2.3619,
      "step": 25718
    },
    {
      "epoch": 0.5715333333333333,
      "grad_norm": 1.4263365268707275,
      "learning_rate": 8.571238052900645e-05,
      "loss": 1.4464,
      "step": 25719
    },
    {
      "epoch": 0.5715555555555556,
      "grad_norm": 1.5924991369247437,
      "learning_rate": 8.570793509668815e-05,
      "loss": 1.8442,
      "step": 25720
    },
    {
      "epoch": 0.5715777777777777,
      "grad_norm": 1.668595314025879,
      "learning_rate": 8.570348966436986e-05,
      "loss": 1.5966,
      "step": 25721
    },
    {
      "epoch": 0.5716,
      "grad_norm": 1.7621865272521973,
      "learning_rate": 8.569904423205157e-05,
      "loss": 1.8259,
      "step": 25722
    },
    {
      "epoch": 0.5716222222222223,
      "grad_norm": 1.6255216598510742,
      "learning_rate": 8.569459879973328e-05,
      "loss": 2.0912,
      "step": 25723
    },
    {
      "epoch": 0.5716444444444444,
      "grad_norm": 1.5257017612457275,
      "learning_rate": 8.569015336741499e-05,
      "loss": 1.9858,
      "step": 25724
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 1.5033650398254395,
      "learning_rate": 8.56857079350967e-05,
      "loss": 1.5099,
      "step": 25725
    },
    {
      "epoch": 0.5716888888888889,
      "grad_norm": 1.9311522245407104,
      "learning_rate": 8.568126250277841e-05,
      "loss": 2.0615,
      "step": 25726
    },
    {
      "epoch": 0.5717111111111111,
      "grad_norm": 1.7489691972732544,
      "learning_rate": 8.56768170704601e-05,
      "loss": 2.4009,
      "step": 25727
    },
    {
      "epoch": 0.5717333333333333,
      "grad_norm": 1.7931649684906006,
      "learning_rate": 8.567237163814181e-05,
      "loss": 2.1929,
      "step": 25728
    },
    {
      "epoch": 0.5717555555555556,
      "grad_norm": 1.84356689453125,
      "learning_rate": 8.566792620582352e-05,
      "loss": 1.9432,
      "step": 25729
    },
    {
      "epoch": 0.5717777777777778,
      "grad_norm": 1.5121773481369019,
      "learning_rate": 8.566348077350522e-05,
      "loss": 1.9769,
      "step": 25730
    },
    {
      "epoch": 0.5718,
      "grad_norm": 1.5745084285736084,
      "learning_rate": 8.565903534118693e-05,
      "loss": 1.8561,
      "step": 25731
    },
    {
      "epoch": 0.5718222222222222,
      "grad_norm": 1.262855887413025,
      "learning_rate": 8.565458990886864e-05,
      "loss": 1.272,
      "step": 25732
    },
    {
      "epoch": 0.5718444444444445,
      "grad_norm": 1.2928316593170166,
      "learning_rate": 8.565014447655035e-05,
      "loss": 1.0977,
      "step": 25733
    },
    {
      "epoch": 0.5718666666666666,
      "grad_norm": 0.956841766834259,
      "learning_rate": 8.564569904423206e-05,
      "loss": 0.7857,
      "step": 25734
    },
    {
      "epoch": 0.5718888888888889,
      "grad_norm": 0.14648161828517914,
      "learning_rate": 8.564125361191377e-05,
      "loss": 0.0258,
      "step": 25735
    },
    {
      "epoch": 0.5719111111111111,
      "grad_norm": 0.2709256112575531,
      "learning_rate": 8.563680817959548e-05,
      "loss": 0.0263,
      "step": 25736
    },
    {
      "epoch": 0.5719333333333333,
      "grad_norm": 1.778686761856079,
      "learning_rate": 8.563236274727717e-05,
      "loss": 2.0404,
      "step": 25737
    },
    {
      "epoch": 0.5719555555555556,
      "grad_norm": 1.7901958227157593,
      "learning_rate": 8.562791731495888e-05,
      "loss": 1.5201,
      "step": 25738
    },
    {
      "epoch": 0.5719777777777778,
      "grad_norm": 1.8837966918945312,
      "learning_rate": 8.562347188264059e-05,
      "loss": 2.0632,
      "step": 25739
    },
    {
      "epoch": 0.572,
      "grad_norm": 1.2224178314208984,
      "learning_rate": 8.561902645032229e-05,
      "loss": 0.9937,
      "step": 25740
    },
    {
      "epoch": 0.5720222222222222,
      "grad_norm": 2.0332577228546143,
      "learning_rate": 8.5614581018004e-05,
      "loss": 2.1465,
      "step": 25741
    },
    {
      "epoch": 0.5720444444444445,
      "grad_norm": 1.7775815725326538,
      "learning_rate": 8.561013558568572e-05,
      "loss": 1.8859,
      "step": 25742
    },
    {
      "epoch": 0.5720666666666666,
      "grad_norm": 1.7891740798950195,
      "learning_rate": 8.560569015336743e-05,
      "loss": 1.9876,
      "step": 25743
    },
    {
      "epoch": 0.5720888888888889,
      "grad_norm": 1.9831715822219849,
      "learning_rate": 8.560124472104913e-05,
      "loss": 1.9548,
      "step": 25744
    },
    {
      "epoch": 0.5721111111111111,
      "grad_norm": 2.164729356765747,
      "learning_rate": 8.559679928873084e-05,
      "loss": 2.2877,
      "step": 25745
    },
    {
      "epoch": 0.5721333333333334,
      "grad_norm": 1.6351230144500732,
      "learning_rate": 8.559235385641254e-05,
      "loss": 1.478,
      "step": 25746
    },
    {
      "epoch": 0.5721555555555555,
      "grad_norm": 2.017198085784912,
      "learning_rate": 8.558790842409424e-05,
      "loss": 1.6519,
      "step": 25747
    },
    {
      "epoch": 0.5721777777777778,
      "grad_norm": 1.556087851524353,
      "learning_rate": 8.558346299177595e-05,
      "loss": 1.5572,
      "step": 25748
    },
    {
      "epoch": 0.5722,
      "grad_norm": 1.82135009765625,
      "learning_rate": 8.557901755945766e-05,
      "loss": 1.771,
      "step": 25749
    },
    {
      "epoch": 0.5722222222222222,
      "grad_norm": 2.233006238937378,
      "learning_rate": 8.557457212713936e-05,
      "loss": 1.7638,
      "step": 25750
    },
    {
      "epoch": 0.5722444444444444,
      "grad_norm": 1.3495924472808838,
      "learning_rate": 8.557012669482108e-05,
      "loss": 2.3135,
      "step": 25751
    },
    {
      "epoch": 0.5722666666666667,
      "grad_norm": 1.718217134475708,
      "learning_rate": 8.556568126250279e-05,
      "loss": 2.3093,
      "step": 25752
    },
    {
      "epoch": 0.5722888888888888,
      "grad_norm": 1.4839550256729126,
      "learning_rate": 8.55612358301845e-05,
      "loss": 2.6725,
      "step": 25753
    },
    {
      "epoch": 0.5723111111111111,
      "grad_norm": 1.6164158582687378,
      "learning_rate": 8.55567903978662e-05,
      "loss": 2.3814,
      "step": 25754
    },
    {
      "epoch": 0.5723333333333334,
      "grad_norm": 1.6461539268493652,
      "learning_rate": 8.55523449655479e-05,
      "loss": 2.1208,
      "step": 25755
    },
    {
      "epoch": 0.5723555555555555,
      "grad_norm": 1.5425986051559448,
      "learning_rate": 8.554789953322961e-05,
      "loss": 2.1488,
      "step": 25756
    },
    {
      "epoch": 0.5723777777777778,
      "grad_norm": 1.6818119287490845,
      "learning_rate": 8.554345410091131e-05,
      "loss": 2.2954,
      "step": 25757
    },
    {
      "epoch": 0.5724,
      "grad_norm": 1.653141975402832,
      "learning_rate": 8.553900866859302e-05,
      "loss": 1.5584,
      "step": 25758
    },
    {
      "epoch": 0.5724222222222223,
      "grad_norm": 1.3412193059921265,
      "learning_rate": 8.553456323627473e-05,
      "loss": 2.0158,
      "step": 25759
    },
    {
      "epoch": 0.5724444444444444,
      "grad_norm": 1.7241566181182861,
      "learning_rate": 8.553011780395644e-05,
      "loss": 2.6476,
      "step": 25760
    },
    {
      "epoch": 0.5724666666666667,
      "grad_norm": 1.53416907787323,
      "learning_rate": 8.552567237163815e-05,
      "loss": 2.087,
      "step": 25761
    },
    {
      "epoch": 0.5724888888888889,
      "grad_norm": 1.8664326667785645,
      "learning_rate": 8.552122693931986e-05,
      "loss": 1.9608,
      "step": 25762
    },
    {
      "epoch": 0.5725111111111111,
      "grad_norm": 1.7230284214019775,
      "learning_rate": 8.551678150700157e-05,
      "loss": 2.4159,
      "step": 25763
    },
    {
      "epoch": 0.5725333333333333,
      "grad_norm": 1.5559327602386475,
      "learning_rate": 8.551233607468326e-05,
      "loss": 2.2237,
      "step": 25764
    },
    {
      "epoch": 0.5725555555555556,
      "grad_norm": 1.481768012046814,
      "learning_rate": 8.550789064236497e-05,
      "loss": 2.1765,
      "step": 25765
    },
    {
      "epoch": 0.5725777777777777,
      "grad_norm": 1.5719056129455566,
      "learning_rate": 8.550344521004668e-05,
      "loss": 1.9083,
      "step": 25766
    },
    {
      "epoch": 0.5726,
      "grad_norm": 1.3396432399749756,
      "learning_rate": 8.549899977772838e-05,
      "loss": 1.7808,
      "step": 25767
    },
    {
      "epoch": 0.5726222222222223,
      "grad_norm": 1.4139114618301392,
      "learning_rate": 8.549455434541009e-05,
      "loss": 1.8634,
      "step": 25768
    },
    {
      "epoch": 0.5726444444444444,
      "grad_norm": 1.6188405752182007,
      "learning_rate": 8.54901089130918e-05,
      "loss": 2.0596,
      "step": 25769
    },
    {
      "epoch": 0.5726666666666667,
      "grad_norm": 1.9198650121688843,
      "learning_rate": 8.548566348077351e-05,
      "loss": 1.7277,
      "step": 25770
    },
    {
      "epoch": 0.5726888888888889,
      "grad_norm": 1.4434568881988525,
      "learning_rate": 8.548121804845522e-05,
      "loss": 1.742,
      "step": 25771
    },
    {
      "epoch": 0.5727111111111111,
      "grad_norm": 1.572055697441101,
      "learning_rate": 8.547677261613693e-05,
      "loss": 1.8451,
      "step": 25772
    },
    {
      "epoch": 0.5727333333333333,
      "grad_norm": 1.3459651470184326,
      "learning_rate": 8.547232718381864e-05,
      "loss": 1.3596,
      "step": 25773
    },
    {
      "epoch": 0.5727555555555556,
      "grad_norm": 1.3569782972335815,
      "learning_rate": 8.546788175150033e-05,
      "loss": 1.7197,
      "step": 25774
    },
    {
      "epoch": 0.5727777777777778,
      "grad_norm": 1.5443956851959229,
      "learning_rate": 8.546343631918204e-05,
      "loss": 1.6795,
      "step": 25775
    },
    {
      "epoch": 0.5728,
      "grad_norm": 1.878814935684204,
      "learning_rate": 8.545899088686375e-05,
      "loss": 1.721,
      "step": 25776
    },
    {
      "epoch": 0.5728222222222222,
      "grad_norm": 1.5908725261688232,
      "learning_rate": 8.545454545454545e-05,
      "loss": 2.0399,
      "step": 25777
    },
    {
      "epoch": 0.5728444444444445,
      "grad_norm": 1.5259735584259033,
      "learning_rate": 8.545010002222716e-05,
      "loss": 1.6809,
      "step": 25778
    },
    {
      "epoch": 0.5728666666666666,
      "grad_norm": 1.7970151901245117,
      "learning_rate": 8.544565458990888e-05,
      "loss": 2.0895,
      "step": 25779
    },
    {
      "epoch": 0.5728888888888889,
      "grad_norm": 1.7510429620742798,
      "learning_rate": 8.544120915759059e-05,
      "loss": 2.0142,
      "step": 25780
    },
    {
      "epoch": 0.5729111111111111,
      "grad_norm": 1.514723539352417,
      "learning_rate": 8.543676372527229e-05,
      "loss": 1.5025,
      "step": 25781
    },
    {
      "epoch": 0.5729333333333333,
      "grad_norm": 1.241104245185852,
      "learning_rate": 8.5432318292954e-05,
      "loss": 1.2434,
      "step": 25782
    },
    {
      "epoch": 0.5729555555555556,
      "grad_norm": 1.9197041988372803,
      "learning_rate": 8.54278728606357e-05,
      "loss": 1.7614,
      "step": 25783
    },
    {
      "epoch": 0.5729777777777778,
      "grad_norm": 1.567199468612671,
      "learning_rate": 8.54234274283174e-05,
      "loss": 1.6021,
      "step": 25784
    },
    {
      "epoch": 0.573,
      "grad_norm": 1.7817846536636353,
      "learning_rate": 8.541898199599911e-05,
      "loss": 1.8707,
      "step": 25785
    },
    {
      "epoch": 0.5730222222222222,
      "grad_norm": 1.7348031997680664,
      "learning_rate": 8.541453656368082e-05,
      "loss": 1.771,
      "step": 25786
    },
    {
      "epoch": 0.5730444444444445,
      "grad_norm": 2.0711631774902344,
      "learning_rate": 8.541009113136252e-05,
      "loss": 2.2206,
      "step": 25787
    },
    {
      "epoch": 0.5730666666666666,
      "grad_norm": 1.8702232837677002,
      "learning_rate": 8.540564569904424e-05,
      "loss": 2.1554,
      "step": 25788
    },
    {
      "epoch": 0.5730888888888889,
      "grad_norm": 2.070375680923462,
      "learning_rate": 8.540120026672595e-05,
      "loss": 1.9594,
      "step": 25789
    },
    {
      "epoch": 0.5731111111111111,
      "grad_norm": 1.8700990676879883,
      "learning_rate": 8.539675483440766e-05,
      "loss": 1.8745,
      "step": 25790
    },
    {
      "epoch": 0.5731333333333334,
      "grad_norm": 1.6505186557769775,
      "learning_rate": 8.539230940208936e-05,
      "loss": 1.6517,
      "step": 25791
    },
    {
      "epoch": 0.5731555555555555,
      "grad_norm": 1.9102988243103027,
      "learning_rate": 8.538786396977107e-05,
      "loss": 2.0135,
      "step": 25792
    },
    {
      "epoch": 0.5731777777777778,
      "grad_norm": 1.8339016437530518,
      "learning_rate": 8.538341853745278e-05,
      "loss": 1.7311,
      "step": 25793
    },
    {
      "epoch": 0.5732,
      "grad_norm": 1.8846791982650757,
      "learning_rate": 8.537897310513447e-05,
      "loss": 2.0282,
      "step": 25794
    },
    {
      "epoch": 0.5732222222222222,
      "grad_norm": 1.6500928401947021,
      "learning_rate": 8.537452767281618e-05,
      "loss": 1.734,
      "step": 25795
    },
    {
      "epoch": 0.5732444444444444,
      "grad_norm": 1.7177919149398804,
      "learning_rate": 8.537008224049789e-05,
      "loss": 1.4664,
      "step": 25796
    },
    {
      "epoch": 0.5732666666666667,
      "grad_norm": 1.9090465307235718,
      "learning_rate": 8.53656368081796e-05,
      "loss": 1.9601,
      "step": 25797
    },
    {
      "epoch": 0.5732888888888888,
      "grad_norm": 1.3065292835235596,
      "learning_rate": 8.536119137586131e-05,
      "loss": 0.8583,
      "step": 25798
    },
    {
      "epoch": 0.5733111111111111,
      "grad_norm": 1.5860507488250732,
      "learning_rate": 8.535674594354302e-05,
      "loss": 1.3665,
      "step": 25799
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 1.4950746297836304,
      "learning_rate": 8.535230051122473e-05,
      "loss": 0.974,
      "step": 25800
    },
    {
      "epoch": 0.5733555555555555,
      "grad_norm": 1.5080500841140747,
      "learning_rate": 8.534785507890642e-05,
      "loss": 2.2007,
      "step": 25801
    },
    {
      "epoch": 0.5733777777777778,
      "grad_norm": 1.8065223693847656,
      "learning_rate": 8.534340964658813e-05,
      "loss": 2.7459,
      "step": 25802
    },
    {
      "epoch": 0.5734,
      "grad_norm": 1.1576310396194458,
      "learning_rate": 8.533896421426984e-05,
      "loss": 1.1024,
      "step": 25803
    },
    {
      "epoch": 0.5734222222222223,
      "grad_norm": 1.37685227394104,
      "learning_rate": 8.533451878195154e-05,
      "loss": 2.098,
      "step": 25804
    },
    {
      "epoch": 0.5734444444444444,
      "grad_norm": 1.4093037843704224,
      "learning_rate": 8.533007334963325e-05,
      "loss": 2.2798,
      "step": 25805
    },
    {
      "epoch": 0.5734666666666667,
      "grad_norm": 1.5947177410125732,
      "learning_rate": 8.532562791731496e-05,
      "loss": 2.0701,
      "step": 25806
    },
    {
      "epoch": 0.5734888888888889,
      "grad_norm": 2.1120340824127197,
      "learning_rate": 8.532118248499667e-05,
      "loss": 1.6964,
      "step": 25807
    },
    {
      "epoch": 0.5735111111111111,
      "grad_norm": 1.8550314903259277,
      "learning_rate": 8.531673705267838e-05,
      "loss": 2.5111,
      "step": 25808
    },
    {
      "epoch": 0.5735333333333333,
      "grad_norm": 2.037273645401001,
      "learning_rate": 8.531229162036009e-05,
      "loss": 1.858,
      "step": 25809
    },
    {
      "epoch": 0.5735555555555556,
      "grad_norm": 1.458878517150879,
      "learning_rate": 8.53078461880418e-05,
      "loss": 1.8525,
      "step": 25810
    },
    {
      "epoch": 0.5735777777777777,
      "grad_norm": 0.2872360348701477,
      "learning_rate": 8.53034007557235e-05,
      "loss": 0.0209,
      "step": 25811
    },
    {
      "epoch": 0.5736,
      "grad_norm": 1.529571294784546,
      "learning_rate": 8.52989553234052e-05,
      "loss": 1.8411,
      "step": 25812
    },
    {
      "epoch": 0.5736222222222223,
      "grad_norm": 1.5923453569412231,
      "learning_rate": 8.529450989108691e-05,
      "loss": 1.8027,
      "step": 25813
    },
    {
      "epoch": 0.5736444444444444,
      "grad_norm": 1.7380670309066772,
      "learning_rate": 8.529006445876861e-05,
      "loss": 2.4903,
      "step": 25814
    },
    {
      "epoch": 0.5736666666666667,
      "grad_norm": 2.0399043560028076,
      "learning_rate": 8.528561902645032e-05,
      "loss": 2.3516,
      "step": 25815
    },
    {
      "epoch": 0.5736888888888889,
      "grad_norm": 1.5405837297439575,
      "learning_rate": 8.528117359413204e-05,
      "loss": 1.7951,
      "step": 25816
    },
    {
      "epoch": 0.5737111111111111,
      "grad_norm": 1.6100730895996094,
      "learning_rate": 8.527672816181375e-05,
      "loss": 1.955,
      "step": 25817
    },
    {
      "epoch": 0.5737333333333333,
      "grad_norm": 1.479048252105713,
      "learning_rate": 8.527228272949545e-05,
      "loss": 1.6049,
      "step": 25818
    },
    {
      "epoch": 0.5737555555555556,
      "grad_norm": 1.6415687799453735,
      "learning_rate": 8.526783729717716e-05,
      "loss": 2.1413,
      "step": 25819
    },
    {
      "epoch": 0.5737777777777778,
      "grad_norm": 1.633242130279541,
      "learning_rate": 8.526339186485887e-05,
      "loss": 1.9074,
      "step": 25820
    },
    {
      "epoch": 0.5738,
      "grad_norm": 1.722865343093872,
      "learning_rate": 8.525894643254056e-05,
      "loss": 2.2105,
      "step": 25821
    },
    {
      "epoch": 0.5738222222222222,
      "grad_norm": 1.6807760000228882,
      "learning_rate": 8.525450100022227e-05,
      "loss": 2.1285,
      "step": 25822
    },
    {
      "epoch": 0.5738444444444445,
      "grad_norm": 1.3529731035232544,
      "learning_rate": 8.525005556790398e-05,
      "loss": 1.7808,
      "step": 25823
    },
    {
      "epoch": 0.5738666666666666,
      "grad_norm": 1.7612981796264648,
      "learning_rate": 8.524561013558568e-05,
      "loss": 1.8677,
      "step": 25824
    },
    {
      "epoch": 0.5738888888888889,
      "grad_norm": 1.543408751487732,
      "learning_rate": 8.52411647032674e-05,
      "loss": 1.9944,
      "step": 25825
    },
    {
      "epoch": 0.5739111111111111,
      "grad_norm": 1.546540379524231,
      "learning_rate": 8.523671927094911e-05,
      "loss": 1.942,
      "step": 25826
    },
    {
      "epoch": 0.5739333333333333,
      "grad_norm": 1.7032814025878906,
      "learning_rate": 8.523227383863082e-05,
      "loss": 1.7724,
      "step": 25827
    },
    {
      "epoch": 0.5739555555555556,
      "grad_norm": 1.6998419761657715,
      "learning_rate": 8.522782840631252e-05,
      "loss": 2.0003,
      "step": 25828
    },
    {
      "epoch": 0.5739777777777778,
      "grad_norm": 1.5656496286392212,
      "learning_rate": 8.522338297399423e-05,
      "loss": 1.8617,
      "step": 25829
    },
    {
      "epoch": 0.574,
      "grad_norm": 1.3194990158081055,
      "learning_rate": 8.521893754167594e-05,
      "loss": 1.3988,
      "step": 25830
    },
    {
      "epoch": 0.5740222222222222,
      "grad_norm": 1.5632909536361694,
      "learning_rate": 8.521449210935763e-05,
      "loss": 1.8376,
      "step": 25831
    },
    {
      "epoch": 0.5740444444444445,
      "grad_norm": 1.4915846586227417,
      "learning_rate": 8.521004667703934e-05,
      "loss": 1.9154,
      "step": 25832
    },
    {
      "epoch": 0.5740666666666666,
      "grad_norm": 1.458807349205017,
      "learning_rate": 8.520560124472105e-05,
      "loss": 1.8826,
      "step": 25833
    },
    {
      "epoch": 0.5740888888888889,
      "grad_norm": 1.8433349132537842,
      "learning_rate": 8.520115581240276e-05,
      "loss": 2.4107,
      "step": 25834
    },
    {
      "epoch": 0.5741111111111111,
      "grad_norm": 1.5098316669464111,
      "learning_rate": 8.519671038008447e-05,
      "loss": 1.8326,
      "step": 25835
    },
    {
      "epoch": 0.5741333333333334,
      "grad_norm": 1.8357150554656982,
      "learning_rate": 8.519226494776618e-05,
      "loss": 1.5214,
      "step": 25836
    },
    {
      "epoch": 0.5741555555555555,
      "grad_norm": 1.6379412412643433,
      "learning_rate": 8.518781951544789e-05,
      "loss": 1.651,
      "step": 25837
    },
    {
      "epoch": 0.5741777777777778,
      "grad_norm": 1.544201374053955,
      "learning_rate": 8.518337408312959e-05,
      "loss": 1.8596,
      "step": 25838
    },
    {
      "epoch": 0.5742,
      "grad_norm": 1.7644819021224976,
      "learning_rate": 8.51789286508113e-05,
      "loss": 2.0177,
      "step": 25839
    },
    {
      "epoch": 0.5742222222222222,
      "grad_norm": 1.0269098281860352,
      "learning_rate": 8.5174483218493e-05,
      "loss": 0.6541,
      "step": 25840
    },
    {
      "epoch": 0.5742444444444444,
      "grad_norm": 2.171380043029785,
      "learning_rate": 8.51700377861747e-05,
      "loss": 2.2374,
      "step": 25841
    },
    {
      "epoch": 0.5742666666666667,
      "grad_norm": 1.542111873626709,
      "learning_rate": 8.516559235385641e-05,
      "loss": 1.855,
      "step": 25842
    },
    {
      "epoch": 0.5742888888888888,
      "grad_norm": 2.249403238296509,
      "learning_rate": 8.516114692153812e-05,
      "loss": 1.9984,
      "step": 25843
    },
    {
      "epoch": 0.5743111111111111,
      "grad_norm": 1.7134921550750732,
      "learning_rate": 8.515670148921983e-05,
      "loss": 1.8807,
      "step": 25844
    },
    {
      "epoch": 0.5743333333333334,
      "grad_norm": 1.8306804895401,
      "learning_rate": 8.515225605690154e-05,
      "loss": 2.2559,
      "step": 25845
    },
    {
      "epoch": 0.5743555555555555,
      "grad_norm": 1.6717336177825928,
      "learning_rate": 8.514781062458325e-05,
      "loss": 1.7139,
      "step": 25846
    },
    {
      "epoch": 0.5743777777777778,
      "grad_norm": 1.6805630922317505,
      "learning_rate": 8.514336519226496e-05,
      "loss": 1.9044,
      "step": 25847
    },
    {
      "epoch": 0.5744,
      "grad_norm": 1.1804941892623901,
      "learning_rate": 8.513891975994666e-05,
      "loss": 0.8815,
      "step": 25848
    },
    {
      "epoch": 0.5744222222222222,
      "grad_norm": 1.9663548469543457,
      "learning_rate": 8.513447432762836e-05,
      "loss": 1.888,
      "step": 25849
    },
    {
      "epoch": 0.5744444444444444,
      "grad_norm": 1.8257575035095215,
      "learning_rate": 8.513002889531007e-05,
      "loss": 1.6505,
      "step": 25850
    },
    {
      "epoch": 0.5744666666666667,
      "grad_norm": 1.527230143547058,
      "learning_rate": 8.512558346299177e-05,
      "loss": 2.4513,
      "step": 25851
    },
    {
      "epoch": 0.5744888888888889,
      "grad_norm": 1.4793553352355957,
      "learning_rate": 8.512113803067348e-05,
      "loss": 2.4797,
      "step": 25852
    },
    {
      "epoch": 0.5745111111111111,
      "grad_norm": 1.4620087146759033,
      "learning_rate": 8.51166925983552e-05,
      "loss": 2.487,
      "step": 25853
    },
    {
      "epoch": 0.5745333333333333,
      "grad_norm": 1.2276864051818848,
      "learning_rate": 8.51122471660369e-05,
      "loss": 1.3152,
      "step": 25854
    },
    {
      "epoch": 0.5745555555555556,
      "grad_norm": 1.73105788230896,
      "learning_rate": 8.510780173371861e-05,
      "loss": 1.9796,
      "step": 25855
    },
    {
      "epoch": 0.5745777777777777,
      "grad_norm": 1.2348138093948364,
      "learning_rate": 8.510335630140032e-05,
      "loss": 1.4845,
      "step": 25856
    },
    {
      "epoch": 0.5746,
      "grad_norm": 1.5831315517425537,
      "learning_rate": 8.509891086908203e-05,
      "loss": 2.0515,
      "step": 25857
    },
    {
      "epoch": 0.5746222222222223,
      "grad_norm": 1.4946595430374146,
      "learning_rate": 8.509446543676372e-05,
      "loss": 2.227,
      "step": 25858
    },
    {
      "epoch": 0.5746444444444444,
      "grad_norm": 1.8229634761810303,
      "learning_rate": 8.509002000444543e-05,
      "loss": 2.4852,
      "step": 25859
    },
    {
      "epoch": 0.5746666666666667,
      "grad_norm": 1.4324060678482056,
      "learning_rate": 8.508557457212714e-05,
      "loss": 2.1294,
      "step": 25860
    },
    {
      "epoch": 0.5746888888888889,
      "grad_norm": 1.3680497407913208,
      "learning_rate": 8.508112913980884e-05,
      "loss": 1.8083,
      "step": 25861
    },
    {
      "epoch": 0.5747111111111111,
      "grad_norm": 1.4841502904891968,
      "learning_rate": 8.507668370749056e-05,
      "loss": 2.3155,
      "step": 25862
    },
    {
      "epoch": 0.5747333333333333,
      "grad_norm": 1.6526727676391602,
      "learning_rate": 8.507223827517227e-05,
      "loss": 2.0219,
      "step": 25863
    },
    {
      "epoch": 0.5747555555555556,
      "grad_norm": 1.7587121725082397,
      "learning_rate": 8.506779284285397e-05,
      "loss": 1.9555,
      "step": 25864
    },
    {
      "epoch": 0.5747777777777778,
      "grad_norm": 1.8311957120895386,
      "learning_rate": 8.506334741053568e-05,
      "loss": 2.3431,
      "step": 25865
    },
    {
      "epoch": 0.5748,
      "grad_norm": 1.590606451034546,
      "learning_rate": 8.505890197821739e-05,
      "loss": 1.7907,
      "step": 25866
    },
    {
      "epoch": 0.5748222222222222,
      "grad_norm": 1.7074474096298218,
      "learning_rate": 8.50544565458991e-05,
      "loss": 2.0113,
      "step": 25867
    },
    {
      "epoch": 0.5748444444444445,
      "grad_norm": 1.7187414169311523,
      "learning_rate": 8.505001111358079e-05,
      "loss": 1.7066,
      "step": 25868
    },
    {
      "epoch": 0.5748666666666666,
      "grad_norm": 1.5686930418014526,
      "learning_rate": 8.50455656812625e-05,
      "loss": 1.9829,
      "step": 25869
    },
    {
      "epoch": 0.5748888888888889,
      "grad_norm": 1.6503736972808838,
      "learning_rate": 8.504112024894421e-05,
      "loss": 2.0525,
      "step": 25870
    },
    {
      "epoch": 0.5749111111111112,
      "grad_norm": 1.5381848812103271,
      "learning_rate": 8.503667481662592e-05,
      "loss": 2.1522,
      "step": 25871
    },
    {
      "epoch": 0.5749333333333333,
      "grad_norm": 1.5714423656463623,
      "learning_rate": 8.503222938430763e-05,
      "loss": 1.8523,
      "step": 25872
    },
    {
      "epoch": 0.5749555555555556,
      "grad_norm": 1.486332893371582,
      "learning_rate": 8.502778395198934e-05,
      "loss": 1.8179,
      "step": 25873
    },
    {
      "epoch": 0.5749777777777778,
      "grad_norm": 1.8666901588439941,
      "learning_rate": 8.502333851967105e-05,
      "loss": 1.9923,
      "step": 25874
    },
    {
      "epoch": 0.575,
      "grad_norm": 1.815557837486267,
      "learning_rate": 8.501889308735275e-05,
      "loss": 2.1112,
      "step": 25875
    },
    {
      "epoch": 0.5750222222222222,
      "grad_norm": 1.8054728507995605,
      "learning_rate": 8.501444765503446e-05,
      "loss": 1.5906,
      "step": 25876
    },
    {
      "epoch": 0.5750444444444445,
      "grad_norm": 1.6779707670211792,
      "learning_rate": 8.501000222271617e-05,
      "loss": 1.8326,
      "step": 25877
    },
    {
      "epoch": 0.5750666666666666,
      "grad_norm": 1.5057170391082764,
      "learning_rate": 8.500555679039786e-05,
      "loss": 1.8389,
      "step": 25878
    },
    {
      "epoch": 0.5750888888888889,
      "grad_norm": 2.190169334411621,
      "learning_rate": 8.500111135807957e-05,
      "loss": 2.0456,
      "step": 25879
    },
    {
      "epoch": 0.5751111111111111,
      "grad_norm": 1.7067064046859741,
      "learning_rate": 8.499666592576128e-05,
      "loss": 1.9427,
      "step": 25880
    },
    {
      "epoch": 0.5751333333333334,
      "grad_norm": 1.3328043222427368,
      "learning_rate": 8.499222049344299e-05,
      "loss": 1.436,
      "step": 25881
    },
    {
      "epoch": 0.5751555555555555,
      "grad_norm": 1.5364593267440796,
      "learning_rate": 8.49877750611247e-05,
      "loss": 1.7917,
      "step": 25882
    },
    {
      "epoch": 0.5751777777777778,
      "grad_norm": 1.9151912927627563,
      "learning_rate": 8.498332962880641e-05,
      "loss": 2.1354,
      "step": 25883
    },
    {
      "epoch": 0.5752,
      "grad_norm": 1.7001210451126099,
      "learning_rate": 8.497888419648812e-05,
      "loss": 2.0169,
      "step": 25884
    },
    {
      "epoch": 0.5752222222222222,
      "grad_norm": 1.3206290006637573,
      "learning_rate": 8.497443876416982e-05,
      "loss": 1.386,
      "step": 25885
    },
    {
      "epoch": 0.5752444444444444,
      "grad_norm": 1.776057243347168,
      "learning_rate": 8.496999333185153e-05,
      "loss": 2.0317,
      "step": 25886
    },
    {
      "epoch": 0.5752666666666667,
      "grad_norm": 1.4158116579055786,
      "learning_rate": 8.496554789953324e-05,
      "loss": 1.4969,
      "step": 25887
    },
    {
      "epoch": 0.5752888888888888,
      "grad_norm": 1.621314287185669,
      "learning_rate": 8.496110246721493e-05,
      "loss": 1.7737,
      "step": 25888
    },
    {
      "epoch": 0.5753111111111111,
      "grad_norm": 1.9011842012405396,
      "learning_rate": 8.495665703489664e-05,
      "loss": 2.5415,
      "step": 25889
    },
    {
      "epoch": 0.5753333333333334,
      "grad_norm": 2.2260749340057373,
      "learning_rate": 8.495221160257836e-05,
      "loss": 1.8284,
      "step": 25890
    },
    {
      "epoch": 0.5753555555555555,
      "grad_norm": 1.7880183458328247,
      "learning_rate": 8.494776617026006e-05,
      "loss": 1.5225,
      "step": 25891
    },
    {
      "epoch": 0.5753777777777778,
      "grad_norm": 1.56460702419281,
      "learning_rate": 8.494332073794177e-05,
      "loss": 1.9047,
      "step": 25892
    },
    {
      "epoch": 0.5754,
      "grad_norm": 1.4668025970458984,
      "learning_rate": 8.493887530562348e-05,
      "loss": 1.4527,
      "step": 25893
    },
    {
      "epoch": 0.5754222222222222,
      "grad_norm": 1.743921160697937,
      "learning_rate": 8.493442987330519e-05,
      "loss": 1.5777,
      "step": 25894
    },
    {
      "epoch": 0.5754444444444444,
      "grad_norm": 1.5977262258529663,
      "learning_rate": 8.492998444098689e-05,
      "loss": 1.4955,
      "step": 25895
    },
    {
      "epoch": 0.5754666666666667,
      "grad_norm": 2.3820276260375977,
      "learning_rate": 8.49255390086686e-05,
      "loss": 2.1317,
      "step": 25896
    },
    {
      "epoch": 0.5754888888888889,
      "grad_norm": 1.623916745185852,
      "learning_rate": 8.49210935763503e-05,
      "loss": 1.6631,
      "step": 25897
    },
    {
      "epoch": 0.5755111111111111,
      "grad_norm": 2.083130359649658,
      "learning_rate": 8.4916648144032e-05,
      "loss": 2.0471,
      "step": 25898
    },
    {
      "epoch": 0.5755333333333333,
      "grad_norm": 1.6949437856674194,
      "learning_rate": 8.491220271171372e-05,
      "loss": 1.7325,
      "step": 25899
    },
    {
      "epoch": 0.5755555555555556,
      "grad_norm": 1.465520977973938,
      "learning_rate": 8.490775727939543e-05,
      "loss": 1.5087,
      "step": 25900
    },
    {
      "epoch": 0.5755777777777777,
      "grad_norm": 2.0363380908966064,
      "learning_rate": 8.490331184707713e-05,
      "loss": 2.9875,
      "step": 25901
    },
    {
      "epoch": 0.5756,
      "grad_norm": 1.3037781715393066,
      "learning_rate": 8.489886641475884e-05,
      "loss": 2.2702,
      "step": 25902
    },
    {
      "epoch": 0.5756222222222223,
      "grad_norm": 1.4280723333358765,
      "learning_rate": 8.489442098244055e-05,
      "loss": 2.4732,
      "step": 25903
    },
    {
      "epoch": 0.5756444444444444,
      "grad_norm": 0.8468064665794373,
      "learning_rate": 8.488997555012226e-05,
      "loss": 1.0019,
      "step": 25904
    },
    {
      "epoch": 0.5756666666666667,
      "grad_norm": 1.372684121131897,
      "learning_rate": 8.488553011780395e-05,
      "loss": 2.4093,
      "step": 25905
    },
    {
      "epoch": 0.5756888888888889,
      "grad_norm": 1.5047813653945923,
      "learning_rate": 8.488108468548566e-05,
      "loss": 2.5721,
      "step": 25906
    },
    {
      "epoch": 0.5757111111111111,
      "grad_norm": 1.5781632661819458,
      "learning_rate": 8.487663925316737e-05,
      "loss": 2.0417,
      "step": 25907
    },
    {
      "epoch": 0.5757333333333333,
      "grad_norm": 1.6170930862426758,
      "learning_rate": 8.487219382084908e-05,
      "loss": 2.135,
      "step": 25908
    },
    {
      "epoch": 0.5757555555555556,
      "grad_norm": 1.679280400276184,
      "learning_rate": 8.486774838853079e-05,
      "loss": 2.2844,
      "step": 25909
    },
    {
      "epoch": 0.5757777777777778,
      "grad_norm": 1.9144145250320435,
      "learning_rate": 8.48633029562125e-05,
      "loss": 2.1399,
      "step": 25910
    },
    {
      "epoch": 0.5758,
      "grad_norm": 1.6415542364120483,
      "learning_rate": 8.48588575238942e-05,
      "loss": 1.2934,
      "step": 25911
    },
    {
      "epoch": 0.5758222222222222,
      "grad_norm": 1.952968955039978,
      "learning_rate": 8.485441209157591e-05,
      "loss": 2.2187,
      "step": 25912
    },
    {
      "epoch": 0.5758444444444445,
      "grad_norm": 1.1734278202056885,
      "learning_rate": 8.484996665925762e-05,
      "loss": 1.1814,
      "step": 25913
    },
    {
      "epoch": 0.5758666666666666,
      "grad_norm": 1.1765111684799194,
      "learning_rate": 8.484552122693933e-05,
      "loss": 1.1921,
      "step": 25914
    },
    {
      "epoch": 0.5758888888888889,
      "grad_norm": 1.738513708114624,
      "learning_rate": 8.484107579462102e-05,
      "loss": 1.9746,
      "step": 25915
    },
    {
      "epoch": 0.5759111111111112,
      "grad_norm": 1.661946177482605,
      "learning_rate": 8.483663036230273e-05,
      "loss": 1.9189,
      "step": 25916
    },
    {
      "epoch": 0.5759333333333333,
      "grad_norm": 1.8266701698303223,
      "learning_rate": 8.483218492998444e-05,
      "loss": 2.4225,
      "step": 25917
    },
    {
      "epoch": 0.5759555555555556,
      "grad_norm": 1.9770067930221558,
      "learning_rate": 8.482773949766615e-05,
      "loss": 2.1569,
      "step": 25918
    },
    {
      "epoch": 0.5759777777777778,
      "grad_norm": 1.2214926481246948,
      "learning_rate": 8.482329406534786e-05,
      "loss": 1.1254,
      "step": 25919
    },
    {
      "epoch": 0.576,
      "grad_norm": 1.5936335325241089,
      "learning_rate": 8.481884863302957e-05,
      "loss": 1.7393,
      "step": 25920
    },
    {
      "epoch": 0.5760222222222222,
      "grad_norm": 1.5994678735733032,
      "learning_rate": 8.481440320071128e-05,
      "loss": 1.8985,
      "step": 25921
    },
    {
      "epoch": 0.5760444444444445,
      "grad_norm": 1.9072351455688477,
      "learning_rate": 8.480995776839298e-05,
      "loss": 2.0587,
      "step": 25922
    },
    {
      "epoch": 0.5760666666666666,
      "grad_norm": 1.9863942861557007,
      "learning_rate": 8.480551233607469e-05,
      "loss": 1.991,
      "step": 25923
    },
    {
      "epoch": 0.5760888888888889,
      "grad_norm": 1.942941427230835,
      "learning_rate": 8.48010669037564e-05,
      "loss": 2.2744,
      "step": 25924
    },
    {
      "epoch": 0.5761111111111111,
      "grad_norm": 1.8738967180252075,
      "learning_rate": 8.479662147143809e-05,
      "loss": 1.9959,
      "step": 25925
    },
    {
      "epoch": 0.5761333333333334,
      "grad_norm": 1.520711064338684,
      "learning_rate": 8.47921760391198e-05,
      "loss": 1.8296,
      "step": 25926
    },
    {
      "epoch": 0.5761555555555555,
      "grad_norm": 1.6332484483718872,
      "learning_rate": 8.478773060680153e-05,
      "loss": 1.8679,
      "step": 25927
    },
    {
      "epoch": 0.5761777777777778,
      "grad_norm": 1.8324124813079834,
      "learning_rate": 8.478328517448322e-05,
      "loss": 1.9311,
      "step": 25928
    },
    {
      "epoch": 0.5762,
      "grad_norm": 1.7656601667404175,
      "learning_rate": 8.477883974216493e-05,
      "loss": 1.8967,
      "step": 25929
    },
    {
      "epoch": 0.5762222222222222,
      "grad_norm": 1.652225375175476,
      "learning_rate": 8.477439430984664e-05,
      "loss": 1.8419,
      "step": 25930
    },
    {
      "epoch": 0.5762444444444444,
      "grad_norm": 2.149226665496826,
      "learning_rate": 8.476994887752835e-05,
      "loss": 2.0951,
      "step": 25931
    },
    {
      "epoch": 0.5762666666666667,
      "grad_norm": 1.4774209260940552,
      "learning_rate": 8.476550344521005e-05,
      "loss": 1.8889,
      "step": 25932
    },
    {
      "epoch": 0.5762888888888889,
      "grad_norm": 1.4891711473464966,
      "learning_rate": 8.476105801289176e-05,
      "loss": 1.5859,
      "step": 25933
    },
    {
      "epoch": 0.5763111111111111,
      "grad_norm": 2.0572304725646973,
      "learning_rate": 8.475661258057347e-05,
      "loss": 2.1509,
      "step": 25934
    },
    {
      "epoch": 0.5763333333333334,
      "grad_norm": 2.207815647125244,
      "learning_rate": 8.475216714825516e-05,
      "loss": 2.0996,
      "step": 25935
    },
    {
      "epoch": 0.5763555555555555,
      "grad_norm": 2.040614128112793,
      "learning_rate": 8.474772171593688e-05,
      "loss": 2.0951,
      "step": 25936
    },
    {
      "epoch": 0.5763777777777778,
      "grad_norm": 1.738759160041809,
      "learning_rate": 8.47432762836186e-05,
      "loss": 2.4787,
      "step": 25937
    },
    {
      "epoch": 0.5764,
      "grad_norm": 2.2333452701568604,
      "learning_rate": 8.473883085130029e-05,
      "loss": 2.0454,
      "step": 25938
    },
    {
      "epoch": 0.5764222222222222,
      "grad_norm": 1.803543210029602,
      "learning_rate": 8.4734385418982e-05,
      "loss": 1.9241,
      "step": 25939
    },
    {
      "epoch": 0.5764444444444444,
      "grad_norm": 1.8549774885177612,
      "learning_rate": 8.472993998666371e-05,
      "loss": 2.135,
      "step": 25940
    },
    {
      "epoch": 0.5764666666666667,
      "grad_norm": 2.093702554702759,
      "learning_rate": 8.472549455434542e-05,
      "loss": 1.8778,
      "step": 25941
    },
    {
      "epoch": 0.5764888888888889,
      "grad_norm": 1.755881428718567,
      "learning_rate": 8.472104912202712e-05,
      "loss": 2.0415,
      "step": 25942
    },
    {
      "epoch": 0.5765111111111111,
      "grad_norm": 2.4870405197143555,
      "learning_rate": 8.471660368970882e-05,
      "loss": 1.9493,
      "step": 25943
    },
    {
      "epoch": 0.5765333333333333,
      "grad_norm": 1.4329767227172852,
      "learning_rate": 8.471215825739053e-05,
      "loss": 1.6417,
      "step": 25944
    },
    {
      "epoch": 0.5765555555555556,
      "grad_norm": 1.9608339071273804,
      "learning_rate": 8.470771282507224e-05,
      "loss": 2.0607,
      "step": 25945
    },
    {
      "epoch": 0.5765777777777777,
      "grad_norm": 1.8790415525436401,
      "learning_rate": 8.470326739275395e-05,
      "loss": 1.8563,
      "step": 25946
    },
    {
      "epoch": 0.5766,
      "grad_norm": 2.0572495460510254,
      "learning_rate": 8.469882196043566e-05,
      "loss": 2.0796,
      "step": 25947
    },
    {
      "epoch": 0.5766222222222223,
      "grad_norm": 2.031140089035034,
      "learning_rate": 8.469437652811736e-05,
      "loss": 1.7421,
      "step": 25948
    },
    {
      "epoch": 0.5766444444444444,
      "grad_norm": 1.3088346719741821,
      "learning_rate": 8.468993109579907e-05,
      "loss": 1.0353,
      "step": 25949
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 1.5769364833831787,
      "learning_rate": 8.468548566348078e-05,
      "loss": 0.9108,
      "step": 25950
    },
    {
      "epoch": 0.5766888888888889,
      "grad_norm": 1.0300639867782593,
      "learning_rate": 8.468104023116249e-05,
      "loss": 1.2338,
      "step": 25951
    },
    {
      "epoch": 0.5767111111111111,
      "grad_norm": 1.5113728046417236,
      "learning_rate": 8.467659479884418e-05,
      "loss": 2.6188,
      "step": 25952
    },
    {
      "epoch": 0.5767333333333333,
      "grad_norm": 1.1564249992370605,
      "learning_rate": 8.46721493665259e-05,
      "loss": 1.4414,
      "step": 25953
    },
    {
      "epoch": 0.5767555555555556,
      "grad_norm": 3.3172104358673096,
      "learning_rate": 8.46677039342076e-05,
      "loss": 2.6221,
      "step": 25954
    },
    {
      "epoch": 0.5767777777777777,
      "grad_norm": 1.5539910793304443,
      "learning_rate": 8.466325850188931e-05,
      "loss": 2.5753,
      "step": 25955
    },
    {
      "epoch": 0.5768,
      "grad_norm": 1.4837034940719604,
      "learning_rate": 8.465881306957102e-05,
      "loss": 2.2811,
      "step": 25956
    },
    {
      "epoch": 0.5768222222222222,
      "grad_norm": 1.4640401601791382,
      "learning_rate": 8.465436763725273e-05,
      "loss": 1.1172,
      "step": 25957
    },
    {
      "epoch": 0.5768444444444445,
      "grad_norm": 1.5787912607192993,
      "learning_rate": 8.464992220493443e-05,
      "loss": 2.1486,
      "step": 25958
    },
    {
      "epoch": 0.5768666666666666,
      "grad_norm": 1.4304194450378418,
      "learning_rate": 8.464547677261614e-05,
      "loss": 2.031,
      "step": 25959
    },
    {
      "epoch": 0.5768888888888889,
      "grad_norm": 1.6707733869552612,
      "learning_rate": 8.464103134029785e-05,
      "loss": 2.2478,
      "step": 25960
    },
    {
      "epoch": 0.5769111111111112,
      "grad_norm": 1.6346321105957031,
      "learning_rate": 8.463658590797956e-05,
      "loss": 2.3574,
      "step": 25961
    },
    {
      "epoch": 0.5769333333333333,
      "grad_norm": 1.6079306602478027,
      "learning_rate": 8.463214047566125e-05,
      "loss": 2.1815,
      "step": 25962
    },
    {
      "epoch": 0.5769555555555556,
      "grad_norm": 1.5131382942199707,
      "learning_rate": 8.462769504334296e-05,
      "loss": 2.0589,
      "step": 25963
    },
    {
      "epoch": 0.5769777777777778,
      "grad_norm": 1.4120280742645264,
      "learning_rate": 8.462324961102469e-05,
      "loss": 1.2998,
      "step": 25964
    },
    {
      "epoch": 0.577,
      "grad_norm": 1.5342144966125488,
      "learning_rate": 8.461880417870638e-05,
      "loss": 1.4498,
      "step": 25965
    },
    {
      "epoch": 0.5770222222222222,
      "grad_norm": 1.4350162744522095,
      "learning_rate": 8.461435874638809e-05,
      "loss": 1.8269,
      "step": 25966
    },
    {
      "epoch": 0.5770444444444445,
      "grad_norm": 1.6343975067138672,
      "learning_rate": 8.46099133140698e-05,
      "loss": 2.0455,
      "step": 25967
    },
    {
      "epoch": 0.5770666666666666,
      "grad_norm": 1.7373617887496948,
      "learning_rate": 8.46054678817515e-05,
      "loss": 2.2496,
      "step": 25968
    },
    {
      "epoch": 0.5770888888888889,
      "grad_norm": 1.7621031999588013,
      "learning_rate": 8.460102244943321e-05,
      "loss": 2.0521,
      "step": 25969
    },
    {
      "epoch": 0.5771111111111111,
      "grad_norm": 2.0356478691101074,
      "learning_rate": 8.459657701711492e-05,
      "loss": 1.8139,
      "step": 25970
    },
    {
      "epoch": 0.5771333333333334,
      "grad_norm": 1.6037461757659912,
      "learning_rate": 8.459213158479663e-05,
      "loss": 1.9601,
      "step": 25971
    },
    {
      "epoch": 0.5771555555555555,
      "grad_norm": 1.9582102298736572,
      "learning_rate": 8.458768615247832e-05,
      "loss": 2.2421,
      "step": 25972
    },
    {
      "epoch": 0.5771777777777778,
      "grad_norm": 1.8982878923416138,
      "learning_rate": 8.458324072016005e-05,
      "loss": 2.4973,
      "step": 25973
    },
    {
      "epoch": 0.5772,
      "grad_norm": 1.451770544052124,
      "learning_rate": 8.457879528784176e-05,
      "loss": 1.8959,
      "step": 25974
    },
    {
      "epoch": 0.5772222222222222,
      "grad_norm": 1.4310729503631592,
      "learning_rate": 8.457434985552345e-05,
      "loss": 1.3622,
      "step": 25975
    },
    {
      "epoch": 0.5772444444444444,
      "grad_norm": 1.6004141569137573,
      "learning_rate": 8.456990442320516e-05,
      "loss": 1.6239,
      "step": 25976
    },
    {
      "epoch": 0.5772666666666667,
      "grad_norm": 1.7305545806884766,
      "learning_rate": 8.456545899088687e-05,
      "loss": 2.0589,
      "step": 25977
    },
    {
      "epoch": 0.5772888888888889,
      "grad_norm": 1.3793563842773438,
      "learning_rate": 8.456101355856858e-05,
      "loss": 1.6397,
      "step": 25978
    },
    {
      "epoch": 0.5773111111111111,
      "grad_norm": 1.5642708539962769,
      "learning_rate": 8.455656812625028e-05,
      "loss": 1.9601,
      "step": 25979
    },
    {
      "epoch": 0.5773333333333334,
      "grad_norm": 1.8084590435028076,
      "learning_rate": 8.455212269393199e-05,
      "loss": 1.5212,
      "step": 25980
    },
    {
      "epoch": 0.5773555555555555,
      "grad_norm": 1.7321137189865112,
      "learning_rate": 8.45476772616137e-05,
      "loss": 0.9447,
      "step": 25981
    },
    {
      "epoch": 0.5773777777777778,
      "grad_norm": 1.569234013557434,
      "learning_rate": 8.45432318292954e-05,
      "loss": 1.8806,
      "step": 25982
    },
    {
      "epoch": 0.5774,
      "grad_norm": 1.749790072441101,
      "learning_rate": 8.453878639697711e-05,
      "loss": 1.9686,
      "step": 25983
    },
    {
      "epoch": 0.5774222222222222,
      "grad_norm": 1.4470043182373047,
      "learning_rate": 8.453434096465882e-05,
      "loss": 1.5933,
      "step": 25984
    },
    {
      "epoch": 0.5774444444444444,
      "grad_norm": 1.4855726957321167,
      "learning_rate": 8.452989553234052e-05,
      "loss": 1.76,
      "step": 25985
    },
    {
      "epoch": 0.5774666666666667,
      "grad_norm": 1.7785967588424683,
      "learning_rate": 8.452545010002223e-05,
      "loss": 1.9297,
      "step": 25986
    },
    {
      "epoch": 0.5774888888888889,
      "grad_norm": 1.0004416704177856,
      "learning_rate": 8.452100466770394e-05,
      "loss": 0.8414,
      "step": 25987
    },
    {
      "epoch": 0.5775111111111111,
      "grad_norm": 17.7835693359375,
      "learning_rate": 8.451655923538565e-05,
      "loss": 2.2178,
      "step": 25988
    },
    {
      "epoch": 0.5775333333333333,
      "grad_norm": 1.5151816606521606,
      "learning_rate": 8.451211380306735e-05,
      "loss": 1.4501,
      "step": 25989
    },
    {
      "epoch": 0.5775555555555556,
      "grad_norm": 1.9943801164627075,
      "learning_rate": 8.450766837074906e-05,
      "loss": 2.2157,
      "step": 25990
    },
    {
      "epoch": 0.5775777777777777,
      "grad_norm": 1.8530950546264648,
      "learning_rate": 8.450322293843076e-05,
      "loss": 1.7795,
      "step": 25991
    },
    {
      "epoch": 0.5776,
      "grad_norm": 1.7538650035858154,
      "learning_rate": 8.449877750611247e-05,
      "loss": 1.6754,
      "step": 25992
    },
    {
      "epoch": 0.5776222222222223,
      "grad_norm": 1.8652743101119995,
      "learning_rate": 8.449433207379418e-05,
      "loss": 2.1591,
      "step": 25993
    },
    {
      "epoch": 0.5776444444444444,
      "grad_norm": 1.8382536172866821,
      "learning_rate": 8.44898866414759e-05,
      "loss": 1.8605,
      "step": 25994
    },
    {
      "epoch": 0.5776666666666667,
      "grad_norm": 1.5919816493988037,
      "learning_rate": 8.448544120915759e-05,
      "loss": 1.7085,
      "step": 25995
    },
    {
      "epoch": 0.5776888888888889,
      "grad_norm": 1.91946542263031,
      "learning_rate": 8.44809957768393e-05,
      "loss": 1.7697,
      "step": 25996
    },
    {
      "epoch": 0.5777111111111111,
      "grad_norm": 1.5796613693237305,
      "learning_rate": 8.447655034452101e-05,
      "loss": 1.3837,
      "step": 25997
    },
    {
      "epoch": 0.5777333333333333,
      "grad_norm": 1.1964937448501587,
      "learning_rate": 8.447210491220272e-05,
      "loss": 0.9521,
      "step": 25998
    },
    {
      "epoch": 0.5777555555555556,
      "grad_norm": 1.6924588680267334,
      "learning_rate": 8.446765947988441e-05,
      "loss": 1.7327,
      "step": 25999
    },
    {
      "epoch": 0.5777777777777777,
      "grad_norm": 1.842859148979187,
      "learning_rate": 8.446321404756612e-05,
      "loss": 1.6703,
      "step": 26000
    },
    {
      "epoch": 0.5778,
      "grad_norm": 0.8927009701728821,
      "learning_rate": 8.445876861524785e-05,
      "loss": 0.8949,
      "step": 26001
    },
    {
      "epoch": 0.5778222222222222,
      "grad_norm": 1.79087233543396,
      "learning_rate": 8.445432318292954e-05,
      "loss": 2.1933,
      "step": 26002
    },
    {
      "epoch": 0.5778444444444445,
      "grad_norm": 1.7325570583343506,
      "learning_rate": 8.444987775061125e-05,
      "loss": 2.4312,
      "step": 26003
    },
    {
      "epoch": 0.5778666666666666,
      "grad_norm": 1.6615060567855835,
      "learning_rate": 8.444543231829296e-05,
      "loss": 1.5557,
      "step": 26004
    },
    {
      "epoch": 0.5778888888888889,
      "grad_norm": 1.3299299478530884,
      "learning_rate": 8.444098688597466e-05,
      "loss": 1.6282,
      "step": 26005
    },
    {
      "epoch": 0.5779111111111112,
      "grad_norm": 1.5845272541046143,
      "learning_rate": 8.443654145365637e-05,
      "loss": 2.1,
      "step": 26006
    },
    {
      "epoch": 0.5779333333333333,
      "grad_norm": 1.890878438949585,
      "learning_rate": 8.443209602133808e-05,
      "loss": 1.3777,
      "step": 26007
    },
    {
      "epoch": 0.5779555555555556,
      "grad_norm": 1.5573099851608276,
      "learning_rate": 8.442765058901979e-05,
      "loss": 2.2133,
      "step": 26008
    },
    {
      "epoch": 0.5779777777777778,
      "grad_norm": 1.5288937091827393,
      "learning_rate": 8.442320515670148e-05,
      "loss": 1.7278,
      "step": 26009
    },
    {
      "epoch": 0.578,
      "grad_norm": 1.4313246011734009,
      "learning_rate": 8.44187597243832e-05,
      "loss": 2.0185,
      "step": 26010
    },
    {
      "epoch": 0.5780222222222222,
      "grad_norm": 1.7366185188293457,
      "learning_rate": 8.441431429206492e-05,
      "loss": 2.2675,
      "step": 26011
    },
    {
      "epoch": 0.5780444444444445,
      "grad_norm": 1.7425129413604736,
      "learning_rate": 8.440986885974661e-05,
      "loss": 2.218,
      "step": 26012
    },
    {
      "epoch": 0.5780666666666666,
      "grad_norm": 1.5490167140960693,
      "learning_rate": 8.440542342742832e-05,
      "loss": 1.7977,
      "step": 26013
    },
    {
      "epoch": 0.5780888888888889,
      "grad_norm": 1.307113528251648,
      "learning_rate": 8.440097799511003e-05,
      "loss": 1.146,
      "step": 26014
    },
    {
      "epoch": 0.5781111111111111,
      "grad_norm": 1.814853549003601,
      "learning_rate": 8.439653256279173e-05,
      "loss": 1.9841,
      "step": 26015
    },
    {
      "epoch": 0.5781333333333334,
      "grad_norm": 1.8090673685073853,
      "learning_rate": 8.439208713047344e-05,
      "loss": 1.7952,
      "step": 26016
    },
    {
      "epoch": 0.5781555555555555,
      "grad_norm": 1.5758663415908813,
      "learning_rate": 8.438764169815515e-05,
      "loss": 2.2281,
      "step": 26017
    },
    {
      "epoch": 0.5781777777777778,
      "grad_norm": 1.8426498174667358,
      "learning_rate": 8.438319626583686e-05,
      "loss": 2.4655,
      "step": 26018
    },
    {
      "epoch": 0.5782,
      "grad_norm": 1.5860536098480225,
      "learning_rate": 8.437875083351857e-05,
      "loss": 1.9361,
      "step": 26019
    },
    {
      "epoch": 0.5782222222222222,
      "grad_norm": 1.7160062789916992,
      "learning_rate": 8.437430540120028e-05,
      "loss": 1.8582,
      "step": 26020
    },
    {
      "epoch": 0.5782444444444444,
      "grad_norm": 1.8908746242523193,
      "learning_rate": 8.436985996888199e-05,
      "loss": 2.1268,
      "step": 26021
    },
    {
      "epoch": 0.5782666666666667,
      "grad_norm": 2.027647018432617,
      "learning_rate": 8.436541453656368e-05,
      "loss": 2.4584,
      "step": 26022
    },
    {
      "epoch": 0.5782888888888889,
      "grad_norm": 1.639888882637024,
      "learning_rate": 8.436096910424539e-05,
      "loss": 1.3977,
      "step": 26023
    },
    {
      "epoch": 0.5783111111111111,
      "grad_norm": 1.7778737545013428,
      "learning_rate": 8.43565236719271e-05,
      "loss": 2.2876,
      "step": 26024
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 2.1147873401641846,
      "learning_rate": 8.43520782396088e-05,
      "loss": 1.7371,
      "step": 26025
    },
    {
      "epoch": 0.5783555555555555,
      "grad_norm": 2.118032217025757,
      "learning_rate": 8.43476328072905e-05,
      "loss": 2.0833,
      "step": 26026
    },
    {
      "epoch": 0.5783777777777778,
      "grad_norm": 1.5896843671798706,
      "learning_rate": 8.434318737497222e-05,
      "loss": 2.176,
      "step": 26027
    },
    {
      "epoch": 0.5784,
      "grad_norm": 1.406416893005371,
      "learning_rate": 8.433874194265393e-05,
      "loss": 1.3327,
      "step": 26028
    },
    {
      "epoch": 0.5784222222222222,
      "grad_norm": 1.8351752758026123,
      "learning_rate": 8.433429651033564e-05,
      "loss": 1.8609,
      "step": 26029
    },
    {
      "epoch": 0.5784444444444444,
      "grad_norm": 2.0752804279327393,
      "learning_rate": 8.432985107801734e-05,
      "loss": 2.5484,
      "step": 26030
    },
    {
      "epoch": 0.5784666666666667,
      "grad_norm": 1.6778042316436768,
      "learning_rate": 8.432540564569905e-05,
      "loss": 1.3947,
      "step": 26031
    },
    {
      "epoch": 0.5784888888888889,
      "grad_norm": 2.0801656246185303,
      "learning_rate": 8.432096021338075e-05,
      "loss": 2.1063,
      "step": 26032
    },
    {
      "epoch": 0.5785111111111111,
      "grad_norm": 1.9608205556869507,
      "learning_rate": 8.431651478106246e-05,
      "loss": 2.6487,
      "step": 26033
    },
    {
      "epoch": 0.5785333333333333,
      "grad_norm": 1.5958486795425415,
      "learning_rate": 8.431206934874417e-05,
      "loss": 1.9128,
      "step": 26034
    },
    {
      "epoch": 0.5785555555555556,
      "grad_norm": 1.6694389581680298,
      "learning_rate": 8.430762391642588e-05,
      "loss": 1.1725,
      "step": 26035
    },
    {
      "epoch": 0.5785777777777777,
      "grad_norm": 1.5564417839050293,
      "learning_rate": 8.430317848410758e-05,
      "loss": 0.9956,
      "step": 26036
    },
    {
      "epoch": 0.5786,
      "grad_norm": 1.6584241390228271,
      "learning_rate": 8.429873305178929e-05,
      "loss": 1.8983,
      "step": 26037
    },
    {
      "epoch": 0.5786222222222223,
      "grad_norm": 1.9169220924377441,
      "learning_rate": 8.429428761947101e-05,
      "loss": 1.8601,
      "step": 26038
    },
    {
      "epoch": 0.5786444444444444,
      "grad_norm": 1.9622453451156616,
      "learning_rate": 8.42898421871527e-05,
      "loss": 2.2768,
      "step": 26039
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 1.8803428411483765,
      "learning_rate": 8.428539675483441e-05,
      "loss": 2.0619,
      "step": 26040
    },
    {
      "epoch": 0.5786888888888889,
      "grad_norm": 1.8330425024032593,
      "learning_rate": 8.428095132251612e-05,
      "loss": 1.8456,
      "step": 26041
    },
    {
      "epoch": 0.5787111111111111,
      "grad_norm": 1.7811545133590698,
      "learning_rate": 8.427650589019782e-05,
      "loss": 1.6961,
      "step": 26042
    },
    {
      "epoch": 0.5787333333333333,
      "grad_norm": 1.984512448310852,
      "learning_rate": 8.427206045787953e-05,
      "loss": 1.7993,
      "step": 26043
    },
    {
      "epoch": 0.5787555555555556,
      "grad_norm": 2.2069578170776367,
      "learning_rate": 8.426761502556124e-05,
      "loss": 1.8305,
      "step": 26044
    },
    {
      "epoch": 0.5787777777777777,
      "grad_norm": 1.84796941280365,
      "learning_rate": 8.426316959324295e-05,
      "loss": 1.3626,
      "step": 26045
    },
    {
      "epoch": 0.5788,
      "grad_norm": 2.032742977142334,
      "learning_rate": 8.425872416092464e-05,
      "loss": 1.8709,
      "step": 26046
    },
    {
      "epoch": 0.5788222222222222,
      "grad_norm": 1.9718986749649048,
      "learning_rate": 8.425427872860637e-05,
      "loss": 1.7734,
      "step": 26047
    },
    {
      "epoch": 0.5788444444444445,
      "grad_norm": 1.4757591485977173,
      "learning_rate": 8.424983329628808e-05,
      "loss": 1.3125,
      "step": 26048
    },
    {
      "epoch": 0.5788666666666666,
      "grad_norm": 1.3887970447540283,
      "learning_rate": 8.424538786396977e-05,
      "loss": 0.9535,
      "step": 26049
    },
    {
      "epoch": 0.5788888888888889,
      "grad_norm": 2.0439767837524414,
      "learning_rate": 8.424094243165148e-05,
      "loss": 0.9072,
      "step": 26050
    },
    {
      "epoch": 0.5789111111111112,
      "grad_norm": 1.327715277671814,
      "learning_rate": 8.423649699933319e-05,
      "loss": 2.4519,
      "step": 26051
    },
    {
      "epoch": 0.5789333333333333,
      "grad_norm": 1.6525444984436035,
      "learning_rate": 8.423205156701489e-05,
      "loss": 2.2627,
      "step": 26052
    },
    {
      "epoch": 0.5789555555555556,
      "grad_norm": 1.309954047203064,
      "learning_rate": 8.42276061346966e-05,
      "loss": 2.5536,
      "step": 26053
    },
    {
      "epoch": 0.5789777777777778,
      "grad_norm": 0.5188814997673035,
      "learning_rate": 8.422316070237831e-05,
      "loss": 0.0196,
      "step": 26054
    },
    {
      "epoch": 0.579,
      "grad_norm": 1.337967872619629,
      "learning_rate": 8.421871527006002e-05,
      "loss": 2.1331,
      "step": 26055
    },
    {
      "epoch": 0.5790222222222222,
      "grad_norm": 1.9190223217010498,
      "learning_rate": 8.421426983774173e-05,
      "loss": 2.3599,
      "step": 26056
    },
    {
      "epoch": 0.5790444444444445,
      "grad_norm": 1.5431402921676636,
      "learning_rate": 8.420982440542344e-05,
      "loss": 2.2485,
      "step": 26057
    },
    {
      "epoch": 0.5790666666666666,
      "grad_norm": 1.8881802558898926,
      "learning_rate": 8.420537897310515e-05,
      "loss": 2.4807,
      "step": 26058
    },
    {
      "epoch": 0.5790888888888889,
      "grad_norm": 1.7573673725128174,
      "learning_rate": 8.420093354078684e-05,
      "loss": 1.9549,
      "step": 26059
    },
    {
      "epoch": 0.5791111111111111,
      "grad_norm": 1.707239031791687,
      "learning_rate": 8.419648810846855e-05,
      "loss": 2.4954,
      "step": 26060
    },
    {
      "epoch": 0.5791333333333334,
      "grad_norm": 1.5896327495574951,
      "learning_rate": 8.419204267615026e-05,
      "loss": 1.9372,
      "step": 26061
    },
    {
      "epoch": 0.5791555555555555,
      "grad_norm": 1.5502749681472778,
      "learning_rate": 8.418759724383196e-05,
      "loss": 2.0857,
      "step": 26062
    },
    {
      "epoch": 0.5791777777777778,
      "grad_norm": 1.7027544975280762,
      "learning_rate": 8.418315181151367e-05,
      "loss": 1.9132,
      "step": 26063
    },
    {
      "epoch": 0.5792,
      "grad_norm": 1.5180604457855225,
      "learning_rate": 8.417870637919538e-05,
      "loss": 1.9358,
      "step": 26064
    },
    {
      "epoch": 0.5792222222222222,
      "grad_norm": 1.7091317176818848,
      "learning_rate": 8.417426094687709e-05,
      "loss": 2.1182,
      "step": 26065
    },
    {
      "epoch": 0.5792444444444445,
      "grad_norm": 1.6138535737991333,
      "learning_rate": 8.41698155145588e-05,
      "loss": 2.0723,
      "step": 26066
    },
    {
      "epoch": 0.5792666666666667,
      "grad_norm": 1.7695465087890625,
      "learning_rate": 8.41653700822405e-05,
      "loss": 2.4244,
      "step": 26067
    },
    {
      "epoch": 0.5792888888888889,
      "grad_norm": 1.6330814361572266,
      "learning_rate": 8.416092464992222e-05,
      "loss": 1.7658,
      "step": 26068
    },
    {
      "epoch": 0.5793111111111111,
      "grad_norm": 1.3131344318389893,
      "learning_rate": 8.415647921760391e-05,
      "loss": 1.6413,
      "step": 26069
    },
    {
      "epoch": 0.5793333333333334,
      "grad_norm": 1.4656513929367065,
      "learning_rate": 8.415203378528562e-05,
      "loss": 1.9481,
      "step": 26070
    },
    {
      "epoch": 0.5793555555555555,
      "grad_norm": 1.9465343952178955,
      "learning_rate": 8.414758835296733e-05,
      "loss": 1.8912,
      "step": 26071
    },
    {
      "epoch": 0.5793777777777778,
      "grad_norm": 1.7784497737884521,
      "learning_rate": 8.414314292064903e-05,
      "loss": 1.6295,
      "step": 26072
    },
    {
      "epoch": 0.5794,
      "grad_norm": 1.859359860420227,
      "learning_rate": 8.413869748833074e-05,
      "loss": 2.1273,
      "step": 26073
    },
    {
      "epoch": 0.5794222222222222,
      "grad_norm": 1.8585387468338013,
      "learning_rate": 8.413425205601245e-05,
      "loss": 2.2089,
      "step": 26074
    },
    {
      "epoch": 0.5794444444444444,
      "grad_norm": 1.4101988077163696,
      "learning_rate": 8.412980662369417e-05,
      "loss": 1.3788,
      "step": 26075
    },
    {
      "epoch": 0.5794666666666667,
      "grad_norm": 1.579291582107544,
      "learning_rate": 8.412536119137587e-05,
      "loss": 1.9922,
      "step": 26076
    },
    {
      "epoch": 0.5794888888888889,
      "grad_norm": 1.8342472314834595,
      "learning_rate": 8.412091575905758e-05,
      "loss": 1.5453,
      "step": 26077
    },
    {
      "epoch": 0.5795111111111111,
      "grad_norm": 1.6948658227920532,
      "learning_rate": 8.411647032673928e-05,
      "loss": 2.0403,
      "step": 26078
    },
    {
      "epoch": 0.5795333333333333,
      "grad_norm": 1.831552505493164,
      "learning_rate": 8.411202489442098e-05,
      "loss": 1.327,
      "step": 26079
    },
    {
      "epoch": 0.5795555555555556,
      "grad_norm": 1.650087594985962,
      "learning_rate": 8.410757946210269e-05,
      "loss": 1.6081,
      "step": 26080
    },
    {
      "epoch": 0.5795777777777777,
      "grad_norm": 1.7019950151443481,
      "learning_rate": 8.41031340297844e-05,
      "loss": 2.2084,
      "step": 26081
    },
    {
      "epoch": 0.5796,
      "grad_norm": 1.4378479719161987,
      "learning_rate": 8.40986885974661e-05,
      "loss": 1.6135,
      "step": 26082
    },
    {
      "epoch": 0.5796222222222223,
      "grad_norm": 2.8144371509552,
      "learning_rate": 8.409424316514782e-05,
      "loss": 1.8706,
      "step": 26083
    },
    {
      "epoch": 0.5796444444444444,
      "grad_norm": 1.7685115337371826,
      "learning_rate": 8.408979773282953e-05,
      "loss": 1.8798,
      "step": 26084
    },
    {
      "epoch": 0.5796666666666667,
      "grad_norm": 1.2805466651916504,
      "learning_rate": 8.408535230051124e-05,
      "loss": 0.905,
      "step": 26085
    },
    {
      "epoch": 0.5796888888888889,
      "grad_norm": 1.7151274681091309,
      "learning_rate": 8.408090686819293e-05,
      "loss": 2.0463,
      "step": 26086
    },
    {
      "epoch": 0.5797111111111111,
      "grad_norm": 1.7159134149551392,
      "learning_rate": 8.407646143587464e-05,
      "loss": 1.8117,
      "step": 26087
    },
    {
      "epoch": 0.5797333333333333,
      "grad_norm": 1.7387936115264893,
      "learning_rate": 8.407201600355635e-05,
      "loss": 1.6479,
      "step": 26088
    },
    {
      "epoch": 0.5797555555555556,
      "grad_norm": 1.5587831735610962,
      "learning_rate": 8.406757057123805e-05,
      "loss": 1.6855,
      "step": 26089
    },
    {
      "epoch": 0.5797777777777777,
      "grad_norm": 1.9584736824035645,
      "learning_rate": 8.406312513891976e-05,
      "loss": 1.9174,
      "step": 26090
    },
    {
      "epoch": 0.5798,
      "grad_norm": 2.032670497894287,
      "learning_rate": 8.405867970660147e-05,
      "loss": 2.5423,
      "step": 26091
    },
    {
      "epoch": 0.5798222222222222,
      "grad_norm": 1.73224937915802,
      "learning_rate": 8.405423427428318e-05,
      "loss": 1.8867,
      "step": 26092
    },
    {
      "epoch": 0.5798444444444445,
      "grad_norm": 1.6868783235549927,
      "learning_rate": 8.404978884196489e-05,
      "loss": 2.0453,
      "step": 26093
    },
    {
      "epoch": 0.5798666666666666,
      "grad_norm": 1.8552583456039429,
      "learning_rate": 8.40453434096466e-05,
      "loss": 2.0552,
      "step": 26094
    },
    {
      "epoch": 0.5798888888888889,
      "grad_norm": 2.3586230278015137,
      "learning_rate": 8.404089797732831e-05,
      "loss": 2.2544,
      "step": 26095
    },
    {
      "epoch": 0.5799111111111112,
      "grad_norm": 1.809834599494934,
      "learning_rate": 8.403645254501e-05,
      "loss": 1.547,
      "step": 26096
    },
    {
      "epoch": 0.5799333333333333,
      "grad_norm": 1.7929770946502686,
      "learning_rate": 8.403200711269171e-05,
      "loss": 1.7148,
      "step": 26097
    },
    {
      "epoch": 0.5799555555555556,
      "grad_norm": 1.786232352256775,
      "learning_rate": 8.402756168037342e-05,
      "loss": 1.4739,
      "step": 26098
    },
    {
      "epoch": 0.5799777777777778,
      "grad_norm": 1.915028691291809,
      "learning_rate": 8.402311624805512e-05,
      "loss": 1.9315,
      "step": 26099
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8769526481628418,
      "learning_rate": 8.401867081573683e-05,
      "loss": 1.0471,
      "step": 26100
    },
    {
      "epoch": 0.5800222222222222,
      "grad_norm": 1.4817572832107544,
      "learning_rate": 8.401422538341854e-05,
      "loss": 2.7088,
      "step": 26101
    },
    {
      "epoch": 0.5800444444444445,
      "grad_norm": 1.4244190454483032,
      "learning_rate": 8.400977995110025e-05,
      "loss": 1.9826,
      "step": 26102
    },
    {
      "epoch": 0.5800666666666666,
      "grad_norm": 1.5300400257110596,
      "learning_rate": 8.400533451878196e-05,
      "loss": 2.388,
      "step": 26103
    },
    {
      "epoch": 0.5800888888888889,
      "grad_norm": 1.3785556554794312,
      "learning_rate": 8.400088908646367e-05,
      "loss": 2.2987,
      "step": 26104
    },
    {
      "epoch": 0.5801111111111111,
      "grad_norm": 1.6409354209899902,
      "learning_rate": 8.399644365414538e-05,
      "loss": 2.3494,
      "step": 26105
    },
    {
      "epoch": 0.5801333333333333,
      "grad_norm": 1.6343281269073486,
      "learning_rate": 8.399199822182707e-05,
      "loss": 2.0914,
      "step": 26106
    },
    {
      "epoch": 0.5801555555555555,
      "grad_norm": 1.7643954753875732,
      "learning_rate": 8.398755278950878e-05,
      "loss": 2.4257,
      "step": 26107
    },
    {
      "epoch": 0.5801777777777778,
      "grad_norm": 1.5621308088302612,
      "learning_rate": 8.398310735719049e-05,
      "loss": 1.8084,
      "step": 26108
    },
    {
      "epoch": 0.5802,
      "grad_norm": 1.443436622619629,
      "learning_rate": 8.397866192487219e-05,
      "loss": 1.6621,
      "step": 26109
    },
    {
      "epoch": 0.5802222222222222,
      "grad_norm": 1.5355186462402344,
      "learning_rate": 8.39742164925539e-05,
      "loss": 2.015,
      "step": 26110
    },
    {
      "epoch": 0.5802444444444445,
      "grad_norm": 1.5714714527130127,
      "learning_rate": 8.396977106023561e-05,
      "loss": 1.6738,
      "step": 26111
    },
    {
      "epoch": 0.5802666666666667,
      "grad_norm": 1.5971449613571167,
      "learning_rate": 8.396532562791733e-05,
      "loss": 2.032,
      "step": 26112
    },
    {
      "epoch": 0.5802888888888889,
      "grad_norm": 1.4106720685958862,
      "learning_rate": 8.396088019559903e-05,
      "loss": 1.8086,
      "step": 26113
    },
    {
      "epoch": 0.5803111111111111,
      "grad_norm": 1.46250319480896,
      "learning_rate": 8.395643476328074e-05,
      "loss": 2.0213,
      "step": 26114
    },
    {
      "epoch": 0.5803333333333334,
      "grad_norm": 1.6457831859588623,
      "learning_rate": 8.395198933096245e-05,
      "loss": 2.228,
      "step": 26115
    },
    {
      "epoch": 0.5803555555555555,
      "grad_norm": 1.6616058349609375,
      "learning_rate": 8.394754389864414e-05,
      "loss": 2.2746,
      "step": 26116
    },
    {
      "epoch": 0.5803777777777778,
      "grad_norm": 1.7403942346572876,
      "learning_rate": 8.394309846632585e-05,
      "loss": 2.221,
      "step": 26117
    },
    {
      "epoch": 0.5804,
      "grad_norm": 1.6714938879013062,
      "learning_rate": 8.393865303400756e-05,
      "loss": 1.8509,
      "step": 26118
    },
    {
      "epoch": 0.5804222222222222,
      "grad_norm": 1.7840502262115479,
      "learning_rate": 8.393420760168926e-05,
      "loss": 2.1026,
      "step": 26119
    },
    {
      "epoch": 0.5804444444444444,
      "grad_norm": 1.6288597583770752,
      "learning_rate": 8.392976216937098e-05,
      "loss": 1.978,
      "step": 26120
    },
    {
      "epoch": 0.5804666666666667,
      "grad_norm": 1.6369847059249878,
      "learning_rate": 8.392531673705269e-05,
      "loss": 2.2848,
      "step": 26121
    },
    {
      "epoch": 0.5804888888888889,
      "grad_norm": 1.6995961666107178,
      "learning_rate": 8.39208713047344e-05,
      "loss": 2.2823,
      "step": 26122
    },
    {
      "epoch": 0.5805111111111111,
      "grad_norm": 1.77353835105896,
      "learning_rate": 8.39164258724161e-05,
      "loss": 2.4403,
      "step": 26123
    },
    {
      "epoch": 0.5805333333333333,
      "grad_norm": 1.6163816452026367,
      "learning_rate": 8.39119804400978e-05,
      "loss": 2.1503,
      "step": 26124
    },
    {
      "epoch": 0.5805555555555556,
      "grad_norm": 1.5171163082122803,
      "learning_rate": 8.390753500777951e-05,
      "loss": 1.5474,
      "step": 26125
    },
    {
      "epoch": 0.5805777777777777,
      "grad_norm": 1.759602665901184,
      "learning_rate": 8.390308957546121e-05,
      "loss": 1.611,
      "step": 26126
    },
    {
      "epoch": 0.5806,
      "grad_norm": 1.63189697265625,
      "learning_rate": 8.389864414314292e-05,
      "loss": 2.0526,
      "step": 26127
    },
    {
      "epoch": 0.5806222222222223,
      "grad_norm": 2.072521686553955,
      "learning_rate": 8.389419871082463e-05,
      "loss": 2.1334,
      "step": 26128
    },
    {
      "epoch": 0.5806444444444444,
      "grad_norm": 1.7085297107696533,
      "learning_rate": 8.388975327850634e-05,
      "loss": 1.8668,
      "step": 26129
    },
    {
      "epoch": 0.5806666666666667,
      "grad_norm": 0.3806315064430237,
      "learning_rate": 8.388530784618805e-05,
      "loss": 0.0278,
      "step": 26130
    },
    {
      "epoch": 0.5806888888888889,
      "grad_norm": 1.724603533744812,
      "learning_rate": 8.388086241386976e-05,
      "loss": 1.9284,
      "step": 26131
    },
    {
      "epoch": 0.5807111111111111,
      "grad_norm": 1.47846519947052,
      "learning_rate": 8.387641698155147e-05,
      "loss": 1.4473,
      "step": 26132
    },
    {
      "epoch": 0.5807333333333333,
      "grad_norm": 1.6238040924072266,
      "learning_rate": 8.387197154923316e-05,
      "loss": 2.0136,
      "step": 26133
    },
    {
      "epoch": 0.5807555555555556,
      "grad_norm": 1.7846760749816895,
      "learning_rate": 8.386752611691487e-05,
      "loss": 1.83,
      "step": 26134
    },
    {
      "epoch": 0.5807777777777777,
      "grad_norm": 1.350911021232605,
      "learning_rate": 8.386308068459658e-05,
      "loss": 1.5452,
      "step": 26135
    },
    {
      "epoch": 0.5808,
      "grad_norm": 1.2389070987701416,
      "learning_rate": 8.385863525227828e-05,
      "loss": 0.9817,
      "step": 26136
    },
    {
      "epoch": 0.5808222222222222,
      "grad_norm": 1.82937753200531,
      "learning_rate": 8.385418981995999e-05,
      "loss": 2.1897,
      "step": 26137
    },
    {
      "epoch": 0.5808444444444445,
      "grad_norm": 1.6447229385375977,
      "learning_rate": 8.38497443876417e-05,
      "loss": 1.5815,
      "step": 26138
    },
    {
      "epoch": 0.5808666666666666,
      "grad_norm": 1.963240385055542,
      "learning_rate": 8.384529895532341e-05,
      "loss": 1.8421,
      "step": 26139
    },
    {
      "epoch": 0.5808888888888889,
      "grad_norm": 1.9662257432937622,
      "learning_rate": 8.384085352300512e-05,
      "loss": 2.0641,
      "step": 26140
    },
    {
      "epoch": 0.5809111111111112,
      "grad_norm": 1.741540789604187,
      "learning_rate": 8.383640809068683e-05,
      "loss": 2.1514,
      "step": 26141
    },
    {
      "epoch": 0.5809333333333333,
      "grad_norm": 1.692657470703125,
      "learning_rate": 8.383196265836854e-05,
      "loss": 1.6779,
      "step": 26142
    },
    {
      "epoch": 0.5809555555555556,
      "grad_norm": 1.5241749286651611,
      "learning_rate": 8.382751722605023e-05,
      "loss": 1.7482,
      "step": 26143
    },
    {
      "epoch": 0.5809777777777778,
      "grad_norm": 1.9232747554779053,
      "learning_rate": 8.382307179373194e-05,
      "loss": 1.9883,
      "step": 26144
    },
    {
      "epoch": 0.581,
      "grad_norm": 2.1884825229644775,
      "learning_rate": 8.381862636141365e-05,
      "loss": 1.8161,
      "step": 26145
    },
    {
      "epoch": 0.5810222222222222,
      "grad_norm": 1.8066474199295044,
      "learning_rate": 8.381418092909535e-05,
      "loss": 1.4866,
      "step": 26146
    },
    {
      "epoch": 0.5810444444444445,
      "grad_norm": 1.9330378770828247,
      "learning_rate": 8.380973549677706e-05,
      "loss": 1.9459,
      "step": 26147
    },
    {
      "epoch": 0.5810666666666666,
      "grad_norm": 1.8063390254974365,
      "learning_rate": 8.380529006445877e-05,
      "loss": 1.8505,
      "step": 26148
    },
    {
      "epoch": 0.5810888888888889,
      "grad_norm": 1.8492445945739746,
      "learning_rate": 8.380084463214049e-05,
      "loss": 1.6854,
      "step": 26149
    },
    {
      "epoch": 0.5811111111111111,
      "grad_norm": 0.2438049167394638,
      "learning_rate": 8.379639919982219e-05,
      "loss": 0.0497,
      "step": 26150
    },
    {
      "epoch": 0.5811333333333333,
      "grad_norm": 1.6242479085922241,
      "learning_rate": 8.37919537675039e-05,
      "loss": 2.1615,
      "step": 26151
    },
    {
      "epoch": 0.5811555555555555,
      "grad_norm": 1.438272476196289,
      "learning_rate": 8.37875083351856e-05,
      "loss": 2.4119,
      "step": 26152
    },
    {
      "epoch": 0.5811777777777778,
      "grad_norm": 0.1465410739183426,
      "learning_rate": 8.37830629028673e-05,
      "loss": 0.017,
      "step": 26153
    },
    {
      "epoch": 0.5812,
      "grad_norm": 1.5817630290985107,
      "learning_rate": 8.377861747054901e-05,
      "loss": 2.1741,
      "step": 26154
    },
    {
      "epoch": 0.5812222222222222,
      "grad_norm": 1.5494940280914307,
      "learning_rate": 8.377417203823072e-05,
      "loss": 2.602,
      "step": 26155
    },
    {
      "epoch": 0.5812444444444445,
      "grad_norm": 1.5453170537948608,
      "learning_rate": 8.376972660591242e-05,
      "loss": 1.8616,
      "step": 26156
    },
    {
      "epoch": 0.5812666666666667,
      "grad_norm": 1.8508343696594238,
      "learning_rate": 8.376528117359414e-05,
      "loss": 2.2297,
      "step": 26157
    },
    {
      "epoch": 0.5812888888888889,
      "grad_norm": 1.8826130628585815,
      "learning_rate": 8.376083574127585e-05,
      "loss": 2.3587,
      "step": 26158
    },
    {
      "epoch": 0.5813111111111111,
      "grad_norm": 1.9748693704605103,
      "learning_rate": 8.375639030895756e-05,
      "loss": 2.1999,
      "step": 26159
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 1.8187892436981201,
      "learning_rate": 8.375194487663926e-05,
      "loss": 1.4834,
      "step": 26160
    },
    {
      "epoch": 0.5813555555555555,
      "grad_norm": 1.8985687494277954,
      "learning_rate": 8.374749944432097e-05,
      "loss": 2.2664,
      "step": 26161
    },
    {
      "epoch": 0.5813777777777778,
      "grad_norm": 1.7321456670761108,
      "learning_rate": 8.374305401200268e-05,
      "loss": 2.1491,
      "step": 26162
    },
    {
      "epoch": 0.5814,
      "grad_norm": 1.2643800973892212,
      "learning_rate": 8.373860857968437e-05,
      "loss": 1.0812,
      "step": 26163
    },
    {
      "epoch": 0.5814222222222222,
      "grad_norm": 1.6095198392868042,
      "learning_rate": 8.373416314736608e-05,
      "loss": 2.0306,
      "step": 26164
    },
    {
      "epoch": 0.5814444444444444,
      "grad_norm": 1.8974038362503052,
      "learning_rate": 8.372971771504779e-05,
      "loss": 1.6857,
      "step": 26165
    },
    {
      "epoch": 0.5814666666666667,
      "grad_norm": 1.8022187948226929,
      "learning_rate": 8.37252722827295e-05,
      "loss": 1.6285,
      "step": 26166
    },
    {
      "epoch": 0.5814888888888889,
      "grad_norm": 1.73734450340271,
      "learning_rate": 8.372082685041121e-05,
      "loss": 1.926,
      "step": 26167
    },
    {
      "epoch": 0.5815111111111111,
      "grad_norm": 1.4879589080810547,
      "learning_rate": 8.371638141809292e-05,
      "loss": 1.7018,
      "step": 26168
    },
    {
      "epoch": 0.5815333333333333,
      "grad_norm": 1.672507882118225,
      "learning_rate": 8.371193598577463e-05,
      "loss": 2.0912,
      "step": 26169
    },
    {
      "epoch": 0.5815555555555556,
      "grad_norm": 1.5402486324310303,
      "learning_rate": 8.370749055345633e-05,
      "loss": 2.1801,
      "step": 26170
    },
    {
      "epoch": 0.5815777777777777,
      "grad_norm": 1.5981429815292358,
      "learning_rate": 8.370304512113804e-05,
      "loss": 2.0361,
      "step": 26171
    },
    {
      "epoch": 0.5816,
      "grad_norm": 1.615914225578308,
      "learning_rate": 8.369859968881974e-05,
      "loss": 1.7654,
      "step": 26172
    },
    {
      "epoch": 0.5816222222222223,
      "grad_norm": 1.6028060913085938,
      "learning_rate": 8.369415425650144e-05,
      "loss": 2.3957,
      "step": 26173
    },
    {
      "epoch": 0.5816444444444444,
      "grad_norm": 1.8624187707901,
      "learning_rate": 8.368970882418315e-05,
      "loss": 2.0461,
      "step": 26174
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 1.5869486331939697,
      "learning_rate": 8.368526339186486e-05,
      "loss": 1.9551,
      "step": 26175
    },
    {
      "epoch": 0.5816888888888889,
      "grad_norm": 1.9387506246566772,
      "learning_rate": 8.368081795954657e-05,
      "loss": 2.1581,
      "step": 26176
    },
    {
      "epoch": 0.5817111111111111,
      "grad_norm": 1.8396356105804443,
      "learning_rate": 8.367637252722828e-05,
      "loss": 1.9605,
      "step": 26177
    },
    {
      "epoch": 0.5817333333333333,
      "grad_norm": 1.579355001449585,
      "learning_rate": 8.367192709490999e-05,
      "loss": 1.8826,
      "step": 26178
    },
    {
      "epoch": 0.5817555555555556,
      "grad_norm": 2.3210432529449463,
      "learning_rate": 8.36674816625917e-05,
      "loss": 2.2686,
      "step": 26179
    },
    {
      "epoch": 0.5817777777777777,
      "grad_norm": 1.7856831550598145,
      "learning_rate": 8.36630362302734e-05,
      "loss": 2.0718,
      "step": 26180
    },
    {
      "epoch": 0.5818,
      "grad_norm": 1.4405708312988281,
      "learning_rate": 8.36585907979551e-05,
      "loss": 1.4981,
      "step": 26181
    },
    {
      "epoch": 0.5818222222222222,
      "grad_norm": 2.206476926803589,
      "learning_rate": 8.365414536563681e-05,
      "loss": 1.9997,
      "step": 26182
    },
    {
      "epoch": 0.5818444444444445,
      "grad_norm": 1.7495813369750977,
      "learning_rate": 8.364969993331851e-05,
      "loss": 1.6429,
      "step": 26183
    },
    {
      "epoch": 0.5818666666666666,
      "grad_norm": 1.9488918781280518,
      "learning_rate": 8.364525450100022e-05,
      "loss": 2.0269,
      "step": 26184
    },
    {
      "epoch": 0.5818888888888889,
      "grad_norm": 1.624327540397644,
      "learning_rate": 8.364080906868193e-05,
      "loss": 1.9028,
      "step": 26185
    },
    {
      "epoch": 0.5819111111111112,
      "grad_norm": 1.8741378784179688,
      "learning_rate": 8.363636363636364e-05,
      "loss": 2.2326,
      "step": 26186
    },
    {
      "epoch": 0.5819333333333333,
      "grad_norm": 1.7637832164764404,
      "learning_rate": 8.363191820404535e-05,
      "loss": 1.9232,
      "step": 26187
    },
    {
      "epoch": 0.5819555555555556,
      "grad_norm": 1.5867350101470947,
      "learning_rate": 8.362747277172706e-05,
      "loss": 1.7418,
      "step": 26188
    },
    {
      "epoch": 0.5819777777777778,
      "grad_norm": 1.8549751043319702,
      "learning_rate": 8.362302733940877e-05,
      "loss": 2.3625,
      "step": 26189
    },
    {
      "epoch": 0.582,
      "grad_norm": 1.6489076614379883,
      "learning_rate": 8.361858190709046e-05,
      "loss": 1.7887,
      "step": 26190
    },
    {
      "epoch": 0.5820222222222222,
      "grad_norm": 1.6363847255706787,
      "learning_rate": 8.361413647477217e-05,
      "loss": 1.5879,
      "step": 26191
    },
    {
      "epoch": 0.5820444444444445,
      "grad_norm": 1.8551013469696045,
      "learning_rate": 8.360969104245388e-05,
      "loss": 2.251,
      "step": 26192
    },
    {
      "epoch": 0.5820666666666666,
      "grad_norm": 1.7150312662124634,
      "learning_rate": 8.360524561013558e-05,
      "loss": 1.7961,
      "step": 26193
    },
    {
      "epoch": 0.5820888888888889,
      "grad_norm": 1.5141977071762085,
      "learning_rate": 8.36008001778173e-05,
      "loss": 1.3297,
      "step": 26194
    },
    {
      "epoch": 0.5821111111111111,
      "grad_norm": 1.8479887247085571,
      "learning_rate": 8.359635474549901e-05,
      "loss": 1.8324,
      "step": 26195
    },
    {
      "epoch": 0.5821333333333333,
      "grad_norm": 1.1966216564178467,
      "learning_rate": 8.359190931318072e-05,
      "loss": 0.838,
      "step": 26196
    },
    {
      "epoch": 0.5821555555555555,
      "grad_norm": 1.891556978225708,
      "learning_rate": 8.358746388086242e-05,
      "loss": 2.0078,
      "step": 26197
    },
    {
      "epoch": 0.5821777777777778,
      "grad_norm": 1.81918203830719,
      "learning_rate": 8.358301844854413e-05,
      "loss": 1.7798,
      "step": 26198
    },
    {
      "epoch": 0.5822,
      "grad_norm": 1.9150341749191284,
      "learning_rate": 8.357857301622584e-05,
      "loss": 1.8632,
      "step": 26199
    },
    {
      "epoch": 0.5822222222222222,
      "grad_norm": 1.4459576606750488,
      "learning_rate": 8.357412758390753e-05,
      "loss": 0.9049,
      "step": 26200
    },
    {
      "epoch": 0.5822444444444445,
      "grad_norm": 1.3595621585845947,
      "learning_rate": 8.356968215158924e-05,
      "loss": 2.1102,
      "step": 26201
    },
    {
      "epoch": 0.5822666666666667,
      "grad_norm": 1.6290918588638306,
      "learning_rate": 8.356523671927095e-05,
      "loss": 1.3813,
      "step": 26202
    },
    {
      "epoch": 0.5822888888888889,
      "grad_norm": 1.4016199111938477,
      "learning_rate": 8.356079128695266e-05,
      "loss": 2.1448,
      "step": 26203
    },
    {
      "epoch": 0.5823111111111111,
      "grad_norm": 1.6045475006103516,
      "learning_rate": 8.355634585463437e-05,
      "loss": 2.1319,
      "step": 26204
    },
    {
      "epoch": 0.5823333333333334,
      "grad_norm": 1.6283369064331055,
      "learning_rate": 8.355190042231608e-05,
      "loss": 2.0471,
      "step": 26205
    },
    {
      "epoch": 0.5823555555555555,
      "grad_norm": 1.6710686683654785,
      "learning_rate": 8.354745498999779e-05,
      "loss": 1.8345,
      "step": 26206
    },
    {
      "epoch": 0.5823777777777778,
      "grad_norm": 1.1778653860092163,
      "learning_rate": 8.354300955767949e-05,
      "loss": 1.231,
      "step": 26207
    },
    {
      "epoch": 0.5824,
      "grad_norm": 1.6818339824676514,
      "learning_rate": 8.35385641253612e-05,
      "loss": 2.5075,
      "step": 26208
    },
    {
      "epoch": 0.5824222222222222,
      "grad_norm": 1.7084901332855225,
      "learning_rate": 8.35341186930429e-05,
      "loss": 2.2311,
      "step": 26209
    },
    {
      "epoch": 0.5824444444444444,
      "grad_norm": 1.6797622442245483,
      "learning_rate": 8.35296732607246e-05,
      "loss": 2.0646,
      "step": 26210
    },
    {
      "epoch": 0.5824666666666667,
      "grad_norm": 1.6726146936416626,
      "learning_rate": 8.352522782840631e-05,
      "loss": 1.8802,
      "step": 26211
    },
    {
      "epoch": 0.5824888888888888,
      "grad_norm": 1.711694359779358,
      "learning_rate": 8.352078239608802e-05,
      "loss": 2.2033,
      "step": 26212
    },
    {
      "epoch": 0.5825111111111111,
      "grad_norm": 1.5540680885314941,
      "learning_rate": 8.351633696376973e-05,
      "loss": 2.0245,
      "step": 26213
    },
    {
      "epoch": 0.5825333333333333,
      "grad_norm": 2.045577049255371,
      "learning_rate": 8.351189153145144e-05,
      "loss": 2.1828,
      "step": 26214
    },
    {
      "epoch": 0.5825555555555556,
      "grad_norm": 1.543917179107666,
      "learning_rate": 8.350744609913315e-05,
      "loss": 1.8969,
      "step": 26215
    },
    {
      "epoch": 0.5825777777777777,
      "grad_norm": 1.5529899597167969,
      "learning_rate": 8.350300066681486e-05,
      "loss": 2.1522,
      "step": 26216
    },
    {
      "epoch": 0.5826,
      "grad_norm": 1.8591609001159668,
      "learning_rate": 8.349855523449656e-05,
      "loss": 2.0281,
      "step": 26217
    },
    {
      "epoch": 0.5826222222222223,
      "grad_norm": 1.2038625478744507,
      "learning_rate": 8.349410980217827e-05,
      "loss": 0.4999,
      "step": 26218
    },
    {
      "epoch": 0.5826444444444444,
      "grad_norm": 1.7365057468414307,
      "learning_rate": 8.348966436985998e-05,
      "loss": 2.2447,
      "step": 26219
    },
    {
      "epoch": 0.5826666666666667,
      "grad_norm": 1.4882011413574219,
      "learning_rate": 8.348521893754167e-05,
      "loss": 1.5969,
      "step": 26220
    },
    {
      "epoch": 0.5826888888888889,
      "grad_norm": 1.4881402254104614,
      "learning_rate": 8.348077350522338e-05,
      "loss": 1.8631,
      "step": 26221
    },
    {
      "epoch": 0.5827111111111111,
      "grad_norm": 1.7825554609298706,
      "learning_rate": 8.347632807290509e-05,
      "loss": 1.9985,
      "step": 26222
    },
    {
      "epoch": 0.5827333333333333,
      "grad_norm": 1.7529854774475098,
      "learning_rate": 8.34718826405868e-05,
      "loss": 1.7588,
      "step": 26223
    },
    {
      "epoch": 0.5827555555555556,
      "grad_norm": 1.7051653861999512,
      "learning_rate": 8.346743720826851e-05,
      "loss": 1.8225,
      "step": 26224
    },
    {
      "epoch": 0.5827777777777777,
      "grad_norm": 2.4538986682891846,
      "learning_rate": 8.346299177595022e-05,
      "loss": 1.5975,
      "step": 26225
    },
    {
      "epoch": 0.5828,
      "grad_norm": 1.4693490266799927,
      "learning_rate": 8.345854634363193e-05,
      "loss": 1.5349,
      "step": 26226
    },
    {
      "epoch": 0.5828222222222222,
      "grad_norm": 2.286280632019043,
      "learning_rate": 8.345410091131362e-05,
      "loss": 2.2337,
      "step": 26227
    },
    {
      "epoch": 0.5828444444444445,
      "grad_norm": 2.219813346862793,
      "learning_rate": 8.344965547899533e-05,
      "loss": 1.8498,
      "step": 26228
    },
    {
      "epoch": 0.5828666666666666,
      "grad_norm": 1.8761414289474487,
      "learning_rate": 8.344521004667704e-05,
      "loss": 1.7299,
      "step": 26229
    },
    {
      "epoch": 0.5828888888888889,
      "grad_norm": 2.0295374393463135,
      "learning_rate": 8.344076461435874e-05,
      "loss": 2.1673,
      "step": 26230
    },
    {
      "epoch": 0.5829111111111112,
      "grad_norm": 1.9511631727218628,
      "learning_rate": 8.343631918204046e-05,
      "loss": 1.7042,
      "step": 26231
    },
    {
      "epoch": 0.5829333333333333,
      "grad_norm": 1.9228847026824951,
      "learning_rate": 8.343187374972217e-05,
      "loss": 2.0077,
      "step": 26232
    },
    {
      "epoch": 0.5829555555555556,
      "grad_norm": 1.6258912086486816,
      "learning_rate": 8.342742831740387e-05,
      "loss": 1.3767,
      "step": 26233
    },
    {
      "epoch": 0.5829777777777778,
      "grad_norm": 2.137866497039795,
      "learning_rate": 8.342298288508558e-05,
      "loss": 1.6094,
      "step": 26234
    },
    {
      "epoch": 0.583,
      "grad_norm": 2.144888162612915,
      "learning_rate": 8.341853745276729e-05,
      "loss": 1.6773,
      "step": 26235
    },
    {
      "epoch": 0.5830222222222222,
      "grad_norm": 1.9768238067626953,
      "learning_rate": 8.3414092020449e-05,
      "loss": 1.8659,
      "step": 26236
    },
    {
      "epoch": 0.5830444444444445,
      "grad_norm": 1.9847415685653687,
      "learning_rate": 8.34096465881307e-05,
      "loss": 2.4647,
      "step": 26237
    },
    {
      "epoch": 0.5830666666666666,
      "grad_norm": 2.0302507877349854,
      "learning_rate": 8.34052011558124e-05,
      "loss": 2.0827,
      "step": 26238
    },
    {
      "epoch": 0.5830888888888889,
      "grad_norm": 2.288281202316284,
      "learning_rate": 8.340075572349411e-05,
      "loss": 2.3895,
      "step": 26239
    },
    {
      "epoch": 0.5831111111111111,
      "grad_norm": 2.0385663509368896,
      "learning_rate": 8.339631029117582e-05,
      "loss": 1.967,
      "step": 26240
    },
    {
      "epoch": 0.5831333333333333,
      "grad_norm": 1.8273963928222656,
      "learning_rate": 8.339186485885753e-05,
      "loss": 1.7718,
      "step": 26241
    },
    {
      "epoch": 0.5831555555555555,
      "grad_norm": 1.6473088264465332,
      "learning_rate": 8.338741942653924e-05,
      "loss": 1.8773,
      "step": 26242
    },
    {
      "epoch": 0.5831777777777778,
      "grad_norm": 1.4469784498214722,
      "learning_rate": 8.338297399422094e-05,
      "loss": 1.0654,
      "step": 26243
    },
    {
      "epoch": 0.5832,
      "grad_norm": 1.5022889375686646,
      "learning_rate": 8.337852856190265e-05,
      "loss": 1.5355,
      "step": 26244
    },
    {
      "epoch": 0.5832222222222222,
      "grad_norm": 1.4862998723983765,
      "learning_rate": 8.337408312958436e-05,
      "loss": 1.4346,
      "step": 26245
    },
    {
      "epoch": 0.5832444444444445,
      "grad_norm": 1.8965848684310913,
      "learning_rate": 8.336963769726607e-05,
      "loss": 1.6884,
      "step": 26246
    },
    {
      "epoch": 0.5832666666666667,
      "grad_norm": 1.659008502960205,
      "learning_rate": 8.336519226494776e-05,
      "loss": 1.9439,
      "step": 26247
    },
    {
      "epoch": 0.5832888888888889,
      "grad_norm": 1.8410717248916626,
      "learning_rate": 8.336074683262947e-05,
      "loss": 1.9104,
      "step": 26248
    },
    {
      "epoch": 0.5833111111111111,
      "grad_norm": 1.6476742029190063,
      "learning_rate": 8.335630140031118e-05,
      "loss": 1.7227,
      "step": 26249
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 2.0273349285125732,
      "learning_rate": 8.335185596799289e-05,
      "loss": 1.697,
      "step": 26250
    },
    {
      "epoch": 0.5833555555555555,
      "grad_norm": 1.3179007768630981,
      "learning_rate": 8.33474105356746e-05,
      "loss": 1.6495,
      "step": 26251
    },
    {
      "epoch": 0.5833777777777778,
      "grad_norm": 1.3309334516525269,
      "learning_rate": 8.334296510335631e-05,
      "loss": 2.062,
      "step": 26252
    },
    {
      "epoch": 0.5834,
      "grad_norm": 0.9220927953720093,
      "learning_rate": 8.333851967103802e-05,
      "loss": 1.149,
      "step": 26253
    },
    {
      "epoch": 0.5834222222222222,
      "grad_norm": 1.560506820678711,
      "learning_rate": 8.333407423871972e-05,
      "loss": 2.3106,
      "step": 26254
    },
    {
      "epoch": 0.5834444444444444,
      "grad_norm": 1.5376288890838623,
      "learning_rate": 8.332962880640143e-05,
      "loss": 1.7624,
      "step": 26255
    },
    {
      "epoch": 0.5834666666666667,
      "grad_norm": 1.712773084640503,
      "learning_rate": 8.332518337408314e-05,
      "loss": 1.9538,
      "step": 26256
    },
    {
      "epoch": 0.5834888888888888,
      "grad_norm": 1.3960744142532349,
      "learning_rate": 8.332073794176483e-05,
      "loss": 1.8866,
      "step": 26257
    },
    {
      "epoch": 0.5835111111111111,
      "grad_norm": 0.9395681023597717,
      "learning_rate": 8.331629250944654e-05,
      "loss": 0.9285,
      "step": 26258
    },
    {
      "epoch": 0.5835333333333333,
      "grad_norm": 1.9319789409637451,
      "learning_rate": 8.331184707712825e-05,
      "loss": 2.5569,
      "step": 26259
    },
    {
      "epoch": 0.5835555555555556,
      "grad_norm": 1.4398587942123413,
      "learning_rate": 8.330740164480996e-05,
      "loss": 2.1114,
      "step": 26260
    },
    {
      "epoch": 0.5835777777777778,
      "grad_norm": 1.695851445198059,
      "learning_rate": 8.330295621249167e-05,
      "loss": 2.5833,
      "step": 26261
    },
    {
      "epoch": 0.5836,
      "grad_norm": 1.396723747253418,
      "learning_rate": 8.329851078017338e-05,
      "loss": 1.66,
      "step": 26262
    },
    {
      "epoch": 0.5836222222222223,
      "grad_norm": 1.5797001123428345,
      "learning_rate": 8.329406534785509e-05,
      "loss": 2.074,
      "step": 26263
    },
    {
      "epoch": 0.5836444444444444,
      "grad_norm": 1.6313436031341553,
      "learning_rate": 8.328961991553679e-05,
      "loss": 2.5088,
      "step": 26264
    },
    {
      "epoch": 0.5836666666666667,
      "grad_norm": 1.7688790559768677,
      "learning_rate": 8.32851744832185e-05,
      "loss": 1.7651,
      "step": 26265
    },
    {
      "epoch": 0.5836888888888889,
      "grad_norm": 1.5532402992248535,
      "learning_rate": 8.32807290509002e-05,
      "loss": 2.171,
      "step": 26266
    },
    {
      "epoch": 0.5837111111111111,
      "grad_norm": 1.6320881843566895,
      "learning_rate": 8.32762836185819e-05,
      "loss": 2.4216,
      "step": 26267
    },
    {
      "epoch": 0.5837333333333333,
      "grad_norm": 1.4460666179656982,
      "learning_rate": 8.327183818626362e-05,
      "loss": 1.8043,
      "step": 26268
    },
    {
      "epoch": 0.5837555555555556,
      "grad_norm": 1.8040688037872314,
      "learning_rate": 8.326739275394533e-05,
      "loss": 1.9625,
      "step": 26269
    },
    {
      "epoch": 0.5837777777777777,
      "grad_norm": 1.0893901586532593,
      "learning_rate": 8.326294732162703e-05,
      "loss": 0.9989,
      "step": 26270
    },
    {
      "epoch": 0.5838,
      "grad_norm": 1.9131560325622559,
      "learning_rate": 8.325850188930874e-05,
      "loss": 2.5563,
      "step": 26271
    },
    {
      "epoch": 0.5838222222222222,
      "grad_norm": 1.5659085512161255,
      "learning_rate": 8.325405645699045e-05,
      "loss": 2.1676,
      "step": 26272
    },
    {
      "epoch": 0.5838444444444445,
      "grad_norm": 1.5888844728469849,
      "learning_rate": 8.324961102467216e-05,
      "loss": 2.1525,
      "step": 26273
    },
    {
      "epoch": 0.5838666666666666,
      "grad_norm": 1.691839575767517,
      "learning_rate": 8.324516559235385e-05,
      "loss": 1.9559,
      "step": 26274
    },
    {
      "epoch": 0.5838888888888889,
      "grad_norm": 1.625472903251648,
      "learning_rate": 8.324072016003556e-05,
      "loss": 2.118,
      "step": 26275
    },
    {
      "epoch": 0.5839111111111112,
      "grad_norm": 1.6146228313446045,
      "learning_rate": 8.323627472771727e-05,
      "loss": 1.9359,
      "step": 26276
    },
    {
      "epoch": 0.5839333333333333,
      "grad_norm": 1.5743327140808105,
      "learning_rate": 8.323182929539898e-05,
      "loss": 1.9866,
      "step": 26277
    },
    {
      "epoch": 0.5839555555555556,
      "grad_norm": 1.5054017305374146,
      "learning_rate": 8.32273838630807e-05,
      "loss": 1.2454,
      "step": 26278
    },
    {
      "epoch": 0.5839777777777778,
      "grad_norm": 1.793137788772583,
      "learning_rate": 8.32229384307624e-05,
      "loss": 1.9548,
      "step": 26279
    },
    {
      "epoch": 0.584,
      "grad_norm": 1.9058033227920532,
      "learning_rate": 8.32184929984441e-05,
      "loss": 2.566,
      "step": 26280
    },
    {
      "epoch": 0.5840222222222222,
      "grad_norm": 1.8583147525787354,
      "learning_rate": 8.321404756612581e-05,
      "loss": 2.0726,
      "step": 26281
    },
    {
      "epoch": 0.5840444444444445,
      "grad_norm": 1.6046953201293945,
      "learning_rate": 8.320960213380752e-05,
      "loss": 2.0069,
      "step": 26282
    },
    {
      "epoch": 0.5840666666666666,
      "grad_norm": 1.7175462245941162,
      "learning_rate": 8.320515670148923e-05,
      "loss": 1.9083,
      "step": 26283
    },
    {
      "epoch": 0.5840888888888889,
      "grad_norm": 1.4772974252700806,
      "learning_rate": 8.320071126917092e-05,
      "loss": 1.239,
      "step": 26284
    },
    {
      "epoch": 0.5841111111111111,
      "grad_norm": 1.5468647480010986,
      "learning_rate": 8.319626583685263e-05,
      "loss": 1.6306,
      "step": 26285
    },
    {
      "epoch": 0.5841333333333333,
      "grad_norm": 1.430153489112854,
      "learning_rate": 8.319182040453434e-05,
      "loss": 1.7573,
      "step": 26286
    },
    {
      "epoch": 0.5841555555555555,
      "grad_norm": 2.067629098892212,
      "learning_rate": 8.318737497221605e-05,
      "loss": 2.143,
      "step": 26287
    },
    {
      "epoch": 0.5841777777777778,
      "grad_norm": 1.7656430006027222,
      "learning_rate": 8.318292953989776e-05,
      "loss": 2.0896,
      "step": 26288
    },
    {
      "epoch": 0.5842,
      "grad_norm": 1.560054063796997,
      "learning_rate": 8.317848410757947e-05,
      "loss": 1.7963,
      "step": 26289
    },
    {
      "epoch": 0.5842222222222222,
      "grad_norm": 1.8045637607574463,
      "learning_rate": 8.317403867526117e-05,
      "loss": 1.7165,
      "step": 26290
    },
    {
      "epoch": 0.5842444444444445,
      "grad_norm": 1.740210771560669,
      "learning_rate": 8.316959324294288e-05,
      "loss": 2.3107,
      "step": 26291
    },
    {
      "epoch": 0.5842666666666667,
      "grad_norm": 1.606910228729248,
      "learning_rate": 8.316514781062459e-05,
      "loss": 1.9242,
      "step": 26292
    },
    {
      "epoch": 0.5842888888888889,
      "grad_norm": 1.793172836303711,
      "learning_rate": 8.31607023783063e-05,
      "loss": 1.7542,
      "step": 26293
    },
    {
      "epoch": 0.5843111111111111,
      "grad_norm": 1.8749566078186035,
      "learning_rate": 8.315625694598799e-05,
      "loss": 2.1248,
      "step": 26294
    },
    {
      "epoch": 0.5843333333333334,
      "grad_norm": 2.0712335109710693,
      "learning_rate": 8.31518115136697e-05,
      "loss": 1.9189,
      "step": 26295
    },
    {
      "epoch": 0.5843555555555555,
      "grad_norm": 1.778473973274231,
      "learning_rate": 8.314736608135141e-05,
      "loss": 1.6249,
      "step": 26296
    },
    {
      "epoch": 0.5843777777777778,
      "grad_norm": 1.758664846420288,
      "learning_rate": 8.314292064903312e-05,
      "loss": 1.7072,
      "step": 26297
    },
    {
      "epoch": 0.5844,
      "grad_norm": 1.531131386756897,
      "learning_rate": 8.313847521671483e-05,
      "loss": 1.216,
      "step": 26298
    },
    {
      "epoch": 0.5844222222222222,
      "grad_norm": 2.2430763244628906,
      "learning_rate": 8.313402978439654e-05,
      "loss": 2.2344,
      "step": 26299
    },
    {
      "epoch": 0.5844444444444444,
      "grad_norm": 1.7089288234710693,
      "learning_rate": 8.312958435207825e-05,
      "loss": 1.3861,
      "step": 26300
    },
    {
      "epoch": 0.5844666666666667,
      "grad_norm": 1.5989187955856323,
      "learning_rate": 8.312513891975995e-05,
      "loss": 2.6309,
      "step": 26301
    },
    {
      "epoch": 0.5844888888888888,
      "grad_norm": 1.3423744440078735,
      "learning_rate": 8.312069348744166e-05,
      "loss": 1.9436,
      "step": 26302
    },
    {
      "epoch": 0.5845111111111111,
      "grad_norm": 1.9386184215545654,
      "learning_rate": 8.311624805512337e-05,
      "loss": 1.9313,
      "step": 26303
    },
    {
      "epoch": 0.5845333333333333,
      "grad_norm": 1.4838286638259888,
      "learning_rate": 8.311180262280506e-05,
      "loss": 1.6181,
      "step": 26304
    },
    {
      "epoch": 0.5845555555555556,
      "grad_norm": 1.5339857339859009,
      "learning_rate": 8.310735719048679e-05,
      "loss": 1.8669,
      "step": 26305
    },
    {
      "epoch": 0.5845777777777778,
      "grad_norm": 1.5780014991760254,
      "learning_rate": 8.31029117581685e-05,
      "loss": 1.8785,
      "step": 26306
    },
    {
      "epoch": 0.5846,
      "grad_norm": 2.025686502456665,
      "learning_rate": 8.309846632585019e-05,
      "loss": 1.478,
      "step": 26307
    },
    {
      "epoch": 0.5846222222222223,
      "grad_norm": 1.8832579851150513,
      "learning_rate": 8.30940208935319e-05,
      "loss": 2.0248,
      "step": 26308
    },
    {
      "epoch": 0.5846444444444444,
      "grad_norm": 1.3615474700927734,
      "learning_rate": 8.308957546121361e-05,
      "loss": 1.3794,
      "step": 26309
    },
    {
      "epoch": 0.5846666666666667,
      "grad_norm": 1.5770617723464966,
      "learning_rate": 8.308513002889532e-05,
      "loss": 1.5432,
      "step": 26310
    },
    {
      "epoch": 0.5846888888888889,
      "grad_norm": 1.994457721710205,
      "learning_rate": 8.308068459657702e-05,
      "loss": 2.5888,
      "step": 26311
    },
    {
      "epoch": 0.5847111111111111,
      "grad_norm": 1.5343011617660522,
      "learning_rate": 8.307623916425873e-05,
      "loss": 1.5649,
      "step": 26312
    },
    {
      "epoch": 0.5847333333333333,
      "grad_norm": 1.5088410377502441,
      "learning_rate": 8.307179373194044e-05,
      "loss": 1.9576,
      "step": 26313
    },
    {
      "epoch": 0.5847555555555556,
      "grad_norm": 1.646855354309082,
      "learning_rate": 8.306734829962214e-05,
      "loss": 1.722,
      "step": 26314
    },
    {
      "epoch": 0.5847777777777777,
      "grad_norm": 1.5722808837890625,
      "learning_rate": 8.306290286730385e-05,
      "loss": 1.6116,
      "step": 26315
    },
    {
      "epoch": 0.5848,
      "grad_norm": 1.5221266746520996,
      "learning_rate": 8.305845743498556e-05,
      "loss": 1.7647,
      "step": 26316
    },
    {
      "epoch": 0.5848222222222222,
      "grad_norm": 1.6071947813034058,
      "learning_rate": 8.305401200266726e-05,
      "loss": 2.1635,
      "step": 26317
    },
    {
      "epoch": 0.5848444444444444,
      "grad_norm": 1.9324707984924316,
      "learning_rate": 8.304956657034897e-05,
      "loss": 2.3949,
      "step": 26318
    },
    {
      "epoch": 0.5848666666666666,
      "grad_norm": 1.6427240371704102,
      "learning_rate": 8.304512113803068e-05,
      "loss": 1.7098,
      "step": 26319
    },
    {
      "epoch": 0.5848888888888889,
      "grad_norm": 1.8649818897247314,
      "learning_rate": 8.304067570571239e-05,
      "loss": 2.0969,
      "step": 26320
    },
    {
      "epoch": 0.5849111111111112,
      "grad_norm": 1.9790477752685547,
      "learning_rate": 8.303623027339409e-05,
      "loss": 1.9604,
      "step": 26321
    },
    {
      "epoch": 0.5849333333333333,
      "grad_norm": 1.46359384059906,
      "learning_rate": 8.30317848410758e-05,
      "loss": 1.4153,
      "step": 26322
    },
    {
      "epoch": 0.5849555555555556,
      "grad_norm": 1.8081319332122803,
      "learning_rate": 8.30273394087575e-05,
      "loss": 1.932,
      "step": 26323
    },
    {
      "epoch": 0.5849777777777778,
      "grad_norm": 1.7537386417388916,
      "learning_rate": 8.302289397643921e-05,
      "loss": 2.3716,
      "step": 26324
    },
    {
      "epoch": 0.585,
      "grad_norm": 1.5806208848953247,
      "learning_rate": 8.301844854412092e-05,
      "loss": 1.8761,
      "step": 26325
    },
    {
      "epoch": 0.5850222222222222,
      "grad_norm": 1.8859691619873047,
      "learning_rate": 8.301400311180263e-05,
      "loss": 1.997,
      "step": 26326
    },
    {
      "epoch": 0.5850444444444445,
      "grad_norm": 1.6441972255706787,
      "learning_rate": 8.300955767948433e-05,
      "loss": 1.5677,
      "step": 26327
    },
    {
      "epoch": 0.5850666666666666,
      "grad_norm": 1.6208170652389526,
      "learning_rate": 8.300511224716604e-05,
      "loss": 1.8993,
      "step": 26328
    },
    {
      "epoch": 0.5850888888888889,
      "grad_norm": 1.696751356124878,
      "learning_rate": 8.300066681484775e-05,
      "loss": 2.3392,
      "step": 26329
    },
    {
      "epoch": 0.5851111111111111,
      "grad_norm": 1.7575993537902832,
      "learning_rate": 8.299622138252946e-05,
      "loss": 2.1465,
      "step": 26330
    },
    {
      "epoch": 0.5851333333333333,
      "grad_norm": 1.0533134937286377,
      "learning_rate": 8.299177595021115e-05,
      "loss": 0.8847,
      "step": 26331
    },
    {
      "epoch": 0.5851555555555555,
      "grad_norm": 1.5377509593963623,
      "learning_rate": 8.298733051789286e-05,
      "loss": 1.452,
      "step": 26332
    },
    {
      "epoch": 0.5851777777777778,
      "grad_norm": 1.8691941499710083,
      "learning_rate": 8.298288508557457e-05,
      "loss": 1.5431,
      "step": 26333
    },
    {
      "epoch": 0.5852,
      "grad_norm": 1.8643362522125244,
      "learning_rate": 8.297843965325628e-05,
      "loss": 1.906,
      "step": 26334
    },
    {
      "epoch": 0.5852222222222222,
      "grad_norm": 1.832690715789795,
      "learning_rate": 8.297399422093799e-05,
      "loss": 1.5813,
      "step": 26335
    },
    {
      "epoch": 0.5852444444444445,
      "grad_norm": 1.643566608428955,
      "learning_rate": 8.29695487886197e-05,
      "loss": 1.9578,
      "step": 26336
    },
    {
      "epoch": 0.5852666666666667,
      "grad_norm": 1.567914605140686,
      "learning_rate": 8.29651033563014e-05,
      "loss": 1.4821,
      "step": 26337
    },
    {
      "epoch": 0.5852888888888889,
      "grad_norm": 1.438464879989624,
      "learning_rate": 8.296065792398311e-05,
      "loss": 1.47,
      "step": 26338
    },
    {
      "epoch": 0.5853111111111111,
      "grad_norm": 1.6269550323486328,
      "learning_rate": 8.295621249166482e-05,
      "loss": 2.0255,
      "step": 26339
    },
    {
      "epoch": 0.5853333333333334,
      "grad_norm": 1.3445321321487427,
      "learning_rate": 8.295176705934653e-05,
      "loss": 1.2979,
      "step": 26340
    },
    {
      "epoch": 0.5853555555555555,
      "grad_norm": 1.9354634284973145,
      "learning_rate": 8.294732162702822e-05,
      "loss": 2.2849,
      "step": 26341
    },
    {
      "epoch": 0.5853777777777778,
      "grad_norm": 1.5181694030761719,
      "learning_rate": 8.294287619470995e-05,
      "loss": 1.4888,
      "step": 26342
    },
    {
      "epoch": 0.5854,
      "grad_norm": 1.9285415410995483,
      "learning_rate": 8.293843076239166e-05,
      "loss": 1.7749,
      "step": 26343
    },
    {
      "epoch": 0.5854222222222222,
      "grad_norm": 2.097766160964966,
      "learning_rate": 8.293398533007335e-05,
      "loss": 2.3797,
      "step": 26344
    },
    {
      "epoch": 0.5854444444444444,
      "grad_norm": 1.821632742881775,
      "learning_rate": 8.292953989775506e-05,
      "loss": 1.6612,
      "step": 26345
    },
    {
      "epoch": 0.5854666666666667,
      "grad_norm": 1.9774261713027954,
      "learning_rate": 8.292509446543677e-05,
      "loss": 1.6549,
      "step": 26346
    },
    {
      "epoch": 0.5854888888888888,
      "grad_norm": 1.726208209991455,
      "learning_rate": 8.292064903311847e-05,
      "loss": 2.0537,
      "step": 26347
    },
    {
      "epoch": 0.5855111111111111,
      "grad_norm": 1.1972006559371948,
      "learning_rate": 8.291620360080018e-05,
      "loss": 0.6462,
      "step": 26348
    },
    {
      "epoch": 0.5855333333333334,
      "grad_norm": 0.35262811183929443,
      "learning_rate": 8.291175816848189e-05,
      "loss": 0.0556,
      "step": 26349
    },
    {
      "epoch": 0.5855555555555556,
      "grad_norm": 1.5765961408615112,
      "learning_rate": 8.29073127361636e-05,
      "loss": 0.817,
      "step": 26350
    },
    {
      "epoch": 0.5855777777777778,
      "grad_norm": 1.6506803035736084,
      "learning_rate": 8.29028673038453e-05,
      "loss": 2.6258,
      "step": 26351
    },
    {
      "epoch": 0.5856,
      "grad_norm": 1.4478061199188232,
      "learning_rate": 8.289842187152702e-05,
      "loss": 1.9368,
      "step": 26352
    },
    {
      "epoch": 0.5856222222222223,
      "grad_norm": 1.4829243421554565,
      "learning_rate": 8.289397643920873e-05,
      "loss": 1.2137,
      "step": 26353
    },
    {
      "epoch": 0.5856444444444444,
      "grad_norm": 1.551202654838562,
      "learning_rate": 8.288953100689042e-05,
      "loss": 2.54,
      "step": 26354
    },
    {
      "epoch": 0.5856666666666667,
      "grad_norm": 1.680566430091858,
      "learning_rate": 8.288508557457213e-05,
      "loss": 2.3305,
      "step": 26355
    },
    {
      "epoch": 0.5856888888888889,
      "grad_norm": 1.6335614919662476,
      "learning_rate": 8.288064014225384e-05,
      "loss": 1.6486,
      "step": 26356
    },
    {
      "epoch": 0.5857111111111111,
      "grad_norm": 1.60475492477417,
      "learning_rate": 8.287619470993555e-05,
      "loss": 2.0379,
      "step": 26357
    },
    {
      "epoch": 0.5857333333333333,
      "grad_norm": 1.900649905204773,
      "learning_rate": 8.287174927761725e-05,
      "loss": 2.5529,
      "step": 26358
    },
    {
      "epoch": 0.5857555555555556,
      "grad_norm": 1.625902533531189,
      "learning_rate": 8.286730384529896e-05,
      "loss": 2.1112,
      "step": 26359
    },
    {
      "epoch": 0.5857777777777777,
      "grad_norm": 1.5074518918991089,
      "learning_rate": 8.286285841298067e-05,
      "loss": 2.1067,
      "step": 26360
    },
    {
      "epoch": 0.5858,
      "grad_norm": 1.585428237915039,
      "learning_rate": 8.285841298066237e-05,
      "loss": 1.8526,
      "step": 26361
    },
    {
      "epoch": 0.5858222222222222,
      "grad_norm": 1.7944355010986328,
      "learning_rate": 8.285396754834408e-05,
      "loss": 2.4323,
      "step": 26362
    },
    {
      "epoch": 0.5858444444444444,
      "grad_norm": 1.4390625953674316,
      "learning_rate": 8.28495221160258e-05,
      "loss": 1.7495,
      "step": 26363
    },
    {
      "epoch": 0.5858666666666666,
      "grad_norm": 1.7868386507034302,
      "learning_rate": 8.284507668370749e-05,
      "loss": 1.6837,
      "step": 26364
    },
    {
      "epoch": 0.5858888888888889,
      "grad_norm": 1.818138837814331,
      "learning_rate": 8.28406312513892e-05,
      "loss": 1.7053,
      "step": 26365
    },
    {
      "epoch": 0.5859111111111112,
      "grad_norm": 2.056191921234131,
      "learning_rate": 8.283618581907091e-05,
      "loss": 2.0468,
      "step": 26366
    },
    {
      "epoch": 0.5859333333333333,
      "grad_norm": 1.6591705083847046,
      "learning_rate": 8.283174038675262e-05,
      "loss": 2.3547,
      "step": 26367
    },
    {
      "epoch": 0.5859555555555556,
      "grad_norm": 1.5027168989181519,
      "learning_rate": 8.282729495443432e-05,
      "loss": 1.9793,
      "step": 26368
    },
    {
      "epoch": 0.5859777777777778,
      "grad_norm": 1.5128077268600464,
      "learning_rate": 8.282284952211602e-05,
      "loss": 1.5506,
      "step": 26369
    },
    {
      "epoch": 0.586,
      "grad_norm": 1.9915423393249512,
      "learning_rate": 8.281840408979773e-05,
      "loss": 2.1444,
      "step": 26370
    },
    {
      "epoch": 0.5860222222222222,
      "grad_norm": 1.9194926023483276,
      "learning_rate": 8.281395865747944e-05,
      "loss": 2.1724,
      "step": 26371
    },
    {
      "epoch": 0.5860444444444445,
      "grad_norm": 2.282923936843872,
      "learning_rate": 8.280951322516115e-05,
      "loss": 2.2116,
      "step": 26372
    },
    {
      "epoch": 0.5860666666666666,
      "grad_norm": 1.53107488155365,
      "learning_rate": 8.280506779284286e-05,
      "loss": 2.062,
      "step": 26373
    },
    {
      "epoch": 0.5860888888888889,
      "grad_norm": 1.673590898513794,
      "learning_rate": 8.280062236052456e-05,
      "loss": 1.5491,
      "step": 26374
    },
    {
      "epoch": 0.5861111111111111,
      "grad_norm": 2.9730846881866455,
      "learning_rate": 8.279617692820627e-05,
      "loss": 1.2786,
      "step": 26375
    },
    {
      "epoch": 0.5861333333333333,
      "grad_norm": 1.4333029985427856,
      "learning_rate": 8.279173149588798e-05,
      "loss": 1.6072,
      "step": 26376
    },
    {
      "epoch": 0.5861555555555555,
      "grad_norm": 1.7236535549163818,
      "learning_rate": 8.278728606356969e-05,
      "loss": 1.5908,
      "step": 26377
    },
    {
      "epoch": 0.5861777777777778,
      "grad_norm": 1.8024083375930786,
      "learning_rate": 8.278284063125138e-05,
      "loss": 2.0472,
      "step": 26378
    },
    {
      "epoch": 0.5862,
      "grad_norm": 1.3262346982955933,
      "learning_rate": 8.277839519893311e-05,
      "loss": 1.7635,
      "step": 26379
    },
    {
      "epoch": 0.5862222222222222,
      "grad_norm": 1.9368542432785034,
      "learning_rate": 8.277394976661482e-05,
      "loss": 2.1713,
      "step": 26380
    },
    {
      "epoch": 0.5862444444444445,
      "grad_norm": 1.776813268661499,
      "learning_rate": 8.276950433429651e-05,
      "loss": 2.2592,
      "step": 26381
    },
    {
      "epoch": 0.5862666666666667,
      "grad_norm": 2.261319160461426,
      "learning_rate": 8.276505890197822e-05,
      "loss": 2.4149,
      "step": 26382
    },
    {
      "epoch": 0.5862888888888889,
      "grad_norm": 1.633979320526123,
      "learning_rate": 8.276061346965993e-05,
      "loss": 1.6741,
      "step": 26383
    },
    {
      "epoch": 0.5863111111111111,
      "grad_norm": 1.6456549167633057,
      "learning_rate": 8.275616803734163e-05,
      "loss": 2.0613,
      "step": 26384
    },
    {
      "epoch": 0.5863333333333334,
      "grad_norm": 1.6004148721694946,
      "learning_rate": 8.275172260502334e-05,
      "loss": 1.8647,
      "step": 26385
    },
    {
      "epoch": 0.5863555555555555,
      "grad_norm": 1.6349995136260986,
      "learning_rate": 8.274727717270505e-05,
      "loss": 1.946,
      "step": 26386
    },
    {
      "epoch": 0.5863777777777778,
      "grad_norm": 1.856724500656128,
      "learning_rate": 8.274283174038676e-05,
      "loss": 2.0633,
      "step": 26387
    },
    {
      "epoch": 0.5864,
      "grad_norm": 1.818117618560791,
      "learning_rate": 8.273838630806847e-05,
      "loss": 2.2893,
      "step": 26388
    },
    {
      "epoch": 0.5864222222222222,
      "grad_norm": 1.3961563110351562,
      "learning_rate": 8.273394087575018e-05,
      "loss": 1.608,
      "step": 26389
    },
    {
      "epoch": 0.5864444444444444,
      "grad_norm": 1.90252685546875,
      "learning_rate": 8.272949544343189e-05,
      "loss": 2.1006,
      "step": 26390
    },
    {
      "epoch": 0.5864666666666667,
      "grad_norm": 1.7041651010513306,
      "learning_rate": 8.272505001111358e-05,
      "loss": 1.7053,
      "step": 26391
    },
    {
      "epoch": 0.5864888888888888,
      "grad_norm": 1.704955816268921,
      "learning_rate": 8.272060457879529e-05,
      "loss": 1.8423,
      "step": 26392
    },
    {
      "epoch": 0.5865111111111111,
      "grad_norm": 2.031508445739746,
      "learning_rate": 8.2716159146477e-05,
      "loss": 1.7539,
      "step": 26393
    },
    {
      "epoch": 0.5865333333333334,
      "grad_norm": 2.1782689094543457,
      "learning_rate": 8.27117137141587e-05,
      "loss": 1.8534,
      "step": 26394
    },
    {
      "epoch": 0.5865555555555556,
      "grad_norm": 1.6237221956253052,
      "learning_rate": 8.270726828184041e-05,
      "loss": 1.8039,
      "step": 26395
    },
    {
      "epoch": 0.5865777777777778,
      "grad_norm": 1.854526162147522,
      "learning_rate": 8.270282284952212e-05,
      "loss": 1.671,
      "step": 26396
    },
    {
      "epoch": 0.5866,
      "grad_norm": 1.7956544160842896,
      "learning_rate": 8.269837741720383e-05,
      "loss": 1.6,
      "step": 26397
    },
    {
      "epoch": 0.5866222222222223,
      "grad_norm": 2.6054320335388184,
      "learning_rate": 8.269393198488554e-05,
      "loss": 1.3538,
      "step": 26398
    },
    {
      "epoch": 0.5866444444444444,
      "grad_norm": 1.5763986110687256,
      "learning_rate": 8.268948655256725e-05,
      "loss": 1.6026,
      "step": 26399
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 1.8800048828125,
      "learning_rate": 8.268504112024896e-05,
      "loss": 1.4492,
      "step": 26400
    },
    {
      "epoch": 0.5866888888888889,
      "grad_norm": 1.9422786235809326,
      "learning_rate": 8.268059568793065e-05,
      "loss": 2.3528,
      "step": 26401
    },
    {
      "epoch": 0.5867111111111111,
      "grad_norm": 1.5031019449234009,
      "learning_rate": 8.267615025561236e-05,
      "loss": 2.304,
      "step": 26402
    },
    {
      "epoch": 0.5867333333333333,
      "grad_norm": 1.8519642353057861,
      "learning_rate": 8.267170482329407e-05,
      "loss": 2.9398,
      "step": 26403
    },
    {
      "epoch": 0.5867555555555556,
      "grad_norm": 1.6615465879440308,
      "learning_rate": 8.266725939097577e-05,
      "loss": 2.2684,
      "step": 26404
    },
    {
      "epoch": 0.5867777777777777,
      "grad_norm": 1.7758432626724243,
      "learning_rate": 8.266281395865748e-05,
      "loss": 2.2158,
      "step": 26405
    },
    {
      "epoch": 0.5868,
      "grad_norm": 1.4606879949569702,
      "learning_rate": 8.265836852633919e-05,
      "loss": 1.6692,
      "step": 26406
    },
    {
      "epoch": 0.5868222222222222,
      "grad_norm": 1.423619270324707,
      "learning_rate": 8.26539230940209e-05,
      "loss": 2.2713,
      "step": 26407
    },
    {
      "epoch": 0.5868444444444444,
      "grad_norm": 1.7291810512542725,
      "learning_rate": 8.26494776617026e-05,
      "loss": 2.4045,
      "step": 26408
    },
    {
      "epoch": 0.5868666666666666,
      "grad_norm": 1.4429683685302734,
      "learning_rate": 8.264503222938431e-05,
      "loss": 1.9806,
      "step": 26409
    },
    {
      "epoch": 0.5868888888888889,
      "grad_norm": 1.526571273803711,
      "learning_rate": 8.264058679706602e-05,
      "loss": 2.2861,
      "step": 26410
    },
    {
      "epoch": 0.5869111111111112,
      "grad_norm": 1.5247364044189453,
      "learning_rate": 8.263614136474772e-05,
      "loss": 1.6332,
      "step": 26411
    },
    {
      "epoch": 0.5869333333333333,
      "grad_norm": 1.7640910148620605,
      "learning_rate": 8.263169593242943e-05,
      "loss": 2.6262,
      "step": 26412
    },
    {
      "epoch": 0.5869555555555556,
      "grad_norm": 1.8370826244354248,
      "learning_rate": 8.262725050011114e-05,
      "loss": 1.9565,
      "step": 26413
    },
    {
      "epoch": 0.5869777777777778,
      "grad_norm": 1.6487253904342651,
      "learning_rate": 8.262280506779285e-05,
      "loss": 2.071,
      "step": 26414
    },
    {
      "epoch": 0.587,
      "grad_norm": 1.5205276012420654,
      "learning_rate": 8.261835963547455e-05,
      "loss": 1.8026,
      "step": 26415
    },
    {
      "epoch": 0.5870222222222222,
      "grad_norm": 1.7748128175735474,
      "learning_rate": 8.261391420315627e-05,
      "loss": 1.8529,
      "step": 26416
    },
    {
      "epoch": 0.5870444444444445,
      "grad_norm": 1.5548124313354492,
      "learning_rate": 8.260946877083798e-05,
      "loss": 1.9147,
      "step": 26417
    },
    {
      "epoch": 0.5870666666666666,
      "grad_norm": 1.6629937887191772,
      "learning_rate": 8.260502333851967e-05,
      "loss": 2.1774,
      "step": 26418
    },
    {
      "epoch": 0.5870888888888889,
      "grad_norm": 1.7149839401245117,
      "learning_rate": 8.260057790620138e-05,
      "loss": 2.023,
      "step": 26419
    },
    {
      "epoch": 0.5871111111111111,
      "grad_norm": 1.7205604314804077,
      "learning_rate": 8.25961324738831e-05,
      "loss": 2.1347,
      "step": 26420
    },
    {
      "epoch": 0.5871333333333333,
      "grad_norm": 1.8264589309692383,
      "learning_rate": 8.259168704156479e-05,
      "loss": 2.0622,
      "step": 26421
    },
    {
      "epoch": 0.5871555555555555,
      "grad_norm": 1.5748111009597778,
      "learning_rate": 8.25872416092465e-05,
      "loss": 1.7845,
      "step": 26422
    },
    {
      "epoch": 0.5871777777777778,
      "grad_norm": 2.0303964614868164,
      "learning_rate": 8.258279617692821e-05,
      "loss": 2.1154,
      "step": 26423
    },
    {
      "epoch": 0.5872,
      "grad_norm": 1.772826910018921,
      "learning_rate": 8.257835074460992e-05,
      "loss": 1.9938,
      "step": 26424
    },
    {
      "epoch": 0.5872222222222222,
      "grad_norm": 1.7206312417984009,
      "learning_rate": 8.257390531229163e-05,
      "loss": 2.008,
      "step": 26425
    },
    {
      "epoch": 0.5872444444444445,
      "grad_norm": 1.6457266807556152,
      "learning_rate": 8.256945987997334e-05,
      "loss": 2.0749,
      "step": 26426
    },
    {
      "epoch": 0.5872666666666667,
      "grad_norm": 1.5992521047592163,
      "learning_rate": 8.256501444765505e-05,
      "loss": 2.2439,
      "step": 26427
    },
    {
      "epoch": 0.5872888888888889,
      "grad_norm": 1.3555350303649902,
      "learning_rate": 8.256056901533674e-05,
      "loss": 1.2614,
      "step": 26428
    },
    {
      "epoch": 0.5873111111111111,
      "grad_norm": 1.5201590061187744,
      "learning_rate": 8.255612358301845e-05,
      "loss": 1.8837,
      "step": 26429
    },
    {
      "epoch": 0.5873333333333334,
      "grad_norm": 1.8117382526397705,
      "learning_rate": 8.255167815070016e-05,
      "loss": 2.3655,
      "step": 26430
    },
    {
      "epoch": 0.5873555555555555,
      "grad_norm": 1.8975117206573486,
      "learning_rate": 8.254723271838186e-05,
      "loss": 2.1152,
      "step": 26431
    },
    {
      "epoch": 0.5873777777777778,
      "grad_norm": 1.8291747570037842,
      "learning_rate": 8.254278728606357e-05,
      "loss": 1.8039,
      "step": 26432
    },
    {
      "epoch": 0.5874,
      "grad_norm": 1.5239486694335938,
      "learning_rate": 8.253834185374528e-05,
      "loss": 1.3966,
      "step": 26433
    },
    {
      "epoch": 0.5874222222222222,
      "grad_norm": 1.609764814376831,
      "learning_rate": 8.253389642142699e-05,
      "loss": 1.8746,
      "step": 26434
    },
    {
      "epoch": 0.5874444444444444,
      "grad_norm": 1.4939262866973877,
      "learning_rate": 8.25294509891087e-05,
      "loss": 1.4485,
      "step": 26435
    },
    {
      "epoch": 0.5874666666666667,
      "grad_norm": 1.7408115863800049,
      "learning_rate": 8.25250055567904e-05,
      "loss": 1.9704,
      "step": 26436
    },
    {
      "epoch": 0.5874888888888888,
      "grad_norm": 1.6214052438735962,
      "learning_rate": 8.252056012447212e-05,
      "loss": 1.5611,
      "step": 26437
    },
    {
      "epoch": 0.5875111111111111,
      "grad_norm": 1.5068247318267822,
      "learning_rate": 8.251611469215381e-05,
      "loss": 1.6896,
      "step": 26438
    },
    {
      "epoch": 0.5875333333333334,
      "grad_norm": 1.753875494003296,
      "learning_rate": 8.251166925983552e-05,
      "loss": 1.7141,
      "step": 26439
    },
    {
      "epoch": 0.5875555555555556,
      "grad_norm": 1.8102775812149048,
      "learning_rate": 8.250722382751723e-05,
      "loss": 1.956,
      "step": 26440
    },
    {
      "epoch": 0.5875777777777778,
      "grad_norm": 1.626371145248413,
      "learning_rate": 8.250277839519893e-05,
      "loss": 1.7825,
      "step": 26441
    },
    {
      "epoch": 0.5876,
      "grad_norm": 1.577762484550476,
      "learning_rate": 8.249833296288064e-05,
      "loss": 1.7609,
      "step": 26442
    },
    {
      "epoch": 0.5876222222222223,
      "grad_norm": 1.9608583450317383,
      "learning_rate": 8.249388753056235e-05,
      "loss": 2.1549,
      "step": 26443
    },
    {
      "epoch": 0.5876444444444444,
      "grad_norm": 1.8894906044006348,
      "learning_rate": 8.248944209824406e-05,
      "loss": 1.9205,
      "step": 26444
    },
    {
      "epoch": 0.5876666666666667,
      "grad_norm": 1.5059431791305542,
      "learning_rate": 8.248499666592577e-05,
      "loss": 1.4438,
      "step": 26445
    },
    {
      "epoch": 0.5876888888888889,
      "grad_norm": 1.8880411386489868,
      "learning_rate": 8.248055123360748e-05,
      "loss": 1.9452,
      "step": 26446
    },
    {
      "epoch": 0.5877111111111111,
      "grad_norm": 1.5395166873931885,
      "learning_rate": 8.247610580128919e-05,
      "loss": 1.8412,
      "step": 26447
    },
    {
      "epoch": 0.5877333333333333,
      "grad_norm": 1.722232460975647,
      "learning_rate": 8.247166036897088e-05,
      "loss": 1.7644,
      "step": 26448
    },
    {
      "epoch": 0.5877555555555556,
      "grad_norm": 1.1945700645446777,
      "learning_rate": 8.246721493665259e-05,
      "loss": 0.5181,
      "step": 26449
    },
    {
      "epoch": 0.5877777777777777,
      "grad_norm": 1.5664265155792236,
      "learning_rate": 8.24627695043343e-05,
      "loss": 0.8745,
      "step": 26450
    },
    {
      "epoch": 0.5878,
      "grad_norm": 1.278299331665039,
      "learning_rate": 8.2458324072016e-05,
      "loss": 1.6046,
      "step": 26451
    },
    {
      "epoch": 0.5878222222222222,
      "grad_norm": 1.794995665550232,
      "learning_rate": 8.24538786396977e-05,
      "loss": 2.6412,
      "step": 26452
    },
    {
      "epoch": 0.5878444444444444,
      "grad_norm": 1.5944641828536987,
      "learning_rate": 8.244943320737943e-05,
      "loss": 2.638,
      "step": 26453
    },
    {
      "epoch": 0.5878666666666666,
      "grad_norm": 1.603827953338623,
      "learning_rate": 8.244498777506114e-05,
      "loss": 1.2712,
      "step": 26454
    },
    {
      "epoch": 0.5878888888888889,
      "grad_norm": 1.6544184684753418,
      "learning_rate": 8.244054234274284e-05,
      "loss": 1.7048,
      "step": 26455
    },
    {
      "epoch": 0.5879111111111112,
      "grad_norm": 1.5918264389038086,
      "learning_rate": 8.243609691042454e-05,
      "loss": 2.0802,
      "step": 26456
    },
    {
      "epoch": 0.5879333333333333,
      "grad_norm": 1.6266483068466187,
      "learning_rate": 8.243165147810625e-05,
      "loss": 1.6888,
      "step": 26457
    },
    {
      "epoch": 0.5879555555555556,
      "grad_norm": 1.4718546867370605,
      "learning_rate": 8.242720604578795e-05,
      "loss": 1.9847,
      "step": 26458
    },
    {
      "epoch": 0.5879777777777778,
      "grad_norm": 1.6215400695800781,
      "learning_rate": 8.242276061346966e-05,
      "loss": 2.5943,
      "step": 26459
    },
    {
      "epoch": 0.588,
      "grad_norm": 1.3390930891036987,
      "learning_rate": 8.241831518115137e-05,
      "loss": 0.9272,
      "step": 26460
    },
    {
      "epoch": 0.5880222222222222,
      "grad_norm": 1.5605331659317017,
      "learning_rate": 8.241386974883307e-05,
      "loss": 2.1027,
      "step": 26461
    },
    {
      "epoch": 0.5880444444444445,
      "grad_norm": 1.332210898399353,
      "learning_rate": 8.240942431651479e-05,
      "loss": 1.7529,
      "step": 26462
    },
    {
      "epoch": 0.5880666666666666,
      "grad_norm": 1.414040207862854,
      "learning_rate": 8.24049788841965e-05,
      "loss": 1.9332,
      "step": 26463
    },
    {
      "epoch": 0.5880888888888889,
      "grad_norm": 1.5289276838302612,
      "learning_rate": 8.240053345187821e-05,
      "loss": 2.1359,
      "step": 26464
    },
    {
      "epoch": 0.5881111111111111,
      "grad_norm": 1.1083582639694214,
      "learning_rate": 8.23960880195599e-05,
      "loss": 1.1907,
      "step": 26465
    },
    {
      "epoch": 0.5881333333333333,
      "grad_norm": 1.4909306764602661,
      "learning_rate": 8.239164258724161e-05,
      "loss": 1.8534,
      "step": 26466
    },
    {
      "epoch": 0.5881555555555555,
      "grad_norm": 1.5297155380249023,
      "learning_rate": 8.238719715492332e-05,
      "loss": 1.7557,
      "step": 26467
    },
    {
      "epoch": 0.5881777777777778,
      "grad_norm": 1.879301905632019,
      "learning_rate": 8.238275172260502e-05,
      "loss": 2.0541,
      "step": 26468
    },
    {
      "epoch": 0.5882,
      "grad_norm": 1.8957713842391968,
      "learning_rate": 8.237830629028673e-05,
      "loss": 2.1396,
      "step": 26469
    },
    {
      "epoch": 0.5882222222222222,
      "grad_norm": 1.3897382020950317,
      "learning_rate": 8.237386085796844e-05,
      "loss": 1.9988,
      "step": 26470
    },
    {
      "epoch": 0.5882444444444445,
      "grad_norm": 1.6075379848480225,
      "learning_rate": 8.236941542565015e-05,
      "loss": 2.2945,
      "step": 26471
    },
    {
      "epoch": 0.5882666666666667,
      "grad_norm": 1.8518240451812744,
      "learning_rate": 8.236496999333186e-05,
      "loss": 2.1176,
      "step": 26472
    },
    {
      "epoch": 0.5882888888888889,
      "grad_norm": 1.6546710729599,
      "learning_rate": 8.236052456101357e-05,
      "loss": 1.8829,
      "step": 26473
    },
    {
      "epoch": 0.5883111111111111,
      "grad_norm": 1.332216501235962,
      "learning_rate": 8.235607912869528e-05,
      "loss": 1.315,
      "step": 26474
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 1.7014000415802002,
      "learning_rate": 8.235163369637697e-05,
      "loss": 2.2719,
      "step": 26475
    },
    {
      "epoch": 0.5883555555555555,
      "grad_norm": 1.8507986068725586,
      "learning_rate": 8.234718826405868e-05,
      "loss": 1.9988,
      "step": 26476
    },
    {
      "epoch": 0.5883777777777778,
      "grad_norm": 2.463884115219116,
      "learning_rate": 8.234274283174039e-05,
      "loss": 2.3464,
      "step": 26477
    },
    {
      "epoch": 0.5884,
      "grad_norm": 3.2078611850738525,
      "learning_rate": 8.233829739942209e-05,
      "loss": 2.4075,
      "step": 26478
    },
    {
      "epoch": 0.5884222222222222,
      "grad_norm": 1.769322156906128,
      "learning_rate": 8.23338519671038e-05,
      "loss": 1.9338,
      "step": 26479
    },
    {
      "epoch": 0.5884444444444444,
      "grad_norm": 1.3190253973007202,
      "learning_rate": 8.232940653478551e-05,
      "loss": 1.2321,
      "step": 26480
    },
    {
      "epoch": 0.5884666666666667,
      "grad_norm": 1.6068058013916016,
      "learning_rate": 8.232496110246722e-05,
      "loss": 1.9387,
      "step": 26481
    },
    {
      "epoch": 0.5884888888888888,
      "grad_norm": 1.6955701112747192,
      "learning_rate": 8.232051567014893e-05,
      "loss": 2.0747,
      "step": 26482
    },
    {
      "epoch": 0.5885111111111111,
      "grad_norm": 1.8967593908309937,
      "learning_rate": 8.231607023783064e-05,
      "loss": 1.7893,
      "step": 26483
    },
    {
      "epoch": 0.5885333333333334,
      "grad_norm": 1.5220470428466797,
      "learning_rate": 8.231162480551235e-05,
      "loss": 1.8033,
      "step": 26484
    },
    {
      "epoch": 0.5885555555555556,
      "grad_norm": 1.6682027578353882,
      "learning_rate": 8.230717937319404e-05,
      "loss": 2.1241,
      "step": 26485
    },
    {
      "epoch": 0.5885777777777778,
      "grad_norm": 1.5411769151687622,
      "learning_rate": 8.230273394087575e-05,
      "loss": 1.5139,
      "step": 26486
    },
    {
      "epoch": 0.5886,
      "grad_norm": 1.8869585990905762,
      "learning_rate": 8.229828850855746e-05,
      "loss": 2.0045,
      "step": 26487
    },
    {
      "epoch": 0.5886222222222223,
      "grad_norm": 1.6759885549545288,
      "learning_rate": 8.229384307623916e-05,
      "loss": 1.6491,
      "step": 26488
    },
    {
      "epoch": 0.5886444444444444,
      "grad_norm": 1.7548519372940063,
      "learning_rate": 8.228939764392087e-05,
      "loss": 2.0672,
      "step": 26489
    },
    {
      "epoch": 0.5886666666666667,
      "grad_norm": 1.571402907371521,
      "learning_rate": 8.228495221160259e-05,
      "loss": 1.3744,
      "step": 26490
    },
    {
      "epoch": 0.5886888888888889,
      "grad_norm": 1.9174574613571167,
      "learning_rate": 8.22805067792843e-05,
      "loss": 1.8788,
      "step": 26491
    },
    {
      "epoch": 0.5887111111111111,
      "grad_norm": 2.084259033203125,
      "learning_rate": 8.2276061346966e-05,
      "loss": 2.3798,
      "step": 26492
    },
    {
      "epoch": 0.5887333333333333,
      "grad_norm": 1.5270769596099854,
      "learning_rate": 8.22716159146477e-05,
      "loss": 1.8474,
      "step": 26493
    },
    {
      "epoch": 0.5887555555555556,
      "grad_norm": 1.9949065446853638,
      "learning_rate": 8.226717048232942e-05,
      "loss": 2.2836,
      "step": 26494
    },
    {
      "epoch": 0.5887777777777777,
      "grad_norm": 1.8067631721496582,
      "learning_rate": 8.226272505001111e-05,
      "loss": 1.8638,
      "step": 26495
    },
    {
      "epoch": 0.5888,
      "grad_norm": 1.8312886953353882,
      "learning_rate": 8.225827961769282e-05,
      "loss": 2.3125,
      "step": 26496
    },
    {
      "epoch": 0.5888222222222222,
      "grad_norm": 1.6324427127838135,
      "learning_rate": 8.225383418537453e-05,
      "loss": 1.4562,
      "step": 26497
    },
    {
      "epoch": 0.5888444444444444,
      "grad_norm": 2.074530601501465,
      "learning_rate": 8.224938875305623e-05,
      "loss": 1.9811,
      "step": 26498
    },
    {
      "epoch": 0.5888666666666666,
      "grad_norm": 1.7900502681732178,
      "learning_rate": 8.224494332073795e-05,
      "loss": 1.7443,
      "step": 26499
    },
    {
      "epoch": 0.5888888888888889,
      "grad_norm": 1.8668699264526367,
      "learning_rate": 8.224049788841966e-05,
      "loss": 1.913,
      "step": 26500
    },
    {
      "epoch": 0.5889111111111112,
      "grad_norm": 1.4245249032974243,
      "learning_rate": 8.223605245610137e-05,
      "loss": 2.6009,
      "step": 26501
    },
    {
      "epoch": 0.5889333333333333,
      "grad_norm": 1.4777202606201172,
      "learning_rate": 8.223160702378307e-05,
      "loss": 2.6983,
      "step": 26502
    },
    {
      "epoch": 0.5889555555555556,
      "grad_norm": 1.3658816814422607,
      "learning_rate": 8.222716159146477e-05,
      "loss": 2.0879,
      "step": 26503
    },
    {
      "epoch": 0.5889777777777778,
      "grad_norm": 0.2192663699388504,
      "learning_rate": 8.222271615914648e-05,
      "loss": 0.0216,
      "step": 26504
    },
    {
      "epoch": 0.589,
      "grad_norm": 1.0416237115859985,
      "learning_rate": 8.221827072682818e-05,
      "loss": 1.2148,
      "step": 26505
    },
    {
      "epoch": 0.5890222222222222,
      "grad_norm": 1.6372934579849243,
      "learning_rate": 8.221382529450989e-05,
      "loss": 2.2565,
      "step": 26506
    },
    {
      "epoch": 0.5890444444444445,
      "grad_norm": 1.6254594326019287,
      "learning_rate": 8.22093798621916e-05,
      "loss": 2.5999,
      "step": 26507
    },
    {
      "epoch": 0.5890666666666666,
      "grad_norm": 1.6181801557540894,
      "learning_rate": 8.220493442987331e-05,
      "loss": 2.3094,
      "step": 26508
    },
    {
      "epoch": 0.5890888888888889,
      "grad_norm": 1.6073154211044312,
      "learning_rate": 8.220048899755502e-05,
      "loss": 2.3929,
      "step": 26509
    },
    {
      "epoch": 0.5891111111111111,
      "grad_norm": 1.4710923433303833,
      "learning_rate": 8.219604356523673e-05,
      "loss": 1.9685,
      "step": 26510
    },
    {
      "epoch": 0.5891333333333333,
      "grad_norm": 1.5624597072601318,
      "learning_rate": 8.219159813291844e-05,
      "loss": 2.0818,
      "step": 26511
    },
    {
      "epoch": 0.5891555555555555,
      "grad_norm": 1.6579220294952393,
      "learning_rate": 8.218715270060013e-05,
      "loss": 1.7105,
      "step": 26512
    },
    {
      "epoch": 0.5891777777777778,
      "grad_norm": 1.7512640953063965,
      "learning_rate": 8.218270726828184e-05,
      "loss": 2.4301,
      "step": 26513
    },
    {
      "epoch": 0.5892,
      "grad_norm": 1.403272271156311,
      "learning_rate": 8.217826183596355e-05,
      "loss": 1.5019,
      "step": 26514
    },
    {
      "epoch": 0.5892222222222222,
      "grad_norm": 1.9031537771224976,
      "learning_rate": 8.217381640364525e-05,
      "loss": 2.4452,
      "step": 26515
    },
    {
      "epoch": 0.5892444444444445,
      "grad_norm": 1.6179159879684448,
      "learning_rate": 8.216937097132696e-05,
      "loss": 2.1208,
      "step": 26516
    },
    {
      "epoch": 0.5892666666666667,
      "grad_norm": 1.5489249229431152,
      "learning_rate": 8.216492553900867e-05,
      "loss": 1.6462,
      "step": 26517
    },
    {
      "epoch": 0.5892888888888889,
      "grad_norm": 1.8130542039871216,
      "learning_rate": 8.216048010669038e-05,
      "loss": 1.6512,
      "step": 26518
    },
    {
      "epoch": 0.5893111111111111,
      "grad_norm": 1.5840333700180054,
      "learning_rate": 8.215603467437209e-05,
      "loss": 1.6867,
      "step": 26519
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 1.7145648002624512,
      "learning_rate": 8.21515892420538e-05,
      "loss": 2.2308,
      "step": 26520
    },
    {
      "epoch": 0.5893555555555555,
      "grad_norm": 2.2711832523345947,
      "learning_rate": 8.214714380973551e-05,
      "loss": 2.3032,
      "step": 26521
    },
    {
      "epoch": 0.5893777777777778,
      "grad_norm": 1.7569622993469238,
      "learning_rate": 8.21426983774172e-05,
      "loss": 1.9934,
      "step": 26522
    },
    {
      "epoch": 0.5894,
      "grad_norm": 2.0704503059387207,
      "learning_rate": 8.213825294509891e-05,
      "loss": 2.0143,
      "step": 26523
    },
    {
      "epoch": 0.5894222222222222,
      "grad_norm": 1.657915472984314,
      "learning_rate": 8.213380751278062e-05,
      "loss": 1.697,
      "step": 26524
    },
    {
      "epoch": 0.5894444444444444,
      "grad_norm": 1.6642396450042725,
      "learning_rate": 8.212936208046232e-05,
      "loss": 1.6574,
      "step": 26525
    },
    {
      "epoch": 0.5894666666666667,
      "grad_norm": 1.705404281616211,
      "learning_rate": 8.212491664814403e-05,
      "loss": 1.8843,
      "step": 26526
    },
    {
      "epoch": 0.5894888888888888,
      "grad_norm": 1.951427936553955,
      "learning_rate": 8.212047121582575e-05,
      "loss": 2.2169,
      "step": 26527
    },
    {
      "epoch": 0.5895111111111111,
      "grad_norm": 1.76736319065094,
      "learning_rate": 8.211602578350746e-05,
      "loss": 2.4436,
      "step": 26528
    },
    {
      "epoch": 0.5895333333333334,
      "grad_norm": 1.6907325983047485,
      "learning_rate": 8.211158035118916e-05,
      "loss": 1.9543,
      "step": 26529
    },
    {
      "epoch": 0.5895555555555556,
      "grad_norm": 1.6716514825820923,
      "learning_rate": 8.210713491887087e-05,
      "loss": 1.7508,
      "step": 26530
    },
    {
      "epoch": 0.5895777777777778,
      "grad_norm": 1.727203130722046,
      "learning_rate": 8.210268948655258e-05,
      "loss": 2.0613,
      "step": 26531
    },
    {
      "epoch": 0.5896,
      "grad_norm": 1.8019435405731201,
      "learning_rate": 8.209824405423427e-05,
      "loss": 1.9505,
      "step": 26532
    },
    {
      "epoch": 0.5896222222222223,
      "grad_norm": 1.71755051612854,
      "learning_rate": 8.209379862191598e-05,
      "loss": 2.134,
      "step": 26533
    },
    {
      "epoch": 0.5896444444444444,
      "grad_norm": 1.2752341032028198,
      "learning_rate": 8.208935318959769e-05,
      "loss": 0.8956,
      "step": 26534
    },
    {
      "epoch": 0.5896666666666667,
      "grad_norm": 1.8847476243972778,
      "learning_rate": 8.208490775727939e-05,
      "loss": 2.0627,
      "step": 26535
    },
    {
      "epoch": 0.5896888888888889,
      "grad_norm": 1.639291763305664,
      "learning_rate": 8.208046232496111e-05,
      "loss": 1.9175,
      "step": 26536
    },
    {
      "epoch": 0.5897111111111111,
      "grad_norm": 2.0569376945495605,
      "learning_rate": 8.207601689264282e-05,
      "loss": 2.1619,
      "step": 26537
    },
    {
      "epoch": 0.5897333333333333,
      "grad_norm": 1.775004267692566,
      "learning_rate": 8.207157146032453e-05,
      "loss": 1.8134,
      "step": 26538
    },
    {
      "epoch": 0.5897555555555556,
      "grad_norm": 2.516251564025879,
      "learning_rate": 8.206712602800623e-05,
      "loss": 2.2565,
      "step": 26539
    },
    {
      "epoch": 0.5897777777777777,
      "grad_norm": 1.5780636072158813,
      "learning_rate": 8.206268059568794e-05,
      "loss": 1.658,
      "step": 26540
    },
    {
      "epoch": 0.5898,
      "grad_norm": 1.934320330619812,
      "learning_rate": 8.205823516336965e-05,
      "loss": 2.1937,
      "step": 26541
    },
    {
      "epoch": 0.5898222222222222,
      "grad_norm": 1.937772274017334,
      "learning_rate": 8.205378973105134e-05,
      "loss": 2.0649,
      "step": 26542
    },
    {
      "epoch": 0.5898444444444444,
      "grad_norm": 1.5901800394058228,
      "learning_rate": 8.204934429873305e-05,
      "loss": 1.6263,
      "step": 26543
    },
    {
      "epoch": 0.5898666666666667,
      "grad_norm": 1.6580713987350464,
      "learning_rate": 8.204489886641476e-05,
      "loss": 1.7261,
      "step": 26544
    },
    {
      "epoch": 0.5898888888888889,
      "grad_norm": 1.5570964813232422,
      "learning_rate": 8.204045343409647e-05,
      "loss": 1.4863,
      "step": 26545
    },
    {
      "epoch": 0.5899111111111112,
      "grad_norm": 1.8327727317810059,
      "learning_rate": 8.203600800177818e-05,
      "loss": 1.8743,
      "step": 26546
    },
    {
      "epoch": 0.5899333333333333,
      "grad_norm": 1.509567141532898,
      "learning_rate": 8.203156256945989e-05,
      "loss": 1.591,
      "step": 26547
    },
    {
      "epoch": 0.5899555555555556,
      "grad_norm": 2.091273307800293,
      "learning_rate": 8.20271171371416e-05,
      "loss": 1.8144,
      "step": 26548
    },
    {
      "epoch": 0.5899777777777778,
      "grad_norm": 1.8163344860076904,
      "learning_rate": 8.20226717048233e-05,
      "loss": 1.7362,
      "step": 26549
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.0135276317596436,
      "learning_rate": 8.2018226272505e-05,
      "loss": 1.6102,
      "step": 26550
    },
    {
      "epoch": 0.5900222222222222,
      "grad_norm": 1.781471610069275,
      "learning_rate": 8.201378084018671e-05,
      "loss": 2.6554,
      "step": 26551
    },
    {
      "epoch": 0.5900444444444445,
      "grad_norm": 1.0032708644866943,
      "learning_rate": 8.200933540786841e-05,
      "loss": 0.8867,
      "step": 26552
    },
    {
      "epoch": 0.5900666666666666,
      "grad_norm": 1.761935830116272,
      "learning_rate": 8.200488997555012e-05,
      "loss": 2.6627,
      "step": 26553
    },
    {
      "epoch": 0.5900888888888889,
      "grad_norm": 1.5583018064498901,
      "learning_rate": 8.200044454323183e-05,
      "loss": 2.2719,
      "step": 26554
    },
    {
      "epoch": 0.5901111111111111,
      "grad_norm": 1.6104395389556885,
      "learning_rate": 8.199599911091354e-05,
      "loss": 2.3873,
      "step": 26555
    },
    {
      "epoch": 0.5901333333333333,
      "grad_norm": 1.6542582511901855,
      "learning_rate": 8.199155367859525e-05,
      "loss": 2.2377,
      "step": 26556
    },
    {
      "epoch": 0.5901555555555555,
      "grad_norm": 1.507717251777649,
      "learning_rate": 8.198710824627696e-05,
      "loss": 1.8727,
      "step": 26557
    },
    {
      "epoch": 0.5901777777777778,
      "grad_norm": 1.5798872709274292,
      "learning_rate": 8.198266281395867e-05,
      "loss": 2.4807,
      "step": 26558
    },
    {
      "epoch": 0.5902,
      "grad_norm": 2.0253896713256836,
      "learning_rate": 8.197821738164036e-05,
      "loss": 2.1833,
      "step": 26559
    },
    {
      "epoch": 0.5902222222222222,
      "grad_norm": 1.9096221923828125,
      "learning_rate": 8.197377194932207e-05,
      "loss": 2.0666,
      "step": 26560
    },
    {
      "epoch": 0.5902444444444445,
      "grad_norm": 1.6258680820465088,
      "learning_rate": 8.196932651700378e-05,
      "loss": 1.9742,
      "step": 26561
    },
    {
      "epoch": 0.5902666666666667,
      "grad_norm": 1.657233715057373,
      "learning_rate": 8.196488108468548e-05,
      "loss": 2.2751,
      "step": 26562
    },
    {
      "epoch": 0.5902888888888889,
      "grad_norm": 2.256463050842285,
      "learning_rate": 8.196043565236719e-05,
      "loss": 2.3546,
      "step": 26563
    },
    {
      "epoch": 0.5903111111111111,
      "grad_norm": 1.5345555543899536,
      "learning_rate": 8.195599022004891e-05,
      "loss": 2.0553,
      "step": 26564
    },
    {
      "epoch": 0.5903333333333334,
      "grad_norm": 1.6566272974014282,
      "learning_rate": 8.195154478773061e-05,
      "loss": 1.8394,
      "step": 26565
    },
    {
      "epoch": 0.5903555555555555,
      "grad_norm": 1.3703186511993408,
      "learning_rate": 8.194709935541232e-05,
      "loss": 1.2446,
      "step": 26566
    },
    {
      "epoch": 0.5903777777777778,
      "grad_norm": 1.0013676881790161,
      "learning_rate": 8.194265392309403e-05,
      "loss": 0.0459,
      "step": 26567
    },
    {
      "epoch": 0.5904,
      "grad_norm": 1.772273063659668,
      "learning_rate": 8.193820849077574e-05,
      "loss": 2.2504,
      "step": 26568
    },
    {
      "epoch": 0.5904222222222222,
      "grad_norm": 1.7223542928695679,
      "learning_rate": 8.193376305845743e-05,
      "loss": 1.9782,
      "step": 26569
    },
    {
      "epoch": 0.5904444444444444,
      "grad_norm": 1.4310003519058228,
      "learning_rate": 8.192931762613914e-05,
      "loss": 1.9249,
      "step": 26570
    },
    {
      "epoch": 0.5904666666666667,
      "grad_norm": 1.986963152885437,
      "learning_rate": 8.192487219382085e-05,
      "loss": 2.1059,
      "step": 26571
    },
    {
      "epoch": 0.5904888888888888,
      "grad_norm": 1.6062281131744385,
      "learning_rate": 8.192042676150255e-05,
      "loss": 1.9521,
      "step": 26572
    },
    {
      "epoch": 0.5905111111111111,
      "grad_norm": 1.5529038906097412,
      "learning_rate": 8.191598132918427e-05,
      "loss": 1.7418,
      "step": 26573
    },
    {
      "epoch": 0.5905333333333334,
      "grad_norm": 2.3296256065368652,
      "learning_rate": 8.191153589686598e-05,
      "loss": 2.0563,
      "step": 26574
    },
    {
      "epoch": 0.5905555555555555,
      "grad_norm": 1.8755871057510376,
      "learning_rate": 8.190709046454769e-05,
      "loss": 2.1776,
      "step": 26575
    },
    {
      "epoch": 0.5905777777777778,
      "grad_norm": 1.5734074115753174,
      "learning_rate": 8.190264503222939e-05,
      "loss": 1.8932,
      "step": 26576
    },
    {
      "epoch": 0.5906,
      "grad_norm": 1.6150445938110352,
      "learning_rate": 8.18981995999111e-05,
      "loss": 1.8276,
      "step": 26577
    },
    {
      "epoch": 0.5906222222222223,
      "grad_norm": 1.3324120044708252,
      "learning_rate": 8.18937541675928e-05,
      "loss": 1.8167,
      "step": 26578
    },
    {
      "epoch": 0.5906444444444444,
      "grad_norm": 1.2015331983566284,
      "learning_rate": 8.18893087352745e-05,
      "loss": 1.0707,
      "step": 26579
    },
    {
      "epoch": 0.5906666666666667,
      "grad_norm": 1.3903979063034058,
      "learning_rate": 8.188486330295621e-05,
      "loss": 1.3774,
      "step": 26580
    },
    {
      "epoch": 0.5906888888888889,
      "grad_norm": 1.6445354223251343,
      "learning_rate": 8.188041787063792e-05,
      "loss": 1.4733,
      "step": 26581
    },
    {
      "epoch": 0.5907111111111111,
      "grad_norm": 1.9705824851989746,
      "learning_rate": 8.187597243831963e-05,
      "loss": 1.829,
      "step": 26582
    },
    {
      "epoch": 0.5907333333333333,
      "grad_norm": 1.145692229270935,
      "learning_rate": 8.187152700600134e-05,
      "loss": 0.9194,
      "step": 26583
    },
    {
      "epoch": 0.5907555555555556,
      "grad_norm": 1.5932261943817139,
      "learning_rate": 8.186708157368305e-05,
      "loss": 1.5765,
      "step": 26584
    },
    {
      "epoch": 0.5907777777777777,
      "grad_norm": 1.630245566368103,
      "learning_rate": 8.186263614136476e-05,
      "loss": 1.8371,
      "step": 26585
    },
    {
      "epoch": 0.5908,
      "grad_norm": 1.6606966257095337,
      "learning_rate": 8.185819070904646e-05,
      "loss": 1.5915,
      "step": 26586
    },
    {
      "epoch": 0.5908222222222222,
      "grad_norm": 1.1430854797363281,
      "learning_rate": 8.185374527672817e-05,
      "loss": 0.745,
      "step": 26587
    },
    {
      "epoch": 0.5908444444444444,
      "grad_norm": 1.4599413871765137,
      "learning_rate": 8.184929984440988e-05,
      "loss": 1.1224,
      "step": 26588
    },
    {
      "epoch": 0.5908666666666667,
      "grad_norm": 2.151262044906616,
      "learning_rate": 8.184485441209157e-05,
      "loss": 2.0447,
      "step": 26589
    },
    {
      "epoch": 0.5908888888888889,
      "grad_norm": 1.7323678731918335,
      "learning_rate": 8.184040897977328e-05,
      "loss": 1.9831,
      "step": 26590
    },
    {
      "epoch": 0.5909111111111112,
      "grad_norm": 1.604820728302002,
      "learning_rate": 8.183596354745499e-05,
      "loss": 1.4933,
      "step": 26591
    },
    {
      "epoch": 0.5909333333333333,
      "grad_norm": 1.5943677425384521,
      "learning_rate": 8.18315181151367e-05,
      "loss": 1.6485,
      "step": 26592
    },
    {
      "epoch": 0.5909555555555556,
      "grad_norm": 1.757006287574768,
      "learning_rate": 8.182707268281841e-05,
      "loss": 2.0849,
      "step": 26593
    },
    {
      "epoch": 0.5909777777777778,
      "grad_norm": 1.4215257167816162,
      "learning_rate": 8.182262725050012e-05,
      "loss": 1.4631,
      "step": 26594
    },
    {
      "epoch": 0.591,
      "grad_norm": 1.69182550907135,
      "learning_rate": 8.181818181818183e-05,
      "loss": 1.7487,
      "step": 26595
    },
    {
      "epoch": 0.5910222222222222,
      "grad_norm": 2.1581408977508545,
      "learning_rate": 8.181373638586353e-05,
      "loss": 2.0966,
      "step": 26596
    },
    {
      "epoch": 0.5910444444444445,
      "grad_norm": 2.17958927154541,
      "learning_rate": 8.180929095354524e-05,
      "loss": 1.7987,
      "step": 26597
    },
    {
      "epoch": 0.5910666666666666,
      "grad_norm": 1.9482837915420532,
      "learning_rate": 8.180484552122694e-05,
      "loss": 1.793,
      "step": 26598
    },
    {
      "epoch": 0.5910888888888889,
      "grad_norm": 1.6424596309661865,
      "learning_rate": 8.180040008890864e-05,
      "loss": 1.4073,
      "step": 26599
    },
    {
      "epoch": 0.5911111111111111,
      "grad_norm": 2.3620777130126953,
      "learning_rate": 8.179595465659035e-05,
      "loss": 1.3749,
      "step": 26600
    },
    {
      "epoch": 0.5911333333333333,
      "grad_norm": 1.8508235216140747,
      "learning_rate": 8.179150922427207e-05,
      "loss": 2.9108,
      "step": 26601
    },
    {
      "epoch": 0.5911555555555555,
      "grad_norm": 1.1262704133987427,
      "learning_rate": 8.178706379195377e-05,
      "loss": 0.9763,
      "step": 26602
    },
    {
      "epoch": 0.5911777777777778,
      "grad_norm": 1.5308245420455933,
      "learning_rate": 8.178261835963548e-05,
      "loss": 2.0178,
      "step": 26603
    },
    {
      "epoch": 0.5912,
      "grad_norm": 1.6389973163604736,
      "learning_rate": 8.177817292731719e-05,
      "loss": 2.4368,
      "step": 26604
    },
    {
      "epoch": 0.5912222222222222,
      "grad_norm": 1.7720253467559814,
      "learning_rate": 8.17737274949989e-05,
      "loss": 2.2833,
      "step": 26605
    },
    {
      "epoch": 0.5912444444444445,
      "grad_norm": 1.401301383972168,
      "learning_rate": 8.17692820626806e-05,
      "loss": 2.1505,
      "step": 26606
    },
    {
      "epoch": 0.5912666666666667,
      "grad_norm": 1.1152511835098267,
      "learning_rate": 8.17648366303623e-05,
      "loss": 1.1234,
      "step": 26607
    },
    {
      "epoch": 0.5912888888888889,
      "grad_norm": 1.4615529775619507,
      "learning_rate": 8.176039119804401e-05,
      "loss": 1.8951,
      "step": 26608
    },
    {
      "epoch": 0.5913111111111111,
      "grad_norm": 1.5637952089309692,
      "learning_rate": 8.175594576572571e-05,
      "loss": 2.4163,
      "step": 26609
    },
    {
      "epoch": 0.5913333333333334,
      "grad_norm": 1.5488580465316772,
      "learning_rate": 8.175150033340743e-05,
      "loss": 2.0755,
      "step": 26610
    },
    {
      "epoch": 0.5913555555555555,
      "grad_norm": 1.5902295112609863,
      "learning_rate": 8.174705490108914e-05,
      "loss": 1.8796,
      "step": 26611
    },
    {
      "epoch": 0.5913777777777778,
      "grad_norm": 1.5014410018920898,
      "learning_rate": 8.174260946877084e-05,
      "loss": 2.2305,
      "step": 26612
    },
    {
      "epoch": 0.5914,
      "grad_norm": 1.3349800109863281,
      "learning_rate": 8.173816403645255e-05,
      "loss": 1.4973,
      "step": 26613
    },
    {
      "epoch": 0.5914222222222222,
      "grad_norm": 1.8313910961151123,
      "learning_rate": 8.173371860413426e-05,
      "loss": 2.1185,
      "step": 26614
    },
    {
      "epoch": 0.5914444444444444,
      "grad_norm": 1.560365915298462,
      "learning_rate": 8.172927317181597e-05,
      "loss": 1.798,
      "step": 26615
    },
    {
      "epoch": 0.5914666666666667,
      "grad_norm": 1.5687285661697388,
      "learning_rate": 8.172482773949766e-05,
      "loss": 1.802,
      "step": 26616
    },
    {
      "epoch": 0.5914888888888888,
      "grad_norm": 1.6726188659667969,
      "learning_rate": 8.172038230717937e-05,
      "loss": 1.9302,
      "step": 26617
    },
    {
      "epoch": 0.5915111111111111,
      "grad_norm": 2.1939918994903564,
      "learning_rate": 8.171593687486108e-05,
      "loss": 2.1833,
      "step": 26618
    },
    {
      "epoch": 0.5915333333333334,
      "grad_norm": 1.5094565153121948,
      "learning_rate": 8.171149144254279e-05,
      "loss": 2.179,
      "step": 26619
    },
    {
      "epoch": 0.5915555555555555,
      "grad_norm": 1.5371365547180176,
      "learning_rate": 8.17070460102245e-05,
      "loss": 1.798,
      "step": 26620
    },
    {
      "epoch": 0.5915777777777778,
      "grad_norm": 1.4002341032028198,
      "learning_rate": 8.170260057790621e-05,
      "loss": 1.8906,
      "step": 26621
    },
    {
      "epoch": 0.5916,
      "grad_norm": 1.7280828952789307,
      "learning_rate": 8.169815514558791e-05,
      "loss": 2.034,
      "step": 26622
    },
    {
      "epoch": 0.5916222222222223,
      "grad_norm": 1.7399758100509644,
      "learning_rate": 8.169370971326962e-05,
      "loss": 2.2769,
      "step": 26623
    },
    {
      "epoch": 0.5916444444444444,
      "grad_norm": 1.539891004562378,
      "learning_rate": 8.168926428095133e-05,
      "loss": 1.9422,
      "step": 26624
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 1.6626595258712769,
      "learning_rate": 8.168481884863304e-05,
      "loss": 1.9142,
      "step": 26625
    },
    {
      "epoch": 0.5916888888888889,
      "grad_norm": 1.5796253681182861,
      "learning_rate": 8.168037341631473e-05,
      "loss": 2.0004,
      "step": 26626
    },
    {
      "epoch": 0.5917111111111111,
      "grad_norm": 1.6983789205551147,
      "learning_rate": 8.167592798399644e-05,
      "loss": 1.935,
      "step": 26627
    },
    {
      "epoch": 0.5917333333333333,
      "grad_norm": 1.405887246131897,
      "learning_rate": 8.167148255167815e-05,
      "loss": 1.5105,
      "step": 26628
    },
    {
      "epoch": 0.5917555555555556,
      "grad_norm": 1.676605463027954,
      "learning_rate": 8.166703711935986e-05,
      "loss": 1.7027,
      "step": 26629
    },
    {
      "epoch": 0.5917777777777777,
      "grad_norm": 1.861316204071045,
      "learning_rate": 8.166259168704157e-05,
      "loss": 1.9841,
      "step": 26630
    },
    {
      "epoch": 0.5918,
      "grad_norm": 1.7648253440856934,
      "learning_rate": 8.165814625472328e-05,
      "loss": 2.1883,
      "step": 26631
    },
    {
      "epoch": 0.5918222222222222,
      "grad_norm": 1.637048363685608,
      "learning_rate": 8.165370082240499e-05,
      "loss": 1.5399,
      "step": 26632
    },
    {
      "epoch": 0.5918444444444444,
      "grad_norm": 1.3285629749298096,
      "learning_rate": 8.164925539008669e-05,
      "loss": 1.1909,
      "step": 26633
    },
    {
      "epoch": 0.5918666666666667,
      "grad_norm": 1.8250073194503784,
      "learning_rate": 8.16448099577684e-05,
      "loss": 2.0721,
      "step": 26634
    },
    {
      "epoch": 0.5918888888888889,
      "grad_norm": 1.6213438510894775,
      "learning_rate": 8.16403645254501e-05,
      "loss": 1.9153,
      "step": 26635
    },
    {
      "epoch": 0.5919111111111112,
      "grad_norm": 1.490524172782898,
      "learning_rate": 8.16359190931318e-05,
      "loss": 1.2641,
      "step": 26636
    },
    {
      "epoch": 0.5919333333333333,
      "grad_norm": 1.869890570640564,
      "learning_rate": 8.163147366081351e-05,
      "loss": 1.3881,
      "step": 26637
    },
    {
      "epoch": 0.5919555555555556,
      "grad_norm": 1.9931570291519165,
      "learning_rate": 8.162702822849523e-05,
      "loss": 1.5897,
      "step": 26638
    },
    {
      "epoch": 0.5919777777777778,
      "grad_norm": 2.059723377227783,
      "learning_rate": 8.162258279617693e-05,
      "loss": 1.8027,
      "step": 26639
    },
    {
      "epoch": 0.592,
      "grad_norm": 1.8755348920822144,
      "learning_rate": 8.161813736385864e-05,
      "loss": 1.7455,
      "step": 26640
    },
    {
      "epoch": 0.5920222222222222,
      "grad_norm": 1.8518706560134888,
      "learning_rate": 8.161369193154035e-05,
      "loss": 1.8116,
      "step": 26641
    },
    {
      "epoch": 0.5920444444444445,
      "grad_norm": 2.008342981338501,
      "learning_rate": 8.160924649922206e-05,
      "loss": 2.3095,
      "step": 26642
    },
    {
      "epoch": 0.5920666666666666,
      "grad_norm": 1.9992581605911255,
      "learning_rate": 8.160480106690376e-05,
      "loss": 1.831,
      "step": 26643
    },
    {
      "epoch": 0.5920888888888889,
      "grad_norm": 1.7105638980865479,
      "learning_rate": 8.160035563458547e-05,
      "loss": 1.7077,
      "step": 26644
    },
    {
      "epoch": 0.5921111111111111,
      "grad_norm": 1.5414973497390747,
      "learning_rate": 8.159591020226717e-05,
      "loss": 1.4228,
      "step": 26645
    },
    {
      "epoch": 0.5921333333333333,
      "grad_norm": 1.8841001987457275,
      "learning_rate": 8.159146476994887e-05,
      "loss": 1.8394,
      "step": 26646
    },
    {
      "epoch": 0.5921555555555555,
      "grad_norm": 1.8836796283721924,
      "learning_rate": 8.15870193376306e-05,
      "loss": 1.7217,
      "step": 26647
    },
    {
      "epoch": 0.5921777777777778,
      "grad_norm": 2.0066640377044678,
      "learning_rate": 8.15825739053123e-05,
      "loss": 1.984,
      "step": 26648
    },
    {
      "epoch": 0.5922,
      "grad_norm": 2.158877372741699,
      "learning_rate": 8.1578128472994e-05,
      "loss": 2.005,
      "step": 26649
    },
    {
      "epoch": 0.5922222222222222,
      "grad_norm": 1.6916780471801758,
      "learning_rate": 8.157368304067571e-05,
      "loss": 1.3073,
      "step": 26650
    },
    {
      "epoch": 0.5922444444444445,
      "grad_norm": 1.0765386819839478,
      "learning_rate": 8.156923760835742e-05,
      "loss": 1.078,
      "step": 26651
    },
    {
      "epoch": 0.5922666666666667,
      "grad_norm": 1.3867547512054443,
      "learning_rate": 8.156479217603913e-05,
      "loss": 2.3633,
      "step": 26652
    },
    {
      "epoch": 0.5922888888888889,
      "grad_norm": 1.541346788406372,
      "learning_rate": 8.156034674372082e-05,
      "loss": 2.5147,
      "step": 26653
    },
    {
      "epoch": 0.5923111111111111,
      "grad_norm": 1.302173376083374,
      "learning_rate": 8.155590131140253e-05,
      "loss": 1.8573,
      "step": 26654
    },
    {
      "epoch": 0.5923333333333334,
      "grad_norm": 1.4141172170639038,
      "learning_rate": 8.155145587908424e-05,
      "loss": 1.8953,
      "step": 26655
    },
    {
      "epoch": 0.5923555555555555,
      "grad_norm": 1.8537484407424927,
      "learning_rate": 8.154701044676595e-05,
      "loss": 2.6232,
      "step": 26656
    },
    {
      "epoch": 0.5923777777777778,
      "grad_norm": 1.457228660583496,
      "learning_rate": 8.154256501444766e-05,
      "loss": 2.0644,
      "step": 26657
    },
    {
      "epoch": 0.5924,
      "grad_norm": 1.6981463432312012,
      "learning_rate": 8.153811958212937e-05,
      "loss": 1.7786,
      "step": 26658
    },
    {
      "epoch": 0.5924222222222222,
      "grad_norm": 1.579250693321228,
      "learning_rate": 8.153367414981107e-05,
      "loss": 2.5667,
      "step": 26659
    },
    {
      "epoch": 0.5924444444444444,
      "grad_norm": 1.561820387840271,
      "learning_rate": 8.152922871749278e-05,
      "loss": 2.0428,
      "step": 26660
    },
    {
      "epoch": 0.5924666666666667,
      "grad_norm": 1.5794981718063354,
      "learning_rate": 8.152478328517449e-05,
      "loss": 2.0572,
      "step": 26661
    },
    {
      "epoch": 0.5924888888888888,
      "grad_norm": 2.4824812412261963,
      "learning_rate": 8.15203378528562e-05,
      "loss": 1.0123,
      "step": 26662
    },
    {
      "epoch": 0.5925111111111111,
      "grad_norm": 1.656442403793335,
      "learning_rate": 8.15158924205379e-05,
      "loss": 2.3156,
      "step": 26663
    },
    {
      "epoch": 0.5925333333333334,
      "grad_norm": 1.7113794088363647,
      "learning_rate": 8.15114469882196e-05,
      "loss": 2.2904,
      "step": 26664
    },
    {
      "epoch": 0.5925555555555555,
      "grad_norm": 1.4261407852172852,
      "learning_rate": 8.150700155590131e-05,
      "loss": 1.5333,
      "step": 26665
    },
    {
      "epoch": 0.5925777777777778,
      "grad_norm": 1.7409135103225708,
      "learning_rate": 8.150255612358302e-05,
      "loss": 2.3401,
      "step": 26666
    },
    {
      "epoch": 0.5926,
      "grad_norm": 1.390152096748352,
      "learning_rate": 8.149811069126473e-05,
      "loss": 1.2631,
      "step": 26667
    },
    {
      "epoch": 0.5926222222222223,
      "grad_norm": 1.422816514968872,
      "learning_rate": 8.149366525894644e-05,
      "loss": 1.8948,
      "step": 26668
    },
    {
      "epoch": 0.5926444444444444,
      "grad_norm": 1.5520660877227783,
      "learning_rate": 8.148921982662814e-05,
      "loss": 2.1724,
      "step": 26669
    },
    {
      "epoch": 0.5926666666666667,
      "grad_norm": 1.649167776107788,
      "learning_rate": 8.148477439430985e-05,
      "loss": 2.0536,
      "step": 26670
    },
    {
      "epoch": 0.5926888888888889,
      "grad_norm": 1.961836576461792,
      "learning_rate": 8.148032896199156e-05,
      "loss": 2.153,
      "step": 26671
    },
    {
      "epoch": 0.5927111111111111,
      "grad_norm": 1.7347272634506226,
      "learning_rate": 8.147588352967327e-05,
      "loss": 2.1467,
      "step": 26672
    },
    {
      "epoch": 0.5927333333333333,
      "grad_norm": 1.6931570768356323,
      "learning_rate": 8.147143809735496e-05,
      "loss": 1.6617,
      "step": 26673
    },
    {
      "epoch": 0.5927555555555556,
      "grad_norm": 1.6291333436965942,
      "learning_rate": 8.146699266503667e-05,
      "loss": 1.7673,
      "step": 26674
    },
    {
      "epoch": 0.5927777777777777,
      "grad_norm": 1.5067996978759766,
      "learning_rate": 8.14625472327184e-05,
      "loss": 1.8728,
      "step": 26675
    },
    {
      "epoch": 0.5928,
      "grad_norm": 1.7630198001861572,
      "learning_rate": 8.145810180040009e-05,
      "loss": 1.6776,
      "step": 26676
    },
    {
      "epoch": 0.5928222222222223,
      "grad_norm": 1.9861774444580078,
      "learning_rate": 8.14536563680818e-05,
      "loss": 1.7904,
      "step": 26677
    },
    {
      "epoch": 0.5928444444444444,
      "grad_norm": 1.9535640478134155,
      "learning_rate": 8.144921093576351e-05,
      "loss": 2.577,
      "step": 26678
    },
    {
      "epoch": 0.5928666666666667,
      "grad_norm": 1.636690616607666,
      "learning_rate": 8.144476550344522e-05,
      "loss": 2.0611,
      "step": 26679
    },
    {
      "epoch": 0.5928888888888889,
      "grad_norm": 1.8471348285675049,
      "learning_rate": 8.144032007112692e-05,
      "loss": 1.5789,
      "step": 26680
    },
    {
      "epoch": 0.5929111111111112,
      "grad_norm": 1.6389126777648926,
      "learning_rate": 8.143587463880863e-05,
      "loss": 2.0829,
      "step": 26681
    },
    {
      "epoch": 0.5929333333333333,
      "grad_norm": 2.013946771621704,
      "learning_rate": 8.143142920649034e-05,
      "loss": 2.1446,
      "step": 26682
    },
    {
      "epoch": 0.5929555555555556,
      "grad_norm": 1.6818547248840332,
      "learning_rate": 8.142698377417203e-05,
      "loss": 1.6905,
      "step": 26683
    },
    {
      "epoch": 0.5929777777777778,
      "grad_norm": 1.9250750541687012,
      "learning_rate": 8.142253834185376e-05,
      "loss": 2.1326,
      "step": 26684
    },
    {
      "epoch": 0.593,
      "grad_norm": 1.8171052932739258,
      "learning_rate": 8.141809290953546e-05,
      "loss": 1.8738,
      "step": 26685
    },
    {
      "epoch": 0.5930222222222222,
      "grad_norm": 1.7382375001907349,
      "learning_rate": 8.141364747721716e-05,
      "loss": 1.8583,
      "step": 26686
    },
    {
      "epoch": 0.5930444444444445,
      "grad_norm": 1.8500169515609741,
      "learning_rate": 8.140920204489887e-05,
      "loss": 1.7788,
      "step": 26687
    },
    {
      "epoch": 0.5930666666666666,
      "grad_norm": 1.9859305620193481,
      "learning_rate": 8.140475661258058e-05,
      "loss": 1.9631,
      "step": 26688
    },
    {
      "epoch": 0.5930888888888889,
      "grad_norm": 2.013277769088745,
      "learning_rate": 8.140031118026229e-05,
      "loss": 2.091,
      "step": 26689
    },
    {
      "epoch": 0.5931111111111111,
      "grad_norm": 1.6553006172180176,
      "learning_rate": 8.139586574794399e-05,
      "loss": 2.0575,
      "step": 26690
    },
    {
      "epoch": 0.5931333333333333,
      "grad_norm": 1.632489800453186,
      "learning_rate": 8.13914203156257e-05,
      "loss": 1.5623,
      "step": 26691
    },
    {
      "epoch": 0.5931555555555555,
      "grad_norm": 1.8890914916992188,
      "learning_rate": 8.13869748833074e-05,
      "loss": 1.8982,
      "step": 26692
    },
    {
      "epoch": 0.5931777777777778,
      "grad_norm": 1.7432690858840942,
      "learning_rate": 8.138252945098911e-05,
      "loss": 2.0591,
      "step": 26693
    },
    {
      "epoch": 0.5932,
      "grad_norm": 1.7689228057861328,
      "learning_rate": 8.137808401867082e-05,
      "loss": 1.8778,
      "step": 26694
    },
    {
      "epoch": 0.5932222222222222,
      "grad_norm": 1.571394920349121,
      "learning_rate": 8.137363858635253e-05,
      "loss": 1.9016,
      "step": 26695
    },
    {
      "epoch": 0.5932444444444445,
      "grad_norm": 1.9821078777313232,
      "learning_rate": 8.136919315403423e-05,
      "loss": 2.078,
      "step": 26696
    },
    {
      "epoch": 0.5932666666666667,
      "grad_norm": 1.533720850944519,
      "learning_rate": 8.136474772171594e-05,
      "loss": 1.6173,
      "step": 26697
    },
    {
      "epoch": 0.5932888888888889,
      "grad_norm": 2.0955474376678467,
      "learning_rate": 8.136030228939765e-05,
      "loss": 1.8444,
      "step": 26698
    },
    {
      "epoch": 0.5933111111111111,
      "grad_norm": 1.8464515209197998,
      "learning_rate": 8.135585685707936e-05,
      "loss": 1.9813,
      "step": 26699
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 1.3876664638519287,
      "learning_rate": 8.135141142476105e-05,
      "loss": 1.0008,
      "step": 26700
    },
    {
      "epoch": 0.5933555555555555,
      "grad_norm": 1.6724517345428467,
      "learning_rate": 8.134696599244276e-05,
      "loss": 2.8459,
      "step": 26701
    },
    {
      "epoch": 0.5933777777777778,
      "grad_norm": 1.4604490995407104,
      "learning_rate": 8.134252056012447e-05,
      "loss": 2.2689,
      "step": 26702
    },
    {
      "epoch": 0.5934,
      "grad_norm": 1.372445821762085,
      "learning_rate": 8.133807512780618e-05,
      "loss": 2.0997,
      "step": 26703
    },
    {
      "epoch": 0.5934222222222222,
      "grad_norm": 1.5143563747406006,
      "learning_rate": 8.13336296954879e-05,
      "loss": 2.3801,
      "step": 26704
    },
    {
      "epoch": 0.5934444444444444,
      "grad_norm": 1.5440425872802734,
      "learning_rate": 8.13291842631696e-05,
      "loss": 2.1438,
      "step": 26705
    },
    {
      "epoch": 0.5934666666666667,
      "grad_norm": 1.5724350214004517,
      "learning_rate": 8.13247388308513e-05,
      "loss": 2.0209,
      "step": 26706
    },
    {
      "epoch": 0.5934888888888888,
      "grad_norm": 1.6102594137191772,
      "learning_rate": 8.132029339853301e-05,
      "loss": 1.9863,
      "step": 26707
    },
    {
      "epoch": 0.5935111111111111,
      "grad_norm": 1.4920109510421753,
      "learning_rate": 8.131584796621472e-05,
      "loss": 2.2177,
      "step": 26708
    },
    {
      "epoch": 0.5935333333333334,
      "grad_norm": 1.2547584772109985,
      "learning_rate": 8.131140253389643e-05,
      "loss": 1.5696,
      "step": 26709
    },
    {
      "epoch": 0.5935555555555555,
      "grad_norm": 1.7736376523971558,
      "learning_rate": 8.130695710157812e-05,
      "loss": 1.8298,
      "step": 26710
    },
    {
      "epoch": 0.5935777777777778,
      "grad_norm": 1.727866530418396,
      "learning_rate": 8.130251166925983e-05,
      "loss": 2.2899,
      "step": 26711
    },
    {
      "epoch": 0.5936,
      "grad_norm": 1.626160979270935,
      "learning_rate": 8.129806623694156e-05,
      "loss": 2.3531,
      "step": 26712
    },
    {
      "epoch": 0.5936222222222223,
      "grad_norm": 1.6291509866714478,
      "learning_rate": 8.129362080462325e-05,
      "loss": 1.8856,
      "step": 26713
    },
    {
      "epoch": 0.5936444444444444,
      "grad_norm": 1.7645621299743652,
      "learning_rate": 8.128917537230496e-05,
      "loss": 1.5955,
      "step": 26714
    },
    {
      "epoch": 0.5936666666666667,
      "grad_norm": 1.6563748121261597,
      "learning_rate": 8.128472993998667e-05,
      "loss": 2.3929,
      "step": 26715
    },
    {
      "epoch": 0.5936888888888889,
      "grad_norm": 1.5260820388793945,
      "learning_rate": 8.128028450766837e-05,
      "loss": 2.425,
      "step": 26716
    },
    {
      "epoch": 0.5937111111111111,
      "grad_norm": 0.6744555830955505,
      "learning_rate": 8.127583907535008e-05,
      "loss": 0.0275,
      "step": 26717
    },
    {
      "epoch": 0.5937333333333333,
      "grad_norm": 1.311850905418396,
      "learning_rate": 8.127139364303179e-05,
      "loss": 1.7537,
      "step": 26718
    },
    {
      "epoch": 0.5937555555555556,
      "grad_norm": 1.5667086839675903,
      "learning_rate": 8.12669482107135e-05,
      "loss": 2.1051,
      "step": 26719
    },
    {
      "epoch": 0.5937777777777777,
      "grad_norm": 1.6409789323806763,
      "learning_rate": 8.126250277839519e-05,
      "loss": 2.4806,
      "step": 26720
    },
    {
      "epoch": 0.5938,
      "grad_norm": 1.585787057876587,
      "learning_rate": 8.125805734607692e-05,
      "loss": 2.4312,
      "step": 26721
    },
    {
      "epoch": 0.5938222222222223,
      "grad_norm": 1.5881736278533936,
      "learning_rate": 8.125361191375863e-05,
      "loss": 2.2744,
      "step": 26722
    },
    {
      "epoch": 0.5938444444444444,
      "grad_norm": 1.6588823795318604,
      "learning_rate": 8.124916648144032e-05,
      "loss": 1.711,
      "step": 26723
    },
    {
      "epoch": 0.5938666666666667,
      "grad_norm": 1.717848300933838,
      "learning_rate": 8.124472104912203e-05,
      "loss": 2.1547,
      "step": 26724
    },
    {
      "epoch": 0.5938888888888889,
      "grad_norm": 1.8647304773330688,
      "learning_rate": 8.124027561680374e-05,
      "loss": 2.0538,
      "step": 26725
    },
    {
      "epoch": 0.5939111111111111,
      "grad_norm": 1.7777903079986572,
      "learning_rate": 8.123583018448544e-05,
      "loss": 2.1023,
      "step": 26726
    },
    {
      "epoch": 0.5939333333333333,
      "grad_norm": 1.7060556411743164,
      "learning_rate": 8.123138475216715e-05,
      "loss": 1.4759,
      "step": 26727
    },
    {
      "epoch": 0.5939555555555556,
      "grad_norm": 1.4728893041610718,
      "learning_rate": 8.122693931984886e-05,
      "loss": 1.4794,
      "step": 26728
    },
    {
      "epoch": 0.5939777777777778,
      "grad_norm": 1.678420901298523,
      "learning_rate": 8.122249388753057e-05,
      "loss": 1.7817,
      "step": 26729
    },
    {
      "epoch": 0.594,
      "grad_norm": 1.4201163053512573,
      "learning_rate": 8.121804845521228e-05,
      "loss": 1.6628,
      "step": 26730
    },
    {
      "epoch": 0.5940222222222222,
      "grad_norm": 1.512225866317749,
      "learning_rate": 8.121360302289399e-05,
      "loss": 1.4771,
      "step": 26731
    },
    {
      "epoch": 0.5940444444444445,
      "grad_norm": 1.8955464363098145,
      "learning_rate": 8.12091575905757e-05,
      "loss": 1.166,
      "step": 26732
    },
    {
      "epoch": 0.5940666666666666,
      "grad_norm": 1.1601372957229614,
      "learning_rate": 8.120471215825739e-05,
      "loss": 1.0652,
      "step": 26733
    },
    {
      "epoch": 0.5940888888888889,
      "grad_norm": 1.6053649187088013,
      "learning_rate": 8.12002667259391e-05,
      "loss": 1.7017,
      "step": 26734
    },
    {
      "epoch": 0.5941111111111111,
      "grad_norm": 1.9037258625030518,
      "learning_rate": 8.119582129362081e-05,
      "loss": 2.0369,
      "step": 26735
    },
    {
      "epoch": 0.5941333333333333,
      "grad_norm": 1.9601517915725708,
      "learning_rate": 8.119137586130252e-05,
      "loss": 1.8534,
      "step": 26736
    },
    {
      "epoch": 0.5941555555555555,
      "grad_norm": 1.8852641582489014,
      "learning_rate": 8.118693042898422e-05,
      "loss": 1.8805,
      "step": 26737
    },
    {
      "epoch": 0.5941777777777778,
      "grad_norm": 1.643731713294983,
      "learning_rate": 8.118248499666593e-05,
      "loss": 2.1002,
      "step": 26738
    },
    {
      "epoch": 0.5942,
      "grad_norm": 1.9783738851547241,
      "learning_rate": 8.117803956434764e-05,
      "loss": 1.8242,
      "step": 26739
    },
    {
      "epoch": 0.5942222222222222,
      "grad_norm": 1.477020502090454,
      "learning_rate": 8.117359413202934e-05,
      "loss": 1.3409,
      "step": 26740
    },
    {
      "epoch": 0.5942444444444445,
      "grad_norm": 2.2099764347076416,
      "learning_rate": 8.116914869971105e-05,
      "loss": 1.9382,
      "step": 26741
    },
    {
      "epoch": 0.5942666666666667,
      "grad_norm": 1.8193410634994507,
      "learning_rate": 8.116470326739276e-05,
      "loss": 1.6036,
      "step": 26742
    },
    {
      "epoch": 0.5942888888888889,
      "grad_norm": 1.7083810567855835,
      "learning_rate": 8.116025783507446e-05,
      "loss": 1.7845,
      "step": 26743
    },
    {
      "epoch": 0.5943111111111111,
      "grad_norm": 1.6544417142868042,
      "learning_rate": 8.115581240275617e-05,
      "loss": 1.7903,
      "step": 26744
    },
    {
      "epoch": 0.5943333333333334,
      "grad_norm": 1.5880299806594849,
      "learning_rate": 8.115136697043788e-05,
      "loss": 1.7088,
      "step": 26745
    },
    {
      "epoch": 0.5943555555555555,
      "grad_norm": 1.7833446264266968,
      "learning_rate": 8.114692153811959e-05,
      "loss": 2.0259,
      "step": 26746
    },
    {
      "epoch": 0.5943777777777778,
      "grad_norm": 1.6049708127975464,
      "learning_rate": 8.114247610580128e-05,
      "loss": 1.682,
      "step": 26747
    },
    {
      "epoch": 0.5944,
      "grad_norm": 2.0446813106536865,
      "learning_rate": 8.1138030673483e-05,
      "loss": 2.0802,
      "step": 26748
    },
    {
      "epoch": 0.5944222222222222,
      "grad_norm": 2.010500192642212,
      "learning_rate": 8.113358524116472e-05,
      "loss": 2.2086,
      "step": 26749
    },
    {
      "epoch": 0.5944444444444444,
      "grad_norm": 2.6268837451934814,
      "learning_rate": 8.112913980884641e-05,
      "loss": 1.9425,
      "step": 26750
    },
    {
      "epoch": 0.5944666666666667,
      "grad_norm": 1.661972999572754,
      "learning_rate": 8.112469437652812e-05,
      "loss": 1.2295,
      "step": 26751
    },
    {
      "epoch": 0.5944888888888888,
      "grad_norm": 1.4331251382827759,
      "learning_rate": 8.112024894420983e-05,
      "loss": 2.305,
      "step": 26752
    },
    {
      "epoch": 0.5945111111111111,
      "grad_norm": 1.3672977685928345,
      "learning_rate": 8.111580351189153e-05,
      "loss": 2.128,
      "step": 26753
    },
    {
      "epoch": 0.5945333333333334,
      "grad_norm": 1.5451977252960205,
      "learning_rate": 8.111135807957324e-05,
      "loss": 2.3535,
      "step": 26754
    },
    {
      "epoch": 0.5945555555555555,
      "grad_norm": 1.458953619003296,
      "learning_rate": 8.110691264725495e-05,
      "loss": 2.1002,
      "step": 26755
    },
    {
      "epoch": 0.5945777777777778,
      "grad_norm": 1.6705247163772583,
      "learning_rate": 8.110246721493666e-05,
      "loss": 2.0621,
      "step": 26756
    },
    {
      "epoch": 0.5946,
      "grad_norm": 1.4237427711486816,
      "learning_rate": 8.109802178261835e-05,
      "loss": 2.0543,
      "step": 26757
    },
    {
      "epoch": 0.5946222222222223,
      "grad_norm": 1.5021898746490479,
      "learning_rate": 8.109357635030008e-05,
      "loss": 1.9559,
      "step": 26758
    },
    {
      "epoch": 0.5946444444444444,
      "grad_norm": 1.3429763317108154,
      "learning_rate": 8.108913091798179e-05,
      "loss": 1.5675,
      "step": 26759
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 2.030367851257324,
      "learning_rate": 8.108468548566348e-05,
      "loss": 2.4005,
      "step": 26760
    },
    {
      "epoch": 0.5946888888888889,
      "grad_norm": 1.536736011505127,
      "learning_rate": 8.108024005334519e-05,
      "loss": 1.945,
      "step": 26761
    },
    {
      "epoch": 0.5947111111111111,
      "grad_norm": 1.4390614032745361,
      "learning_rate": 8.10757946210269e-05,
      "loss": 1.7824,
      "step": 26762
    },
    {
      "epoch": 0.5947333333333333,
      "grad_norm": 1.8407021760940552,
      "learning_rate": 8.10713491887086e-05,
      "loss": 2.376,
      "step": 26763
    },
    {
      "epoch": 0.5947555555555556,
      "grad_norm": 1.6480615139007568,
      "learning_rate": 8.106690375639031e-05,
      "loss": 2.0424,
      "step": 26764
    },
    {
      "epoch": 0.5947777777777777,
      "grad_norm": 1.8025591373443604,
      "learning_rate": 8.106245832407202e-05,
      "loss": 1.9488,
      "step": 26765
    },
    {
      "epoch": 0.5948,
      "grad_norm": 1.4991320371627808,
      "learning_rate": 8.105801289175373e-05,
      "loss": 0.7819,
      "step": 26766
    },
    {
      "epoch": 0.5948222222222223,
      "grad_norm": 1.5261831283569336,
      "learning_rate": 8.105356745943544e-05,
      "loss": 2.0639,
      "step": 26767
    },
    {
      "epoch": 0.5948444444444444,
      "grad_norm": 1.889927625656128,
      "learning_rate": 8.104912202711715e-05,
      "loss": 1.8238,
      "step": 26768
    },
    {
      "epoch": 0.5948666666666667,
      "grad_norm": 1.794587254524231,
      "learning_rate": 8.104467659479886e-05,
      "loss": 2.3345,
      "step": 26769
    },
    {
      "epoch": 0.5948888888888889,
      "grad_norm": 1.5195122957229614,
      "learning_rate": 8.104023116248055e-05,
      "loss": 1.3055,
      "step": 26770
    },
    {
      "epoch": 0.5949111111111111,
      "grad_norm": 2.0479865074157715,
      "learning_rate": 8.103578573016226e-05,
      "loss": 2.0186,
      "step": 26771
    },
    {
      "epoch": 0.5949333333333333,
      "grad_norm": 1.65352201461792,
      "learning_rate": 8.103134029784397e-05,
      "loss": 1.87,
      "step": 26772
    },
    {
      "epoch": 0.5949555555555556,
      "grad_norm": 1.6952732801437378,
      "learning_rate": 8.102689486552567e-05,
      "loss": 1.7593,
      "step": 26773
    },
    {
      "epoch": 0.5949777777777778,
      "grad_norm": 1.7520891427993774,
      "learning_rate": 8.102244943320738e-05,
      "loss": 2.2394,
      "step": 26774
    },
    {
      "epoch": 0.595,
      "grad_norm": 1.7385798692703247,
      "learning_rate": 8.101800400088909e-05,
      "loss": 2.1476,
      "step": 26775
    },
    {
      "epoch": 0.5950222222222222,
      "grad_norm": 1.6520934104919434,
      "learning_rate": 8.10135585685708e-05,
      "loss": 2.0333,
      "step": 26776
    },
    {
      "epoch": 0.5950444444444445,
      "grad_norm": 1.8042887449264526,
      "learning_rate": 8.10091131362525e-05,
      "loss": 1.724,
      "step": 26777
    },
    {
      "epoch": 0.5950666666666666,
      "grad_norm": 1.5326650142669678,
      "learning_rate": 8.100466770393422e-05,
      "loss": 1.7221,
      "step": 26778
    },
    {
      "epoch": 0.5950888888888889,
      "grad_norm": 1.6813794374465942,
      "learning_rate": 8.100022227161593e-05,
      "loss": 1.9858,
      "step": 26779
    },
    {
      "epoch": 0.5951111111111111,
      "grad_norm": 1.7051405906677246,
      "learning_rate": 8.099577683929762e-05,
      "loss": 1.801,
      "step": 26780
    },
    {
      "epoch": 0.5951333333333333,
      "grad_norm": 1.1973179578781128,
      "learning_rate": 8.099133140697933e-05,
      "loss": 0.7489,
      "step": 26781
    },
    {
      "epoch": 0.5951555555555555,
      "grad_norm": 1.8290960788726807,
      "learning_rate": 8.098688597466104e-05,
      "loss": 1.9373,
      "step": 26782
    },
    {
      "epoch": 0.5951777777777778,
      "grad_norm": 1.7020169496536255,
      "learning_rate": 8.098244054234274e-05,
      "loss": 1.494,
      "step": 26783
    },
    {
      "epoch": 0.5952,
      "grad_norm": 1.893183708190918,
      "learning_rate": 8.097799511002445e-05,
      "loss": 2.2692,
      "step": 26784
    },
    {
      "epoch": 0.5952222222222222,
      "grad_norm": 1.7478630542755127,
      "learning_rate": 8.097354967770616e-05,
      "loss": 1.8236,
      "step": 26785
    },
    {
      "epoch": 0.5952444444444445,
      "grad_norm": 1.9741427898406982,
      "learning_rate": 8.096910424538788e-05,
      "loss": 2.2287,
      "step": 26786
    },
    {
      "epoch": 0.5952666666666667,
      "grad_norm": 1.6652030944824219,
      "learning_rate": 8.096465881306957e-05,
      "loss": 1.9211,
      "step": 26787
    },
    {
      "epoch": 0.5952888888888889,
      "grad_norm": 1.9754842519760132,
      "learning_rate": 8.096021338075128e-05,
      "loss": 1.8296,
      "step": 26788
    },
    {
      "epoch": 0.5953111111111111,
      "grad_norm": 1.5150765180587769,
      "learning_rate": 8.0955767948433e-05,
      "loss": 1.3967,
      "step": 26789
    },
    {
      "epoch": 0.5953333333333334,
      "grad_norm": 1.212402582168579,
      "learning_rate": 8.095132251611469e-05,
      "loss": 0.8705,
      "step": 26790
    },
    {
      "epoch": 0.5953555555555555,
      "grad_norm": 1.5794655084609985,
      "learning_rate": 8.09468770837964e-05,
      "loss": 1.8254,
      "step": 26791
    },
    {
      "epoch": 0.5953777777777778,
      "grad_norm": 1.7709836959838867,
      "learning_rate": 8.094243165147811e-05,
      "loss": 1.8013,
      "step": 26792
    },
    {
      "epoch": 0.5954,
      "grad_norm": 1.4090503454208374,
      "learning_rate": 8.093798621915982e-05,
      "loss": 1.6456,
      "step": 26793
    },
    {
      "epoch": 0.5954222222222222,
      "grad_norm": 1.6370187997817993,
      "learning_rate": 8.093354078684152e-05,
      "loss": 1.549,
      "step": 26794
    },
    {
      "epoch": 0.5954444444444444,
      "grad_norm": 1.7430535554885864,
      "learning_rate": 8.092909535452324e-05,
      "loss": 1.9142,
      "step": 26795
    },
    {
      "epoch": 0.5954666666666667,
      "grad_norm": 1.836463212966919,
      "learning_rate": 8.092464992220495e-05,
      "loss": 1.9958,
      "step": 26796
    },
    {
      "epoch": 0.5954888888888888,
      "grad_norm": 1.962188720703125,
      "learning_rate": 8.092020448988664e-05,
      "loss": 2.1326,
      "step": 26797
    },
    {
      "epoch": 0.5955111111111111,
      "grad_norm": 1.878197431564331,
      "learning_rate": 8.091575905756835e-05,
      "loss": 2.121,
      "step": 26798
    },
    {
      "epoch": 0.5955333333333334,
      "grad_norm": 1.8089852333068848,
      "learning_rate": 8.091131362525006e-05,
      "loss": 1.5793,
      "step": 26799
    },
    {
      "epoch": 0.5955555555555555,
      "grad_norm": 1.736074686050415,
      "learning_rate": 8.090686819293176e-05,
      "loss": 0.9735,
      "step": 26800
    },
    {
      "epoch": 0.5955777777777778,
      "grad_norm": 1.3884100914001465,
      "learning_rate": 8.090242276061347e-05,
      "loss": 1.0546,
      "step": 26801
    },
    {
      "epoch": 0.5956,
      "grad_norm": 1.429738163948059,
      "learning_rate": 8.089797732829518e-05,
      "loss": 2.3998,
      "step": 26802
    },
    {
      "epoch": 0.5956222222222223,
      "grad_norm": 1.3541944026947021,
      "learning_rate": 8.089353189597689e-05,
      "loss": 2.2969,
      "step": 26803
    },
    {
      "epoch": 0.5956444444444444,
      "grad_norm": 1.5858944654464722,
      "learning_rate": 8.08890864636586e-05,
      "loss": 2.3351,
      "step": 26804
    },
    {
      "epoch": 0.5956666666666667,
      "grad_norm": 1.5756072998046875,
      "learning_rate": 8.088464103134031e-05,
      "loss": 2.4645,
      "step": 26805
    },
    {
      "epoch": 0.5956888888888889,
      "grad_norm": 1.969294548034668,
      "learning_rate": 8.088019559902202e-05,
      "loss": 2.1922,
      "step": 26806
    },
    {
      "epoch": 0.5957111111111111,
      "grad_norm": 1.397650122642517,
      "learning_rate": 8.087575016670371e-05,
      "loss": 2.1963,
      "step": 26807
    },
    {
      "epoch": 0.5957333333333333,
      "grad_norm": 1.8563101291656494,
      "learning_rate": 8.087130473438542e-05,
      "loss": 1.9459,
      "step": 26808
    },
    {
      "epoch": 0.5957555555555556,
      "grad_norm": 1.721784234046936,
      "learning_rate": 8.086685930206713e-05,
      "loss": 2.3333,
      "step": 26809
    },
    {
      "epoch": 0.5957777777777777,
      "grad_norm": 1.3764325380325317,
      "learning_rate": 8.086241386974883e-05,
      "loss": 2.0502,
      "step": 26810
    },
    {
      "epoch": 0.5958,
      "grad_norm": 1.489363670349121,
      "learning_rate": 8.085796843743054e-05,
      "loss": 2.0739,
      "step": 26811
    },
    {
      "epoch": 0.5958222222222223,
      "grad_norm": 1.897639274597168,
      "learning_rate": 8.085352300511225e-05,
      "loss": 2.2408,
      "step": 26812
    },
    {
      "epoch": 0.5958444444444444,
      "grad_norm": 1.3819931745529175,
      "learning_rate": 8.084907757279396e-05,
      "loss": 1.6007,
      "step": 26813
    },
    {
      "epoch": 0.5958666666666667,
      "grad_norm": 1.9608386754989624,
      "learning_rate": 8.084463214047567e-05,
      "loss": 1.6374,
      "step": 26814
    },
    {
      "epoch": 0.5958888888888889,
      "grad_norm": 1.374138593673706,
      "learning_rate": 8.084018670815738e-05,
      "loss": 1.6545,
      "step": 26815
    },
    {
      "epoch": 0.5959111111111111,
      "grad_norm": 1.7151923179626465,
      "learning_rate": 8.083574127583909e-05,
      "loss": 1.9196,
      "step": 26816
    },
    {
      "epoch": 0.5959333333333333,
      "grad_norm": 1.099605917930603,
      "learning_rate": 8.083129584352078e-05,
      "loss": 1.0795,
      "step": 26817
    },
    {
      "epoch": 0.5959555555555556,
      "grad_norm": 1.6276981830596924,
      "learning_rate": 8.082685041120249e-05,
      "loss": 1.5975,
      "step": 26818
    },
    {
      "epoch": 0.5959777777777778,
      "grad_norm": 1.174397587776184,
      "learning_rate": 8.08224049788842e-05,
      "loss": 0.9732,
      "step": 26819
    },
    {
      "epoch": 0.596,
      "grad_norm": 1.9741249084472656,
      "learning_rate": 8.08179595465659e-05,
      "loss": 2.1333,
      "step": 26820
    },
    {
      "epoch": 0.5960222222222222,
      "grad_norm": 1.6376827955245972,
      "learning_rate": 8.081351411424761e-05,
      "loss": 1.8163,
      "step": 26821
    },
    {
      "epoch": 0.5960444444444445,
      "grad_norm": 1.5402346849441528,
      "learning_rate": 8.080906868192932e-05,
      "loss": 1.5948,
      "step": 26822
    },
    {
      "epoch": 0.5960666666666666,
      "grad_norm": 1.6858675479888916,
      "learning_rate": 8.080462324961104e-05,
      "loss": 2.2483,
      "step": 26823
    },
    {
      "epoch": 0.5960888888888889,
      "grad_norm": 1.6498875617980957,
      "learning_rate": 8.080017781729274e-05,
      "loss": 1.7901,
      "step": 26824
    },
    {
      "epoch": 0.5961111111111111,
      "grad_norm": 1.6973052024841309,
      "learning_rate": 8.079573238497445e-05,
      "loss": 2.3223,
      "step": 26825
    },
    {
      "epoch": 0.5961333333333333,
      "grad_norm": 1.4297351837158203,
      "learning_rate": 8.079128695265616e-05,
      "loss": 1.8346,
      "step": 26826
    },
    {
      "epoch": 0.5961555555555555,
      "grad_norm": 1.4189152717590332,
      "learning_rate": 8.078684152033785e-05,
      "loss": 1.1534,
      "step": 26827
    },
    {
      "epoch": 0.5961777777777778,
      "grad_norm": 1.5987457036972046,
      "learning_rate": 8.078239608801956e-05,
      "loss": 1.3904,
      "step": 26828
    },
    {
      "epoch": 0.5962,
      "grad_norm": 1.690332055091858,
      "learning_rate": 8.077795065570127e-05,
      "loss": 1.9059,
      "step": 26829
    },
    {
      "epoch": 0.5962222222222222,
      "grad_norm": 1.9026538133621216,
      "learning_rate": 8.077350522338297e-05,
      "loss": 1.976,
      "step": 26830
    },
    {
      "epoch": 0.5962444444444445,
      "grad_norm": 1.623248815536499,
      "learning_rate": 8.076905979106468e-05,
      "loss": 1.9548,
      "step": 26831
    },
    {
      "epoch": 0.5962666666666666,
      "grad_norm": 1.5890661478042603,
      "learning_rate": 8.07646143587464e-05,
      "loss": 1.2765,
      "step": 26832
    },
    {
      "epoch": 0.5962888888888889,
      "grad_norm": 2.1992969512939453,
      "learning_rate": 8.076016892642811e-05,
      "loss": 2.1102,
      "step": 26833
    },
    {
      "epoch": 0.5963111111111111,
      "grad_norm": 1.1912901401519775,
      "learning_rate": 8.07557234941098e-05,
      "loss": 0.7625,
      "step": 26834
    },
    {
      "epoch": 0.5963333333333334,
      "grad_norm": 1.461975336074829,
      "learning_rate": 8.075127806179151e-05,
      "loss": 1.4908,
      "step": 26835
    },
    {
      "epoch": 0.5963555555555555,
      "grad_norm": 2.027536630630493,
      "learning_rate": 8.074683262947322e-05,
      "loss": 2.1627,
      "step": 26836
    },
    {
      "epoch": 0.5963777777777778,
      "grad_norm": 1.6185896396636963,
      "learning_rate": 8.074238719715492e-05,
      "loss": 1.3973,
      "step": 26837
    },
    {
      "epoch": 0.5964,
      "grad_norm": 1.4064449071884155,
      "learning_rate": 8.073794176483663e-05,
      "loss": 0.8511,
      "step": 26838
    },
    {
      "epoch": 0.5964222222222222,
      "grad_norm": 1.5895582437515259,
      "learning_rate": 8.073349633251834e-05,
      "loss": 1.9084,
      "step": 26839
    },
    {
      "epoch": 0.5964444444444444,
      "grad_norm": 1.683510661125183,
      "learning_rate": 8.072905090020005e-05,
      "loss": 1.9935,
      "step": 26840
    },
    {
      "epoch": 0.5964666666666667,
      "grad_norm": 1.5518105030059814,
      "learning_rate": 8.072460546788176e-05,
      "loss": 1.7772,
      "step": 26841
    },
    {
      "epoch": 0.5964888888888888,
      "grad_norm": 1.6962943077087402,
      "learning_rate": 8.072016003556347e-05,
      "loss": 1.6512,
      "step": 26842
    },
    {
      "epoch": 0.5965111111111111,
      "grad_norm": 1.9162324666976929,
      "learning_rate": 8.071571460324518e-05,
      "loss": 2.0387,
      "step": 26843
    },
    {
      "epoch": 0.5965333333333334,
      "grad_norm": 1.843002438545227,
      "learning_rate": 8.071126917092687e-05,
      "loss": 1.7871,
      "step": 26844
    },
    {
      "epoch": 0.5965555555555555,
      "grad_norm": 2.334334373474121,
      "learning_rate": 8.070682373860858e-05,
      "loss": 2.2448,
      "step": 26845
    },
    {
      "epoch": 0.5965777777777778,
      "grad_norm": 1.9153010845184326,
      "learning_rate": 8.07023783062903e-05,
      "loss": 1.8737,
      "step": 26846
    },
    {
      "epoch": 0.5966,
      "grad_norm": 1.7890713214874268,
      "learning_rate": 8.069793287397199e-05,
      "loss": 1.7194,
      "step": 26847
    },
    {
      "epoch": 0.5966222222222223,
      "grad_norm": 2.0024993419647217,
      "learning_rate": 8.06934874416537e-05,
      "loss": 1.9438,
      "step": 26848
    },
    {
      "epoch": 0.5966444444444444,
      "grad_norm": 1.8416032791137695,
      "learning_rate": 8.068904200933541e-05,
      "loss": 1.8522,
      "step": 26849
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 1.50460946559906,
      "learning_rate": 8.068459657701712e-05,
      "loss": 1.2711,
      "step": 26850
    },
    {
      "epoch": 0.5966888888888889,
      "grad_norm": 1.4480715990066528,
      "learning_rate": 8.068015114469883e-05,
      "loss": 2.5689,
      "step": 26851
    },
    {
      "epoch": 0.5967111111111111,
      "grad_norm": 1.4781830310821533,
      "learning_rate": 8.067570571238054e-05,
      "loss": 2.4561,
      "step": 26852
    },
    {
      "epoch": 0.5967333333333333,
      "grad_norm": 1.2978445291519165,
      "learning_rate": 8.067126028006225e-05,
      "loss": 1.1158,
      "step": 26853
    },
    {
      "epoch": 0.5967555555555556,
      "grad_norm": 1.3282469511032104,
      "learning_rate": 8.066681484774394e-05,
      "loss": 2.0565,
      "step": 26854
    },
    {
      "epoch": 0.5967777777777777,
      "grad_norm": 1.4978200197219849,
      "learning_rate": 8.066236941542565e-05,
      "loss": 1.8874,
      "step": 26855
    },
    {
      "epoch": 0.5968,
      "grad_norm": 1.4156322479248047,
      "learning_rate": 8.065792398310736e-05,
      "loss": 2.0859,
      "step": 26856
    },
    {
      "epoch": 0.5968222222222223,
      "grad_norm": 1.2539492845535278,
      "learning_rate": 8.065347855078906e-05,
      "loss": 1.0677,
      "step": 26857
    },
    {
      "epoch": 0.5968444444444444,
      "grad_norm": 2.2956056594848633,
      "learning_rate": 8.064903311847077e-05,
      "loss": 2.5987,
      "step": 26858
    },
    {
      "epoch": 0.5968666666666667,
      "grad_norm": 1.740151286125183,
      "learning_rate": 8.064458768615248e-05,
      "loss": 2.402,
      "step": 26859
    },
    {
      "epoch": 0.5968888888888889,
      "grad_norm": 1.8559595346450806,
      "learning_rate": 8.06401422538342e-05,
      "loss": 1.8741,
      "step": 26860
    },
    {
      "epoch": 0.5969111111111111,
      "grad_norm": 1.9488989114761353,
      "learning_rate": 8.06356968215159e-05,
      "loss": 2.3833,
      "step": 26861
    },
    {
      "epoch": 0.5969333333333333,
      "grad_norm": 1.630929946899414,
      "learning_rate": 8.06312513891976e-05,
      "loss": 2.1018,
      "step": 26862
    },
    {
      "epoch": 0.5969555555555556,
      "grad_norm": 1.4589755535125732,
      "learning_rate": 8.062680595687932e-05,
      "loss": 2.262,
      "step": 26863
    },
    {
      "epoch": 0.5969777777777778,
      "grad_norm": 1.5186175107955933,
      "learning_rate": 8.062236052456101e-05,
      "loss": 2.0959,
      "step": 26864
    },
    {
      "epoch": 0.597,
      "grad_norm": 1.5367112159729004,
      "learning_rate": 8.061791509224272e-05,
      "loss": 2.2553,
      "step": 26865
    },
    {
      "epoch": 0.5970222222222222,
      "grad_norm": 1.5911413431167603,
      "learning_rate": 8.061346965992443e-05,
      "loss": 2.0367,
      "step": 26866
    },
    {
      "epoch": 0.5970444444444445,
      "grad_norm": 1.7494949102401733,
      "learning_rate": 8.060902422760613e-05,
      "loss": 2.2267,
      "step": 26867
    },
    {
      "epoch": 0.5970666666666666,
      "grad_norm": 1.4874684810638428,
      "learning_rate": 8.060457879528784e-05,
      "loss": 1.7659,
      "step": 26868
    },
    {
      "epoch": 0.5970888888888889,
      "grad_norm": 1.7232106924057007,
      "learning_rate": 8.060013336296956e-05,
      "loss": 2.2392,
      "step": 26869
    },
    {
      "epoch": 0.5971111111111111,
      "grad_norm": 1.575861930847168,
      "learning_rate": 8.059568793065127e-05,
      "loss": 1.9078,
      "step": 26870
    },
    {
      "epoch": 0.5971333333333333,
      "grad_norm": 1.568634033203125,
      "learning_rate": 8.059124249833297e-05,
      "loss": 1.5753,
      "step": 26871
    },
    {
      "epoch": 0.5971555555555556,
      "grad_norm": 1.902392864227295,
      "learning_rate": 8.058679706601468e-05,
      "loss": 2.2982,
      "step": 26872
    },
    {
      "epoch": 0.5971777777777778,
      "grad_norm": 1.3850717544555664,
      "learning_rate": 8.058235163369639e-05,
      "loss": 1.8568,
      "step": 26873
    },
    {
      "epoch": 0.5972,
      "grad_norm": 1.8104287385940552,
      "learning_rate": 8.057790620137808e-05,
      "loss": 1.9714,
      "step": 26874
    },
    {
      "epoch": 0.5972222222222222,
      "grad_norm": 1.636537790298462,
      "learning_rate": 8.057346076905979e-05,
      "loss": 2.0433,
      "step": 26875
    },
    {
      "epoch": 0.5972444444444445,
      "grad_norm": 1.733601689338684,
      "learning_rate": 8.05690153367415e-05,
      "loss": 1.7444,
      "step": 26876
    },
    {
      "epoch": 0.5972666666666666,
      "grad_norm": 1.402464509010315,
      "learning_rate": 8.056456990442321e-05,
      "loss": 1.478,
      "step": 26877
    },
    {
      "epoch": 0.5972888888888889,
      "grad_norm": 1.607865571975708,
      "learning_rate": 8.056012447210492e-05,
      "loss": 1.7318,
      "step": 26878
    },
    {
      "epoch": 0.5973111111111111,
      "grad_norm": 1.7006738185882568,
      "learning_rate": 8.055567903978663e-05,
      "loss": 2.1914,
      "step": 26879
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 1.8816903829574585,
      "learning_rate": 8.055123360746834e-05,
      "loss": 1.2202,
      "step": 26880
    },
    {
      "epoch": 0.5973555555555555,
      "grad_norm": 1.9753090143203735,
      "learning_rate": 8.054678817515004e-05,
      "loss": 1.8315,
      "step": 26881
    },
    {
      "epoch": 0.5973777777777778,
      "grad_norm": 1.8738881349563599,
      "learning_rate": 8.054234274283174e-05,
      "loss": 2.2523,
      "step": 26882
    },
    {
      "epoch": 0.5974,
      "grad_norm": 1.477479338645935,
      "learning_rate": 8.053789731051345e-05,
      "loss": 1.6772,
      "step": 26883
    },
    {
      "epoch": 0.5974222222222222,
      "grad_norm": 1.8067989349365234,
      "learning_rate": 8.053345187819515e-05,
      "loss": 1.8221,
      "step": 26884
    },
    {
      "epoch": 0.5974444444444444,
      "grad_norm": 1.6162313222885132,
      "learning_rate": 8.052900644587686e-05,
      "loss": 1.7678,
      "step": 26885
    },
    {
      "epoch": 0.5974666666666667,
      "grad_norm": 1.8906008005142212,
      "learning_rate": 8.052456101355857e-05,
      "loss": 1.9851,
      "step": 26886
    },
    {
      "epoch": 0.5974888888888888,
      "grad_norm": 1.5765184164047241,
      "learning_rate": 8.052011558124028e-05,
      "loss": 1.7963,
      "step": 26887
    },
    {
      "epoch": 0.5975111111111111,
      "grad_norm": 1.4867256879806519,
      "learning_rate": 8.051567014892199e-05,
      "loss": 1.7625,
      "step": 26888
    },
    {
      "epoch": 0.5975333333333334,
      "grad_norm": 1.643934965133667,
      "learning_rate": 8.05112247166037e-05,
      "loss": 1.8958,
      "step": 26889
    },
    {
      "epoch": 0.5975555555555555,
      "grad_norm": 1.6014454364776611,
      "learning_rate": 8.050677928428541e-05,
      "loss": 1.7788,
      "step": 26890
    },
    {
      "epoch": 0.5975777777777778,
      "grad_norm": 3.079517126083374,
      "learning_rate": 8.05023338519671e-05,
      "loss": 1.5165,
      "step": 26891
    },
    {
      "epoch": 0.5976,
      "grad_norm": 1.854453682899475,
      "learning_rate": 8.049788841964881e-05,
      "loss": 1.7971,
      "step": 26892
    },
    {
      "epoch": 0.5976222222222223,
      "grad_norm": 1.4640413522720337,
      "learning_rate": 8.049344298733052e-05,
      "loss": 1.5388,
      "step": 26893
    },
    {
      "epoch": 0.5976444444444444,
      "grad_norm": 1.8597694635391235,
      "learning_rate": 8.048899755501222e-05,
      "loss": 2.039,
      "step": 26894
    },
    {
      "epoch": 0.5976666666666667,
      "grad_norm": 2.2400176525115967,
      "learning_rate": 8.048455212269393e-05,
      "loss": 2.0969,
      "step": 26895
    },
    {
      "epoch": 0.5976888888888889,
      "grad_norm": 1.6783058643341064,
      "learning_rate": 8.048010669037564e-05,
      "loss": 1.7719,
      "step": 26896
    },
    {
      "epoch": 0.5977111111111111,
      "grad_norm": 1.8262856006622314,
      "learning_rate": 8.047566125805736e-05,
      "loss": 1.6248,
      "step": 26897
    },
    {
      "epoch": 0.5977333333333333,
      "grad_norm": 1.9277127981185913,
      "learning_rate": 8.047121582573906e-05,
      "loss": 1.6219,
      "step": 26898
    },
    {
      "epoch": 0.5977555555555556,
      "grad_norm": 1.7251594066619873,
      "learning_rate": 8.046677039342077e-05,
      "loss": 1.7427,
      "step": 26899
    },
    {
      "epoch": 0.5977777777777777,
      "grad_norm": 1.6436690092086792,
      "learning_rate": 8.046232496110248e-05,
      "loss": 1.4936,
      "step": 26900
    },
    {
      "epoch": 0.5978,
      "grad_norm": 1.403838872909546,
      "learning_rate": 8.045787952878417e-05,
      "loss": 2.6362,
      "step": 26901
    },
    {
      "epoch": 0.5978222222222223,
      "grad_norm": 1.383715271949768,
      "learning_rate": 8.045343409646588e-05,
      "loss": 2.1609,
      "step": 26902
    },
    {
      "epoch": 0.5978444444444444,
      "grad_norm": 1.8453351259231567,
      "learning_rate": 8.044898866414759e-05,
      "loss": 2.2438,
      "step": 26903
    },
    {
      "epoch": 0.5978666666666667,
      "grad_norm": 1.7187947034835815,
      "learning_rate": 8.044454323182929e-05,
      "loss": 2.2648,
      "step": 26904
    },
    {
      "epoch": 0.5978888888888889,
      "grad_norm": 1.3632493019104004,
      "learning_rate": 8.044009779951101e-05,
      "loss": 2.1545,
      "step": 26905
    },
    {
      "epoch": 0.5979111111111111,
      "grad_norm": 1.9141936302185059,
      "learning_rate": 8.043565236719272e-05,
      "loss": 1.6925,
      "step": 26906
    },
    {
      "epoch": 0.5979333333333333,
      "grad_norm": 1.5372122526168823,
      "learning_rate": 8.043120693487443e-05,
      "loss": 2.392,
      "step": 26907
    },
    {
      "epoch": 0.5979555555555556,
      "grad_norm": 1.2757940292358398,
      "learning_rate": 8.042676150255613e-05,
      "loss": 1.7866,
      "step": 26908
    },
    {
      "epoch": 0.5979777777777778,
      "grad_norm": 1.9118685722351074,
      "learning_rate": 8.042231607023784e-05,
      "loss": 2.2627,
      "step": 26909
    },
    {
      "epoch": 0.598,
      "grad_norm": 1.775957703590393,
      "learning_rate": 8.041787063791955e-05,
      "loss": 2.1612,
      "step": 26910
    },
    {
      "epoch": 0.5980222222222222,
      "grad_norm": 1.5586014986038208,
      "learning_rate": 8.041342520560124e-05,
      "loss": 2.2685,
      "step": 26911
    },
    {
      "epoch": 0.5980444444444445,
      "grad_norm": 1.7741633653640747,
      "learning_rate": 8.040897977328295e-05,
      "loss": 1.98,
      "step": 26912
    },
    {
      "epoch": 0.5980666666666666,
      "grad_norm": 1.7802754640579224,
      "learning_rate": 8.040453434096466e-05,
      "loss": 2.5607,
      "step": 26913
    },
    {
      "epoch": 0.5980888888888889,
      "grad_norm": 1.3747230768203735,
      "learning_rate": 8.040008890864637e-05,
      "loss": 1.3905,
      "step": 26914
    },
    {
      "epoch": 0.5981111111111111,
      "grad_norm": 1.478218913078308,
      "learning_rate": 8.039564347632808e-05,
      "loss": 1.9997,
      "step": 26915
    },
    {
      "epoch": 0.5981333333333333,
      "grad_norm": 2.119713544845581,
      "learning_rate": 8.039119804400979e-05,
      "loss": 1.7586,
      "step": 26916
    },
    {
      "epoch": 0.5981555555555556,
      "grad_norm": 2.079786777496338,
      "learning_rate": 8.03867526116915e-05,
      "loss": 2.2577,
      "step": 26917
    },
    {
      "epoch": 0.5981777777777778,
      "grad_norm": 1.048282504081726,
      "learning_rate": 8.03823071793732e-05,
      "loss": 0.9193,
      "step": 26918
    },
    {
      "epoch": 0.5982,
      "grad_norm": 1.0226231813430786,
      "learning_rate": 8.03778617470549e-05,
      "loss": 1.0035,
      "step": 26919
    },
    {
      "epoch": 0.5982222222222222,
      "grad_norm": 1.470382571220398,
      "learning_rate": 8.037341631473662e-05,
      "loss": 1.7619,
      "step": 26920
    },
    {
      "epoch": 0.5982444444444445,
      "grad_norm": 1.536065697669983,
      "learning_rate": 8.036897088241831e-05,
      "loss": 1.8363,
      "step": 26921
    },
    {
      "epoch": 0.5982666666666666,
      "grad_norm": 1.9655731916427612,
      "learning_rate": 8.036452545010002e-05,
      "loss": 2.2304,
      "step": 26922
    },
    {
      "epoch": 0.5982888888888889,
      "grad_norm": 1.4935956001281738,
      "learning_rate": 8.036008001778173e-05,
      "loss": 1.5833,
      "step": 26923
    },
    {
      "epoch": 0.5983111111111111,
      "grad_norm": 1.8283042907714844,
      "learning_rate": 8.035563458546344e-05,
      "loss": 2.0601,
      "step": 26924
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 1.7895570993423462,
      "learning_rate": 8.035118915314515e-05,
      "loss": 2.0856,
      "step": 26925
    },
    {
      "epoch": 0.5983555555555555,
      "grad_norm": 1.5136226415634155,
      "learning_rate": 8.034674372082686e-05,
      "loss": 2.1683,
      "step": 26926
    },
    {
      "epoch": 0.5983777777777778,
      "grad_norm": 1.888890027999878,
      "learning_rate": 8.034229828850857e-05,
      "loss": 1.9483,
      "step": 26927
    },
    {
      "epoch": 0.5984,
      "grad_norm": 1.9367108345031738,
      "learning_rate": 8.033785285619027e-05,
      "loss": 2.0916,
      "step": 26928
    },
    {
      "epoch": 0.5984222222222222,
      "grad_norm": 1.6923370361328125,
      "learning_rate": 8.033340742387197e-05,
      "loss": 1.8858,
      "step": 26929
    },
    {
      "epoch": 0.5984444444444444,
      "grad_norm": 1.7384182214736938,
      "learning_rate": 8.032896199155368e-05,
      "loss": 2.0751,
      "step": 26930
    },
    {
      "epoch": 0.5984666666666667,
      "grad_norm": 1.5326626300811768,
      "learning_rate": 8.032451655923538e-05,
      "loss": 1.0639,
      "step": 26931
    },
    {
      "epoch": 0.5984888888888888,
      "grad_norm": 1.4723471403121948,
      "learning_rate": 8.032007112691709e-05,
      "loss": 1.4927,
      "step": 26932
    },
    {
      "epoch": 0.5985111111111111,
      "grad_norm": 1.6398212909698486,
      "learning_rate": 8.03156256945988e-05,
      "loss": 1.9547,
      "step": 26933
    },
    {
      "epoch": 0.5985333333333334,
      "grad_norm": 1.6803056001663208,
      "learning_rate": 8.031118026228051e-05,
      "loss": 1.9571,
      "step": 26934
    },
    {
      "epoch": 0.5985555555555555,
      "grad_norm": 1.5296698808670044,
      "learning_rate": 8.030673482996222e-05,
      "loss": 1.4227,
      "step": 26935
    },
    {
      "epoch": 0.5985777777777778,
      "grad_norm": 1.6332881450653076,
      "learning_rate": 8.030228939764393e-05,
      "loss": 2.2374,
      "step": 26936
    },
    {
      "epoch": 0.5986,
      "grad_norm": 1.9761298894882202,
      "learning_rate": 8.029784396532564e-05,
      "loss": 2.4395,
      "step": 26937
    },
    {
      "epoch": 0.5986222222222222,
      "grad_norm": 1.8694782257080078,
      "learning_rate": 8.029339853300733e-05,
      "loss": 1.6662,
      "step": 26938
    },
    {
      "epoch": 0.5986444444444444,
      "grad_norm": 1.7730891704559326,
      "learning_rate": 8.028895310068904e-05,
      "loss": 2.1371,
      "step": 26939
    },
    {
      "epoch": 0.5986666666666667,
      "grad_norm": 1.6914303302764893,
      "learning_rate": 8.028450766837075e-05,
      "loss": 1.9322,
      "step": 26940
    },
    {
      "epoch": 0.5986888888888889,
      "grad_norm": 1.6608036756515503,
      "learning_rate": 8.028006223605245e-05,
      "loss": 1.8645,
      "step": 26941
    },
    {
      "epoch": 0.5987111111111111,
      "grad_norm": 1.7254583835601807,
      "learning_rate": 8.027561680373417e-05,
      "loss": 1.6468,
      "step": 26942
    },
    {
      "epoch": 0.5987333333333333,
      "grad_norm": 1.714959979057312,
      "learning_rate": 8.027117137141588e-05,
      "loss": 1.8889,
      "step": 26943
    },
    {
      "epoch": 0.5987555555555556,
      "grad_norm": 1.6050472259521484,
      "learning_rate": 8.026672593909758e-05,
      "loss": 1.8922,
      "step": 26944
    },
    {
      "epoch": 0.5987777777777777,
      "grad_norm": 1.7325646877288818,
      "learning_rate": 8.026228050677929e-05,
      "loss": 1.9524,
      "step": 26945
    },
    {
      "epoch": 0.5988,
      "grad_norm": 1.3277366161346436,
      "learning_rate": 8.0257835074461e-05,
      "loss": 0.8642,
      "step": 26946
    },
    {
      "epoch": 0.5988222222222223,
      "grad_norm": 1.1544034481048584,
      "learning_rate": 8.025338964214271e-05,
      "loss": 0.9541,
      "step": 26947
    },
    {
      "epoch": 0.5988444444444444,
      "grad_norm": 1.8778469562530518,
      "learning_rate": 8.02489442098244e-05,
      "loss": 2.0342,
      "step": 26948
    },
    {
      "epoch": 0.5988666666666667,
      "grad_norm": 0.2326299399137497,
      "learning_rate": 8.024449877750611e-05,
      "loss": 0.0492,
      "step": 26949
    },
    {
      "epoch": 0.5988888888888889,
      "grad_norm": 2.3978614807128906,
      "learning_rate": 8.024005334518782e-05,
      "loss": 2.062,
      "step": 26950
    },
    {
      "epoch": 0.5989111111111111,
      "grad_norm": 1.5422933101654053,
      "learning_rate": 8.023560791286953e-05,
      "loss": 2.7222,
      "step": 26951
    },
    {
      "epoch": 0.5989333333333333,
      "grad_norm": 1.4547905921936035,
      "learning_rate": 8.023116248055124e-05,
      "loss": 1.699,
      "step": 26952
    },
    {
      "epoch": 0.5989555555555556,
      "grad_norm": 1.5786837339401245,
      "learning_rate": 8.022671704823295e-05,
      "loss": 3.1059,
      "step": 26953
    },
    {
      "epoch": 0.5989777777777778,
      "grad_norm": 1.6623071432113647,
      "learning_rate": 8.022227161591466e-05,
      "loss": 2.5863,
      "step": 26954
    },
    {
      "epoch": 0.599,
      "grad_norm": 1.663651704788208,
      "learning_rate": 8.021782618359636e-05,
      "loss": 1.9413,
      "step": 26955
    },
    {
      "epoch": 0.5990222222222222,
      "grad_norm": 1.5665733814239502,
      "learning_rate": 8.021338075127807e-05,
      "loss": 2.3541,
      "step": 26956
    },
    {
      "epoch": 0.5990444444444445,
      "grad_norm": 1.2850035429000854,
      "learning_rate": 8.020893531895978e-05,
      "loss": 2.0893,
      "step": 26957
    },
    {
      "epoch": 0.5990666666666666,
      "grad_norm": 1.481261968612671,
      "learning_rate": 8.020448988664147e-05,
      "loss": 2.3503,
      "step": 26958
    },
    {
      "epoch": 0.5990888888888889,
      "grad_norm": 1.7478474378585815,
      "learning_rate": 8.020004445432318e-05,
      "loss": 1.5484,
      "step": 26959
    },
    {
      "epoch": 0.5991111111111111,
      "grad_norm": 1.60469651222229,
      "learning_rate": 8.019559902200489e-05,
      "loss": 2.0309,
      "step": 26960
    },
    {
      "epoch": 0.5991333333333333,
      "grad_norm": 1.6925408840179443,
      "learning_rate": 8.01911535896866e-05,
      "loss": 0.9794,
      "step": 26961
    },
    {
      "epoch": 0.5991555555555556,
      "grad_norm": 1.7684733867645264,
      "learning_rate": 8.018670815736831e-05,
      "loss": 2.2351,
      "step": 26962
    },
    {
      "epoch": 0.5991777777777778,
      "grad_norm": 1.7226217985153198,
      "learning_rate": 8.018226272505002e-05,
      "loss": 1.963,
      "step": 26963
    },
    {
      "epoch": 0.5992,
      "grad_norm": 1.6714963912963867,
      "learning_rate": 8.017781729273173e-05,
      "loss": 2.0087,
      "step": 26964
    },
    {
      "epoch": 0.5992222222222222,
      "grad_norm": 1.5926263332366943,
      "learning_rate": 8.017337186041343e-05,
      "loss": 2.0484,
      "step": 26965
    },
    {
      "epoch": 0.5992444444444445,
      "grad_norm": 1.4017750024795532,
      "learning_rate": 8.016892642809514e-05,
      "loss": 1.2894,
      "step": 26966
    },
    {
      "epoch": 0.5992666666666666,
      "grad_norm": 1.0954105854034424,
      "learning_rate": 8.016448099577685e-05,
      "loss": 0.9788,
      "step": 26967
    },
    {
      "epoch": 0.5992888888888889,
      "grad_norm": 1.7288366556167603,
      "learning_rate": 8.016003556345854e-05,
      "loss": 1.8245,
      "step": 26968
    },
    {
      "epoch": 0.5993111111111111,
      "grad_norm": 1.6629772186279297,
      "learning_rate": 8.015559013114025e-05,
      "loss": 2.171,
      "step": 26969
    },
    {
      "epoch": 0.5993333333333334,
      "grad_norm": 1.8875101804733276,
      "learning_rate": 8.015114469882196e-05,
      "loss": 2.114,
      "step": 26970
    },
    {
      "epoch": 0.5993555555555555,
      "grad_norm": 1.5006781816482544,
      "learning_rate": 8.014669926650367e-05,
      "loss": 2.1082,
      "step": 26971
    },
    {
      "epoch": 0.5993777777777778,
      "grad_norm": 1.7864024639129639,
      "learning_rate": 8.014225383418538e-05,
      "loss": 2.197,
      "step": 26972
    },
    {
      "epoch": 0.5994,
      "grad_norm": 1.6741145849227905,
      "learning_rate": 8.013780840186709e-05,
      "loss": 1.6411,
      "step": 26973
    },
    {
      "epoch": 0.5994222222222222,
      "grad_norm": 1.6694917678833008,
      "learning_rate": 8.01333629695488e-05,
      "loss": 1.8141,
      "step": 26974
    },
    {
      "epoch": 0.5994444444444444,
      "grad_norm": 1.9536409378051758,
      "learning_rate": 8.01289175372305e-05,
      "loss": 2.1622,
      "step": 26975
    },
    {
      "epoch": 0.5994666666666667,
      "grad_norm": 1.9600883722305298,
      "learning_rate": 8.01244721049122e-05,
      "loss": 1.9236,
      "step": 26976
    },
    {
      "epoch": 0.5994888888888888,
      "grad_norm": 2.1006920337677,
      "learning_rate": 8.012002667259391e-05,
      "loss": 2.3782,
      "step": 26977
    },
    {
      "epoch": 0.5995111111111111,
      "grad_norm": 1.7578033208847046,
      "learning_rate": 8.011558124027561e-05,
      "loss": 2.1157,
      "step": 26978
    },
    {
      "epoch": 0.5995333333333334,
      "grad_norm": 1.7216506004333496,
      "learning_rate": 8.011113580795733e-05,
      "loss": 1.7657,
      "step": 26979
    },
    {
      "epoch": 0.5995555555555555,
      "grad_norm": 1.7706249952316284,
      "learning_rate": 8.010669037563904e-05,
      "loss": 2.1157,
      "step": 26980
    },
    {
      "epoch": 0.5995777777777778,
      "grad_norm": 1.936853051185608,
      "learning_rate": 8.010224494332074e-05,
      "loss": 1.9105,
      "step": 26981
    },
    {
      "epoch": 0.5996,
      "grad_norm": 1.5771408081054688,
      "learning_rate": 8.009779951100245e-05,
      "loss": 1.8554,
      "step": 26982
    },
    {
      "epoch": 0.5996222222222222,
      "grad_norm": 1.5390323400497437,
      "learning_rate": 8.009335407868416e-05,
      "loss": 1.734,
      "step": 26983
    },
    {
      "epoch": 0.5996444444444444,
      "grad_norm": 1.6512367725372314,
      "learning_rate": 8.008890864636587e-05,
      "loss": 1.7134,
      "step": 26984
    },
    {
      "epoch": 0.5996666666666667,
      "grad_norm": 2.0488808155059814,
      "learning_rate": 8.008446321404756e-05,
      "loss": 1.7957,
      "step": 26985
    },
    {
      "epoch": 0.5996888888888889,
      "grad_norm": 1.9845051765441895,
      "learning_rate": 8.008001778172927e-05,
      "loss": 1.9532,
      "step": 26986
    },
    {
      "epoch": 0.5997111111111111,
      "grad_norm": 1.6982089281082153,
      "learning_rate": 8.007557234941098e-05,
      "loss": 2.023,
      "step": 26987
    },
    {
      "epoch": 0.5997333333333333,
      "grad_norm": 1.7800291776657104,
      "learning_rate": 8.00711269170927e-05,
      "loss": 1.9438,
      "step": 26988
    },
    {
      "epoch": 0.5997555555555556,
      "grad_norm": 3.0561060905456543,
      "learning_rate": 8.00666814847744e-05,
      "loss": 2.0598,
      "step": 26989
    },
    {
      "epoch": 0.5997777777777777,
      "grad_norm": 1.765212059020996,
      "learning_rate": 8.006223605245611e-05,
      "loss": 1.9058,
      "step": 26990
    },
    {
      "epoch": 0.5998,
      "grad_norm": 1.9671481847763062,
      "learning_rate": 8.005779062013781e-05,
      "loss": 2.1272,
      "step": 26991
    },
    {
      "epoch": 0.5998222222222223,
      "grad_norm": 1.9428707361221313,
      "learning_rate": 8.005334518781952e-05,
      "loss": 1.9046,
      "step": 26992
    },
    {
      "epoch": 0.5998444444444444,
      "grad_norm": 1.8527716398239136,
      "learning_rate": 8.004889975550123e-05,
      "loss": 1.847,
      "step": 26993
    },
    {
      "epoch": 0.5998666666666667,
      "grad_norm": 1.6317662000656128,
      "learning_rate": 8.004445432318294e-05,
      "loss": 1.5198,
      "step": 26994
    },
    {
      "epoch": 0.5998888888888889,
      "grad_norm": 1.8692249059677124,
      "learning_rate": 8.004000889086463e-05,
      "loss": 1.895,
      "step": 26995
    },
    {
      "epoch": 0.5999111111111111,
      "grad_norm": 1.947574496269226,
      "learning_rate": 8.003556345854634e-05,
      "loss": 2.2449,
      "step": 26996
    },
    {
      "epoch": 0.5999333333333333,
      "grad_norm": 1.7928720712661743,
      "learning_rate": 8.003111802622805e-05,
      "loss": 1.9345,
      "step": 26997
    },
    {
      "epoch": 0.5999555555555556,
      "grad_norm": 2.0767455101013184,
      "learning_rate": 8.002667259390976e-05,
      "loss": 2.2322,
      "step": 26998
    },
    {
      "epoch": 0.5999777777777778,
      "grad_norm": 1.093999981880188,
      "learning_rate": 8.002222716159147e-05,
      "loss": 0.7272,
      "step": 26999
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6920832395553589,
      "learning_rate": 8.001778172927318e-05,
      "loss": 1.0741,
      "step": 27000
    },
    {
      "epoch": 0.6,
      "eval_loss": 1.8736392259597778,
      "eval_runtime": 2159.761,
      "eval_samples_per_second": 4.63,
      "eval_steps_per_second": 4.63,
      "step": 27000
    },
    {
      "epoch": 0.6000222222222222,
      "grad_norm": 1.6577028036117554,
      "learning_rate": 8.001333629695488e-05,
      "loss": 2.6101,
      "step": 27001
    },
    {
      "epoch": 0.6000444444444445,
      "grad_norm": 1.6142709255218506,
      "learning_rate": 8.000889086463659e-05,
      "loss": 2.748,
      "step": 27002
    },
    {
      "epoch": 0.6000666666666666,
      "grad_norm": 1.508734941482544,
      "learning_rate": 8.00044454323183e-05,
      "loss": 2.6064,
      "step": 27003
    },
    {
      "epoch": 0.6000888888888889,
      "grad_norm": 1.804945945739746,
      "learning_rate": 8e-05,
      "loss": 2.5162,
      "step": 27004
    },
    {
      "epoch": 0.6001111111111112,
      "grad_norm": 1.4495036602020264,
      "learning_rate": 7.99955545676817e-05,
      "loss": 2.216,
      "step": 27005
    },
    {
      "epoch": 0.6001333333333333,
      "grad_norm": 1.4844017028808594,
      "learning_rate": 7.999110913536341e-05,
      "loss": 2.0562,
      "step": 27006
    },
    {
      "epoch": 0.6001555555555556,
      "grad_norm": 1.463944673538208,
      "learning_rate": 7.998666370304512e-05,
      "loss": 2.2244,
      "step": 27007
    },
    {
      "epoch": 0.6001777777777778,
      "grad_norm": 1.755519151687622,
      "learning_rate": 7.998221827072683e-05,
      "loss": 2.3888,
      "step": 27008
    },
    {
      "epoch": 0.6002,
      "grad_norm": 1.373860239982605,
      "learning_rate": 7.997777283840854e-05,
      "loss": 1.5492,
      "step": 27009
    },
    {
      "epoch": 0.6002222222222222,
      "grad_norm": 1.4735991954803467,
      "learning_rate": 7.997332740609025e-05,
      "loss": 1.7861,
      "step": 27010
    },
    {
      "epoch": 0.6002444444444445,
      "grad_norm": 1.7138311862945557,
      "learning_rate": 7.996888197377196e-05,
      "loss": 2.1563,
      "step": 27011
    },
    {
      "epoch": 0.6002666666666666,
      "grad_norm": 1.6711690425872803,
      "learning_rate": 7.996443654145366e-05,
      "loss": 2.3283,
      "step": 27012
    },
    {
      "epoch": 0.6002888888888889,
      "grad_norm": 2.0114669799804688,
      "learning_rate": 7.995999110913537e-05,
      "loss": 2.2527,
      "step": 27013
    },
    {
      "epoch": 0.6003111111111111,
      "grad_norm": 1.8923662900924683,
      "learning_rate": 7.995554567681708e-05,
      "loss": 2.3929,
      "step": 27014
    },
    {
      "epoch": 0.6003333333333334,
      "grad_norm": 1.4820717573165894,
      "learning_rate": 7.995110024449877e-05,
      "loss": 1.7815,
      "step": 27015
    },
    {
      "epoch": 0.6003555555555555,
      "grad_norm": 1.8462886810302734,
      "learning_rate": 7.99466548121805e-05,
      "loss": 2.6735,
      "step": 27016
    },
    {
      "epoch": 0.6003777777777778,
      "grad_norm": 1.7554908990859985,
      "learning_rate": 7.99422093798622e-05,
      "loss": 2.0213,
      "step": 27017
    },
    {
      "epoch": 0.6004,
      "grad_norm": 2.3965280055999756,
      "learning_rate": 7.99377639475439e-05,
      "loss": 1.7916,
      "step": 27018
    },
    {
      "epoch": 0.6004222222222222,
      "grad_norm": 1.4135266542434692,
      "learning_rate": 7.993331851522561e-05,
      "loss": 1.7435,
      "step": 27019
    },
    {
      "epoch": 0.6004444444444444,
      "grad_norm": 1.4737776517868042,
      "learning_rate": 7.992887308290732e-05,
      "loss": 1.3768,
      "step": 27020
    },
    {
      "epoch": 0.6004666666666667,
      "grad_norm": 1.8706743717193604,
      "learning_rate": 7.992442765058903e-05,
      "loss": 1.7092,
      "step": 27021
    },
    {
      "epoch": 0.6004888888888888,
      "grad_norm": 1.7776674032211304,
      "learning_rate": 7.991998221827073e-05,
      "loss": 2.5811,
      "step": 27022
    },
    {
      "epoch": 0.6005111111111111,
      "grad_norm": 1.6870381832122803,
      "learning_rate": 7.991553678595244e-05,
      "loss": 1.5549,
      "step": 27023
    },
    {
      "epoch": 0.6005333333333334,
      "grad_norm": 1.9651492834091187,
      "learning_rate": 7.991109135363414e-05,
      "loss": 2.1999,
      "step": 27024
    },
    {
      "epoch": 0.6005555555555555,
      "grad_norm": 1.5777024030685425,
      "learning_rate": 7.990664592131585e-05,
      "loss": 1.7351,
      "step": 27025
    },
    {
      "epoch": 0.6005777777777778,
      "grad_norm": 1.9379805326461792,
      "learning_rate": 7.990220048899756e-05,
      "loss": 2.4563,
      "step": 27026
    },
    {
      "epoch": 0.6006,
      "grad_norm": 1.9654110670089722,
      "learning_rate": 7.989775505667927e-05,
      "loss": 2.2118,
      "step": 27027
    },
    {
      "epoch": 0.6006222222222222,
      "grad_norm": 1.7272353172302246,
      "learning_rate": 7.989330962436097e-05,
      "loss": 2.0969,
      "step": 27028
    },
    {
      "epoch": 0.6006444444444444,
      "grad_norm": 1.3812412023544312,
      "learning_rate": 7.988886419204268e-05,
      "loss": 0.7072,
      "step": 27029
    },
    {
      "epoch": 0.6006666666666667,
      "grad_norm": 1.810765266418457,
      "learning_rate": 7.988441875972439e-05,
      "loss": 1.5445,
      "step": 27030
    },
    {
      "epoch": 0.6006888888888889,
      "grad_norm": 1.8113470077514648,
      "learning_rate": 7.98799733274061e-05,
      "loss": 1.9716,
      "step": 27031
    },
    {
      "epoch": 0.6007111111111111,
      "grad_norm": 1.2004268169403076,
      "learning_rate": 7.98755278950878e-05,
      "loss": 0.9292,
      "step": 27032
    },
    {
      "epoch": 0.6007333333333333,
      "grad_norm": 1.4961955547332764,
      "learning_rate": 7.98710824627695e-05,
      "loss": 1.6421,
      "step": 27033
    },
    {
      "epoch": 0.6007555555555556,
      "grad_norm": 1.735058307647705,
      "learning_rate": 7.986663703045121e-05,
      "loss": 1.4196,
      "step": 27034
    },
    {
      "epoch": 0.6007777777777777,
      "grad_norm": 1.5329277515411377,
      "learning_rate": 7.986219159813292e-05,
      "loss": 1.5782,
      "step": 27035
    },
    {
      "epoch": 0.6008,
      "grad_norm": 1.7740753889083862,
      "learning_rate": 7.985774616581463e-05,
      "loss": 2.0045,
      "step": 27036
    },
    {
      "epoch": 0.6008222222222223,
      "grad_norm": 1.8819478750228882,
      "learning_rate": 7.985330073349634e-05,
      "loss": 2.2053,
      "step": 27037
    },
    {
      "epoch": 0.6008444444444444,
      "grad_norm": 2.052328586578369,
      "learning_rate": 7.984885530117804e-05,
      "loss": 2.061,
      "step": 27038
    },
    {
      "epoch": 0.6008666666666667,
      "grad_norm": 1.8363018035888672,
      "learning_rate": 7.984440986885975e-05,
      "loss": 1.8221,
      "step": 27039
    },
    {
      "epoch": 0.6008888888888889,
      "grad_norm": 1.8349599838256836,
      "learning_rate": 7.983996443654146e-05,
      "loss": 1.7493,
      "step": 27040
    },
    {
      "epoch": 0.6009111111111111,
      "grad_norm": 1.7365055084228516,
      "learning_rate": 7.983551900422317e-05,
      "loss": 1.6845,
      "step": 27041
    },
    {
      "epoch": 0.6009333333333333,
      "grad_norm": 1.5604342222213745,
      "learning_rate": 7.983107357190486e-05,
      "loss": 1.9154,
      "step": 27042
    },
    {
      "epoch": 0.6009555555555556,
      "grad_norm": 1.7715667486190796,
      "learning_rate": 7.982662813958657e-05,
      "loss": 1.9098,
      "step": 27043
    },
    {
      "epoch": 0.6009777777777778,
      "grad_norm": 1.7074742317199707,
      "learning_rate": 7.982218270726828e-05,
      "loss": 1.4472,
      "step": 27044
    },
    {
      "epoch": 0.601,
      "grad_norm": 1.6556566953659058,
      "learning_rate": 7.981773727494999e-05,
      "loss": 1.8303,
      "step": 27045
    },
    {
      "epoch": 0.6010222222222222,
      "grad_norm": 1.5229953527450562,
      "learning_rate": 7.98132918426317e-05,
      "loss": 1.9378,
      "step": 27046
    },
    {
      "epoch": 0.6010444444444445,
      "grad_norm": 1.802293300628662,
      "learning_rate": 7.980884641031341e-05,
      "loss": 1.7766,
      "step": 27047
    },
    {
      "epoch": 0.6010666666666666,
      "grad_norm": 1.222768783569336,
      "learning_rate": 7.980440097799511e-05,
      "loss": 0.7822,
      "step": 27048
    },
    {
      "epoch": 0.6010888888888889,
      "grad_norm": 1.9860477447509766,
      "learning_rate": 7.979995554567682e-05,
      "loss": 1.8711,
      "step": 27049
    },
    {
      "epoch": 0.6011111111111112,
      "grad_norm": 1.6315582990646362,
      "learning_rate": 7.979551011335853e-05,
      "loss": 0.8217,
      "step": 27050
    },
    {
      "epoch": 0.6011333333333333,
      "grad_norm": 1.3168281316757202,
      "learning_rate": 7.979106468104024e-05,
      "loss": 2.2222,
      "step": 27051
    },
    {
      "epoch": 0.6011555555555556,
      "grad_norm": 1.5810824632644653,
      "learning_rate": 7.978661924872193e-05,
      "loss": 2.4733,
      "step": 27052
    },
    {
      "epoch": 0.6011777777777778,
      "grad_norm": 1.3996162414550781,
      "learning_rate": 7.978217381640366e-05,
      "loss": 2.0982,
      "step": 27053
    },
    {
      "epoch": 0.6012,
      "grad_norm": 0.9520947933197021,
      "learning_rate": 7.977772838408537e-05,
      "loss": 1.1722,
      "step": 27054
    },
    {
      "epoch": 0.6012222222222222,
      "grad_norm": 1.687771201133728,
      "learning_rate": 7.977328295176706e-05,
      "loss": 2.2697,
      "step": 27055
    },
    {
      "epoch": 0.6012444444444445,
      "grad_norm": 1.4503023624420166,
      "learning_rate": 7.976883751944877e-05,
      "loss": 2.1093,
      "step": 27056
    },
    {
      "epoch": 0.6012666666666666,
      "grad_norm": 1.4794197082519531,
      "learning_rate": 7.976439208713048e-05,
      "loss": 1.9424,
      "step": 27057
    },
    {
      "epoch": 0.6012888888888889,
      "grad_norm": 1.83533775806427,
      "learning_rate": 7.975994665481218e-05,
      "loss": 2.3112,
      "step": 27058
    },
    {
      "epoch": 0.6013111111111111,
      "grad_norm": 1.5439540147781372,
      "learning_rate": 7.975550122249389e-05,
      "loss": 1.4641,
      "step": 27059
    },
    {
      "epoch": 0.6013333333333334,
      "grad_norm": 1.8201035261154175,
      "learning_rate": 7.97510557901756e-05,
      "loss": 1.9752,
      "step": 27060
    },
    {
      "epoch": 0.6013555555555555,
      "grad_norm": 1.8052176237106323,
      "learning_rate": 7.97466103578573e-05,
      "loss": 2.1018,
      "step": 27061
    },
    {
      "epoch": 0.6013777777777778,
      "grad_norm": 1.7336097955703735,
      "learning_rate": 7.974216492553902e-05,
      "loss": 1.8685,
      "step": 27062
    },
    {
      "epoch": 0.6014,
      "grad_norm": 1.6656413078308105,
      "learning_rate": 7.973771949322072e-05,
      "loss": 1.6962,
      "step": 27063
    },
    {
      "epoch": 0.6014222222222222,
      "grad_norm": 1.5584288835525513,
      "learning_rate": 7.973327406090243e-05,
      "loss": 1.8788,
      "step": 27064
    },
    {
      "epoch": 0.6014444444444444,
      "grad_norm": 1.5663453340530396,
      "learning_rate": 7.972882862858413e-05,
      "loss": 2.4941,
      "step": 27065
    },
    {
      "epoch": 0.6014666666666667,
      "grad_norm": 1.6916759014129639,
      "learning_rate": 7.972438319626584e-05,
      "loss": 2.1018,
      "step": 27066
    },
    {
      "epoch": 0.6014888888888889,
      "grad_norm": 1.6306703090667725,
      "learning_rate": 7.971993776394755e-05,
      "loss": 1.6678,
      "step": 27067
    },
    {
      "epoch": 0.6015111111111111,
      "grad_norm": 1.8184791803359985,
      "learning_rate": 7.971549233162926e-05,
      "loss": 0.8785,
      "step": 27068
    },
    {
      "epoch": 0.6015333333333334,
      "grad_norm": 1.5695523023605347,
      "learning_rate": 7.971104689931096e-05,
      "loss": 2.0016,
      "step": 27069
    },
    {
      "epoch": 0.6015555555555555,
      "grad_norm": 1.766474962234497,
      "learning_rate": 7.970660146699267e-05,
      "loss": 2.144,
      "step": 27070
    },
    {
      "epoch": 0.6015777777777778,
      "grad_norm": 1.989862322807312,
      "learning_rate": 7.970215603467437e-05,
      "loss": 2.3518,
      "step": 27071
    },
    {
      "epoch": 0.6016,
      "grad_norm": 1.598899483680725,
      "learning_rate": 7.969771060235608e-05,
      "loss": 1.8039,
      "step": 27072
    },
    {
      "epoch": 0.6016222222222222,
      "grad_norm": 1.6440620422363281,
      "learning_rate": 7.96932651700378e-05,
      "loss": 1.9172,
      "step": 27073
    },
    {
      "epoch": 0.6016444444444444,
      "grad_norm": 1.8292713165283203,
      "learning_rate": 7.96888197377195e-05,
      "loss": 1.6827,
      "step": 27074
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 1.7788729667663574,
      "learning_rate": 7.96843743054012e-05,
      "loss": 2.0841,
      "step": 27075
    },
    {
      "epoch": 0.6016888888888889,
      "grad_norm": 1.5874347686767578,
      "learning_rate": 7.967992887308291e-05,
      "loss": 1.6457,
      "step": 27076
    },
    {
      "epoch": 0.6017111111111111,
      "grad_norm": 1.4802864789962769,
      "learning_rate": 7.967548344076462e-05,
      "loss": 2.049,
      "step": 27077
    },
    {
      "epoch": 0.6017333333333333,
      "grad_norm": 1.557401180267334,
      "learning_rate": 7.967103800844633e-05,
      "loss": 0.8245,
      "step": 27078
    },
    {
      "epoch": 0.6017555555555556,
      "grad_norm": 1.8262344598770142,
      "learning_rate": 7.966659257612802e-05,
      "loss": 2.1202,
      "step": 27079
    },
    {
      "epoch": 0.6017777777777777,
      "grad_norm": 1.4381197690963745,
      "learning_rate": 7.966214714380973e-05,
      "loss": 1.3392,
      "step": 27080
    },
    {
      "epoch": 0.6018,
      "grad_norm": 1.579521894454956,
      "learning_rate": 7.965770171149144e-05,
      "loss": 1.6266,
      "step": 27081
    },
    {
      "epoch": 0.6018222222222223,
      "grad_norm": 1.4592291116714478,
      "learning_rate": 7.965325627917315e-05,
      "loss": 1.678,
      "step": 27082
    },
    {
      "epoch": 0.6018444444444444,
      "grad_norm": 1.5992571115493774,
      "learning_rate": 7.964881084685486e-05,
      "loss": 1.6441,
      "step": 27083
    },
    {
      "epoch": 0.6018666666666667,
      "grad_norm": 1.9749088287353516,
      "learning_rate": 7.964436541453657e-05,
      "loss": 2.295,
      "step": 27084
    },
    {
      "epoch": 0.6018888888888889,
      "grad_norm": 1.8254121541976929,
      "learning_rate": 7.963991998221827e-05,
      "loss": 2.1561,
      "step": 27085
    },
    {
      "epoch": 0.6019111111111111,
      "grad_norm": 2.735177993774414,
      "learning_rate": 7.963547454989998e-05,
      "loss": 2.914,
      "step": 27086
    },
    {
      "epoch": 0.6019333333333333,
      "grad_norm": 1.5838193893432617,
      "learning_rate": 7.963102911758169e-05,
      "loss": 1.8465,
      "step": 27087
    },
    {
      "epoch": 0.6019555555555556,
      "grad_norm": 1.8101228475570679,
      "learning_rate": 7.96265836852634e-05,
      "loss": 1.9933,
      "step": 27088
    },
    {
      "epoch": 0.6019777777777777,
      "grad_norm": 1.8943954706192017,
      "learning_rate": 7.96221382529451e-05,
      "loss": 1.4846,
      "step": 27089
    },
    {
      "epoch": 0.602,
      "grad_norm": 1.3854761123657227,
      "learning_rate": 7.961769282062682e-05,
      "loss": 0.8323,
      "step": 27090
    },
    {
      "epoch": 0.6020222222222222,
      "grad_norm": 1.6953483819961548,
      "learning_rate": 7.961324738830853e-05,
      "loss": 1.8218,
      "step": 27091
    },
    {
      "epoch": 0.6020444444444445,
      "grad_norm": 1.7189913988113403,
      "learning_rate": 7.960880195599022e-05,
      "loss": 1.8765,
      "step": 27092
    },
    {
      "epoch": 0.6020666666666666,
      "grad_norm": 1.7521131038665771,
      "learning_rate": 7.960435652367193e-05,
      "loss": 2.0528,
      "step": 27093
    },
    {
      "epoch": 0.6020888888888889,
      "grad_norm": 1.5336365699768066,
      "learning_rate": 7.959991109135364e-05,
      "loss": 1.6545,
      "step": 27094
    },
    {
      "epoch": 0.6021111111111112,
      "grad_norm": 1.950052261352539,
      "learning_rate": 7.959546565903534e-05,
      "loss": 2.2977,
      "step": 27095
    },
    {
      "epoch": 0.6021333333333333,
      "grad_norm": 2.1121826171875,
      "learning_rate": 7.959102022671705e-05,
      "loss": 2.1558,
      "step": 27096
    },
    {
      "epoch": 0.6021555555555556,
      "grad_norm": 1.7638791799545288,
      "learning_rate": 7.958657479439876e-05,
      "loss": 1.8762,
      "step": 27097
    },
    {
      "epoch": 0.6021777777777778,
      "grad_norm": 1.2896921634674072,
      "learning_rate": 7.958212936208047e-05,
      "loss": 0.9417,
      "step": 27098
    },
    {
      "epoch": 0.6022,
      "grad_norm": 1.7924249172210693,
      "learning_rate": 7.957768392976218e-05,
      "loss": 1.9258,
      "step": 27099
    },
    {
      "epoch": 0.6022222222222222,
      "grad_norm": 1.7163163423538208,
      "learning_rate": 7.957323849744389e-05,
      "loss": 1.5863,
      "step": 27100
    },
    {
      "epoch": 0.6022444444444445,
      "grad_norm": 1.3778804540634155,
      "learning_rate": 7.95687930651256e-05,
      "loss": 2.2595,
      "step": 27101
    },
    {
      "epoch": 0.6022666666666666,
      "grad_norm": 1.197900652885437,
      "learning_rate": 7.956434763280729e-05,
      "loss": 1.1102,
      "step": 27102
    },
    {
      "epoch": 0.6022888888888889,
      "grad_norm": 1.3239737749099731,
      "learning_rate": 7.9559902200489e-05,
      "loss": 2.09,
      "step": 27103
    },
    {
      "epoch": 0.6023111111111111,
      "grad_norm": 1.4392409324645996,
      "learning_rate": 7.955545676817071e-05,
      "loss": 1.5999,
      "step": 27104
    },
    {
      "epoch": 0.6023333333333334,
      "grad_norm": 1.487004041671753,
      "learning_rate": 7.955101133585241e-05,
      "loss": 2.2757,
      "step": 27105
    },
    {
      "epoch": 0.6023555555555555,
      "grad_norm": 2.519434690475464,
      "learning_rate": 7.954656590353412e-05,
      "loss": 1.6574,
      "step": 27106
    },
    {
      "epoch": 0.6023777777777778,
      "grad_norm": 1.5450921058654785,
      "learning_rate": 7.954212047121583e-05,
      "loss": 2.3597,
      "step": 27107
    },
    {
      "epoch": 0.6024,
      "grad_norm": 1.5056664943695068,
      "learning_rate": 7.953767503889754e-05,
      "loss": 1.8347,
      "step": 27108
    },
    {
      "epoch": 0.6024222222222222,
      "grad_norm": 1.5468626022338867,
      "learning_rate": 7.953322960657925e-05,
      "loss": 1.9519,
      "step": 27109
    },
    {
      "epoch": 0.6024444444444444,
      "grad_norm": 1.6627495288848877,
      "learning_rate": 7.952878417426096e-05,
      "loss": 1.8685,
      "step": 27110
    },
    {
      "epoch": 0.6024666666666667,
      "grad_norm": 1.7398810386657715,
      "learning_rate": 7.952433874194266e-05,
      "loss": 2.2111,
      "step": 27111
    },
    {
      "epoch": 0.6024888888888889,
      "grad_norm": 1.4979416131973267,
      "learning_rate": 7.951989330962436e-05,
      "loss": 2.2772,
      "step": 27112
    },
    {
      "epoch": 0.6025111111111111,
      "grad_norm": 1.7348592281341553,
      "learning_rate": 7.951544787730607e-05,
      "loss": 2.2954,
      "step": 27113
    },
    {
      "epoch": 0.6025333333333334,
      "grad_norm": 1.4830193519592285,
      "learning_rate": 7.951100244498778e-05,
      "loss": 2.1515,
      "step": 27114
    },
    {
      "epoch": 0.6025555555555555,
      "grad_norm": 1.6449952125549316,
      "learning_rate": 7.950655701266949e-05,
      "loss": 2.1656,
      "step": 27115
    },
    {
      "epoch": 0.6025777777777778,
      "grad_norm": 1.628627061843872,
      "learning_rate": 7.950211158035119e-05,
      "loss": 1.8167,
      "step": 27116
    },
    {
      "epoch": 0.6026,
      "grad_norm": 1.6549086570739746,
      "learning_rate": 7.94976661480329e-05,
      "loss": 2.0722,
      "step": 27117
    },
    {
      "epoch": 0.6026222222222222,
      "grad_norm": 1.1302205324172974,
      "learning_rate": 7.94932207157146e-05,
      "loss": 1.0459,
      "step": 27118
    },
    {
      "epoch": 0.6026444444444444,
      "grad_norm": 1.723571538925171,
      "learning_rate": 7.948877528339631e-05,
      "loss": 1.9982,
      "step": 27119
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 1.8001817464828491,
      "learning_rate": 7.948432985107802e-05,
      "loss": 2.4451,
      "step": 27120
    },
    {
      "epoch": 0.6026888888888889,
      "grad_norm": 1.7819477319717407,
      "learning_rate": 7.947988441875973e-05,
      "loss": 2.1226,
      "step": 27121
    },
    {
      "epoch": 0.6027111111111111,
      "grad_norm": 1.7987935543060303,
      "learning_rate": 7.947543898644143e-05,
      "loss": 2.1471,
      "step": 27122
    },
    {
      "epoch": 0.6027333333333333,
      "grad_norm": 1.8866928815841675,
      "learning_rate": 7.947099355412314e-05,
      "loss": 2.2982,
      "step": 27123
    },
    {
      "epoch": 0.6027555555555556,
      "grad_norm": 2.157236337661743,
      "learning_rate": 7.946654812180485e-05,
      "loss": 2.5947,
      "step": 27124
    },
    {
      "epoch": 0.6027777777777777,
      "grad_norm": 1.7541967630386353,
      "learning_rate": 7.946210268948656e-05,
      "loss": 2.1122,
      "step": 27125
    },
    {
      "epoch": 0.6028,
      "grad_norm": 1.5409049987792969,
      "learning_rate": 7.945765725716825e-05,
      "loss": 2.2893,
      "step": 27126
    },
    {
      "epoch": 0.6028222222222223,
      "grad_norm": 1.9576064348220825,
      "learning_rate": 7.945321182484998e-05,
      "loss": 1.741,
      "step": 27127
    },
    {
      "epoch": 0.6028444444444444,
      "grad_norm": 1.5584945678710938,
      "learning_rate": 7.944876639253169e-05,
      "loss": 2.0153,
      "step": 27128
    },
    {
      "epoch": 0.6028666666666667,
      "grad_norm": 2.0886170864105225,
      "learning_rate": 7.944432096021338e-05,
      "loss": 2.3039,
      "step": 27129
    },
    {
      "epoch": 0.6028888888888889,
      "grad_norm": 1.5287795066833496,
      "learning_rate": 7.94398755278951e-05,
      "loss": 1.5705,
      "step": 27130
    },
    {
      "epoch": 0.6029111111111111,
      "grad_norm": 1.9877333641052246,
      "learning_rate": 7.94354300955768e-05,
      "loss": 2.0677,
      "step": 27131
    },
    {
      "epoch": 0.6029333333333333,
      "grad_norm": 1.8227648735046387,
      "learning_rate": 7.94309846632585e-05,
      "loss": 2.0896,
      "step": 27132
    },
    {
      "epoch": 0.6029555555555556,
      "grad_norm": 1.9447449445724487,
      "learning_rate": 7.942653923094021e-05,
      "loss": 1.9537,
      "step": 27133
    },
    {
      "epoch": 0.6029777777777777,
      "grad_norm": 0.20771636068820953,
      "learning_rate": 7.942209379862192e-05,
      "loss": 0.0279,
      "step": 27134
    },
    {
      "epoch": 0.603,
      "grad_norm": 2.1986615657806396,
      "learning_rate": 7.941764836630363e-05,
      "loss": 2.0665,
      "step": 27135
    },
    {
      "epoch": 0.6030222222222222,
      "grad_norm": 1.7483482360839844,
      "learning_rate": 7.941320293398534e-05,
      "loss": 1.8281,
      "step": 27136
    },
    {
      "epoch": 0.6030444444444445,
      "grad_norm": 1.5220845937728882,
      "learning_rate": 7.940875750166705e-05,
      "loss": 1.44,
      "step": 27137
    },
    {
      "epoch": 0.6030666666666666,
      "grad_norm": 1.4676389694213867,
      "learning_rate": 7.940431206934876e-05,
      "loss": 1.396,
      "step": 27138
    },
    {
      "epoch": 0.6030888888888889,
      "grad_norm": 1.8141095638275146,
      "learning_rate": 7.939986663703045e-05,
      "loss": 1.8311,
      "step": 27139
    },
    {
      "epoch": 0.6031111111111112,
      "grad_norm": 2.3061838150024414,
      "learning_rate": 7.939542120471216e-05,
      "loss": 2.5424,
      "step": 27140
    },
    {
      "epoch": 0.6031333333333333,
      "grad_norm": 1.7188256978988647,
      "learning_rate": 7.939097577239387e-05,
      "loss": 2.0499,
      "step": 27141
    },
    {
      "epoch": 0.6031555555555556,
      "grad_norm": 1.8286235332489014,
      "learning_rate": 7.938653034007557e-05,
      "loss": 1.9255,
      "step": 27142
    },
    {
      "epoch": 0.6031777777777778,
      "grad_norm": 1.7270867824554443,
      "learning_rate": 7.938208490775728e-05,
      "loss": 1.5199,
      "step": 27143
    },
    {
      "epoch": 0.6032,
      "grad_norm": 1.7218559980392456,
      "learning_rate": 7.937763947543899e-05,
      "loss": 1.9342,
      "step": 27144
    },
    {
      "epoch": 0.6032222222222222,
      "grad_norm": 1.8925360441207886,
      "learning_rate": 7.93731940431207e-05,
      "loss": 1.7951,
      "step": 27145
    },
    {
      "epoch": 0.6032444444444445,
      "grad_norm": 1.7069977521896362,
      "learning_rate": 7.93687486108024e-05,
      "loss": 1.7802,
      "step": 27146
    },
    {
      "epoch": 0.6032666666666666,
      "grad_norm": 1.6345694065093994,
      "learning_rate": 7.936430317848412e-05,
      "loss": 1.7784,
      "step": 27147
    },
    {
      "epoch": 0.6032888888888889,
      "grad_norm": 1.5925861597061157,
      "learning_rate": 7.935985774616583e-05,
      "loss": 1.5868,
      "step": 27148
    },
    {
      "epoch": 0.6033111111111111,
      "grad_norm": 1.817430019378662,
      "learning_rate": 7.935541231384752e-05,
      "loss": 1.6037,
      "step": 27149
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 1.9700731039047241,
      "learning_rate": 7.935096688152923e-05,
      "loss": 1.9079,
      "step": 27150
    },
    {
      "epoch": 0.6033555555555555,
      "grad_norm": 1.0064431428909302,
      "learning_rate": 7.934652144921094e-05,
      "loss": 1.0072,
      "step": 27151
    },
    {
      "epoch": 0.6033777777777778,
      "grad_norm": 1.370635986328125,
      "learning_rate": 7.934207601689264e-05,
      "loss": 1.9392,
      "step": 27152
    },
    {
      "epoch": 0.6034,
      "grad_norm": 0.9711331129074097,
      "learning_rate": 7.933763058457435e-05,
      "loss": 1.1252,
      "step": 27153
    },
    {
      "epoch": 0.6034222222222222,
      "grad_norm": 1.2324848175048828,
      "learning_rate": 7.933318515225606e-05,
      "loss": 1.3029,
      "step": 27154
    },
    {
      "epoch": 0.6034444444444444,
      "grad_norm": 1.7871129512786865,
      "learning_rate": 7.932873971993777e-05,
      "loss": 2.4237,
      "step": 27155
    },
    {
      "epoch": 0.6034666666666667,
      "grad_norm": 1.6308362483978271,
      "learning_rate": 7.932429428761948e-05,
      "loss": 2.4098,
      "step": 27156
    },
    {
      "epoch": 0.6034888888888889,
      "grad_norm": 1.7439035177230835,
      "learning_rate": 7.931984885530119e-05,
      "loss": 2.3384,
      "step": 27157
    },
    {
      "epoch": 0.6035111111111111,
      "grad_norm": 1.5378587245941162,
      "learning_rate": 7.93154034229829e-05,
      "loss": 2.3004,
      "step": 27158
    },
    {
      "epoch": 0.6035333333333334,
      "grad_norm": 1.8610527515411377,
      "learning_rate": 7.931095799066459e-05,
      "loss": 2.3126,
      "step": 27159
    },
    {
      "epoch": 0.6035555555555555,
      "grad_norm": 1.5449259281158447,
      "learning_rate": 7.93065125583463e-05,
      "loss": 2.3821,
      "step": 27160
    },
    {
      "epoch": 0.6035777777777778,
      "grad_norm": 1.38969886302948,
      "learning_rate": 7.930206712602801e-05,
      "loss": 1.047,
      "step": 27161
    },
    {
      "epoch": 0.6036,
      "grad_norm": 1.143798828125,
      "learning_rate": 7.92976216937097e-05,
      "loss": 0.9785,
      "step": 27162
    },
    {
      "epoch": 0.6036222222222222,
      "grad_norm": 1.6547763347625732,
      "learning_rate": 7.929317626139142e-05,
      "loss": 1.6648,
      "step": 27163
    },
    {
      "epoch": 0.6036444444444444,
      "grad_norm": 1.617087960243225,
      "learning_rate": 7.928873082907314e-05,
      "loss": 1.9899,
      "step": 27164
    },
    {
      "epoch": 0.6036666666666667,
      "grad_norm": 1.8198072910308838,
      "learning_rate": 7.928428539675485e-05,
      "loss": 1.7478,
      "step": 27165
    },
    {
      "epoch": 0.6036888888888889,
      "grad_norm": 1.6863237619400024,
      "learning_rate": 7.927983996443654e-05,
      "loss": 1.818,
      "step": 27166
    },
    {
      "epoch": 0.6037111111111111,
      "grad_norm": 1.8025907278060913,
      "learning_rate": 7.927539453211825e-05,
      "loss": 2.3106,
      "step": 27167
    },
    {
      "epoch": 0.6037333333333333,
      "grad_norm": 1.6756824254989624,
      "learning_rate": 7.927094909979996e-05,
      "loss": 1.7787,
      "step": 27168
    },
    {
      "epoch": 0.6037555555555556,
      "grad_norm": 1.456647276878357,
      "learning_rate": 7.926650366748166e-05,
      "loss": 2.0248,
      "step": 27169
    },
    {
      "epoch": 0.6037777777777777,
      "grad_norm": 1.53804612159729,
      "learning_rate": 7.926205823516337e-05,
      "loss": 1.9316,
      "step": 27170
    },
    {
      "epoch": 0.6038,
      "grad_norm": 1.5869379043579102,
      "learning_rate": 7.925761280284508e-05,
      "loss": 1.799,
      "step": 27171
    },
    {
      "epoch": 0.6038222222222223,
      "grad_norm": 1.6954032182693481,
      "learning_rate": 7.925316737052679e-05,
      "loss": 2.29,
      "step": 27172
    },
    {
      "epoch": 0.6038444444444444,
      "grad_norm": 1.6798923015594482,
      "learning_rate": 7.92487219382085e-05,
      "loss": 1.4173,
      "step": 27173
    },
    {
      "epoch": 0.6038666666666667,
      "grad_norm": 1.5482616424560547,
      "learning_rate": 7.924427650589021e-05,
      "loss": 2.2306,
      "step": 27174
    },
    {
      "epoch": 0.6038888888888889,
      "grad_norm": 1.8107613325119019,
      "learning_rate": 7.923983107357192e-05,
      "loss": 1.8407,
      "step": 27175
    },
    {
      "epoch": 0.6039111111111111,
      "grad_norm": 1.5991325378417969,
      "learning_rate": 7.923538564125361e-05,
      "loss": 1.8254,
      "step": 27176
    },
    {
      "epoch": 0.6039333333333333,
      "grad_norm": 1.5964834690093994,
      "learning_rate": 7.923094020893532e-05,
      "loss": 1.9868,
      "step": 27177
    },
    {
      "epoch": 0.6039555555555556,
      "grad_norm": 1.3201031684875488,
      "learning_rate": 7.922649477661703e-05,
      "loss": 1.4255,
      "step": 27178
    },
    {
      "epoch": 0.6039777777777777,
      "grad_norm": 1.61896550655365,
      "learning_rate": 7.922204934429873e-05,
      "loss": 1.9333,
      "step": 27179
    },
    {
      "epoch": 0.604,
      "grad_norm": 1.6375930309295654,
      "learning_rate": 7.921760391198044e-05,
      "loss": 1.5589,
      "step": 27180
    },
    {
      "epoch": 0.6040222222222222,
      "grad_norm": 1.830711841583252,
      "learning_rate": 7.921315847966215e-05,
      "loss": 1.9801,
      "step": 27181
    },
    {
      "epoch": 0.6040444444444445,
      "grad_norm": 1.8794705867767334,
      "learning_rate": 7.920871304734386e-05,
      "loss": 2.5178,
      "step": 27182
    },
    {
      "epoch": 0.6040666666666666,
      "grad_norm": 2.103665590286255,
      "learning_rate": 7.920426761502557e-05,
      "loss": 2.5723,
      "step": 27183
    },
    {
      "epoch": 0.6040888888888889,
      "grad_norm": 1.7538213729858398,
      "learning_rate": 7.919982218270728e-05,
      "loss": 1.7259,
      "step": 27184
    },
    {
      "epoch": 0.6041111111111112,
      "grad_norm": 1.6424554586410522,
      "learning_rate": 7.919537675038899e-05,
      "loss": 1.8007,
      "step": 27185
    },
    {
      "epoch": 0.6041333333333333,
      "grad_norm": 1.4428913593292236,
      "learning_rate": 7.919093131807068e-05,
      "loss": 1.6839,
      "step": 27186
    },
    {
      "epoch": 0.6041555555555556,
      "grad_norm": 0.2574564516544342,
      "learning_rate": 7.918648588575239e-05,
      "loss": 0.0344,
      "step": 27187
    },
    {
      "epoch": 0.6041777777777778,
      "grad_norm": 1.7294193506240845,
      "learning_rate": 7.91820404534341e-05,
      "loss": 1.8667,
      "step": 27188
    },
    {
      "epoch": 0.6042,
      "grad_norm": 1.966111660003662,
      "learning_rate": 7.91775950211158e-05,
      "loss": 1.6948,
      "step": 27189
    },
    {
      "epoch": 0.6042222222222222,
      "grad_norm": 1.6431033611297607,
      "learning_rate": 7.917314958879751e-05,
      "loss": 1.8165,
      "step": 27190
    },
    {
      "epoch": 0.6042444444444445,
      "grad_norm": 1.6426076889038086,
      "learning_rate": 7.916870415647922e-05,
      "loss": 1.5127,
      "step": 27191
    },
    {
      "epoch": 0.6042666666666666,
      "grad_norm": 1.80479896068573,
      "learning_rate": 7.916425872416093e-05,
      "loss": 1.668,
      "step": 27192
    },
    {
      "epoch": 0.6042888888888889,
      "grad_norm": 1.8984283208847046,
      "learning_rate": 7.915981329184264e-05,
      "loss": 1.628,
      "step": 27193
    },
    {
      "epoch": 0.6043111111111111,
      "grad_norm": 1.841007947921753,
      "learning_rate": 7.915536785952435e-05,
      "loss": 1.7181,
      "step": 27194
    },
    {
      "epoch": 0.6043333333333333,
      "grad_norm": 1.8353080749511719,
      "learning_rate": 7.915092242720606e-05,
      "loss": 1.7911,
      "step": 27195
    },
    {
      "epoch": 0.6043555555555555,
      "grad_norm": 2.1403040885925293,
      "learning_rate": 7.914647699488775e-05,
      "loss": 2.1268,
      "step": 27196
    },
    {
      "epoch": 0.6043777777777778,
      "grad_norm": 1.801777958869934,
      "learning_rate": 7.914203156256946e-05,
      "loss": 1.7257,
      "step": 27197
    },
    {
      "epoch": 0.6044,
      "grad_norm": 1.9252780675888062,
      "learning_rate": 7.913758613025117e-05,
      "loss": 1.7415,
      "step": 27198
    },
    {
      "epoch": 0.6044222222222222,
      "grad_norm": 2.0512959957122803,
      "learning_rate": 7.913314069793287e-05,
      "loss": 1.5827,
      "step": 27199
    },
    {
      "epoch": 0.6044444444444445,
      "grad_norm": 2.0335724353790283,
      "learning_rate": 7.912869526561458e-05,
      "loss": 1.6761,
      "step": 27200
    },
    {
      "epoch": 0.6044666666666667,
      "grad_norm": 1.3120962381362915,
      "learning_rate": 7.91242498332963e-05,
      "loss": 2.4573,
      "step": 27201
    },
    {
      "epoch": 0.6044888888888889,
      "grad_norm": 1.1846799850463867,
      "learning_rate": 7.911980440097801e-05,
      "loss": 1.0285,
      "step": 27202
    },
    {
      "epoch": 0.6045111111111111,
      "grad_norm": 1.609234094619751,
      "learning_rate": 7.91153589686597e-05,
      "loss": 2.4472,
      "step": 27203
    },
    {
      "epoch": 0.6045333333333334,
      "grad_norm": 1.491317868232727,
      "learning_rate": 7.911091353634142e-05,
      "loss": 2.3505,
      "step": 27204
    },
    {
      "epoch": 0.6045555555555555,
      "grad_norm": 1.569449782371521,
      "learning_rate": 7.910646810402312e-05,
      "loss": 2.0256,
      "step": 27205
    },
    {
      "epoch": 0.6045777777777778,
      "grad_norm": 1.4014590978622437,
      "learning_rate": 7.910202267170482e-05,
      "loss": 2.0003,
      "step": 27206
    },
    {
      "epoch": 0.6046,
      "grad_norm": 1.7583537101745605,
      "learning_rate": 7.909757723938653e-05,
      "loss": 2.4809,
      "step": 27207
    },
    {
      "epoch": 0.6046222222222222,
      "grad_norm": 1.4294236898422241,
      "learning_rate": 7.909313180706824e-05,
      "loss": 2.1107,
      "step": 27208
    },
    {
      "epoch": 0.6046444444444444,
      "grad_norm": 1.4733035564422607,
      "learning_rate": 7.908868637474994e-05,
      "loss": 1.9086,
      "step": 27209
    },
    {
      "epoch": 0.6046666666666667,
      "grad_norm": 2.2566213607788086,
      "learning_rate": 7.908424094243166e-05,
      "loss": 2.483,
      "step": 27210
    },
    {
      "epoch": 0.6046888888888889,
      "grad_norm": 1.5477021932601929,
      "learning_rate": 7.907979551011337e-05,
      "loss": 1.8564,
      "step": 27211
    },
    {
      "epoch": 0.6047111111111111,
      "grad_norm": 1.6028445959091187,
      "learning_rate": 7.907535007779508e-05,
      "loss": 2.3341,
      "step": 27212
    },
    {
      "epoch": 0.6047333333333333,
      "grad_norm": 1.5999501943588257,
      "learning_rate": 7.907090464547677e-05,
      "loss": 2.1941,
      "step": 27213
    },
    {
      "epoch": 0.6047555555555556,
      "grad_norm": 1.3347578048706055,
      "learning_rate": 7.906645921315848e-05,
      "loss": 1.9165,
      "step": 27214
    },
    {
      "epoch": 0.6047777777777777,
      "grad_norm": 1.7065314054489136,
      "learning_rate": 7.90620137808402e-05,
      "loss": 1.665,
      "step": 27215
    },
    {
      "epoch": 0.6048,
      "grad_norm": 1.4490126371383667,
      "learning_rate": 7.905756834852189e-05,
      "loss": 1.9074,
      "step": 27216
    },
    {
      "epoch": 0.6048222222222223,
      "grad_norm": 1.6703357696533203,
      "learning_rate": 7.90531229162036e-05,
      "loss": 2.252,
      "step": 27217
    },
    {
      "epoch": 0.6048444444444444,
      "grad_norm": 1.8422366380691528,
      "learning_rate": 7.904867748388531e-05,
      "loss": 2.2362,
      "step": 27218
    },
    {
      "epoch": 0.6048666666666667,
      "grad_norm": 1.5340640544891357,
      "learning_rate": 7.904423205156702e-05,
      "loss": 1.6657,
      "step": 27219
    },
    {
      "epoch": 0.6048888888888889,
      "grad_norm": 1.7700345516204834,
      "learning_rate": 7.903978661924873e-05,
      "loss": 2.0036,
      "step": 27220
    },
    {
      "epoch": 0.6049111111111111,
      "grad_norm": 1.6051772832870483,
      "learning_rate": 7.903534118693044e-05,
      "loss": 1.916,
      "step": 27221
    },
    {
      "epoch": 0.6049333333333333,
      "grad_norm": 1.0932059288024902,
      "learning_rate": 7.903089575461215e-05,
      "loss": 0.9623,
      "step": 27222
    },
    {
      "epoch": 0.6049555555555556,
      "grad_norm": 1.5146722793579102,
      "learning_rate": 7.902645032229384e-05,
      "loss": 1.7762,
      "step": 27223
    },
    {
      "epoch": 0.6049777777777777,
      "grad_norm": 1.7188857793807983,
      "learning_rate": 7.902200488997555e-05,
      "loss": 2.0552,
      "step": 27224
    },
    {
      "epoch": 0.605,
      "grad_norm": 1.9077479839324951,
      "learning_rate": 7.901755945765726e-05,
      "loss": 2.2053,
      "step": 27225
    },
    {
      "epoch": 0.6050222222222222,
      "grad_norm": 1.4720269441604614,
      "learning_rate": 7.901311402533896e-05,
      "loss": 1.8231,
      "step": 27226
    },
    {
      "epoch": 0.6050444444444445,
      "grad_norm": 2.066772222518921,
      "learning_rate": 7.900866859302067e-05,
      "loss": 1.6994,
      "step": 27227
    },
    {
      "epoch": 0.6050666666666666,
      "grad_norm": 1.4600918292999268,
      "learning_rate": 7.900422316070238e-05,
      "loss": 1.5678,
      "step": 27228
    },
    {
      "epoch": 0.6050888888888889,
      "grad_norm": 1.7550400495529175,
      "learning_rate": 7.899977772838409e-05,
      "loss": 1.6418,
      "step": 27229
    },
    {
      "epoch": 0.6051111111111112,
      "grad_norm": 1.729282021522522,
      "learning_rate": 7.89953322960658e-05,
      "loss": 2.0124,
      "step": 27230
    },
    {
      "epoch": 0.6051333333333333,
      "grad_norm": 1.740505576133728,
      "learning_rate": 7.899088686374751e-05,
      "loss": 1.8965,
      "step": 27231
    },
    {
      "epoch": 0.6051555555555556,
      "grad_norm": 1.786176085472107,
      "learning_rate": 7.898644143142922e-05,
      "loss": 2.0738,
      "step": 27232
    },
    {
      "epoch": 0.6051777777777778,
      "grad_norm": 1.7551746368408203,
      "learning_rate": 7.898199599911091e-05,
      "loss": 2.156,
      "step": 27233
    },
    {
      "epoch": 0.6052,
      "grad_norm": 1.7817493677139282,
      "learning_rate": 7.897755056679262e-05,
      "loss": 2.104,
      "step": 27234
    },
    {
      "epoch": 0.6052222222222222,
      "grad_norm": 1.8015249967575073,
      "learning_rate": 7.897310513447433e-05,
      "loss": 1.7312,
      "step": 27235
    },
    {
      "epoch": 0.6052444444444445,
      "grad_norm": 1.0835497379302979,
      "learning_rate": 7.896865970215603e-05,
      "loss": 0.8679,
      "step": 27236
    },
    {
      "epoch": 0.6052666666666666,
      "grad_norm": 1.620829701423645,
      "learning_rate": 7.896421426983774e-05,
      "loss": 1.9263,
      "step": 27237
    },
    {
      "epoch": 0.6052888888888889,
      "grad_norm": 1.481078863143921,
      "learning_rate": 7.895976883751946e-05,
      "loss": 1.5824,
      "step": 27238
    },
    {
      "epoch": 0.6053111111111111,
      "grad_norm": 2.2054390907287598,
      "learning_rate": 7.895532340520117e-05,
      "loss": 2.0811,
      "step": 27239
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 1.6682418584823608,
      "learning_rate": 7.895087797288287e-05,
      "loss": 1.8911,
      "step": 27240
    },
    {
      "epoch": 0.6053555555555555,
      "grad_norm": 1.5624669790267944,
      "learning_rate": 7.894643254056458e-05,
      "loss": 1.5574,
      "step": 27241
    },
    {
      "epoch": 0.6053777777777778,
      "grad_norm": 1.5307351350784302,
      "learning_rate": 7.894198710824629e-05,
      "loss": 1.6266,
      "step": 27242
    },
    {
      "epoch": 0.6054,
      "grad_norm": 1.8009110689163208,
      "learning_rate": 7.893754167592798e-05,
      "loss": 1.8157,
      "step": 27243
    },
    {
      "epoch": 0.6054222222222222,
      "grad_norm": 2.319335460662842,
      "learning_rate": 7.893309624360969e-05,
      "loss": 1.9652,
      "step": 27244
    },
    {
      "epoch": 0.6054444444444445,
      "grad_norm": 1.7203480005264282,
      "learning_rate": 7.89286508112914e-05,
      "loss": 1.9449,
      "step": 27245
    },
    {
      "epoch": 0.6054666666666667,
      "grad_norm": 1.9069678783416748,
      "learning_rate": 7.89242053789731e-05,
      "loss": 1.9355,
      "step": 27246
    },
    {
      "epoch": 0.6054888888888889,
      "grad_norm": 2.3656368255615234,
      "learning_rate": 7.891975994665482e-05,
      "loss": 2.183,
      "step": 27247
    },
    {
      "epoch": 0.6055111111111111,
      "grad_norm": 1.825256109237671,
      "learning_rate": 7.891531451433653e-05,
      "loss": 1.6806,
      "step": 27248
    },
    {
      "epoch": 0.6055333333333334,
      "grad_norm": 1.5662660598754883,
      "learning_rate": 7.891086908201824e-05,
      "loss": 1.3733,
      "step": 27249
    },
    {
      "epoch": 0.6055555555555555,
      "grad_norm": 1.6754958629608154,
      "learning_rate": 7.890642364969994e-05,
      "loss": 1.415,
      "step": 27250
    },
    {
      "epoch": 0.6055777777777778,
      "grad_norm": 1.008105754852295,
      "learning_rate": 7.890197821738165e-05,
      "loss": 1.1714,
      "step": 27251
    },
    {
      "epoch": 0.6056,
      "grad_norm": 1.5311484336853027,
      "learning_rate": 7.889753278506336e-05,
      "loss": 2.2801,
      "step": 27252
    },
    {
      "epoch": 0.6056222222222222,
      "grad_norm": 1.440260648727417,
      "learning_rate": 7.889308735274505e-05,
      "loss": 1.8973,
      "step": 27253
    },
    {
      "epoch": 0.6056444444444444,
      "grad_norm": 1.7567195892333984,
      "learning_rate": 7.888864192042676e-05,
      "loss": 2.3299,
      "step": 27254
    },
    {
      "epoch": 0.6056666666666667,
      "grad_norm": 1.4583789110183716,
      "learning_rate": 7.888419648810847e-05,
      "loss": 2.1668,
      "step": 27255
    },
    {
      "epoch": 0.6056888888888889,
      "grad_norm": 1.5148966312408447,
      "learning_rate": 7.887975105579018e-05,
      "loss": 2.1548,
      "step": 27256
    },
    {
      "epoch": 0.6057111111111111,
      "grad_norm": 1.9175471067428589,
      "learning_rate": 7.887530562347189e-05,
      "loss": 2.3519,
      "step": 27257
    },
    {
      "epoch": 0.6057333333333333,
      "grad_norm": 1.5939949750900269,
      "learning_rate": 7.88708601911536e-05,
      "loss": 2.2127,
      "step": 27258
    },
    {
      "epoch": 0.6057555555555556,
      "grad_norm": 0.9889760613441467,
      "learning_rate": 7.886641475883531e-05,
      "loss": 1.006,
      "step": 27259
    },
    {
      "epoch": 0.6057777777777777,
      "grad_norm": 1.8088592290878296,
      "learning_rate": 7.8861969326517e-05,
      "loss": 1.9756,
      "step": 27260
    },
    {
      "epoch": 0.6058,
      "grad_norm": 1.4391329288482666,
      "learning_rate": 7.885752389419871e-05,
      "loss": 1.9602,
      "step": 27261
    },
    {
      "epoch": 0.6058222222222223,
      "grad_norm": 1.4422990083694458,
      "learning_rate": 7.885307846188042e-05,
      "loss": 1.9709,
      "step": 27262
    },
    {
      "epoch": 0.6058444444444444,
      "grad_norm": 1.6840225458145142,
      "learning_rate": 7.884863302956212e-05,
      "loss": 2.2694,
      "step": 27263
    },
    {
      "epoch": 0.6058666666666667,
      "grad_norm": 1.5895969867706299,
      "learning_rate": 7.884418759724383e-05,
      "loss": 1.5241,
      "step": 27264
    },
    {
      "epoch": 0.6058888888888889,
      "grad_norm": 1.3911423683166504,
      "learning_rate": 7.883974216492554e-05,
      "loss": 1.8146,
      "step": 27265
    },
    {
      "epoch": 0.6059111111111111,
      "grad_norm": 1.4521762132644653,
      "learning_rate": 7.883529673260725e-05,
      "loss": 1.9944,
      "step": 27266
    },
    {
      "epoch": 0.6059333333333333,
      "grad_norm": 1.5626418590545654,
      "learning_rate": 7.883085130028896e-05,
      "loss": 1.9758,
      "step": 27267
    },
    {
      "epoch": 0.6059555555555556,
      "grad_norm": 1.6539586782455444,
      "learning_rate": 7.882640586797067e-05,
      "loss": 1.8796,
      "step": 27268
    },
    {
      "epoch": 0.6059777777777777,
      "grad_norm": 1.6141746044158936,
      "learning_rate": 7.882196043565238e-05,
      "loss": 1.9365,
      "step": 27269
    },
    {
      "epoch": 0.606,
      "grad_norm": 1.7146342992782593,
      "learning_rate": 7.881751500333407e-05,
      "loss": 1.8579,
      "step": 27270
    },
    {
      "epoch": 0.6060222222222222,
      "grad_norm": 1.6857411861419678,
      "learning_rate": 7.881306957101578e-05,
      "loss": 1.7205,
      "step": 27271
    },
    {
      "epoch": 0.6060444444444445,
      "grad_norm": 1.569933295249939,
      "learning_rate": 7.88086241386975e-05,
      "loss": 1.335,
      "step": 27272
    },
    {
      "epoch": 0.6060666666666666,
      "grad_norm": 1.507858395576477,
      "learning_rate": 7.880417870637919e-05,
      "loss": 1.7434,
      "step": 27273
    },
    {
      "epoch": 0.6060888888888889,
      "grad_norm": 1.8040244579315186,
      "learning_rate": 7.87997332740609e-05,
      "loss": 2.213,
      "step": 27274
    },
    {
      "epoch": 0.6061111111111112,
      "grad_norm": 1.3667738437652588,
      "learning_rate": 7.879528784174262e-05,
      "loss": 1.572,
      "step": 27275
    },
    {
      "epoch": 0.6061333333333333,
      "grad_norm": 1.5162640810012817,
      "learning_rate": 7.879084240942433e-05,
      "loss": 1.8487,
      "step": 27276
    },
    {
      "epoch": 0.6061555555555556,
      "grad_norm": 1.6777446269989014,
      "learning_rate": 7.878639697710603e-05,
      "loss": 1.6855,
      "step": 27277
    },
    {
      "epoch": 0.6061777777777778,
      "grad_norm": 1.7804574966430664,
      "learning_rate": 7.878195154478774e-05,
      "loss": 2.2795,
      "step": 27278
    },
    {
      "epoch": 0.6062,
      "grad_norm": 1.5175312757492065,
      "learning_rate": 7.877750611246945e-05,
      "loss": 0.8556,
      "step": 27279
    },
    {
      "epoch": 0.6062222222222222,
      "grad_norm": 2.4243533611297607,
      "learning_rate": 7.877306068015114e-05,
      "loss": 2.2855,
      "step": 27280
    },
    {
      "epoch": 0.6062444444444445,
      "grad_norm": 1.8361667394638062,
      "learning_rate": 7.876861524783285e-05,
      "loss": 1.5862,
      "step": 27281
    },
    {
      "epoch": 0.6062666666666666,
      "grad_norm": 1.846785068511963,
      "learning_rate": 7.876416981551456e-05,
      "loss": 1.634,
      "step": 27282
    },
    {
      "epoch": 0.6062888888888889,
      "grad_norm": 1.6902236938476562,
      "learning_rate": 7.875972438319626e-05,
      "loss": 1.8415,
      "step": 27283
    },
    {
      "epoch": 0.6063111111111111,
      "grad_norm": 1.7941762208938599,
      "learning_rate": 7.875527895087798e-05,
      "loss": 2.0218,
      "step": 27284
    },
    {
      "epoch": 0.6063333333333333,
      "grad_norm": 2.0850422382354736,
      "learning_rate": 7.875083351855969e-05,
      "loss": 2.2714,
      "step": 27285
    },
    {
      "epoch": 0.6063555555555555,
      "grad_norm": 1.5774202346801758,
      "learning_rate": 7.87463880862414e-05,
      "loss": 1.7006,
      "step": 27286
    },
    {
      "epoch": 0.6063777777777778,
      "grad_norm": 1.839981198310852,
      "learning_rate": 7.87419426539231e-05,
      "loss": 1.9587,
      "step": 27287
    },
    {
      "epoch": 0.6064,
      "grad_norm": 2.1352789402008057,
      "learning_rate": 7.87374972216048e-05,
      "loss": 1.5797,
      "step": 27288
    },
    {
      "epoch": 0.6064222222222222,
      "grad_norm": 1.870865821838379,
      "learning_rate": 7.873305178928652e-05,
      "loss": 2.1551,
      "step": 27289
    },
    {
      "epoch": 0.6064444444444445,
      "grad_norm": 1.6629317998886108,
      "learning_rate": 7.872860635696821e-05,
      "loss": 1.7822,
      "step": 27290
    },
    {
      "epoch": 0.6064666666666667,
      "grad_norm": 1.589384913444519,
      "learning_rate": 7.872416092464992e-05,
      "loss": 1.4413,
      "step": 27291
    },
    {
      "epoch": 0.6064888888888889,
      "grad_norm": 2.1463875770568848,
      "learning_rate": 7.871971549233163e-05,
      "loss": 1.874,
      "step": 27292
    },
    {
      "epoch": 0.6065111111111111,
      "grad_norm": 1.9512488842010498,
      "learning_rate": 7.871527006001334e-05,
      "loss": 1.79,
      "step": 27293
    },
    {
      "epoch": 0.6065333333333334,
      "grad_norm": 1.5353994369506836,
      "learning_rate": 7.871082462769505e-05,
      "loss": 1.5228,
      "step": 27294
    },
    {
      "epoch": 0.6065555555555555,
      "grad_norm": 1.8420060873031616,
      "learning_rate": 7.870637919537676e-05,
      "loss": 2.0819,
      "step": 27295
    },
    {
      "epoch": 0.6065777777777778,
      "grad_norm": 1.686511754989624,
      "learning_rate": 7.870193376305847e-05,
      "loss": 1.87,
      "step": 27296
    },
    {
      "epoch": 0.6066,
      "grad_norm": 1.0739492177963257,
      "learning_rate": 7.869748833074017e-05,
      "loss": 0.8274,
      "step": 27297
    },
    {
      "epoch": 0.6066222222222222,
      "grad_norm": 1.7083632946014404,
      "learning_rate": 7.869304289842188e-05,
      "loss": 1.4793,
      "step": 27298
    },
    {
      "epoch": 0.6066444444444444,
      "grad_norm": 1.871471643447876,
      "learning_rate": 7.868859746610359e-05,
      "loss": 1.7419,
      "step": 27299
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 2.1125330924987793,
      "learning_rate": 7.868415203378528e-05,
      "loss": 2.0606,
      "step": 27300
    },
    {
      "epoch": 0.6066888888888889,
      "grad_norm": 1.3407315015792847,
      "learning_rate": 7.867970660146699e-05,
      "loss": 2.1311,
      "step": 27301
    },
    {
      "epoch": 0.6067111111111111,
      "grad_norm": 1.8985822200775146,
      "learning_rate": 7.86752611691487e-05,
      "loss": 2.2525,
      "step": 27302
    },
    {
      "epoch": 0.6067333333333333,
      "grad_norm": 1.5596638917922974,
      "learning_rate": 7.867081573683041e-05,
      "loss": 2.4506,
      "step": 27303
    },
    {
      "epoch": 0.6067555555555556,
      "grad_norm": 2.5087380409240723,
      "learning_rate": 7.866637030451212e-05,
      "loss": 2.2414,
      "step": 27304
    },
    {
      "epoch": 0.6067777777777777,
      "grad_norm": 1.667316198348999,
      "learning_rate": 7.866192487219383e-05,
      "loss": 2.4115,
      "step": 27305
    },
    {
      "epoch": 0.6068,
      "grad_norm": 1.6813075542449951,
      "learning_rate": 7.865747943987554e-05,
      "loss": 2.1599,
      "step": 27306
    },
    {
      "epoch": 0.6068222222222223,
      "grad_norm": 1.5888385772705078,
      "learning_rate": 7.865303400755724e-05,
      "loss": 2.2666,
      "step": 27307
    },
    {
      "epoch": 0.6068444444444444,
      "grad_norm": 1.5145535469055176,
      "learning_rate": 7.864858857523894e-05,
      "loss": 2.2976,
      "step": 27308
    },
    {
      "epoch": 0.6068666666666667,
      "grad_norm": 1.3751749992370605,
      "learning_rate": 7.864414314292065e-05,
      "loss": 1.326,
      "step": 27309
    },
    {
      "epoch": 0.6068888888888889,
      "grad_norm": 1.3869388103485107,
      "learning_rate": 7.863969771060235e-05,
      "loss": 1.7573,
      "step": 27310
    },
    {
      "epoch": 0.6069111111111111,
      "grad_norm": 1.439608097076416,
      "learning_rate": 7.863525227828406e-05,
      "loss": 1.6373,
      "step": 27311
    },
    {
      "epoch": 0.6069333333333333,
      "grad_norm": 1.6022894382476807,
      "learning_rate": 7.863080684596578e-05,
      "loss": 1.9089,
      "step": 27312
    },
    {
      "epoch": 0.6069555555555556,
      "grad_norm": 1.7709941864013672,
      "learning_rate": 7.862636141364748e-05,
      "loss": 2.3322,
      "step": 27313
    },
    {
      "epoch": 0.6069777777777777,
      "grad_norm": 1.721430778503418,
      "learning_rate": 7.862191598132919e-05,
      "loss": 2.0007,
      "step": 27314
    },
    {
      "epoch": 0.607,
      "grad_norm": 1.7934560775756836,
      "learning_rate": 7.86174705490109e-05,
      "loss": 2.5062,
      "step": 27315
    },
    {
      "epoch": 0.6070222222222222,
      "grad_norm": 1.1028038263320923,
      "learning_rate": 7.861302511669261e-05,
      "loss": 0.6188,
      "step": 27316
    },
    {
      "epoch": 0.6070444444444445,
      "grad_norm": 1.4227097034454346,
      "learning_rate": 7.86085796843743e-05,
      "loss": 1.8313,
      "step": 27317
    },
    {
      "epoch": 0.6070666666666666,
      "grad_norm": 1.8850692510604858,
      "learning_rate": 7.860413425205601e-05,
      "loss": 2.3957,
      "step": 27318
    },
    {
      "epoch": 0.6070888888888889,
      "grad_norm": 1.5272574424743652,
      "learning_rate": 7.859968881973772e-05,
      "loss": 1.9499,
      "step": 27319
    },
    {
      "epoch": 0.6071111111111112,
      "grad_norm": 1.9343817234039307,
      "learning_rate": 7.859524338741942e-05,
      "loss": 2.4507,
      "step": 27320
    },
    {
      "epoch": 0.6071333333333333,
      "grad_norm": 2.05100679397583,
      "learning_rate": 7.859079795510114e-05,
      "loss": 2.0323,
      "step": 27321
    },
    {
      "epoch": 0.6071555555555556,
      "grad_norm": 1.5332660675048828,
      "learning_rate": 7.858635252278285e-05,
      "loss": 1.4606,
      "step": 27322
    },
    {
      "epoch": 0.6071777777777778,
      "grad_norm": 1.5789637565612793,
      "learning_rate": 7.858190709046455e-05,
      "loss": 2.0889,
      "step": 27323
    },
    {
      "epoch": 0.6072,
      "grad_norm": 1.5830676555633545,
      "learning_rate": 7.857746165814626e-05,
      "loss": 1.7474,
      "step": 27324
    },
    {
      "epoch": 0.6072222222222222,
      "grad_norm": 1.554005742073059,
      "learning_rate": 7.857301622582797e-05,
      "loss": 1.7042,
      "step": 27325
    },
    {
      "epoch": 0.6072444444444445,
      "grad_norm": 1.6211838722229004,
      "learning_rate": 7.856857079350968e-05,
      "loss": 2.1875,
      "step": 27326
    },
    {
      "epoch": 0.6072666666666666,
      "grad_norm": 1.5243436098098755,
      "learning_rate": 7.856412536119137e-05,
      "loss": 1.3351,
      "step": 27327
    },
    {
      "epoch": 0.6072888888888889,
      "grad_norm": 1.7410411834716797,
      "learning_rate": 7.855967992887308e-05,
      "loss": 2.1272,
      "step": 27328
    },
    {
      "epoch": 0.6073111111111111,
      "grad_norm": 1.3875596523284912,
      "learning_rate": 7.855523449655479e-05,
      "loss": 1.3673,
      "step": 27329
    },
    {
      "epoch": 0.6073333333333333,
      "grad_norm": 1.7309584617614746,
      "learning_rate": 7.85507890642365e-05,
      "loss": 1.8283,
      "step": 27330
    },
    {
      "epoch": 0.6073555555555555,
      "grad_norm": 1.6569769382476807,
      "learning_rate": 7.854634363191821e-05,
      "loss": 1.8252,
      "step": 27331
    },
    {
      "epoch": 0.6073777777777778,
      "grad_norm": 1.6704628467559814,
      "learning_rate": 7.854189819959992e-05,
      "loss": 1.3384,
      "step": 27332
    },
    {
      "epoch": 0.6074,
      "grad_norm": 2.1140072345733643,
      "learning_rate": 7.853745276728163e-05,
      "loss": 2.4161,
      "step": 27333
    },
    {
      "epoch": 0.6074222222222222,
      "grad_norm": 1.9944144487380981,
      "learning_rate": 7.853300733496333e-05,
      "loss": 1.5231,
      "step": 27334
    },
    {
      "epoch": 0.6074444444444445,
      "grad_norm": 0.5336458086967468,
      "learning_rate": 7.852856190264504e-05,
      "loss": 0.0307,
      "step": 27335
    },
    {
      "epoch": 0.6074666666666667,
      "grad_norm": 1.9870555400848389,
      "learning_rate": 7.852411647032675e-05,
      "loss": 2.0026,
      "step": 27336
    },
    {
      "epoch": 0.6074888888888889,
      "grad_norm": 1.7697476148605347,
      "learning_rate": 7.851967103800844e-05,
      "loss": 1.9533,
      "step": 27337
    },
    {
      "epoch": 0.6075111111111111,
      "grad_norm": 1.5129780769348145,
      "learning_rate": 7.851522560569015e-05,
      "loss": 1.7916,
      "step": 27338
    },
    {
      "epoch": 0.6075333333333334,
      "grad_norm": 1.7161614894866943,
      "learning_rate": 7.851078017337186e-05,
      "loss": 1.9484,
      "step": 27339
    },
    {
      "epoch": 0.6075555555555555,
      "grad_norm": 2.0948965549468994,
      "learning_rate": 7.850633474105357e-05,
      "loss": 1.9074,
      "step": 27340
    },
    {
      "epoch": 0.6075777777777778,
      "grad_norm": 1.6959728002548218,
      "learning_rate": 7.850188930873528e-05,
      "loss": 1.0733,
      "step": 27341
    },
    {
      "epoch": 0.6076,
      "grad_norm": 2.467322826385498,
      "learning_rate": 7.849744387641699e-05,
      "loss": 2.4551,
      "step": 27342
    },
    {
      "epoch": 0.6076222222222222,
      "grad_norm": 2.0165164470672607,
      "learning_rate": 7.84929984440987e-05,
      "loss": 2.0362,
      "step": 27343
    },
    {
      "epoch": 0.6076444444444444,
      "grad_norm": 1.6614750623703003,
      "learning_rate": 7.84885530117804e-05,
      "loss": 1.601,
      "step": 27344
    },
    {
      "epoch": 0.6076666666666667,
      "grad_norm": 1.7933533191680908,
      "learning_rate": 7.84841075794621e-05,
      "loss": 1.6952,
      "step": 27345
    },
    {
      "epoch": 0.6076888888888888,
      "grad_norm": 1.201366901397705,
      "learning_rate": 7.847966214714382e-05,
      "loss": 0.7091,
      "step": 27346
    },
    {
      "epoch": 0.6077111111111111,
      "grad_norm": 1.7066757678985596,
      "learning_rate": 7.847521671482551e-05,
      "loss": 1.773,
      "step": 27347
    },
    {
      "epoch": 0.6077333333333333,
      "grad_norm": 2.016390800476074,
      "learning_rate": 7.847077128250722e-05,
      "loss": 1.7361,
      "step": 27348
    },
    {
      "epoch": 0.6077555555555556,
      "grad_norm": 2.0306246280670166,
      "learning_rate": 7.846632585018894e-05,
      "loss": 2.0121,
      "step": 27349
    },
    {
      "epoch": 0.6077777777777778,
      "grad_norm": 2.100975751876831,
      "learning_rate": 7.846188041787064e-05,
      "loss": 1.523,
      "step": 27350
    },
    {
      "epoch": 0.6078,
      "grad_norm": 1.7427887916564941,
      "learning_rate": 7.845743498555235e-05,
      "loss": 3.027,
      "step": 27351
    },
    {
      "epoch": 0.6078222222222223,
      "grad_norm": 1.467203974723816,
      "learning_rate": 7.845298955323406e-05,
      "loss": 2.4911,
      "step": 27352
    },
    {
      "epoch": 0.6078444444444444,
      "grad_norm": 1.4917911291122437,
      "learning_rate": 7.844854412091577e-05,
      "loss": 1.8796,
      "step": 27353
    },
    {
      "epoch": 0.6078666666666667,
      "grad_norm": 1.814010500907898,
      "learning_rate": 7.844409868859747e-05,
      "loss": 2.5444,
      "step": 27354
    },
    {
      "epoch": 0.6078888888888889,
      "grad_norm": 1.3394798040390015,
      "learning_rate": 7.843965325627917e-05,
      "loss": 2.0518,
      "step": 27355
    },
    {
      "epoch": 0.6079111111111111,
      "grad_norm": 1.4140102863311768,
      "learning_rate": 7.843520782396088e-05,
      "loss": 1.8226,
      "step": 27356
    },
    {
      "epoch": 0.6079333333333333,
      "grad_norm": 1.5619611740112305,
      "learning_rate": 7.843076239164258e-05,
      "loss": 2.2057,
      "step": 27357
    },
    {
      "epoch": 0.6079555555555556,
      "grad_norm": 1.7596157789230347,
      "learning_rate": 7.84263169593243e-05,
      "loss": 2.0465,
      "step": 27358
    },
    {
      "epoch": 0.6079777777777777,
      "grad_norm": 1.662670612335205,
      "learning_rate": 7.842187152700601e-05,
      "loss": 2.4204,
      "step": 27359
    },
    {
      "epoch": 0.608,
      "grad_norm": 1.7003495693206787,
      "learning_rate": 7.841742609468771e-05,
      "loss": 2.2705,
      "step": 27360
    },
    {
      "epoch": 0.6080222222222222,
      "grad_norm": 1.5685595273971558,
      "learning_rate": 7.841298066236942e-05,
      "loss": 1.9704,
      "step": 27361
    },
    {
      "epoch": 0.6080444444444445,
      "grad_norm": 1.3184891939163208,
      "learning_rate": 7.840853523005113e-05,
      "loss": 1.5464,
      "step": 27362
    },
    {
      "epoch": 0.6080666666666666,
      "grad_norm": 1.4261938333511353,
      "learning_rate": 7.840408979773284e-05,
      "loss": 1.9069,
      "step": 27363
    },
    {
      "epoch": 0.6080888888888889,
      "grad_norm": 1.6896491050720215,
      "learning_rate": 7.839964436541453e-05,
      "loss": 2.0931,
      "step": 27364
    },
    {
      "epoch": 0.6081111111111112,
      "grad_norm": 1.500627040863037,
      "learning_rate": 7.839519893309624e-05,
      "loss": 2.434,
      "step": 27365
    },
    {
      "epoch": 0.6081333333333333,
      "grad_norm": 1.5913405418395996,
      "learning_rate": 7.839075350077795e-05,
      "loss": 1.9811,
      "step": 27366
    },
    {
      "epoch": 0.6081555555555556,
      "grad_norm": 1.6660000085830688,
      "learning_rate": 7.838630806845966e-05,
      "loss": 2.097,
      "step": 27367
    },
    {
      "epoch": 0.6081777777777778,
      "grad_norm": 1.4471626281738281,
      "learning_rate": 7.838186263614137e-05,
      "loss": 1.7771,
      "step": 27368
    },
    {
      "epoch": 0.6082,
      "grad_norm": 1.5671677589416504,
      "learning_rate": 7.837741720382308e-05,
      "loss": 1.8492,
      "step": 27369
    },
    {
      "epoch": 0.6082222222222222,
      "grad_norm": 1.9340373277664185,
      "learning_rate": 7.837297177150478e-05,
      "loss": 2.2269,
      "step": 27370
    },
    {
      "epoch": 0.6082444444444445,
      "grad_norm": 1.7883458137512207,
      "learning_rate": 7.836852633918649e-05,
      "loss": 2.0126,
      "step": 27371
    },
    {
      "epoch": 0.6082666666666666,
      "grad_norm": 1.9143633842468262,
      "learning_rate": 7.83640809068682e-05,
      "loss": 1.8424,
      "step": 27372
    },
    {
      "epoch": 0.6082888888888889,
      "grad_norm": 1.63086998462677,
      "learning_rate": 7.835963547454991e-05,
      "loss": 1.5828,
      "step": 27373
    },
    {
      "epoch": 0.6083111111111111,
      "grad_norm": 1.1815743446350098,
      "learning_rate": 7.83551900422316e-05,
      "loss": 1.0505,
      "step": 27374
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 1.5303187370300293,
      "learning_rate": 7.835074460991331e-05,
      "loss": 1.6238,
      "step": 27375
    },
    {
      "epoch": 0.6083555555555555,
      "grad_norm": 1.7506102323532104,
      "learning_rate": 7.834629917759502e-05,
      "loss": 1.8319,
      "step": 27376
    },
    {
      "epoch": 0.6083777777777778,
      "grad_norm": 1.247265338897705,
      "learning_rate": 7.834185374527673e-05,
      "loss": 0.7261,
      "step": 27377
    },
    {
      "epoch": 0.6084,
      "grad_norm": 1.6127877235412598,
      "learning_rate": 7.833740831295844e-05,
      "loss": 1.714,
      "step": 27378
    },
    {
      "epoch": 0.6084222222222222,
      "grad_norm": 1.9505119323730469,
      "learning_rate": 7.833296288064015e-05,
      "loss": 1.7232,
      "step": 27379
    },
    {
      "epoch": 0.6084444444444445,
      "grad_norm": 1.985364317893982,
      "learning_rate": 7.832851744832185e-05,
      "loss": 2.0324,
      "step": 27380
    },
    {
      "epoch": 0.6084666666666667,
      "grad_norm": 1.7504750490188599,
      "learning_rate": 7.832407201600356e-05,
      "loss": 1.4993,
      "step": 27381
    },
    {
      "epoch": 0.6084888888888889,
      "grad_norm": 1.5885565280914307,
      "learning_rate": 7.831962658368527e-05,
      "loss": 1.5342,
      "step": 27382
    },
    {
      "epoch": 0.6085111111111111,
      "grad_norm": 1.6928197145462036,
      "learning_rate": 7.831518115136698e-05,
      "loss": 1.4337,
      "step": 27383
    },
    {
      "epoch": 0.6085333333333334,
      "grad_norm": 1.6309256553649902,
      "learning_rate": 7.831073571904867e-05,
      "loss": 2.0033,
      "step": 27384
    },
    {
      "epoch": 0.6085555555555555,
      "grad_norm": 1.6423968076705933,
      "learning_rate": 7.830629028673038e-05,
      "loss": 1.3243,
      "step": 27385
    },
    {
      "epoch": 0.6085777777777778,
      "grad_norm": 1.1410245895385742,
      "learning_rate": 7.83018448544121e-05,
      "loss": 0.9618,
      "step": 27386
    },
    {
      "epoch": 0.6086,
      "grad_norm": 1.119278073310852,
      "learning_rate": 7.82973994220938e-05,
      "loss": 0.7651,
      "step": 27387
    },
    {
      "epoch": 0.6086222222222222,
      "grad_norm": 1.5896695852279663,
      "learning_rate": 7.829295398977551e-05,
      "loss": 1.9563,
      "step": 27388
    },
    {
      "epoch": 0.6086444444444444,
      "grad_norm": 1.5537821054458618,
      "learning_rate": 7.828850855745722e-05,
      "loss": 1.7107,
      "step": 27389
    },
    {
      "epoch": 0.6086666666666667,
      "grad_norm": 1.7940185070037842,
      "learning_rate": 7.828406312513893e-05,
      "loss": 1.8262,
      "step": 27390
    },
    {
      "epoch": 0.6086888888888888,
      "grad_norm": 1.3464748859405518,
      "learning_rate": 7.827961769282063e-05,
      "loss": 1.406,
      "step": 27391
    },
    {
      "epoch": 0.6087111111111111,
      "grad_norm": 1.7492023706436157,
      "learning_rate": 7.827517226050234e-05,
      "loss": 1.7909,
      "step": 27392
    },
    {
      "epoch": 0.6087333333333333,
      "grad_norm": 1.7525969743728638,
      "learning_rate": 7.827072682818405e-05,
      "loss": 1.8682,
      "step": 27393
    },
    {
      "epoch": 0.6087555555555556,
      "grad_norm": 1.7507290840148926,
      "learning_rate": 7.826628139586574e-05,
      "loss": 1.6276,
      "step": 27394
    },
    {
      "epoch": 0.6087777777777778,
      "grad_norm": 1.8546593189239502,
      "learning_rate": 7.826183596354746e-05,
      "loss": 1.8663,
      "step": 27395
    },
    {
      "epoch": 0.6088,
      "grad_norm": 1.7273077964782715,
      "learning_rate": 7.825739053122917e-05,
      "loss": 1.669,
      "step": 27396
    },
    {
      "epoch": 0.6088222222222223,
      "grad_norm": 1.8696497678756714,
      "learning_rate": 7.825294509891087e-05,
      "loss": 1.6732,
      "step": 27397
    },
    {
      "epoch": 0.6088444444444444,
      "grad_norm": 1.6298273801803589,
      "learning_rate": 7.824849966659258e-05,
      "loss": 1.4251,
      "step": 27398
    },
    {
      "epoch": 0.6088666666666667,
      "grad_norm": 1.6738899946212769,
      "learning_rate": 7.824405423427429e-05,
      "loss": 1.6784,
      "step": 27399
    },
    {
      "epoch": 0.6088888888888889,
      "grad_norm": 1.6951320171356201,
      "learning_rate": 7.8239608801956e-05,
      "loss": 1.3885,
      "step": 27400
    },
    {
      "epoch": 0.6089111111111111,
      "grad_norm": 1.6318590641021729,
      "learning_rate": 7.82351633696377e-05,
      "loss": 2.4896,
      "step": 27401
    },
    {
      "epoch": 0.6089333333333333,
      "grad_norm": 0.9586099982261658,
      "learning_rate": 7.82307179373194e-05,
      "loss": 0.0219,
      "step": 27402
    },
    {
      "epoch": 0.6089555555555556,
      "grad_norm": 1.6465784311294556,
      "learning_rate": 7.822627250500111e-05,
      "loss": 2.6767,
      "step": 27403
    },
    {
      "epoch": 0.6089777777777777,
      "grad_norm": 1.5100815296173096,
      "learning_rate": 7.822182707268282e-05,
      "loss": 2.0998,
      "step": 27404
    },
    {
      "epoch": 0.609,
      "grad_norm": 1.8771125078201294,
      "learning_rate": 7.821738164036453e-05,
      "loss": 1.9324,
      "step": 27405
    },
    {
      "epoch": 0.6090222222222222,
      "grad_norm": 1.4821887016296387,
      "learning_rate": 7.821293620804624e-05,
      "loss": 2.3447,
      "step": 27406
    },
    {
      "epoch": 0.6090444444444445,
      "grad_norm": 1.6751375198364258,
      "learning_rate": 7.820849077572794e-05,
      "loss": 2.2993,
      "step": 27407
    },
    {
      "epoch": 0.6090666666666666,
      "grad_norm": 1.3872592449188232,
      "learning_rate": 7.820404534340965e-05,
      "loss": 1.4902,
      "step": 27408
    },
    {
      "epoch": 0.6090888888888889,
      "grad_norm": 1.9620487689971924,
      "learning_rate": 7.819959991109136e-05,
      "loss": 2.845,
      "step": 27409
    },
    {
      "epoch": 0.6091111111111112,
      "grad_norm": 2.082174777984619,
      "learning_rate": 7.819515447877307e-05,
      "loss": 2.0938,
      "step": 27410
    },
    {
      "epoch": 0.6091333333333333,
      "grad_norm": 1.4058952331542969,
      "learning_rate": 7.819070904645476e-05,
      "loss": 2.0692,
      "step": 27411
    },
    {
      "epoch": 0.6091555555555556,
      "grad_norm": 1.7376422882080078,
      "learning_rate": 7.818626361413647e-05,
      "loss": 2.0961,
      "step": 27412
    },
    {
      "epoch": 0.6091777777777778,
      "grad_norm": 1.646878719329834,
      "learning_rate": 7.818181818181818e-05,
      "loss": 1.6845,
      "step": 27413
    },
    {
      "epoch": 0.6092,
      "grad_norm": 1.623456358909607,
      "learning_rate": 7.817737274949989e-05,
      "loss": 2.2751,
      "step": 27414
    },
    {
      "epoch": 0.6092222222222222,
      "grad_norm": 1.3822822570800781,
      "learning_rate": 7.81729273171816e-05,
      "loss": 1.9871,
      "step": 27415
    },
    {
      "epoch": 0.6092444444444445,
      "grad_norm": 1.3027005195617676,
      "learning_rate": 7.816848188486331e-05,
      "loss": 1.0903,
      "step": 27416
    },
    {
      "epoch": 0.6092666666666666,
      "grad_norm": 1.6102577447891235,
      "learning_rate": 7.816403645254501e-05,
      "loss": 2.0865,
      "step": 27417
    },
    {
      "epoch": 0.6092888888888889,
      "grad_norm": 1.9533787965774536,
      "learning_rate": 7.815959102022672e-05,
      "loss": 1.7968,
      "step": 27418
    },
    {
      "epoch": 0.6093111111111111,
      "grad_norm": 1.5359073877334595,
      "learning_rate": 7.815514558790843e-05,
      "loss": 2.1051,
      "step": 27419
    },
    {
      "epoch": 0.6093333333333333,
      "grad_norm": 1.6860942840576172,
      "learning_rate": 7.815070015559014e-05,
      "loss": 2.169,
      "step": 27420
    },
    {
      "epoch": 0.6093555555555555,
      "grad_norm": 1.7165453433990479,
      "learning_rate": 7.814625472327183e-05,
      "loss": 0.0347,
      "step": 27421
    },
    {
      "epoch": 0.6093777777777778,
      "grad_norm": 1.7087652683258057,
      "learning_rate": 7.814180929095354e-05,
      "loss": 1.7233,
      "step": 27422
    },
    {
      "epoch": 0.6094,
      "grad_norm": 1.8145941495895386,
      "learning_rate": 7.813736385863527e-05,
      "loss": 2.054,
      "step": 27423
    },
    {
      "epoch": 0.6094222222222222,
      "grad_norm": 1.6878859996795654,
      "learning_rate": 7.813291842631696e-05,
      "loss": 2.2226,
      "step": 27424
    },
    {
      "epoch": 0.6094444444444445,
      "grad_norm": 1.7352796792984009,
      "learning_rate": 7.812847299399867e-05,
      "loss": 1.7145,
      "step": 27425
    },
    {
      "epoch": 0.6094666666666667,
      "grad_norm": 1.5544723272323608,
      "learning_rate": 7.812402756168038e-05,
      "loss": 1.967,
      "step": 27426
    },
    {
      "epoch": 0.6094888888888889,
      "grad_norm": 1.5665216445922852,
      "learning_rate": 7.811958212936208e-05,
      "loss": 1.8513,
      "step": 27427
    },
    {
      "epoch": 0.6095111111111111,
      "grad_norm": 1.6698379516601562,
      "learning_rate": 7.811513669704379e-05,
      "loss": 1.9505,
      "step": 27428
    },
    {
      "epoch": 0.6095333333333334,
      "grad_norm": 1.8726260662078857,
      "learning_rate": 7.81106912647255e-05,
      "loss": 2.0823,
      "step": 27429
    },
    {
      "epoch": 0.6095555555555555,
      "grad_norm": 1.5356457233428955,
      "learning_rate": 7.81062458324072e-05,
      "loss": 1.6717,
      "step": 27430
    },
    {
      "epoch": 0.6095777777777778,
      "grad_norm": 1.660161018371582,
      "learning_rate": 7.81018004000889e-05,
      "loss": 2.0189,
      "step": 27431
    },
    {
      "epoch": 0.6096,
      "grad_norm": 1.7959243059158325,
      "learning_rate": 7.809735496777063e-05,
      "loss": 2.1529,
      "step": 27432
    },
    {
      "epoch": 0.6096222222222222,
      "grad_norm": 1.4932820796966553,
      "learning_rate": 7.809290953545234e-05,
      "loss": 1.0458,
      "step": 27433
    },
    {
      "epoch": 0.6096444444444444,
      "grad_norm": 1.8300398588180542,
      "learning_rate": 7.808846410313403e-05,
      "loss": 1.8499,
      "step": 27434
    },
    {
      "epoch": 0.6096666666666667,
      "grad_norm": 1.5831258296966553,
      "learning_rate": 7.808401867081574e-05,
      "loss": 1.7654,
      "step": 27435
    },
    {
      "epoch": 0.6096888888888888,
      "grad_norm": 0.13884931802749634,
      "learning_rate": 7.807957323849745e-05,
      "loss": 0.0269,
      "step": 27436
    },
    {
      "epoch": 0.6097111111111111,
      "grad_norm": 1.4457045793533325,
      "learning_rate": 7.807512780617915e-05,
      "loss": 1.692,
      "step": 27437
    },
    {
      "epoch": 0.6097333333333333,
      "grad_norm": 1.3845202922821045,
      "learning_rate": 7.807068237386086e-05,
      "loss": 1.7402,
      "step": 27438
    },
    {
      "epoch": 0.6097555555555556,
      "grad_norm": 1.6479185819625854,
      "learning_rate": 7.806623694154257e-05,
      "loss": 1.9473,
      "step": 27439
    },
    {
      "epoch": 0.6097777777777778,
      "grad_norm": 2.167131185531616,
      "learning_rate": 7.806179150922428e-05,
      "loss": 1.6456,
      "step": 27440
    },
    {
      "epoch": 0.6098,
      "grad_norm": 1.7285823822021484,
      "learning_rate": 7.805734607690599e-05,
      "loss": 1.9564,
      "step": 27441
    },
    {
      "epoch": 0.6098222222222223,
      "grad_norm": 1.8743493556976318,
      "learning_rate": 7.80529006445877e-05,
      "loss": 1.9648,
      "step": 27442
    },
    {
      "epoch": 0.6098444444444444,
      "grad_norm": 1.6637998819351196,
      "learning_rate": 7.80484552122694e-05,
      "loss": 1.7091,
      "step": 27443
    },
    {
      "epoch": 0.6098666666666667,
      "grad_norm": 1.7053593397140503,
      "learning_rate": 7.80440097799511e-05,
      "loss": 1.613,
      "step": 27444
    },
    {
      "epoch": 0.6098888888888889,
      "grad_norm": 1.8503854274749756,
      "learning_rate": 7.803956434763281e-05,
      "loss": 1.8533,
      "step": 27445
    },
    {
      "epoch": 0.6099111111111111,
      "grad_norm": 1.8011876344680786,
      "learning_rate": 7.803511891531452e-05,
      "loss": 1.6717,
      "step": 27446
    },
    {
      "epoch": 0.6099333333333333,
      "grad_norm": 1.5371845960617065,
      "learning_rate": 7.803067348299623e-05,
      "loss": 1.4231,
      "step": 27447
    },
    {
      "epoch": 0.6099555555555556,
      "grad_norm": 2.444550037384033,
      "learning_rate": 7.802622805067793e-05,
      "loss": 2.5735,
      "step": 27448
    },
    {
      "epoch": 0.6099777777777777,
      "grad_norm": 0.2376312017440796,
      "learning_rate": 7.802178261835964e-05,
      "loss": 0.0471,
      "step": 27449
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6536933183670044,
      "learning_rate": 7.801733718604134e-05,
      "loss": 0.9774,
      "step": 27450
    },
    {
      "epoch": 0.6100222222222222,
      "grad_norm": 1.3775696754455566,
      "learning_rate": 7.801289175372305e-05,
      "loss": 1.3143,
      "step": 27451
    },
    {
      "epoch": 0.6100444444444444,
      "grad_norm": 1.582527995109558,
      "learning_rate": 7.800844632140476e-05,
      "loss": 2.2777,
      "step": 27452
    },
    {
      "epoch": 0.6100666666666666,
      "grad_norm": 1.4803003072738647,
      "learning_rate": 7.800400088908647e-05,
      "loss": 1.9213,
      "step": 27453
    },
    {
      "epoch": 0.6100888888888889,
      "grad_norm": 1.5033972263336182,
      "learning_rate": 7.799955545676817e-05,
      "loss": 2.2959,
      "step": 27454
    },
    {
      "epoch": 0.6101111111111112,
      "grad_norm": 1.5518680810928345,
      "learning_rate": 7.799511002444988e-05,
      "loss": 2.2657,
      "step": 27455
    },
    {
      "epoch": 0.6101333333333333,
      "grad_norm": 1.8300862312316895,
      "learning_rate": 7.799066459213159e-05,
      "loss": 2.2406,
      "step": 27456
    },
    {
      "epoch": 0.6101555555555556,
      "grad_norm": 1.669783353805542,
      "learning_rate": 7.79862191598133e-05,
      "loss": 2.5407,
      "step": 27457
    },
    {
      "epoch": 0.6101777777777778,
      "grad_norm": 1.7596453428268433,
      "learning_rate": 7.7981773727495e-05,
      "loss": 2.4514,
      "step": 27458
    },
    {
      "epoch": 0.6102,
      "grad_norm": 1.6170973777770996,
      "learning_rate": 7.79773282951767e-05,
      "loss": 1.728,
      "step": 27459
    },
    {
      "epoch": 0.6102222222222222,
      "grad_norm": 1.6608338356018066,
      "learning_rate": 7.797288286285843e-05,
      "loss": 2.3238,
      "step": 27460
    },
    {
      "epoch": 0.6102444444444445,
      "grad_norm": 1.5813875198364258,
      "learning_rate": 7.796843743054012e-05,
      "loss": 1.9771,
      "step": 27461
    },
    {
      "epoch": 0.6102666666666666,
      "grad_norm": 1.5008454322814941,
      "learning_rate": 7.796399199822183e-05,
      "loss": 1.8478,
      "step": 27462
    },
    {
      "epoch": 0.6102888888888889,
      "grad_norm": 1.8809629678726196,
      "learning_rate": 7.795954656590354e-05,
      "loss": 2.0884,
      "step": 27463
    },
    {
      "epoch": 0.6103111111111111,
      "grad_norm": 1.7680113315582275,
      "learning_rate": 7.795510113358524e-05,
      "loss": 2.0763,
      "step": 27464
    },
    {
      "epoch": 0.6103333333333333,
      "grad_norm": 1.5036847591400146,
      "learning_rate": 7.795065570126695e-05,
      "loss": 2.0254,
      "step": 27465
    },
    {
      "epoch": 0.6103555555555555,
      "grad_norm": 2.1038553714752197,
      "learning_rate": 7.794621026894866e-05,
      "loss": 2.4336,
      "step": 27466
    },
    {
      "epoch": 0.6103777777777778,
      "grad_norm": 1.8677781820297241,
      "learning_rate": 7.794176483663037e-05,
      "loss": 2.2394,
      "step": 27467
    },
    {
      "epoch": 0.6104,
      "grad_norm": 1.5848768949508667,
      "learning_rate": 7.793731940431206e-05,
      "loss": 2.1178,
      "step": 27468
    },
    {
      "epoch": 0.6104222222222222,
      "grad_norm": 1.632435917854309,
      "learning_rate": 7.793287397199379e-05,
      "loss": 2.0393,
      "step": 27469
    },
    {
      "epoch": 0.6104444444444445,
      "grad_norm": 2.08906626701355,
      "learning_rate": 7.79284285396755e-05,
      "loss": 1.511,
      "step": 27470
    },
    {
      "epoch": 0.6104666666666667,
      "grad_norm": 1.5188167095184326,
      "learning_rate": 7.792398310735719e-05,
      "loss": 1.4935,
      "step": 27471
    },
    {
      "epoch": 0.6104888888888889,
      "grad_norm": 1.579158067703247,
      "learning_rate": 7.79195376750389e-05,
      "loss": 1.81,
      "step": 27472
    },
    {
      "epoch": 0.6105111111111111,
      "grad_norm": 1.6517826318740845,
      "learning_rate": 7.791509224272061e-05,
      "loss": 1.4328,
      "step": 27473
    },
    {
      "epoch": 0.6105333333333334,
      "grad_norm": 1.608399510383606,
      "learning_rate": 7.791064681040231e-05,
      "loss": 1.9586,
      "step": 27474
    },
    {
      "epoch": 0.6105555555555555,
      "grad_norm": 1.4978665113449097,
      "learning_rate": 7.790620137808402e-05,
      "loss": 1.7627,
      "step": 27475
    },
    {
      "epoch": 0.6105777777777778,
      "grad_norm": 1.7245503664016724,
      "learning_rate": 7.790175594576573e-05,
      "loss": 2.1325,
      "step": 27476
    },
    {
      "epoch": 0.6106,
      "grad_norm": 1.6567022800445557,
      "learning_rate": 7.789731051344744e-05,
      "loss": 1.58,
      "step": 27477
    },
    {
      "epoch": 0.6106222222222222,
      "grad_norm": 1.8098033666610718,
      "learning_rate": 7.789286508112915e-05,
      "loss": 1.4043,
      "step": 27478
    },
    {
      "epoch": 0.6106444444444444,
      "grad_norm": 1.8955461978912354,
      "learning_rate": 7.788841964881086e-05,
      "loss": 2.1242,
      "step": 27479
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 1.7299959659576416,
      "learning_rate": 7.788397421649257e-05,
      "loss": 1.9613,
      "step": 27480
    },
    {
      "epoch": 0.6106888888888888,
      "grad_norm": 1.5184121131896973,
      "learning_rate": 7.787952878417426e-05,
      "loss": 1.9766,
      "step": 27481
    },
    {
      "epoch": 0.6107111111111111,
      "grad_norm": 1.6224559545516968,
      "learning_rate": 7.787508335185597e-05,
      "loss": 1.9477,
      "step": 27482
    },
    {
      "epoch": 0.6107333333333334,
      "grad_norm": 1.9605573415756226,
      "learning_rate": 7.787063791953768e-05,
      "loss": 1.6935,
      "step": 27483
    },
    {
      "epoch": 0.6107555555555556,
      "grad_norm": 1.8318862915039062,
      "learning_rate": 7.786619248721938e-05,
      "loss": 2.1745,
      "step": 27484
    },
    {
      "epoch": 0.6107777777777778,
      "grad_norm": 1.8009825944900513,
      "learning_rate": 7.786174705490109e-05,
      "loss": 1.6737,
      "step": 27485
    },
    {
      "epoch": 0.6108,
      "grad_norm": 1.9569668769836426,
      "learning_rate": 7.78573016225828e-05,
      "loss": 1.6701,
      "step": 27486
    },
    {
      "epoch": 0.6108222222222223,
      "grad_norm": 1.9783457517623901,
      "learning_rate": 7.78528561902645e-05,
      "loss": 2.1003,
      "step": 27487
    },
    {
      "epoch": 0.6108444444444444,
      "grad_norm": 1.848065972328186,
      "learning_rate": 7.784841075794622e-05,
      "loss": 1.8746,
      "step": 27488
    },
    {
      "epoch": 0.6108666666666667,
      "grad_norm": 1.9032918214797974,
      "learning_rate": 7.784396532562792e-05,
      "loss": 1.8572,
      "step": 27489
    },
    {
      "epoch": 0.6108888888888889,
      "grad_norm": 1.7915080785751343,
      "learning_rate": 7.783951989330963e-05,
      "loss": 1.771,
      "step": 27490
    },
    {
      "epoch": 0.6109111111111111,
      "grad_norm": 1.5801305770874023,
      "learning_rate": 7.783507446099133e-05,
      "loss": 1.8012,
      "step": 27491
    },
    {
      "epoch": 0.6109333333333333,
      "grad_norm": 1.9359170198440552,
      "learning_rate": 7.783062902867304e-05,
      "loss": 2.2787,
      "step": 27492
    },
    {
      "epoch": 0.6109555555555556,
      "grad_norm": 1.6912680864334106,
      "learning_rate": 7.782618359635475e-05,
      "loss": 1.6391,
      "step": 27493
    },
    {
      "epoch": 0.6109777777777777,
      "grad_norm": 1.9229602813720703,
      "learning_rate": 7.782173816403646e-05,
      "loss": 1.5608,
      "step": 27494
    },
    {
      "epoch": 0.611,
      "grad_norm": 1.6610921621322632,
      "learning_rate": 7.781729273171816e-05,
      "loss": 1.9686,
      "step": 27495
    },
    {
      "epoch": 0.6110222222222222,
      "grad_norm": 1.874182939529419,
      "learning_rate": 7.781284729939987e-05,
      "loss": 2.2633,
      "step": 27496
    },
    {
      "epoch": 0.6110444444444444,
      "grad_norm": 1.746493935585022,
      "learning_rate": 7.780840186708159e-05,
      "loss": 1.7766,
      "step": 27497
    },
    {
      "epoch": 0.6110666666666666,
      "grad_norm": 1.7898156642913818,
      "learning_rate": 7.780395643476328e-05,
      "loss": 1.9386,
      "step": 27498
    },
    {
      "epoch": 0.6110888888888889,
      "grad_norm": 1.5614951848983765,
      "learning_rate": 7.7799511002445e-05,
      "loss": 1.7405,
      "step": 27499
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 1.543195366859436,
      "learning_rate": 7.77950655701267e-05,
      "loss": 1.1225,
      "step": 27500
    },
    {
      "epoch": 0.6111333333333333,
      "grad_norm": 1.5423308610916138,
      "learning_rate": 7.77906201378084e-05,
      "loss": 2.1288,
      "step": 27501
    },
    {
      "epoch": 0.6111555555555556,
      "grad_norm": 1.339261531829834,
      "learning_rate": 7.778617470549011e-05,
      "loss": 2.4123,
      "step": 27502
    },
    {
      "epoch": 0.6111777777777778,
      "grad_norm": 1.3870769739151,
      "learning_rate": 7.778172927317182e-05,
      "loss": 2.0975,
      "step": 27503
    },
    {
      "epoch": 0.6112,
      "grad_norm": 1.0712703466415405,
      "learning_rate": 7.777728384085353e-05,
      "loss": 1.2014,
      "step": 27504
    },
    {
      "epoch": 0.6112222222222222,
      "grad_norm": 1.5670156478881836,
      "learning_rate": 7.777283840853522e-05,
      "loss": 1.9654,
      "step": 27505
    },
    {
      "epoch": 0.6112444444444445,
      "grad_norm": 1.445992350578308,
      "learning_rate": 7.776839297621695e-05,
      "loss": 2.1042,
      "step": 27506
    },
    {
      "epoch": 0.6112666666666666,
      "grad_norm": 1.7465412616729736,
      "learning_rate": 7.776394754389866e-05,
      "loss": 2.0741,
      "step": 27507
    },
    {
      "epoch": 0.6112888888888889,
      "grad_norm": 1.6744312047958374,
      "learning_rate": 7.775950211158035e-05,
      "loss": 2.7767,
      "step": 27508
    },
    {
      "epoch": 0.6113111111111111,
      "grad_norm": 1.4504873752593994,
      "learning_rate": 7.775505667926206e-05,
      "loss": 2.3511,
      "step": 27509
    },
    {
      "epoch": 0.6113333333333333,
      "grad_norm": 1.8150758743286133,
      "learning_rate": 7.775061124694377e-05,
      "loss": 2.4931,
      "step": 27510
    },
    {
      "epoch": 0.6113555555555555,
      "grad_norm": 1.5724668502807617,
      "learning_rate": 7.774616581462547e-05,
      "loss": 2.251,
      "step": 27511
    },
    {
      "epoch": 0.6113777777777778,
      "grad_norm": 1.3290016651153564,
      "learning_rate": 7.774172038230718e-05,
      "loss": 1.1945,
      "step": 27512
    },
    {
      "epoch": 0.6114,
      "grad_norm": 1.7260475158691406,
      "learning_rate": 7.773727494998889e-05,
      "loss": 1.8431,
      "step": 27513
    },
    {
      "epoch": 0.6114222222222222,
      "grad_norm": 1.6018413305282593,
      "learning_rate": 7.77328295176706e-05,
      "loss": 2.1677,
      "step": 27514
    },
    {
      "epoch": 0.6114444444444445,
      "grad_norm": 1.3727264404296875,
      "learning_rate": 7.772838408535231e-05,
      "loss": 1.2625,
      "step": 27515
    },
    {
      "epoch": 0.6114666666666667,
      "grad_norm": 1.6395866870880127,
      "learning_rate": 7.772393865303402e-05,
      "loss": 2.2097,
      "step": 27516
    },
    {
      "epoch": 0.6114888888888889,
      "grad_norm": 1.7023524045944214,
      "learning_rate": 7.771949322071573e-05,
      "loss": 2.1454,
      "step": 27517
    },
    {
      "epoch": 0.6115111111111111,
      "grad_norm": 1.579649567604065,
      "learning_rate": 7.771504778839742e-05,
      "loss": 1.9694,
      "step": 27518
    },
    {
      "epoch": 0.6115333333333334,
      "grad_norm": 1.4795308113098145,
      "learning_rate": 7.771060235607913e-05,
      "loss": 2.1181,
      "step": 27519
    },
    {
      "epoch": 0.6115555555555555,
      "grad_norm": 1.7093156576156616,
      "learning_rate": 7.770615692376084e-05,
      "loss": 2.3267,
      "step": 27520
    },
    {
      "epoch": 0.6115777777777778,
      "grad_norm": 1.8103622198104858,
      "learning_rate": 7.770171149144254e-05,
      "loss": 1.9654,
      "step": 27521
    },
    {
      "epoch": 0.6116,
      "grad_norm": 1.6107460260391235,
      "learning_rate": 7.769726605912425e-05,
      "loss": 1.3434,
      "step": 27522
    },
    {
      "epoch": 0.6116222222222222,
      "grad_norm": 1.6847106218338013,
      "learning_rate": 7.769282062680596e-05,
      "loss": 2.5195,
      "step": 27523
    },
    {
      "epoch": 0.6116444444444444,
      "grad_norm": 1.7250392436981201,
      "learning_rate": 7.768837519448767e-05,
      "loss": 1.5947,
      "step": 27524
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 1.9823029041290283,
      "learning_rate": 7.768392976216938e-05,
      "loss": 2.2627,
      "step": 27525
    },
    {
      "epoch": 0.6116888888888888,
      "grad_norm": 1.8412489891052246,
      "learning_rate": 7.767948432985109e-05,
      "loss": 2.0382,
      "step": 27526
    },
    {
      "epoch": 0.6117111111111111,
      "grad_norm": 1.7352039813995361,
      "learning_rate": 7.76750388975328e-05,
      "loss": 2.2732,
      "step": 27527
    },
    {
      "epoch": 0.6117333333333334,
      "grad_norm": 1.6988086700439453,
      "learning_rate": 7.767059346521449e-05,
      "loss": 2.2386,
      "step": 27528
    },
    {
      "epoch": 0.6117555555555556,
      "grad_norm": 1.6477222442626953,
      "learning_rate": 7.76661480328962e-05,
      "loss": 1.4523,
      "step": 27529
    },
    {
      "epoch": 0.6117777777777778,
      "grad_norm": 2.1043894290924072,
      "learning_rate": 7.766170260057791e-05,
      "loss": 2.5293,
      "step": 27530
    },
    {
      "epoch": 0.6118,
      "grad_norm": 1.773444652557373,
      "learning_rate": 7.765725716825961e-05,
      "loss": 2.1363,
      "step": 27531
    },
    {
      "epoch": 0.6118222222222223,
      "grad_norm": 1.4800810813903809,
      "learning_rate": 7.765281173594132e-05,
      "loss": 1.8682,
      "step": 27532
    },
    {
      "epoch": 0.6118444444444444,
      "grad_norm": 1.6080175638198853,
      "learning_rate": 7.764836630362303e-05,
      "loss": 1.6381,
      "step": 27533
    },
    {
      "epoch": 0.6118666666666667,
      "grad_norm": 2.55741548538208,
      "learning_rate": 7.764392087130475e-05,
      "loss": 1.8665,
      "step": 27534
    },
    {
      "epoch": 0.6118888888888889,
      "grad_norm": 1.5693540573120117,
      "learning_rate": 7.763947543898645e-05,
      "loss": 1.8233,
      "step": 27535
    },
    {
      "epoch": 0.6119111111111111,
      "grad_norm": 1.696226954460144,
      "learning_rate": 7.763503000666816e-05,
      "loss": 1.6646,
      "step": 27536
    },
    {
      "epoch": 0.6119333333333333,
      "grad_norm": 2.2691214084625244,
      "learning_rate": 7.763058457434986e-05,
      "loss": 2.2198,
      "step": 27537
    },
    {
      "epoch": 0.6119555555555556,
      "grad_norm": 1.8994804620742798,
      "learning_rate": 7.762613914203156e-05,
      "loss": 2.2349,
      "step": 27538
    },
    {
      "epoch": 0.6119777777777777,
      "grad_norm": 1.870898962020874,
      "learning_rate": 7.762169370971327e-05,
      "loss": 1.89,
      "step": 27539
    },
    {
      "epoch": 0.612,
      "grad_norm": 1.6274160146713257,
      "learning_rate": 7.761724827739498e-05,
      "loss": 1.7772,
      "step": 27540
    },
    {
      "epoch": 0.6120222222222222,
      "grad_norm": 1.788335919380188,
      "learning_rate": 7.761280284507668e-05,
      "loss": 1.9265,
      "step": 27541
    },
    {
      "epoch": 0.6120444444444444,
      "grad_norm": 1.7671217918395996,
      "learning_rate": 7.760835741275839e-05,
      "loss": 1.5955,
      "step": 27542
    },
    {
      "epoch": 0.6120666666666666,
      "grad_norm": 1.9399702548980713,
      "learning_rate": 7.760391198044011e-05,
      "loss": 1.886,
      "step": 27543
    },
    {
      "epoch": 0.6120888888888889,
      "grad_norm": 1.8233189582824707,
      "learning_rate": 7.759946654812182e-05,
      "loss": 1.7791,
      "step": 27544
    },
    {
      "epoch": 0.6121111111111112,
      "grad_norm": 1.925369143486023,
      "learning_rate": 7.759502111580351e-05,
      "loss": 1.9089,
      "step": 27545
    },
    {
      "epoch": 0.6121333333333333,
      "grad_norm": 1.8397341966629028,
      "learning_rate": 7.759057568348522e-05,
      "loss": 1.9789,
      "step": 27546
    },
    {
      "epoch": 0.6121555555555556,
      "grad_norm": 1.8775615692138672,
      "learning_rate": 7.758613025116693e-05,
      "loss": 1.6122,
      "step": 27547
    },
    {
      "epoch": 0.6121777777777778,
      "grad_norm": 2.0925540924072266,
      "learning_rate": 7.758168481884863e-05,
      "loss": 2.0339,
      "step": 27548
    },
    {
      "epoch": 0.6122,
      "grad_norm": 2.579909086227417,
      "learning_rate": 7.757723938653034e-05,
      "loss": 1.9227,
      "step": 27549
    },
    {
      "epoch": 0.6122222222222222,
      "grad_norm": 1.542546033859253,
      "learning_rate": 7.757279395421205e-05,
      "loss": 1.2056,
      "step": 27550
    },
    {
      "epoch": 0.6122444444444445,
      "grad_norm": 1.1781761646270752,
      "learning_rate": 7.756834852189376e-05,
      "loss": 1.4263,
      "step": 27551
    },
    {
      "epoch": 0.6122666666666666,
      "grad_norm": 1.4291971921920776,
      "learning_rate": 7.756390308957547e-05,
      "loss": 2.5189,
      "step": 27552
    },
    {
      "epoch": 0.6122888888888889,
      "grad_norm": 1.0243903398513794,
      "learning_rate": 7.755945765725718e-05,
      "loss": 1.1948,
      "step": 27553
    },
    {
      "epoch": 0.6123111111111111,
      "grad_norm": 1.0803135633468628,
      "learning_rate": 7.755501222493889e-05,
      "loss": 1.1821,
      "step": 27554
    },
    {
      "epoch": 0.6123333333333333,
      "grad_norm": 1.4516526460647583,
      "learning_rate": 7.755056679262058e-05,
      "loss": 2.0488,
      "step": 27555
    },
    {
      "epoch": 0.6123555555555555,
      "grad_norm": 1.5359574556350708,
      "learning_rate": 7.754612136030229e-05,
      "loss": 2.3512,
      "step": 27556
    },
    {
      "epoch": 0.6123777777777778,
      "grad_norm": 1.5224683284759521,
      "learning_rate": 7.7541675927984e-05,
      "loss": 2.1224,
      "step": 27557
    },
    {
      "epoch": 0.6124,
      "grad_norm": 1.4551442861557007,
      "learning_rate": 7.75372304956657e-05,
      "loss": 1.8269,
      "step": 27558
    },
    {
      "epoch": 0.6124222222222222,
      "grad_norm": 1.4387001991271973,
      "learning_rate": 7.753278506334741e-05,
      "loss": 2.0894,
      "step": 27559
    },
    {
      "epoch": 0.6124444444444445,
      "grad_norm": 2.2286064624786377,
      "learning_rate": 7.752833963102912e-05,
      "loss": 2.4909,
      "step": 27560
    },
    {
      "epoch": 0.6124666666666667,
      "grad_norm": 1.8037059307098389,
      "learning_rate": 7.752389419871083e-05,
      "loss": 2.1049,
      "step": 27561
    },
    {
      "epoch": 0.6124888888888889,
      "grad_norm": 1.8678205013275146,
      "learning_rate": 7.751944876639254e-05,
      "loss": 2.0448,
      "step": 27562
    },
    {
      "epoch": 0.6125111111111111,
      "grad_norm": 1.6603857278823853,
      "learning_rate": 7.751500333407425e-05,
      "loss": 1.2267,
      "step": 27563
    },
    {
      "epoch": 0.6125333333333334,
      "grad_norm": 1.5285018682479858,
      "learning_rate": 7.751055790175596e-05,
      "loss": 2.072,
      "step": 27564
    },
    {
      "epoch": 0.6125555555555555,
      "grad_norm": 1.6152604818344116,
      "learning_rate": 7.750611246943765e-05,
      "loss": 2.062,
      "step": 27565
    },
    {
      "epoch": 0.6125777777777778,
      "grad_norm": 1.51948082447052,
      "learning_rate": 7.750166703711936e-05,
      "loss": 1.5071,
      "step": 27566
    },
    {
      "epoch": 0.6126,
      "grad_norm": 1.1879931688308716,
      "learning_rate": 7.749722160480107e-05,
      "loss": 1.1506,
      "step": 27567
    },
    {
      "epoch": 0.6126222222222222,
      "grad_norm": 1.9524271488189697,
      "learning_rate": 7.749277617248277e-05,
      "loss": 2.4532,
      "step": 27568
    },
    {
      "epoch": 0.6126444444444444,
      "grad_norm": 1.6999812126159668,
      "learning_rate": 7.748833074016448e-05,
      "loss": 1.6778,
      "step": 27569
    },
    {
      "epoch": 0.6126666666666667,
      "grad_norm": 1.7853630781173706,
      "learning_rate": 7.748388530784619e-05,
      "loss": 2.3016,
      "step": 27570
    },
    {
      "epoch": 0.6126888888888888,
      "grad_norm": 1.782258152961731,
      "learning_rate": 7.747943987552791e-05,
      "loss": 1.65,
      "step": 27571
    },
    {
      "epoch": 0.6127111111111111,
      "grad_norm": 1.5772422552108765,
      "learning_rate": 7.74749944432096e-05,
      "loss": 2.018,
      "step": 27572
    },
    {
      "epoch": 0.6127333333333334,
      "grad_norm": 2.0711746215820312,
      "learning_rate": 7.747054901089132e-05,
      "loss": 2.2871,
      "step": 27573
    },
    {
      "epoch": 0.6127555555555556,
      "grad_norm": 1.7900344133377075,
      "learning_rate": 7.746610357857303e-05,
      "loss": 1.9562,
      "step": 27574
    },
    {
      "epoch": 0.6127777777777778,
      "grad_norm": 1.6933283805847168,
      "learning_rate": 7.746165814625472e-05,
      "loss": 1.9733,
      "step": 27575
    },
    {
      "epoch": 0.6128,
      "grad_norm": 1.7561581134796143,
      "learning_rate": 7.745721271393643e-05,
      "loss": 2.1765,
      "step": 27576
    },
    {
      "epoch": 0.6128222222222223,
      "grad_norm": 1.5848567485809326,
      "learning_rate": 7.745276728161814e-05,
      "loss": 1.8434,
      "step": 27577
    },
    {
      "epoch": 0.6128444444444444,
      "grad_norm": 1.4822124242782593,
      "learning_rate": 7.744832184929984e-05,
      "loss": 2.0103,
      "step": 27578
    },
    {
      "epoch": 0.6128666666666667,
      "grad_norm": 1.7740105390548706,
      "learning_rate": 7.744387641698155e-05,
      "loss": 2.0244,
      "step": 27579
    },
    {
      "epoch": 0.6128888888888889,
      "grad_norm": 1.7334976196289062,
      "learning_rate": 7.743943098466327e-05,
      "loss": 1.9153,
      "step": 27580
    },
    {
      "epoch": 0.6129111111111111,
      "grad_norm": 1.635332465171814,
      "learning_rate": 7.743498555234498e-05,
      "loss": 1.9374,
      "step": 27581
    },
    {
      "epoch": 0.6129333333333333,
      "grad_norm": 1.4835823774337769,
      "learning_rate": 7.743054012002668e-05,
      "loss": 2.0732,
      "step": 27582
    },
    {
      "epoch": 0.6129555555555556,
      "grad_norm": 1.4527803659439087,
      "learning_rate": 7.742609468770839e-05,
      "loss": 1.6363,
      "step": 27583
    },
    {
      "epoch": 0.6129777777777777,
      "grad_norm": 1.216811180114746,
      "learning_rate": 7.74216492553901e-05,
      "loss": 0.8762,
      "step": 27584
    },
    {
      "epoch": 0.613,
      "grad_norm": 1.8603177070617676,
      "learning_rate": 7.741720382307179e-05,
      "loss": 2.3087,
      "step": 27585
    },
    {
      "epoch": 0.6130222222222222,
      "grad_norm": 1.8066385984420776,
      "learning_rate": 7.74127583907535e-05,
      "loss": 1.8244,
      "step": 27586
    },
    {
      "epoch": 0.6130444444444444,
      "grad_norm": 1.5782830715179443,
      "learning_rate": 7.740831295843521e-05,
      "loss": 1.5668,
      "step": 27587
    },
    {
      "epoch": 0.6130666666666666,
      "grad_norm": 1.8840564489364624,
      "learning_rate": 7.740386752611692e-05,
      "loss": 1.7731,
      "step": 27588
    },
    {
      "epoch": 0.6130888888888889,
      "grad_norm": 2.1401329040527344,
      "learning_rate": 7.739942209379863e-05,
      "loss": 2.0632,
      "step": 27589
    },
    {
      "epoch": 0.6131111111111112,
      "grad_norm": 1.8816437721252441,
      "learning_rate": 7.739497666148034e-05,
      "loss": 1.6173,
      "step": 27590
    },
    {
      "epoch": 0.6131333333333333,
      "grad_norm": 2.0451958179473877,
      "learning_rate": 7.739053122916205e-05,
      "loss": 2.0848,
      "step": 27591
    },
    {
      "epoch": 0.6131555555555556,
      "grad_norm": 1.6593228578567505,
      "learning_rate": 7.738608579684374e-05,
      "loss": 1.7136,
      "step": 27592
    },
    {
      "epoch": 0.6131777777777778,
      "grad_norm": 1.5360110998153687,
      "learning_rate": 7.738164036452545e-05,
      "loss": 1.747,
      "step": 27593
    },
    {
      "epoch": 0.6132,
      "grad_norm": 2.1586971282958984,
      "learning_rate": 7.737719493220716e-05,
      "loss": 1.9396,
      "step": 27594
    },
    {
      "epoch": 0.6132222222222222,
      "grad_norm": 1.9175387620925903,
      "learning_rate": 7.737274949988886e-05,
      "loss": 1.7093,
      "step": 27595
    },
    {
      "epoch": 0.6132444444444445,
      "grad_norm": 1.982151985168457,
      "learning_rate": 7.736830406757057e-05,
      "loss": 2.1863,
      "step": 27596
    },
    {
      "epoch": 0.6132666666666666,
      "grad_norm": 3.3169479370117188,
      "learning_rate": 7.736385863525228e-05,
      "loss": 1.985,
      "step": 27597
    },
    {
      "epoch": 0.6132888888888889,
      "grad_norm": 1.7234865427017212,
      "learning_rate": 7.735941320293399e-05,
      "loss": 1.9525,
      "step": 27598
    },
    {
      "epoch": 0.6133111111111111,
      "grad_norm": 1.8913743495941162,
      "learning_rate": 7.73549677706157e-05,
      "loss": 2.1799,
      "step": 27599
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 1.910362720489502,
      "learning_rate": 7.735052233829741e-05,
      "loss": 1.761,
      "step": 27600
    },
    {
      "epoch": 0.6133555555555555,
      "grad_norm": 1.485051155090332,
      "learning_rate": 7.734607690597912e-05,
      "loss": 2.3293,
      "step": 27601
    },
    {
      "epoch": 0.6133777777777778,
      "grad_norm": 1.4898614883422852,
      "learning_rate": 7.734163147366081e-05,
      "loss": 2.4178,
      "step": 27602
    },
    {
      "epoch": 0.6134,
      "grad_norm": 1.735337734222412,
      "learning_rate": 7.733718604134252e-05,
      "loss": 2.3771,
      "step": 27603
    },
    {
      "epoch": 0.6134222222222222,
      "grad_norm": 0.31236639618873596,
      "learning_rate": 7.733274060902423e-05,
      "loss": 0.0177,
      "step": 27604
    },
    {
      "epoch": 0.6134444444444445,
      "grad_norm": 1.4100191593170166,
      "learning_rate": 7.732829517670593e-05,
      "loss": 2.1479,
      "step": 27605
    },
    {
      "epoch": 0.6134666666666667,
      "grad_norm": 1.3722394704818726,
      "learning_rate": 7.732384974438764e-05,
      "loss": 2.2028,
      "step": 27606
    },
    {
      "epoch": 0.6134888888888889,
      "grad_norm": 1.4756319522857666,
      "learning_rate": 7.731940431206935e-05,
      "loss": 2.1144,
      "step": 27607
    },
    {
      "epoch": 0.6135111111111111,
      "grad_norm": 1.1815156936645508,
      "learning_rate": 7.731495887975107e-05,
      "loss": 1.5594,
      "step": 27608
    },
    {
      "epoch": 0.6135333333333334,
      "grad_norm": 1.2476978302001953,
      "learning_rate": 7.731051344743277e-05,
      "loss": 1.2661,
      "step": 27609
    },
    {
      "epoch": 0.6135555555555555,
      "grad_norm": 1.892336368560791,
      "learning_rate": 7.730606801511448e-05,
      "loss": 2.3488,
      "step": 27610
    },
    {
      "epoch": 0.6135777777777778,
      "grad_norm": 1.6618032455444336,
      "learning_rate": 7.730162258279619e-05,
      "loss": 1.6773,
      "step": 27611
    },
    {
      "epoch": 0.6136,
      "grad_norm": 1.2995035648345947,
      "learning_rate": 7.729717715047788e-05,
      "loss": 1.4888,
      "step": 27612
    },
    {
      "epoch": 0.6136222222222222,
      "grad_norm": 1.5355890989303589,
      "learning_rate": 7.729273171815959e-05,
      "loss": 1.7641,
      "step": 27613
    },
    {
      "epoch": 0.6136444444444444,
      "grad_norm": 1.7926889657974243,
      "learning_rate": 7.72882862858413e-05,
      "loss": 1.903,
      "step": 27614
    },
    {
      "epoch": 0.6136666666666667,
      "grad_norm": 1.98298978805542,
      "learning_rate": 7.7283840853523e-05,
      "loss": 2.0607,
      "step": 27615
    },
    {
      "epoch": 0.6136888888888888,
      "grad_norm": 1.5406136512756348,
      "learning_rate": 7.727939542120471e-05,
      "loss": 1.96,
      "step": 27616
    },
    {
      "epoch": 0.6137111111111111,
      "grad_norm": 1.7651652097702026,
      "learning_rate": 7.727494998888643e-05,
      "loss": 1.8261,
      "step": 27617
    },
    {
      "epoch": 0.6137333333333334,
      "grad_norm": 1.607982873916626,
      "learning_rate": 7.727050455656814e-05,
      "loss": 1.7859,
      "step": 27618
    },
    {
      "epoch": 0.6137555555555556,
      "grad_norm": 1.7538888454437256,
      "learning_rate": 7.726605912424984e-05,
      "loss": 2.2275,
      "step": 27619
    },
    {
      "epoch": 0.6137777777777778,
      "grad_norm": 2.276658773422241,
      "learning_rate": 7.726161369193155e-05,
      "loss": 2.1569,
      "step": 27620
    },
    {
      "epoch": 0.6138,
      "grad_norm": 1.7184829711914062,
      "learning_rate": 7.725716825961326e-05,
      "loss": 2.0479,
      "step": 27621
    },
    {
      "epoch": 0.6138222222222223,
      "grad_norm": 1.8018218278884888,
      "learning_rate": 7.725272282729495e-05,
      "loss": 1.9534,
      "step": 27622
    },
    {
      "epoch": 0.6138444444444444,
      "grad_norm": 1.7157447338104248,
      "learning_rate": 7.724827739497666e-05,
      "loss": 1.936,
      "step": 27623
    },
    {
      "epoch": 0.6138666666666667,
      "grad_norm": 1.4542107582092285,
      "learning_rate": 7.724383196265837e-05,
      "loss": 1.5425,
      "step": 27624
    },
    {
      "epoch": 0.6138888888888889,
      "grad_norm": 2.096475124359131,
      "learning_rate": 7.723938653034008e-05,
      "loss": 2.4732,
      "step": 27625
    },
    {
      "epoch": 0.6139111111111111,
      "grad_norm": 1.5585896968841553,
      "learning_rate": 7.723494109802179e-05,
      "loss": 2.1209,
      "step": 27626
    },
    {
      "epoch": 0.6139333333333333,
      "grad_norm": 2.434840679168701,
      "learning_rate": 7.72304956657035e-05,
      "loss": 2.603,
      "step": 27627
    },
    {
      "epoch": 0.6139555555555556,
      "grad_norm": 1.888709545135498,
      "learning_rate": 7.722605023338521e-05,
      "loss": 2.3049,
      "step": 27628
    },
    {
      "epoch": 0.6139777777777777,
      "grad_norm": 1.717698335647583,
      "learning_rate": 7.72216048010669e-05,
      "loss": 2.0233,
      "step": 27629
    },
    {
      "epoch": 0.614,
      "grad_norm": 1.5587272644042969,
      "learning_rate": 7.721715936874862e-05,
      "loss": 1.8363,
      "step": 27630
    },
    {
      "epoch": 0.6140222222222222,
      "grad_norm": 1.546492099761963,
      "learning_rate": 7.721271393643032e-05,
      "loss": 2.0981,
      "step": 27631
    },
    {
      "epoch": 0.6140444444444444,
      "grad_norm": 1.110864520072937,
      "learning_rate": 7.720826850411202e-05,
      "loss": 1.0081,
      "step": 27632
    },
    {
      "epoch": 0.6140666666666666,
      "grad_norm": 1.1011080741882324,
      "learning_rate": 7.720382307179373e-05,
      "loss": 0.9227,
      "step": 27633
    },
    {
      "epoch": 0.6140888888888889,
      "grad_norm": 1.4774861335754395,
      "learning_rate": 7.719937763947544e-05,
      "loss": 1.7885,
      "step": 27634
    },
    {
      "epoch": 0.6141111111111112,
      "grad_norm": 1.8963218927383423,
      "learning_rate": 7.719493220715715e-05,
      "loss": 1.8461,
      "step": 27635
    },
    {
      "epoch": 0.6141333333333333,
      "grad_norm": 1.8257931470870972,
      "learning_rate": 7.719048677483886e-05,
      "loss": 1.7892,
      "step": 27636
    },
    {
      "epoch": 0.6141555555555556,
      "grad_norm": 1.488949179649353,
      "learning_rate": 7.718604134252057e-05,
      "loss": 1.2848,
      "step": 27637
    },
    {
      "epoch": 0.6141777777777778,
      "grad_norm": 1.8301564455032349,
      "learning_rate": 7.718159591020228e-05,
      "loss": 2.1069,
      "step": 27638
    },
    {
      "epoch": 0.6142,
      "grad_norm": 1.6307073831558228,
      "learning_rate": 7.717715047788397e-05,
      "loss": 1.7145,
      "step": 27639
    },
    {
      "epoch": 0.6142222222222222,
      "grad_norm": 1.733677864074707,
      "learning_rate": 7.717270504556568e-05,
      "loss": 2.2545,
      "step": 27640
    },
    {
      "epoch": 0.6142444444444445,
      "grad_norm": 1.5401047468185425,
      "learning_rate": 7.71682596132474e-05,
      "loss": 1.225,
      "step": 27641
    },
    {
      "epoch": 0.6142666666666666,
      "grad_norm": 0.9527256488800049,
      "learning_rate": 7.716381418092909e-05,
      "loss": 0.762,
      "step": 27642
    },
    {
      "epoch": 0.6142888888888889,
      "grad_norm": 1.9015424251556396,
      "learning_rate": 7.71593687486108e-05,
      "loss": 1.8785,
      "step": 27643
    },
    {
      "epoch": 0.6143111111111111,
      "grad_norm": 1.754401445388794,
      "learning_rate": 7.715492331629251e-05,
      "loss": 2.1387,
      "step": 27644
    },
    {
      "epoch": 0.6143333333333333,
      "grad_norm": 1.8856477737426758,
      "learning_rate": 7.715047788397422e-05,
      "loss": 1.8633,
      "step": 27645
    },
    {
      "epoch": 0.6143555555555555,
      "grad_norm": 1.6553912162780762,
      "learning_rate": 7.714603245165593e-05,
      "loss": 1.6771,
      "step": 27646
    },
    {
      "epoch": 0.6143777777777778,
      "grad_norm": 1.5054494142532349,
      "learning_rate": 7.714158701933764e-05,
      "loss": 1.3938,
      "step": 27647
    },
    {
      "epoch": 0.6144,
      "grad_norm": 1.715761661529541,
      "learning_rate": 7.713714158701935e-05,
      "loss": 2.0282,
      "step": 27648
    },
    {
      "epoch": 0.6144222222222222,
      "grad_norm": 1.7670443058013916,
      "learning_rate": 7.713269615470104e-05,
      "loss": 0.9393,
      "step": 27649
    },
    {
      "epoch": 0.6144444444444445,
      "grad_norm": 1.943627119064331,
      "learning_rate": 7.712825072238275e-05,
      "loss": 1.3714,
      "step": 27650
    },
    {
      "epoch": 0.6144666666666667,
      "grad_norm": 1.4573408365249634,
      "learning_rate": 7.712380529006446e-05,
      "loss": 2.2397,
      "step": 27651
    },
    {
      "epoch": 0.6144888888888889,
      "grad_norm": 1.8467220067977905,
      "learning_rate": 7.711935985774616e-05,
      "loss": 2.8679,
      "step": 27652
    },
    {
      "epoch": 0.6145111111111111,
      "grad_norm": 0.8519179224967957,
      "learning_rate": 7.711491442542787e-05,
      "loss": 0.9065,
      "step": 27653
    },
    {
      "epoch": 0.6145333333333334,
      "grad_norm": 1.5563408136367798,
      "learning_rate": 7.711046899310959e-05,
      "loss": 2.1656,
      "step": 27654
    },
    {
      "epoch": 0.6145555555555555,
      "grad_norm": 2.1301660537719727,
      "learning_rate": 7.71060235607913e-05,
      "loss": 2.4985,
      "step": 27655
    },
    {
      "epoch": 0.6145777777777778,
      "grad_norm": 1.8298200368881226,
      "learning_rate": 7.7101578128473e-05,
      "loss": 2.1938,
      "step": 27656
    },
    {
      "epoch": 0.6146,
      "grad_norm": 1.7975974082946777,
      "learning_rate": 7.709713269615471e-05,
      "loss": 2.0496,
      "step": 27657
    },
    {
      "epoch": 0.6146222222222222,
      "grad_norm": 1.5617163181304932,
      "learning_rate": 7.709268726383642e-05,
      "loss": 2.2042,
      "step": 27658
    },
    {
      "epoch": 0.6146444444444444,
      "grad_norm": 1.6176177263259888,
      "learning_rate": 7.708824183151811e-05,
      "loss": 1.6636,
      "step": 27659
    },
    {
      "epoch": 0.6146666666666667,
      "grad_norm": 1.4682356119155884,
      "learning_rate": 7.708379639919982e-05,
      "loss": 1.7942,
      "step": 27660
    },
    {
      "epoch": 0.6146888888888888,
      "grad_norm": 1.9298056364059448,
      "learning_rate": 7.707935096688153e-05,
      "loss": 2.0287,
      "step": 27661
    },
    {
      "epoch": 0.6147111111111111,
      "grad_norm": 1.5962305068969727,
      "learning_rate": 7.707490553456324e-05,
      "loss": 1.9764,
      "step": 27662
    },
    {
      "epoch": 0.6147333333333334,
      "grad_norm": 1.8374494314193726,
      "learning_rate": 7.707046010224495e-05,
      "loss": 2.0601,
      "step": 27663
    },
    {
      "epoch": 0.6147555555555556,
      "grad_norm": 1.7612316608428955,
      "learning_rate": 7.706601466992666e-05,
      "loss": 2.5086,
      "step": 27664
    },
    {
      "epoch": 0.6147777777777778,
      "grad_norm": 1.8300474882125854,
      "learning_rate": 7.706156923760837e-05,
      "loss": 1.891,
      "step": 27665
    },
    {
      "epoch": 0.6148,
      "grad_norm": 1.481309175491333,
      "learning_rate": 7.705712380529007e-05,
      "loss": 1.8192,
      "step": 27666
    },
    {
      "epoch": 0.6148222222222223,
      "grad_norm": 1.5958552360534668,
      "learning_rate": 7.705267837297178e-05,
      "loss": 2.1367,
      "step": 27667
    },
    {
      "epoch": 0.6148444444444444,
      "grad_norm": 1.4381794929504395,
      "learning_rate": 7.704823294065349e-05,
      "loss": 1.667,
      "step": 27668
    },
    {
      "epoch": 0.6148666666666667,
      "grad_norm": 1.7751753330230713,
      "learning_rate": 7.704378750833518e-05,
      "loss": 2.3798,
      "step": 27669
    },
    {
      "epoch": 0.6148888888888889,
      "grad_norm": 1.361076831817627,
      "learning_rate": 7.703934207601689e-05,
      "loss": 1.3767,
      "step": 27670
    },
    {
      "epoch": 0.6149111111111111,
      "grad_norm": 1.8791605234146118,
      "learning_rate": 7.70348966436986e-05,
      "loss": 2.2393,
      "step": 27671
    },
    {
      "epoch": 0.6149333333333333,
      "grad_norm": 1.0605690479278564,
      "learning_rate": 7.703045121138031e-05,
      "loss": 0.9758,
      "step": 27672
    },
    {
      "epoch": 0.6149555555555556,
      "grad_norm": 1.5713154077529907,
      "learning_rate": 7.702600577906202e-05,
      "loss": 1.5473,
      "step": 27673
    },
    {
      "epoch": 0.6149777777777777,
      "grad_norm": 1.6930948495864868,
      "learning_rate": 7.702156034674373e-05,
      "loss": 2.4817,
      "step": 27674
    },
    {
      "epoch": 0.615,
      "grad_norm": 1.694022297859192,
      "learning_rate": 7.701711491442544e-05,
      "loss": 2.0426,
      "step": 27675
    },
    {
      "epoch": 0.6150222222222222,
      "grad_norm": 1.4905400276184082,
      "learning_rate": 7.701266948210714e-05,
      "loss": 1.7319,
      "step": 27676
    },
    {
      "epoch": 0.6150444444444444,
      "grad_norm": 1.6683911085128784,
      "learning_rate": 7.700822404978885e-05,
      "loss": 2.1189,
      "step": 27677
    },
    {
      "epoch": 0.6150666666666667,
      "grad_norm": 1.7028203010559082,
      "learning_rate": 7.700377861747055e-05,
      "loss": 2.313,
      "step": 27678
    },
    {
      "epoch": 0.6150888888888889,
      "grad_norm": 1.4560718536376953,
      "learning_rate": 7.699933318515225e-05,
      "loss": 1.8408,
      "step": 27679
    },
    {
      "epoch": 0.6151111111111112,
      "grad_norm": 1.5160682201385498,
      "learning_rate": 7.699488775283396e-05,
      "loss": 2.0621,
      "step": 27680
    },
    {
      "epoch": 0.6151333333333333,
      "grad_norm": 1.6277612447738647,
      "learning_rate": 7.699044232051567e-05,
      "loss": 1.9481,
      "step": 27681
    },
    {
      "epoch": 0.6151555555555556,
      "grad_norm": 1.7742987871170044,
      "learning_rate": 7.698599688819738e-05,
      "loss": 2.1653,
      "step": 27682
    },
    {
      "epoch": 0.6151777777777778,
      "grad_norm": 1.5646719932556152,
      "learning_rate": 7.698155145587909e-05,
      "loss": 1.8406,
      "step": 27683
    },
    {
      "epoch": 0.6152,
      "grad_norm": 1.6861202716827393,
      "learning_rate": 7.69771060235608e-05,
      "loss": 2.6977,
      "step": 27684
    },
    {
      "epoch": 0.6152222222222222,
      "grad_norm": 2.004915475845337,
      "learning_rate": 7.697266059124251e-05,
      "loss": 2.252,
      "step": 27685
    },
    {
      "epoch": 0.6152444444444445,
      "grad_norm": 0.9852021336555481,
      "learning_rate": 7.69682151589242e-05,
      "loss": 0.8603,
      "step": 27686
    },
    {
      "epoch": 0.6152666666666666,
      "grad_norm": 1.5224124193191528,
      "learning_rate": 7.696376972660591e-05,
      "loss": 1.9327,
      "step": 27687
    },
    {
      "epoch": 0.6152888888888889,
      "grad_norm": 1.6800435781478882,
      "learning_rate": 7.695932429428762e-05,
      "loss": 1.7287,
      "step": 27688
    },
    {
      "epoch": 0.6153111111111111,
      "grad_norm": 1.6324905157089233,
      "learning_rate": 7.695487886196932e-05,
      "loss": 1.5948,
      "step": 27689
    },
    {
      "epoch": 0.6153333333333333,
      "grad_norm": 1.5132930278778076,
      "learning_rate": 7.695043342965103e-05,
      "loss": 1.4836,
      "step": 27690
    },
    {
      "epoch": 0.6153555555555555,
      "grad_norm": 2.3151564598083496,
      "learning_rate": 7.694598799733275e-05,
      "loss": 1.8424,
      "step": 27691
    },
    {
      "epoch": 0.6153777777777778,
      "grad_norm": 1.6328611373901367,
      "learning_rate": 7.694154256501445e-05,
      "loss": 1.5843,
      "step": 27692
    },
    {
      "epoch": 0.6154,
      "grad_norm": 2.0141165256500244,
      "learning_rate": 7.693709713269616e-05,
      "loss": 1.8026,
      "step": 27693
    },
    {
      "epoch": 0.6154222222222222,
      "grad_norm": 1.8666143417358398,
      "learning_rate": 7.693265170037787e-05,
      "loss": 2.0635,
      "step": 27694
    },
    {
      "epoch": 0.6154444444444445,
      "grad_norm": 2.37695574760437,
      "learning_rate": 7.692820626805958e-05,
      "loss": 1.9471,
      "step": 27695
    },
    {
      "epoch": 0.6154666666666667,
      "grad_norm": 1.7559750080108643,
      "learning_rate": 7.692376083574127e-05,
      "loss": 1.5826,
      "step": 27696
    },
    {
      "epoch": 0.6154888888888889,
      "grad_norm": 1.5847703218460083,
      "learning_rate": 7.691931540342298e-05,
      "loss": 1.3723,
      "step": 27697
    },
    {
      "epoch": 0.6155111111111111,
      "grad_norm": 1.7543034553527832,
      "learning_rate": 7.691486997110469e-05,
      "loss": 1.6881,
      "step": 27698
    },
    {
      "epoch": 0.6155333333333334,
      "grad_norm": 1.7109777927398682,
      "learning_rate": 7.69104245387864e-05,
      "loss": 1.6384,
      "step": 27699
    },
    {
      "epoch": 0.6155555555555555,
      "grad_norm": 1.8934999704360962,
      "learning_rate": 7.690597910646811e-05,
      "loss": 1.4734,
      "step": 27700
    },
    {
      "epoch": 0.6155777777777778,
      "grad_norm": 1.2288439273834229,
      "learning_rate": 7.690153367414982e-05,
      "loss": 1.3923,
      "step": 27701
    },
    {
      "epoch": 0.6156,
      "grad_norm": 1.6553082466125488,
      "learning_rate": 7.689708824183152e-05,
      "loss": 1.8585,
      "step": 27702
    },
    {
      "epoch": 0.6156222222222222,
      "grad_norm": 1.480249285697937,
      "learning_rate": 7.689264280951323e-05,
      "loss": 2.0241,
      "step": 27703
    },
    {
      "epoch": 0.6156444444444444,
      "grad_norm": 1.4849505424499512,
      "learning_rate": 7.688819737719494e-05,
      "loss": 2.1186,
      "step": 27704
    },
    {
      "epoch": 0.6156666666666667,
      "grad_norm": 1.8371179103851318,
      "learning_rate": 7.688375194487665e-05,
      "loss": 2.0136,
      "step": 27705
    },
    {
      "epoch": 0.6156888888888888,
      "grad_norm": 2.0982840061187744,
      "learning_rate": 7.687930651255834e-05,
      "loss": 2.2286,
      "step": 27706
    },
    {
      "epoch": 0.6157111111111111,
      "grad_norm": 1.4270573854446411,
      "learning_rate": 7.687486108024005e-05,
      "loss": 2.0153,
      "step": 27707
    },
    {
      "epoch": 0.6157333333333334,
      "grad_norm": 1.5784318447113037,
      "learning_rate": 7.687041564792176e-05,
      "loss": 1.8786,
      "step": 27708
    },
    {
      "epoch": 0.6157555555555555,
      "grad_norm": 1.4389392137527466,
      "learning_rate": 7.686597021560347e-05,
      "loss": 1.6763,
      "step": 27709
    },
    {
      "epoch": 0.6157777777777778,
      "grad_norm": 1.6586129665374756,
      "learning_rate": 7.686152478328518e-05,
      "loss": 2.0527,
      "step": 27710
    },
    {
      "epoch": 0.6158,
      "grad_norm": 1.6005334854125977,
      "learning_rate": 7.685707935096689e-05,
      "loss": 2.1591,
      "step": 27711
    },
    {
      "epoch": 0.6158222222222223,
      "grad_norm": 1.971131443977356,
      "learning_rate": 7.68526339186486e-05,
      "loss": 1.7389,
      "step": 27712
    },
    {
      "epoch": 0.6158444444444444,
      "grad_norm": 1.5543437004089355,
      "learning_rate": 7.68481884863303e-05,
      "loss": 1.9799,
      "step": 27713
    },
    {
      "epoch": 0.6158666666666667,
      "grad_norm": 1.8680613040924072,
      "learning_rate": 7.6843743054012e-05,
      "loss": 1.5808,
      "step": 27714
    },
    {
      "epoch": 0.6158888888888889,
      "grad_norm": 1.8699873685836792,
      "learning_rate": 7.683929762169372e-05,
      "loss": 2.1983,
      "step": 27715
    },
    {
      "epoch": 0.6159111111111111,
      "grad_norm": 1.506440281867981,
      "learning_rate": 7.683485218937541e-05,
      "loss": 2.2206,
      "step": 27716
    },
    {
      "epoch": 0.6159333333333333,
      "grad_norm": 1.7313804626464844,
      "learning_rate": 7.683040675705712e-05,
      "loss": 1.9819,
      "step": 27717
    },
    {
      "epoch": 0.6159555555555556,
      "grad_norm": 1.4775224924087524,
      "learning_rate": 7.682596132473883e-05,
      "loss": 2.0975,
      "step": 27718
    },
    {
      "epoch": 0.6159777777777777,
      "grad_norm": 1.656072974205017,
      "learning_rate": 7.682151589242054e-05,
      "loss": 2.4082,
      "step": 27719
    },
    {
      "epoch": 0.616,
      "grad_norm": 1.63306725025177,
      "learning_rate": 7.681707046010225e-05,
      "loss": 1.7959,
      "step": 27720
    },
    {
      "epoch": 0.6160222222222222,
      "grad_norm": 2.13395357131958,
      "learning_rate": 7.681262502778396e-05,
      "loss": 0.0452,
      "step": 27721
    },
    {
      "epoch": 0.6160444444444444,
      "grad_norm": 1.8045676946640015,
      "learning_rate": 7.680817959546567e-05,
      "loss": 2.08,
      "step": 27722
    },
    {
      "epoch": 0.6160666666666667,
      "grad_norm": 1.8881685733795166,
      "learning_rate": 7.680373416314737e-05,
      "loss": 2.011,
      "step": 27723
    },
    {
      "epoch": 0.6160888888888889,
      "grad_norm": 1.9771424531936646,
      "learning_rate": 7.679928873082908e-05,
      "loss": 2.2206,
      "step": 27724
    },
    {
      "epoch": 0.6161111111111112,
      "grad_norm": 1.520660161972046,
      "learning_rate": 7.679484329851079e-05,
      "loss": 2.0039,
      "step": 27725
    },
    {
      "epoch": 0.6161333333333333,
      "grad_norm": 1.7060950994491577,
      "learning_rate": 7.679039786619248e-05,
      "loss": 2.3537,
      "step": 27726
    },
    {
      "epoch": 0.6161555555555556,
      "grad_norm": 2.0422251224517822,
      "learning_rate": 7.67859524338742e-05,
      "loss": 1.8996,
      "step": 27727
    },
    {
      "epoch": 0.6161777777777778,
      "grad_norm": 1.5210211277008057,
      "learning_rate": 7.678150700155591e-05,
      "loss": 1.9079,
      "step": 27728
    },
    {
      "epoch": 0.6162,
      "grad_norm": 1.5915676355361938,
      "learning_rate": 7.677706156923761e-05,
      "loss": 2.0076,
      "step": 27729
    },
    {
      "epoch": 0.6162222222222222,
      "grad_norm": 1.6983424425125122,
      "learning_rate": 7.677261613691932e-05,
      "loss": 2.2466,
      "step": 27730
    },
    {
      "epoch": 0.6162444444444445,
      "grad_norm": 1.7953312397003174,
      "learning_rate": 7.676817070460103e-05,
      "loss": 2.1523,
      "step": 27731
    },
    {
      "epoch": 0.6162666666666666,
      "grad_norm": 1.9210249185562134,
      "learning_rate": 7.676372527228274e-05,
      "loss": 2.0222,
      "step": 27732
    },
    {
      "epoch": 0.6162888888888889,
      "grad_norm": 1.5903412103652954,
      "learning_rate": 7.675927983996443e-05,
      "loss": 1.6526,
      "step": 27733
    },
    {
      "epoch": 0.6163111111111111,
      "grad_norm": 1.300310730934143,
      "learning_rate": 7.675483440764614e-05,
      "loss": 0.0304,
      "step": 27734
    },
    {
      "epoch": 0.6163333333333333,
      "grad_norm": 1.4345909357070923,
      "learning_rate": 7.675038897532785e-05,
      "loss": 1.624,
      "step": 27735
    },
    {
      "epoch": 0.6163555555555555,
      "grad_norm": 1.777416467666626,
      "learning_rate": 7.674594354300956e-05,
      "loss": 1.6793,
      "step": 27736
    },
    {
      "epoch": 0.6163777777777778,
      "grad_norm": 1.7176923751831055,
      "learning_rate": 7.674149811069127e-05,
      "loss": 1.6987,
      "step": 27737
    },
    {
      "epoch": 0.6164,
      "grad_norm": 1.9084837436676025,
      "learning_rate": 7.673705267837298e-05,
      "loss": 1.9548,
      "step": 27738
    },
    {
      "epoch": 0.6164222222222222,
      "grad_norm": 1.5448215007781982,
      "learning_rate": 7.673260724605468e-05,
      "loss": 1.2958,
      "step": 27739
    },
    {
      "epoch": 0.6164444444444445,
      "grad_norm": 1.9638711214065552,
      "learning_rate": 7.672816181373639e-05,
      "loss": 1.3227,
      "step": 27740
    },
    {
      "epoch": 0.6164666666666667,
      "grad_norm": 1.9058576822280884,
      "learning_rate": 7.67237163814181e-05,
      "loss": 1.6331,
      "step": 27741
    },
    {
      "epoch": 0.6164888888888889,
      "grad_norm": 1.6180567741394043,
      "learning_rate": 7.671927094909981e-05,
      "loss": 1.9669,
      "step": 27742
    },
    {
      "epoch": 0.6165111111111111,
      "grad_norm": 1.7356921434402466,
      "learning_rate": 7.67148255167815e-05,
      "loss": 2.1797,
      "step": 27743
    },
    {
      "epoch": 0.6165333333333334,
      "grad_norm": 1.7215243577957153,
      "learning_rate": 7.671038008446321e-05,
      "loss": 1.6665,
      "step": 27744
    },
    {
      "epoch": 0.6165555555555555,
      "grad_norm": 2.344080924987793,
      "learning_rate": 7.670593465214492e-05,
      "loss": 2.1785,
      "step": 27745
    },
    {
      "epoch": 0.6165777777777778,
      "grad_norm": 1.594612956047058,
      "learning_rate": 7.670148921982663e-05,
      "loss": 1.5843,
      "step": 27746
    },
    {
      "epoch": 0.6166,
      "grad_norm": 2.3588497638702393,
      "learning_rate": 7.669704378750834e-05,
      "loss": 1.8844,
      "step": 27747
    },
    {
      "epoch": 0.6166222222222222,
      "grad_norm": 1.6239612102508545,
      "learning_rate": 7.669259835519005e-05,
      "loss": 1.6552,
      "step": 27748
    },
    {
      "epoch": 0.6166444444444444,
      "grad_norm": 1.8449560403823853,
      "learning_rate": 7.668815292287175e-05,
      "loss": 1.7764,
      "step": 27749
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 1.4692752361297607,
      "learning_rate": 7.668370749055346e-05,
      "loss": 1.2563,
      "step": 27750
    },
    {
      "epoch": 0.6166888888888888,
      "grad_norm": 1.3470090627670288,
      "learning_rate": 7.667926205823517e-05,
      "loss": 2.1952,
      "step": 27751
    },
    {
      "epoch": 0.6167111111111111,
      "grad_norm": 1.4804136753082275,
      "learning_rate": 7.667481662591688e-05,
      "loss": 2.3699,
      "step": 27752
    },
    {
      "epoch": 0.6167333333333334,
      "grad_norm": 1.5747419595718384,
      "learning_rate": 7.667037119359857e-05,
      "loss": 2.253,
      "step": 27753
    },
    {
      "epoch": 0.6167555555555555,
      "grad_norm": 1.3297574520111084,
      "learning_rate": 7.666592576128028e-05,
      "loss": 1.1228,
      "step": 27754
    },
    {
      "epoch": 0.6167777777777778,
      "grad_norm": 1.3217922449111938,
      "learning_rate": 7.666148032896199e-05,
      "loss": 1.8382,
      "step": 27755
    },
    {
      "epoch": 0.6168,
      "grad_norm": 1.4520697593688965,
      "learning_rate": 7.66570348966437e-05,
      "loss": 2.1111,
      "step": 27756
    },
    {
      "epoch": 0.6168222222222223,
      "grad_norm": 1.4051185846328735,
      "learning_rate": 7.665258946432541e-05,
      "loss": 1.8979,
      "step": 27757
    },
    {
      "epoch": 0.6168444444444444,
      "grad_norm": 1.55694580078125,
      "learning_rate": 7.664814403200712e-05,
      "loss": 2.0987,
      "step": 27758
    },
    {
      "epoch": 0.6168666666666667,
      "grad_norm": 1.452420711517334,
      "learning_rate": 7.664369859968882e-05,
      "loss": 1.866,
      "step": 27759
    },
    {
      "epoch": 0.6168888888888889,
      "grad_norm": 1.4672553539276123,
      "learning_rate": 7.663925316737053e-05,
      "loss": 1.8999,
      "step": 27760
    },
    {
      "epoch": 0.6169111111111111,
      "grad_norm": 1.9965301752090454,
      "learning_rate": 7.663480773505224e-05,
      "loss": 2.7316,
      "step": 27761
    },
    {
      "epoch": 0.6169333333333333,
      "grad_norm": 1.617195725440979,
      "learning_rate": 7.663036230273395e-05,
      "loss": 2.4018,
      "step": 27762
    },
    {
      "epoch": 0.6169555555555556,
      "grad_norm": 1.7019859552383423,
      "learning_rate": 7.662591687041564e-05,
      "loss": 2.1988,
      "step": 27763
    },
    {
      "epoch": 0.6169777777777777,
      "grad_norm": 1.8571925163269043,
      "learning_rate": 7.662147143809737e-05,
      "loss": 2.2452,
      "step": 27764
    },
    {
      "epoch": 0.617,
      "grad_norm": 1.922149658203125,
      "learning_rate": 7.661702600577907e-05,
      "loss": 2.1675,
      "step": 27765
    },
    {
      "epoch": 0.6170222222222222,
      "grad_norm": 1.533893346786499,
      "learning_rate": 7.661258057346077e-05,
      "loss": 1.4528,
      "step": 27766
    },
    {
      "epoch": 0.6170444444444444,
      "grad_norm": 1.5106412172317505,
      "learning_rate": 7.660813514114248e-05,
      "loss": 1.8997,
      "step": 27767
    },
    {
      "epoch": 0.6170666666666667,
      "grad_norm": 1.6652741432189941,
      "learning_rate": 7.660368970882419e-05,
      "loss": 2.0417,
      "step": 27768
    },
    {
      "epoch": 0.6170888888888889,
      "grad_norm": 1.8946317434310913,
      "learning_rate": 7.65992442765059e-05,
      "loss": 2.3318,
      "step": 27769
    },
    {
      "epoch": 0.6171111111111112,
      "grad_norm": 2.1442677974700928,
      "learning_rate": 7.65947988441876e-05,
      "loss": 1.679,
      "step": 27770
    },
    {
      "epoch": 0.6171333333333333,
      "grad_norm": 1.441885232925415,
      "learning_rate": 7.65903534118693e-05,
      "loss": 1.6786,
      "step": 27771
    },
    {
      "epoch": 0.6171555555555556,
      "grad_norm": 1.5308915376663208,
      "learning_rate": 7.658590797955102e-05,
      "loss": 1.8118,
      "step": 27772
    },
    {
      "epoch": 0.6171777777777778,
      "grad_norm": 2.0713369846343994,
      "learning_rate": 7.658146254723272e-05,
      "loss": 2.2014,
      "step": 27773
    },
    {
      "epoch": 0.6172,
      "grad_norm": 1.5334278345108032,
      "learning_rate": 7.657701711491443e-05,
      "loss": 2.0471,
      "step": 27774
    },
    {
      "epoch": 0.6172222222222222,
      "grad_norm": 1.7738068103790283,
      "learning_rate": 7.657257168259614e-05,
      "loss": 1.888,
      "step": 27775
    },
    {
      "epoch": 0.6172444444444445,
      "grad_norm": 2.077033519744873,
      "learning_rate": 7.656812625027784e-05,
      "loss": 1.7194,
      "step": 27776
    },
    {
      "epoch": 0.6172666666666666,
      "grad_norm": 1.8221032619476318,
      "learning_rate": 7.656368081795955e-05,
      "loss": 1.9039,
      "step": 27777
    },
    {
      "epoch": 0.6172888888888889,
      "grad_norm": 1.6100168228149414,
      "learning_rate": 7.655923538564126e-05,
      "loss": 1.8672,
      "step": 27778
    },
    {
      "epoch": 0.6173111111111111,
      "grad_norm": 2.5112087726593018,
      "learning_rate": 7.655478995332297e-05,
      "loss": 2.4041,
      "step": 27779
    },
    {
      "epoch": 0.6173333333333333,
      "grad_norm": 1.9133623838424683,
      "learning_rate": 7.655034452100467e-05,
      "loss": 1.8831,
      "step": 27780
    },
    {
      "epoch": 0.6173555555555555,
      "grad_norm": 1.3843563795089722,
      "learning_rate": 7.654589908868637e-05,
      "loss": 1.1407,
      "step": 27781
    },
    {
      "epoch": 0.6173777777777778,
      "grad_norm": 1.566394567489624,
      "learning_rate": 7.654145365636808e-05,
      "loss": 1.4861,
      "step": 27782
    },
    {
      "epoch": 0.6174,
      "grad_norm": 1.7080655097961426,
      "learning_rate": 7.65370082240498e-05,
      "loss": 1.7517,
      "step": 27783
    },
    {
      "epoch": 0.6174222222222222,
      "grad_norm": 1.7616134881973267,
      "learning_rate": 7.65325627917315e-05,
      "loss": 1.8535,
      "step": 27784
    },
    {
      "epoch": 0.6174444444444445,
      "grad_norm": 1.7613402605056763,
      "learning_rate": 7.652811735941321e-05,
      "loss": 1.4388,
      "step": 27785
    },
    {
      "epoch": 0.6174666666666667,
      "grad_norm": 1.4484586715698242,
      "learning_rate": 7.652367192709491e-05,
      "loss": 1.7956,
      "step": 27786
    },
    {
      "epoch": 0.6174888888888889,
      "grad_norm": 1.606410264968872,
      "learning_rate": 7.651922649477662e-05,
      "loss": 1.9883,
      "step": 27787
    },
    {
      "epoch": 0.6175111111111111,
      "grad_norm": 2.0317225456237793,
      "learning_rate": 7.651478106245833e-05,
      "loss": 1.5763,
      "step": 27788
    },
    {
      "epoch": 0.6175333333333334,
      "grad_norm": 1.7747282981872559,
      "learning_rate": 7.651033563014004e-05,
      "loss": 1.9427,
      "step": 27789
    },
    {
      "epoch": 0.6175555555555555,
      "grad_norm": 1.4215421676635742,
      "learning_rate": 7.650589019782173e-05,
      "loss": 1.4721,
      "step": 27790
    },
    {
      "epoch": 0.6175777777777778,
      "grad_norm": 1.934670090675354,
      "learning_rate": 7.650144476550344e-05,
      "loss": 1.6565,
      "step": 27791
    },
    {
      "epoch": 0.6176,
      "grad_norm": 2.0426065921783447,
      "learning_rate": 7.649699933318515e-05,
      "loss": 1.6775,
      "step": 27792
    },
    {
      "epoch": 0.6176222222222222,
      "grad_norm": 1.7949936389923096,
      "learning_rate": 7.649255390086686e-05,
      "loss": 1.7326,
      "step": 27793
    },
    {
      "epoch": 0.6176444444444444,
      "grad_norm": 1.9961637258529663,
      "learning_rate": 7.648810846854857e-05,
      "loss": 1.7102,
      "step": 27794
    },
    {
      "epoch": 0.6176666666666667,
      "grad_norm": 1.7532471418380737,
      "learning_rate": 7.648366303623028e-05,
      "loss": 1.7731,
      "step": 27795
    },
    {
      "epoch": 0.6176888888888888,
      "grad_norm": 2.2291626930236816,
      "learning_rate": 7.647921760391198e-05,
      "loss": 2.2091,
      "step": 27796
    },
    {
      "epoch": 0.6177111111111111,
      "grad_norm": 2.012691020965576,
      "learning_rate": 7.647477217159369e-05,
      "loss": 1.9455,
      "step": 27797
    },
    {
      "epoch": 0.6177333333333334,
      "grad_norm": 1.7636815309524536,
      "learning_rate": 7.64703267392754e-05,
      "loss": 1.5035,
      "step": 27798
    },
    {
      "epoch": 0.6177555555555555,
      "grad_norm": 1.8447431325912476,
      "learning_rate": 7.646588130695711e-05,
      "loss": 1.3523,
      "step": 27799
    },
    {
      "epoch": 0.6177777777777778,
      "grad_norm": 1.5177545547485352,
      "learning_rate": 7.64614358746388e-05,
      "loss": 1.147,
      "step": 27800
    },
    {
      "epoch": 0.6178,
      "grad_norm": 1.4865962266921997,
      "learning_rate": 7.645699044232053e-05,
      "loss": 2.593,
      "step": 27801
    },
    {
      "epoch": 0.6178222222222223,
      "grad_norm": 1.5389937162399292,
      "learning_rate": 7.645254501000224e-05,
      "loss": 2.2661,
      "step": 27802
    },
    {
      "epoch": 0.6178444444444444,
      "grad_norm": 1.3967429399490356,
      "learning_rate": 7.644809957768393e-05,
      "loss": 2.368,
      "step": 27803
    },
    {
      "epoch": 0.6178666666666667,
      "grad_norm": 1.512739896774292,
      "learning_rate": 7.644365414536564e-05,
      "loss": 2.3682,
      "step": 27804
    },
    {
      "epoch": 0.6178888888888889,
      "grad_norm": 1.7297879457473755,
      "learning_rate": 7.643920871304735e-05,
      "loss": 2.2775,
      "step": 27805
    },
    {
      "epoch": 0.6179111111111111,
      "grad_norm": 1.5569535493850708,
      "learning_rate": 7.643476328072905e-05,
      "loss": 1.8969,
      "step": 27806
    },
    {
      "epoch": 0.6179333333333333,
      "grad_norm": 2.3133952617645264,
      "learning_rate": 7.643031784841076e-05,
      "loss": 2.1335,
      "step": 27807
    },
    {
      "epoch": 0.6179555555555556,
      "grad_norm": 1.477544903755188,
      "learning_rate": 7.642587241609247e-05,
      "loss": 1.9267,
      "step": 27808
    },
    {
      "epoch": 0.6179777777777777,
      "grad_norm": 1.5673898458480835,
      "learning_rate": 7.642142698377418e-05,
      "loss": 2.1177,
      "step": 27809
    },
    {
      "epoch": 0.618,
      "grad_norm": 1.7615025043487549,
      "learning_rate": 7.641698155145589e-05,
      "loss": 2.2152,
      "step": 27810
    },
    {
      "epoch": 0.6180222222222223,
      "grad_norm": 2.3260927200317383,
      "learning_rate": 7.64125361191376e-05,
      "loss": 2.2751,
      "step": 27811
    },
    {
      "epoch": 0.6180444444444444,
      "grad_norm": 1.756048321723938,
      "learning_rate": 7.64080906868193e-05,
      "loss": 2.406,
      "step": 27812
    },
    {
      "epoch": 0.6180666666666667,
      "grad_norm": 2.2361507415771484,
      "learning_rate": 7.6403645254501e-05,
      "loss": 1.9301,
      "step": 27813
    },
    {
      "epoch": 0.6180888888888889,
      "grad_norm": 1.5776044130325317,
      "learning_rate": 7.639919982218271e-05,
      "loss": 2.2465,
      "step": 27814
    },
    {
      "epoch": 0.6181111111111111,
      "grad_norm": 1.456405520439148,
      "learning_rate": 7.639475438986442e-05,
      "loss": 2.1656,
      "step": 27815
    },
    {
      "epoch": 0.6181333333333333,
      "grad_norm": 1.5151910781860352,
      "learning_rate": 7.639030895754612e-05,
      "loss": 1.9655,
      "step": 27816
    },
    {
      "epoch": 0.6181555555555556,
      "grad_norm": 1.819975733757019,
      "learning_rate": 7.638586352522783e-05,
      "loss": 1.7451,
      "step": 27817
    },
    {
      "epoch": 0.6181777777777778,
      "grad_norm": 1.6116926670074463,
      "learning_rate": 7.638141809290954e-05,
      "loss": 1.9346,
      "step": 27818
    },
    {
      "epoch": 0.6182,
      "grad_norm": 1.3958470821380615,
      "learning_rate": 7.637697266059125e-05,
      "loss": 1.57,
      "step": 27819
    },
    {
      "epoch": 0.6182222222222222,
      "grad_norm": 1.6095985174179077,
      "learning_rate": 7.637252722827295e-05,
      "loss": 2.1294,
      "step": 27820
    },
    {
      "epoch": 0.6182444444444445,
      "grad_norm": 1.5986542701721191,
      "learning_rate": 7.636808179595466e-05,
      "loss": 2.2341,
      "step": 27821
    },
    {
      "epoch": 0.6182666666666666,
      "grad_norm": 1.6214473247528076,
      "learning_rate": 7.636363636363637e-05,
      "loss": 2.133,
      "step": 27822
    },
    {
      "epoch": 0.6182888888888889,
      "grad_norm": 1.593881368637085,
      "learning_rate": 7.635919093131807e-05,
      "loss": 1.7351,
      "step": 27823
    },
    {
      "epoch": 0.6183111111111111,
      "grad_norm": 1.630756139755249,
      "learning_rate": 7.635474549899978e-05,
      "loss": 1.7785,
      "step": 27824
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 1.658084750175476,
      "learning_rate": 7.635030006668149e-05,
      "loss": 1.5986,
      "step": 27825
    },
    {
      "epoch": 0.6183555555555555,
      "grad_norm": 1.6406036615371704,
      "learning_rate": 7.63458546343632e-05,
      "loss": 1.8687,
      "step": 27826
    },
    {
      "epoch": 0.6183777777777778,
      "grad_norm": 1.6786532402038574,
      "learning_rate": 7.63414092020449e-05,
      "loss": 1.6849,
      "step": 27827
    },
    {
      "epoch": 0.6184,
      "grad_norm": 1.719092607498169,
      "learning_rate": 7.63369637697266e-05,
      "loss": 1.7264,
      "step": 27828
    },
    {
      "epoch": 0.6184222222222222,
      "grad_norm": 1.5456290245056152,
      "learning_rate": 7.633251833740831e-05,
      "loss": 1.8574,
      "step": 27829
    },
    {
      "epoch": 0.6184444444444445,
      "grad_norm": 1.4805980920791626,
      "learning_rate": 7.632807290509002e-05,
      "loss": 1.6378,
      "step": 27830
    },
    {
      "epoch": 0.6184666666666667,
      "grad_norm": 1.7630740404129028,
      "learning_rate": 7.632362747277173e-05,
      "loss": 1.7688,
      "step": 27831
    },
    {
      "epoch": 0.6184888888888889,
      "grad_norm": 1.7586926221847534,
      "learning_rate": 7.631918204045344e-05,
      "loss": 2.1503,
      "step": 27832
    },
    {
      "epoch": 0.6185111111111111,
      "grad_norm": 1.1839295625686646,
      "learning_rate": 7.631473660813514e-05,
      "loss": 0.9218,
      "step": 27833
    },
    {
      "epoch": 0.6185333333333334,
      "grad_norm": 1.8422901630401611,
      "learning_rate": 7.631029117581685e-05,
      "loss": 2.0849,
      "step": 27834
    },
    {
      "epoch": 0.6185555555555555,
      "grad_norm": 2.327899217605591,
      "learning_rate": 7.630584574349856e-05,
      "loss": 2.2619,
      "step": 27835
    },
    {
      "epoch": 0.6185777777777778,
      "grad_norm": 1.7383606433868408,
      "learning_rate": 7.630140031118027e-05,
      "loss": 1.9783,
      "step": 27836
    },
    {
      "epoch": 0.6186,
      "grad_norm": 1.705854892730713,
      "learning_rate": 7.629695487886196e-05,
      "loss": 1.8867,
      "step": 27837
    },
    {
      "epoch": 0.6186222222222222,
      "grad_norm": 1.2072322368621826,
      "learning_rate": 7.629250944654369e-05,
      "loss": 1.3474,
      "step": 27838
    },
    {
      "epoch": 0.6186444444444444,
      "grad_norm": 1.545650601387024,
      "learning_rate": 7.62880640142254e-05,
      "loss": 1.4679,
      "step": 27839
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 1.7425636053085327,
      "learning_rate": 7.628361858190709e-05,
      "loss": 2.004,
      "step": 27840
    },
    {
      "epoch": 0.6186888888888888,
      "grad_norm": 1.946216344833374,
      "learning_rate": 7.62791731495888e-05,
      "loss": 1.6654,
      "step": 27841
    },
    {
      "epoch": 0.6187111111111111,
      "grad_norm": 1.860919713973999,
      "learning_rate": 7.627472771727051e-05,
      "loss": 1.8677,
      "step": 27842
    },
    {
      "epoch": 0.6187333333333334,
      "grad_norm": 1.6177150011062622,
      "learning_rate": 7.627028228495221e-05,
      "loss": 1.694,
      "step": 27843
    },
    {
      "epoch": 0.6187555555555555,
      "grad_norm": 1.7288682460784912,
      "learning_rate": 7.626583685263392e-05,
      "loss": 1.6698,
      "step": 27844
    },
    {
      "epoch": 0.6187777777777778,
      "grad_norm": 2.123058795928955,
      "learning_rate": 7.626139142031563e-05,
      "loss": 1.6972,
      "step": 27845
    },
    {
      "epoch": 0.6188,
      "grad_norm": 1.999112844467163,
      "learning_rate": 7.625694598799734e-05,
      "loss": 1.6694,
      "step": 27846
    },
    {
      "epoch": 0.6188222222222223,
      "grad_norm": 1.8956773281097412,
      "learning_rate": 7.625250055567905e-05,
      "loss": 1.946,
      "step": 27847
    },
    {
      "epoch": 0.6188444444444444,
      "grad_norm": 2.0588977336883545,
      "learning_rate": 7.624805512336076e-05,
      "loss": 1.6527,
      "step": 27848
    },
    {
      "epoch": 0.6188666666666667,
      "grad_norm": 1.6914948225021362,
      "learning_rate": 7.624360969104247e-05,
      "loss": 1.3385,
      "step": 27849
    },
    {
      "epoch": 0.6188888888888889,
      "grad_norm": 1.8900210857391357,
      "learning_rate": 7.623916425872416e-05,
      "loss": 1.3768,
      "step": 27850
    },
    {
      "epoch": 0.6189111111111111,
      "grad_norm": 1.0682233572006226,
      "learning_rate": 7.623471882640587e-05,
      "loss": 1.192,
      "step": 27851
    },
    {
      "epoch": 0.6189333333333333,
      "grad_norm": 1.622100591659546,
      "learning_rate": 7.623027339408758e-05,
      "loss": 2.828,
      "step": 27852
    },
    {
      "epoch": 0.6189555555555556,
      "grad_norm": 1.6287745237350464,
      "learning_rate": 7.622582796176928e-05,
      "loss": 2.5527,
      "step": 27853
    },
    {
      "epoch": 0.6189777777777777,
      "grad_norm": 1.8082754611968994,
      "learning_rate": 7.622138252945099e-05,
      "loss": 2.5409,
      "step": 27854
    },
    {
      "epoch": 0.619,
      "grad_norm": 1.6269252300262451,
      "learning_rate": 7.62169370971327e-05,
      "loss": 2.1211,
      "step": 27855
    },
    {
      "epoch": 0.6190222222222223,
      "grad_norm": 1.4222098588943481,
      "learning_rate": 7.62124916648144e-05,
      "loss": 2.0527,
      "step": 27856
    },
    {
      "epoch": 0.6190444444444444,
      "grad_norm": 1.8875646591186523,
      "learning_rate": 7.620804623249612e-05,
      "loss": 2.3583,
      "step": 27857
    },
    {
      "epoch": 0.6190666666666667,
      "grad_norm": 1.4680495262145996,
      "learning_rate": 7.620360080017783e-05,
      "loss": 2.3106,
      "step": 27858
    },
    {
      "epoch": 0.6190888888888889,
      "grad_norm": 1.6367533206939697,
      "learning_rate": 7.619915536785954e-05,
      "loss": 2.1393,
      "step": 27859
    },
    {
      "epoch": 0.6191111111111111,
      "grad_norm": 1.9394482374191284,
      "learning_rate": 7.619470993554123e-05,
      "loss": 1.9793,
      "step": 27860
    },
    {
      "epoch": 0.6191333333333333,
      "grad_norm": 1.4326545000076294,
      "learning_rate": 7.619026450322294e-05,
      "loss": 2.1417,
      "step": 27861
    },
    {
      "epoch": 0.6191555555555556,
      "grad_norm": 1.5940648317337036,
      "learning_rate": 7.618581907090465e-05,
      "loss": 2.3789,
      "step": 27862
    },
    {
      "epoch": 0.6191777777777778,
      "grad_norm": 1.5996965169906616,
      "learning_rate": 7.618137363858635e-05,
      "loss": 1.6626,
      "step": 27863
    },
    {
      "epoch": 0.6192,
      "grad_norm": 1.4322491884231567,
      "learning_rate": 7.617692820626806e-05,
      "loss": 2.0181,
      "step": 27864
    },
    {
      "epoch": 0.6192222222222222,
      "grad_norm": 1.4913889169692993,
      "learning_rate": 7.617248277394977e-05,
      "loss": 2.2868,
      "step": 27865
    },
    {
      "epoch": 0.6192444444444445,
      "grad_norm": 1.576112151145935,
      "learning_rate": 7.616803734163148e-05,
      "loss": 2.0001,
      "step": 27866
    },
    {
      "epoch": 0.6192666666666666,
      "grad_norm": 2.043811082839966,
      "learning_rate": 7.616359190931319e-05,
      "loss": 2.1336,
      "step": 27867
    },
    {
      "epoch": 0.6192888888888889,
      "grad_norm": 1.5992106199264526,
      "learning_rate": 7.61591464769949e-05,
      "loss": 1.9645,
      "step": 27868
    },
    {
      "epoch": 0.6193111111111111,
      "grad_norm": 1.496248483657837,
      "learning_rate": 7.61547010446766e-05,
      "loss": 1.5838,
      "step": 27869
    },
    {
      "epoch": 0.6193333333333333,
      "grad_norm": 2.008216381072998,
      "learning_rate": 7.61502556123583e-05,
      "loss": 2.4949,
      "step": 27870
    },
    {
      "epoch": 0.6193555555555555,
      "grad_norm": 1.7011308670043945,
      "learning_rate": 7.614581018004001e-05,
      "loss": 2.3068,
      "step": 27871
    },
    {
      "epoch": 0.6193777777777778,
      "grad_norm": 1.6385869979858398,
      "learning_rate": 7.614136474772172e-05,
      "loss": 1.1203,
      "step": 27872
    },
    {
      "epoch": 0.6194,
      "grad_norm": 1.4843419790267944,
      "learning_rate": 7.613691931540343e-05,
      "loss": 1.6449,
      "step": 27873
    },
    {
      "epoch": 0.6194222222222222,
      "grad_norm": 1.7454240322113037,
      "learning_rate": 7.613247388308513e-05,
      "loss": 1.6117,
      "step": 27874
    },
    {
      "epoch": 0.6194444444444445,
      "grad_norm": 2.1531989574432373,
      "learning_rate": 7.612802845076685e-05,
      "loss": 2.2732,
      "step": 27875
    },
    {
      "epoch": 0.6194666666666667,
      "grad_norm": 1.6188414096832275,
      "learning_rate": 7.612358301844856e-05,
      "loss": 1.614,
      "step": 27876
    },
    {
      "epoch": 0.6194888888888889,
      "grad_norm": 1.970890760421753,
      "learning_rate": 7.611913758613025e-05,
      "loss": 2.3413,
      "step": 27877
    },
    {
      "epoch": 0.6195111111111111,
      "grad_norm": 1.5219156742095947,
      "learning_rate": 7.611469215381196e-05,
      "loss": 1.6374,
      "step": 27878
    },
    {
      "epoch": 0.6195333333333334,
      "grad_norm": 1.6971971988677979,
      "learning_rate": 7.611024672149367e-05,
      "loss": 1.5241,
      "step": 27879
    },
    {
      "epoch": 0.6195555555555555,
      "grad_norm": 1.7241084575653076,
      "learning_rate": 7.610580128917537e-05,
      "loss": 2.0711,
      "step": 27880
    },
    {
      "epoch": 0.6195777777777778,
      "grad_norm": 1.8422069549560547,
      "learning_rate": 7.610135585685708e-05,
      "loss": 2.0101,
      "step": 27881
    },
    {
      "epoch": 0.6196,
      "grad_norm": 1.7453213930130005,
      "learning_rate": 7.609691042453879e-05,
      "loss": 1.7256,
      "step": 27882
    },
    {
      "epoch": 0.6196222222222222,
      "grad_norm": 1.6272207498550415,
      "learning_rate": 7.60924649922205e-05,
      "loss": 1.8167,
      "step": 27883
    },
    {
      "epoch": 0.6196444444444444,
      "grad_norm": 2.016037940979004,
      "learning_rate": 7.608801955990221e-05,
      "loss": 1.7058,
      "step": 27884
    },
    {
      "epoch": 0.6196666666666667,
      "grad_norm": 2.0873775482177734,
      "learning_rate": 7.608357412758392e-05,
      "loss": 1.9221,
      "step": 27885
    },
    {
      "epoch": 0.6196888888888888,
      "grad_norm": 1.8145103454589844,
      "learning_rate": 7.607912869526563e-05,
      "loss": 1.9094,
      "step": 27886
    },
    {
      "epoch": 0.6197111111111111,
      "grad_norm": 2.046666145324707,
      "learning_rate": 7.607468326294732e-05,
      "loss": 2.0466,
      "step": 27887
    },
    {
      "epoch": 0.6197333333333334,
      "grad_norm": 1.5662391185760498,
      "learning_rate": 7.607023783062903e-05,
      "loss": 2.0985,
      "step": 27888
    },
    {
      "epoch": 0.6197555555555555,
      "grad_norm": 1.8663203716278076,
      "learning_rate": 7.606579239831074e-05,
      "loss": 1.8951,
      "step": 27889
    },
    {
      "epoch": 0.6197777777777778,
      "grad_norm": 1.8117085695266724,
      "learning_rate": 7.606134696599244e-05,
      "loss": 1.6704,
      "step": 27890
    },
    {
      "epoch": 0.6198,
      "grad_norm": 1.5927486419677734,
      "learning_rate": 7.605690153367415e-05,
      "loss": 1.6549,
      "step": 27891
    },
    {
      "epoch": 0.6198222222222223,
      "grad_norm": 1.8937994241714478,
      "learning_rate": 7.605245610135586e-05,
      "loss": 2.0085,
      "step": 27892
    },
    {
      "epoch": 0.6198444444444444,
      "grad_norm": 1.9662067890167236,
      "learning_rate": 7.604801066903757e-05,
      "loss": 2.1213,
      "step": 27893
    },
    {
      "epoch": 0.6198666666666667,
      "grad_norm": 2.182756185531616,
      "learning_rate": 7.604356523671928e-05,
      "loss": 1.8149,
      "step": 27894
    },
    {
      "epoch": 0.6198888888888889,
      "grad_norm": 1.598151683807373,
      "learning_rate": 7.603911980440099e-05,
      "loss": 1.779,
      "step": 27895
    },
    {
      "epoch": 0.6199111111111111,
      "grad_norm": 1.8498104810714722,
      "learning_rate": 7.60346743720827e-05,
      "loss": 1.5005,
      "step": 27896
    },
    {
      "epoch": 0.6199333333333333,
      "grad_norm": 1.8257795572280884,
      "learning_rate": 7.603022893976439e-05,
      "loss": 1.6445,
      "step": 27897
    },
    {
      "epoch": 0.6199555555555556,
      "grad_norm": 1.6474151611328125,
      "learning_rate": 7.60257835074461e-05,
      "loss": 1.7728,
      "step": 27898
    },
    {
      "epoch": 0.6199777777777777,
      "grad_norm": 1.864945888519287,
      "learning_rate": 7.602133807512781e-05,
      "loss": 1.8965,
      "step": 27899
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7285076379776,
      "learning_rate": 7.601689264280951e-05,
      "loss": 1.7502,
      "step": 27900
    },
    {
      "epoch": 0.6200222222222223,
      "grad_norm": 1.3599979877471924,
      "learning_rate": 7.601244721049122e-05,
      "loss": 2.4592,
      "step": 27901
    },
    {
      "epoch": 0.6200444444444444,
      "grad_norm": 1.5312752723693848,
      "learning_rate": 7.600800177817293e-05,
      "loss": 2.6304,
      "step": 27902
    },
    {
      "epoch": 0.6200666666666667,
      "grad_norm": 1.5203238725662231,
      "learning_rate": 7.600355634585464e-05,
      "loss": 2.3161,
      "step": 27903
    },
    {
      "epoch": 0.6200888888888889,
      "grad_norm": 1.6090893745422363,
      "learning_rate": 7.599911091353635e-05,
      "loss": 2.5759,
      "step": 27904
    },
    {
      "epoch": 0.6201111111111111,
      "grad_norm": 1.3716859817504883,
      "learning_rate": 7.599466548121806e-05,
      "loss": 2.0005,
      "step": 27905
    },
    {
      "epoch": 0.6201333333333333,
      "grad_norm": 1.4314205646514893,
      "learning_rate": 7.599022004889977e-05,
      "loss": 1.8578,
      "step": 27906
    },
    {
      "epoch": 0.6201555555555556,
      "grad_norm": 1.3883862495422363,
      "learning_rate": 7.598577461658146e-05,
      "loss": 1.7013,
      "step": 27907
    },
    {
      "epoch": 0.6201777777777778,
      "grad_norm": 1.5877196788787842,
      "learning_rate": 7.598132918426317e-05,
      "loss": 1.9532,
      "step": 27908
    },
    {
      "epoch": 0.6202,
      "grad_norm": 1.5918232202529907,
      "learning_rate": 7.597688375194488e-05,
      "loss": 1.0095,
      "step": 27909
    },
    {
      "epoch": 0.6202222222222222,
      "grad_norm": 1.5913398265838623,
      "learning_rate": 7.597243831962658e-05,
      "loss": 2.2015,
      "step": 27910
    },
    {
      "epoch": 0.6202444444444445,
      "grad_norm": 1.7465524673461914,
      "learning_rate": 7.596799288730829e-05,
      "loss": 2.2779,
      "step": 27911
    },
    {
      "epoch": 0.6202666666666666,
      "grad_norm": 1.722979187965393,
      "learning_rate": 7.596354745499001e-05,
      "loss": 2.114,
      "step": 27912
    },
    {
      "epoch": 0.6202888888888889,
      "grad_norm": 1.6596341133117676,
      "learning_rate": 7.595910202267172e-05,
      "loss": 2.0469,
      "step": 27913
    },
    {
      "epoch": 0.6203111111111111,
      "grad_norm": 1.748468041419983,
      "learning_rate": 7.595465659035342e-05,
      "loss": 1.9282,
      "step": 27914
    },
    {
      "epoch": 0.6203333333333333,
      "grad_norm": 1.206313967704773,
      "learning_rate": 7.595021115803512e-05,
      "loss": 1.0193,
      "step": 27915
    },
    {
      "epoch": 0.6203555555555555,
      "grad_norm": 2.0730957984924316,
      "learning_rate": 7.594576572571683e-05,
      "loss": 1.5116,
      "step": 27916
    },
    {
      "epoch": 0.6203777777777778,
      "grad_norm": 1.7398715019226074,
      "learning_rate": 7.594132029339853e-05,
      "loss": 1.719,
      "step": 27917
    },
    {
      "epoch": 0.6204,
      "grad_norm": 1.5374395847320557,
      "learning_rate": 7.593687486108024e-05,
      "loss": 1.5994,
      "step": 27918
    },
    {
      "epoch": 0.6204222222222222,
      "grad_norm": 1.6957192420959473,
      "learning_rate": 7.593242942876195e-05,
      "loss": 2.3119,
      "step": 27919
    },
    {
      "epoch": 0.6204444444444445,
      "grad_norm": 1.5393242835998535,
      "learning_rate": 7.592798399644365e-05,
      "loss": 2.1632,
      "step": 27920
    },
    {
      "epoch": 0.6204666666666667,
      "grad_norm": 1.851560354232788,
      "learning_rate": 7.592353856412537e-05,
      "loss": 1.865,
      "step": 27921
    },
    {
      "epoch": 0.6204888888888889,
      "grad_norm": 1.640065312385559,
      "learning_rate": 7.591909313180708e-05,
      "loss": 1.5166,
      "step": 27922
    },
    {
      "epoch": 0.6205111111111111,
      "grad_norm": 1.5717978477478027,
      "learning_rate": 7.591464769948879e-05,
      "loss": 1.854,
      "step": 27923
    },
    {
      "epoch": 0.6205333333333334,
      "grad_norm": 1.7012500762939453,
      "learning_rate": 7.591020226717048e-05,
      "loss": 1.856,
      "step": 27924
    },
    {
      "epoch": 0.6205555555555555,
      "grad_norm": 2.284024477005005,
      "learning_rate": 7.59057568348522e-05,
      "loss": 1.8496,
      "step": 27925
    },
    {
      "epoch": 0.6205777777777778,
      "grad_norm": 1.928219199180603,
      "learning_rate": 7.59013114025339e-05,
      "loss": 1.7534,
      "step": 27926
    },
    {
      "epoch": 0.6206,
      "grad_norm": 1.737140417098999,
      "learning_rate": 7.58968659702156e-05,
      "loss": 1.5632,
      "step": 27927
    },
    {
      "epoch": 0.6206222222222222,
      "grad_norm": 1.9052971601486206,
      "learning_rate": 7.589242053789731e-05,
      "loss": 2.1908,
      "step": 27928
    },
    {
      "epoch": 0.6206444444444444,
      "grad_norm": 1.4619766473770142,
      "learning_rate": 7.588797510557902e-05,
      "loss": 1.838,
      "step": 27929
    },
    {
      "epoch": 0.6206666666666667,
      "grad_norm": 1.62483811378479,
      "learning_rate": 7.588352967326073e-05,
      "loss": 1.7586,
      "step": 27930
    },
    {
      "epoch": 0.6206888888888888,
      "grad_norm": 1.580270767211914,
      "learning_rate": 7.587908424094244e-05,
      "loss": 1.9294,
      "step": 27931
    },
    {
      "epoch": 0.6207111111111111,
      "grad_norm": 1.4798740148544312,
      "learning_rate": 7.587463880862415e-05,
      "loss": 1.0451,
      "step": 27932
    },
    {
      "epoch": 0.6207333333333334,
      "grad_norm": 1.5176098346710205,
      "learning_rate": 7.587019337630586e-05,
      "loss": 1.2598,
      "step": 27933
    },
    {
      "epoch": 0.6207555555555555,
      "grad_norm": 1.3974021673202515,
      "learning_rate": 7.586574794398755e-05,
      "loss": 1.5877,
      "step": 27934
    },
    {
      "epoch": 0.6207777777777778,
      "grad_norm": 1.6418516635894775,
      "learning_rate": 7.586130251166926e-05,
      "loss": 1.785,
      "step": 27935
    },
    {
      "epoch": 0.6208,
      "grad_norm": 1.3830448389053345,
      "learning_rate": 7.585685707935097e-05,
      "loss": 1.246,
      "step": 27936
    },
    {
      "epoch": 0.6208222222222223,
      "grad_norm": 1.5359796285629272,
      "learning_rate": 7.585241164703267e-05,
      "loss": 1.7877,
      "step": 27937
    },
    {
      "epoch": 0.6208444444444444,
      "grad_norm": 2.0273587703704834,
      "learning_rate": 7.584796621471438e-05,
      "loss": 2.0674,
      "step": 27938
    },
    {
      "epoch": 0.6208666666666667,
      "grad_norm": 1.653097152709961,
      "learning_rate": 7.584352078239609e-05,
      "loss": 2.0481,
      "step": 27939
    },
    {
      "epoch": 0.6208888888888889,
      "grad_norm": 1.8791024684906006,
      "learning_rate": 7.58390753500778e-05,
      "loss": 1.8427,
      "step": 27940
    },
    {
      "epoch": 0.6209111111111111,
      "grad_norm": 1.7230693101882935,
      "learning_rate": 7.583462991775951e-05,
      "loss": 1.6818,
      "step": 27941
    },
    {
      "epoch": 0.6209333333333333,
      "grad_norm": 1.7749496698379517,
      "learning_rate": 7.583018448544122e-05,
      "loss": 1.9271,
      "step": 27942
    },
    {
      "epoch": 0.6209555555555556,
      "grad_norm": 1.8635108470916748,
      "learning_rate": 7.582573905312293e-05,
      "loss": 1.7799,
      "step": 27943
    },
    {
      "epoch": 0.6209777777777777,
      "grad_norm": 2.007655620574951,
      "learning_rate": 7.582129362080462e-05,
      "loss": 1.8257,
      "step": 27944
    },
    {
      "epoch": 0.621,
      "grad_norm": 1.7758183479309082,
      "learning_rate": 7.581684818848633e-05,
      "loss": 2.0091,
      "step": 27945
    },
    {
      "epoch": 0.6210222222222223,
      "grad_norm": 2.0555312633514404,
      "learning_rate": 7.581240275616804e-05,
      "loss": 2.1853,
      "step": 27946
    },
    {
      "epoch": 0.6210444444444444,
      "grad_norm": 1.8315494060516357,
      "learning_rate": 7.580795732384974e-05,
      "loss": 1.8743,
      "step": 27947
    },
    {
      "epoch": 0.6210666666666667,
      "grad_norm": 1.6850496530532837,
      "learning_rate": 7.580351189153145e-05,
      "loss": 1.6656,
      "step": 27948
    },
    {
      "epoch": 0.6210888888888889,
      "grad_norm": 1.6388370990753174,
      "learning_rate": 7.579906645921317e-05,
      "loss": 1.2549,
      "step": 27949
    },
    {
      "epoch": 0.6211111111111111,
      "grad_norm": 1.9473472833633423,
      "learning_rate": 7.579462102689488e-05,
      "loss": 1.1684,
      "step": 27950
    },
    {
      "epoch": 0.6211333333333333,
      "grad_norm": 1.6398197412490845,
      "learning_rate": 7.579017559457658e-05,
      "loss": 2.7279,
      "step": 27951
    },
    {
      "epoch": 0.6211555555555556,
      "grad_norm": 1.6046913862228394,
      "learning_rate": 7.578573016225829e-05,
      "loss": 2.8082,
      "step": 27952
    },
    {
      "epoch": 0.6211777777777778,
      "grad_norm": 1.714526891708374,
      "learning_rate": 7.578128472994e-05,
      "loss": 3.4,
      "step": 27953
    },
    {
      "epoch": 0.6212,
      "grad_norm": 1.4914047718048096,
      "learning_rate": 7.577683929762169e-05,
      "loss": 1.0971,
      "step": 27954
    },
    {
      "epoch": 0.6212222222222222,
      "grad_norm": 1.3853058815002441,
      "learning_rate": 7.57723938653034e-05,
      "loss": 1.858,
      "step": 27955
    },
    {
      "epoch": 0.6212444444444445,
      "grad_norm": 1.5049077272415161,
      "learning_rate": 7.576794843298511e-05,
      "loss": 2.2232,
      "step": 27956
    },
    {
      "epoch": 0.6212666666666666,
      "grad_norm": 1.389599323272705,
      "learning_rate": 7.576350300066681e-05,
      "loss": 2.0723,
      "step": 27957
    },
    {
      "epoch": 0.6212888888888889,
      "grad_norm": 1.340166449546814,
      "learning_rate": 7.575905756834853e-05,
      "loss": 1.3373,
      "step": 27958
    },
    {
      "epoch": 0.6213111111111111,
      "grad_norm": 1.8471781015396118,
      "learning_rate": 7.575461213603024e-05,
      "loss": 2.4835,
      "step": 27959
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 1.6483877897262573,
      "learning_rate": 7.575016670371195e-05,
      "loss": 2.3488,
      "step": 27960
    },
    {
      "epoch": 0.6213555555555555,
      "grad_norm": 1.5012586116790771,
      "learning_rate": 7.574572127139365e-05,
      "loss": 1.88,
      "step": 27961
    },
    {
      "epoch": 0.6213777777777778,
      "grad_norm": 1.6846944093704224,
      "learning_rate": 7.574127583907535e-05,
      "loss": 1.9666,
      "step": 27962
    },
    {
      "epoch": 0.6214,
      "grad_norm": 1.699049711227417,
      "learning_rate": 7.573683040675706e-05,
      "loss": 2.4547,
      "step": 27963
    },
    {
      "epoch": 0.6214222222222222,
      "grad_norm": 1.53487229347229,
      "learning_rate": 7.573238497443876e-05,
      "loss": 1.9296,
      "step": 27964
    },
    {
      "epoch": 0.6214444444444445,
      "grad_norm": 1.4856736660003662,
      "learning_rate": 7.572793954212047e-05,
      "loss": 1.4113,
      "step": 27965
    },
    {
      "epoch": 0.6214666666666666,
      "grad_norm": 1.408342719078064,
      "learning_rate": 7.572349410980218e-05,
      "loss": 1.6205,
      "step": 27966
    },
    {
      "epoch": 0.6214888888888889,
      "grad_norm": 1.648368239402771,
      "learning_rate": 7.571904867748389e-05,
      "loss": 2.2225,
      "step": 27967
    },
    {
      "epoch": 0.6215111111111111,
      "grad_norm": 1.4867284297943115,
      "learning_rate": 7.57146032451656e-05,
      "loss": 2.0689,
      "step": 27968
    },
    {
      "epoch": 0.6215333333333334,
      "grad_norm": 1.564137578010559,
      "learning_rate": 7.571015781284731e-05,
      "loss": 2.3272,
      "step": 27969
    },
    {
      "epoch": 0.6215555555555555,
      "grad_norm": 1.6785781383514404,
      "learning_rate": 7.570571238052902e-05,
      "loss": 1.8413,
      "step": 27970
    },
    {
      "epoch": 0.6215777777777778,
      "grad_norm": 1.7516751289367676,
      "learning_rate": 7.570126694821071e-05,
      "loss": 1.9945,
      "step": 27971
    },
    {
      "epoch": 0.6216,
      "grad_norm": 1.6698040962219238,
      "learning_rate": 7.569682151589242e-05,
      "loss": 2.0592,
      "step": 27972
    },
    {
      "epoch": 0.6216222222222222,
      "grad_norm": 1.8508039712905884,
      "learning_rate": 7.569237608357413e-05,
      "loss": 1.9574,
      "step": 27973
    },
    {
      "epoch": 0.6216444444444444,
      "grad_norm": 1.6818801164627075,
      "learning_rate": 7.568793065125583e-05,
      "loss": 1.4262,
      "step": 27974
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 1.641690969467163,
      "learning_rate": 7.568348521893754e-05,
      "loss": 1.9255,
      "step": 27975
    },
    {
      "epoch": 0.6216888888888888,
      "grad_norm": 1.6074247360229492,
      "learning_rate": 7.567903978661925e-05,
      "loss": 2.1551,
      "step": 27976
    },
    {
      "epoch": 0.6217111111111111,
      "grad_norm": 1.5521165132522583,
      "learning_rate": 7.567459435430096e-05,
      "loss": 1.7597,
      "step": 27977
    },
    {
      "epoch": 0.6217333333333334,
      "grad_norm": 1.5441497564315796,
      "learning_rate": 7.567014892198267e-05,
      "loss": 1.7756,
      "step": 27978
    },
    {
      "epoch": 0.6217555555555555,
      "grad_norm": 1.7832576036453247,
      "learning_rate": 7.566570348966438e-05,
      "loss": 1.7453,
      "step": 27979
    },
    {
      "epoch": 0.6217777777777778,
      "grad_norm": 1.5918539762496948,
      "learning_rate": 7.566125805734609e-05,
      "loss": 1.6821,
      "step": 27980
    },
    {
      "epoch": 0.6218,
      "grad_norm": 1.6350274085998535,
      "learning_rate": 7.565681262502778e-05,
      "loss": 2.1195,
      "step": 27981
    },
    {
      "epoch": 0.6218222222222223,
      "grad_norm": 1.7357590198516846,
      "learning_rate": 7.565236719270949e-05,
      "loss": 1.8812,
      "step": 27982
    },
    {
      "epoch": 0.6218444444444444,
      "grad_norm": 1.4452167749404907,
      "learning_rate": 7.56479217603912e-05,
      "loss": 0.903,
      "step": 27983
    },
    {
      "epoch": 0.6218666666666667,
      "grad_norm": 1.1117844581604004,
      "learning_rate": 7.56434763280729e-05,
      "loss": 0.8629,
      "step": 27984
    },
    {
      "epoch": 0.6218888888888889,
      "grad_norm": 1.4665799140930176,
      "learning_rate": 7.563903089575461e-05,
      "loss": 1.6197,
      "step": 27985
    },
    {
      "epoch": 0.6219111111111111,
      "grad_norm": 1.592340111732483,
      "learning_rate": 7.563458546343633e-05,
      "loss": 1.5545,
      "step": 27986
    },
    {
      "epoch": 0.6219333333333333,
      "grad_norm": 1.722834587097168,
      "learning_rate": 7.563014003111804e-05,
      "loss": 1.8558,
      "step": 27987
    },
    {
      "epoch": 0.6219555555555556,
      "grad_norm": 2.186478614807129,
      "learning_rate": 7.562569459879974e-05,
      "loss": 1.8553,
      "step": 27988
    },
    {
      "epoch": 0.6219777777777777,
      "grad_norm": 1.7810604572296143,
      "learning_rate": 7.562124916648145e-05,
      "loss": 1.935,
      "step": 27989
    },
    {
      "epoch": 0.622,
      "grad_norm": 1.6212259531021118,
      "learning_rate": 7.561680373416316e-05,
      "loss": 1.8521,
      "step": 27990
    },
    {
      "epoch": 0.6220222222222223,
      "grad_norm": 2.047581672668457,
      "learning_rate": 7.561235830184485e-05,
      "loss": 2.0427,
      "step": 27991
    },
    {
      "epoch": 0.6220444444444444,
      "grad_norm": 1.82438063621521,
      "learning_rate": 7.560791286952656e-05,
      "loss": 1.4275,
      "step": 27992
    },
    {
      "epoch": 0.6220666666666667,
      "grad_norm": 1.806922197341919,
      "learning_rate": 7.560346743720827e-05,
      "loss": 1.6137,
      "step": 27993
    },
    {
      "epoch": 0.6220888888888889,
      "grad_norm": 1.7153993844985962,
      "learning_rate": 7.559902200488997e-05,
      "loss": 2.0712,
      "step": 27994
    },
    {
      "epoch": 0.6221111111111111,
      "grad_norm": 1.5733906030654907,
      "learning_rate": 7.559457657257169e-05,
      "loss": 1.3682,
      "step": 27995
    },
    {
      "epoch": 0.6221333333333333,
      "grad_norm": 2.5927658081054688,
      "learning_rate": 7.55901311402534e-05,
      "loss": 2.0729,
      "step": 27996
    },
    {
      "epoch": 0.6221555555555556,
      "grad_norm": 1.656896948814392,
      "learning_rate": 7.558568570793511e-05,
      "loss": 1.3535,
      "step": 27997
    },
    {
      "epoch": 0.6221777777777778,
      "grad_norm": 1.611059308052063,
      "learning_rate": 7.55812402756168e-05,
      "loss": 1.6851,
      "step": 27998
    },
    {
      "epoch": 0.6222,
      "grad_norm": 1.9701584577560425,
      "learning_rate": 7.557679484329852e-05,
      "loss": 2.047,
      "step": 27999
    },
    {
      "epoch": 0.6222222222222222,
      "grad_norm": 1.6851133108139038,
      "learning_rate": 7.557234941098023e-05,
      "loss": 1.1879,
      "step": 28000
    },
    {
      "epoch": 0.6222444444444445,
      "grad_norm": 1.6479599475860596,
      "learning_rate": 7.556790397866192e-05,
      "loss": 2.4432,
      "step": 28001
    },
    {
      "epoch": 0.6222666666666666,
      "grad_norm": 1.5716572999954224,
      "learning_rate": 7.556345854634363e-05,
      "loss": 2.1938,
      "step": 28002
    },
    {
      "epoch": 0.6222888888888889,
      "grad_norm": 2.1492650508880615,
      "learning_rate": 7.555901311402534e-05,
      "loss": 2.1888,
      "step": 28003
    },
    {
      "epoch": 0.6223111111111111,
      "grad_norm": 1.7056307792663574,
      "learning_rate": 7.555456768170705e-05,
      "loss": 2.339,
      "step": 28004
    },
    {
      "epoch": 0.6223333333333333,
      "grad_norm": 1.5766496658325195,
      "learning_rate": 7.555012224938876e-05,
      "loss": 2.9654,
      "step": 28005
    },
    {
      "epoch": 0.6223555555555556,
      "grad_norm": 1.76160728931427,
      "learning_rate": 7.554567681707047e-05,
      "loss": 2.2328,
      "step": 28006
    },
    {
      "epoch": 0.6223777777777778,
      "grad_norm": 1.5594091415405273,
      "learning_rate": 7.554123138475218e-05,
      "loss": 2.0131,
      "step": 28007
    },
    {
      "epoch": 0.6224,
      "grad_norm": 1.8020453453063965,
      "learning_rate": 7.553678595243388e-05,
      "loss": 1.6641,
      "step": 28008
    },
    {
      "epoch": 0.6224222222222222,
      "grad_norm": 1.7662761211395264,
      "learning_rate": 7.553234052011559e-05,
      "loss": 2.189,
      "step": 28009
    },
    {
      "epoch": 0.6224444444444445,
      "grad_norm": 1.743079423904419,
      "learning_rate": 7.55278950877973e-05,
      "loss": 2.2716,
      "step": 28010
    },
    {
      "epoch": 0.6224666666666666,
      "grad_norm": 1.5527716875076294,
      "learning_rate": 7.552344965547899e-05,
      "loss": 1.6795,
      "step": 28011
    },
    {
      "epoch": 0.6224888888888889,
      "grad_norm": 1.5938984155654907,
      "learning_rate": 7.55190042231607e-05,
      "loss": 1.5725,
      "step": 28012
    },
    {
      "epoch": 0.6225111111111111,
      "grad_norm": 1.3984183073043823,
      "learning_rate": 7.551455879084241e-05,
      "loss": 1.5888,
      "step": 28013
    },
    {
      "epoch": 0.6225333333333334,
      "grad_norm": 1.4453216791152954,
      "learning_rate": 7.551011335852412e-05,
      "loss": 1.8982,
      "step": 28014
    },
    {
      "epoch": 0.6225555555555555,
      "grad_norm": 1.5529475212097168,
      "learning_rate": 7.550566792620583e-05,
      "loss": 2.0408,
      "step": 28015
    },
    {
      "epoch": 0.6225777777777778,
      "grad_norm": 1.4605592489242554,
      "learning_rate": 7.550122249388754e-05,
      "loss": 1.8066,
      "step": 28016
    },
    {
      "epoch": 0.6226,
      "grad_norm": 1.8840243816375732,
      "learning_rate": 7.549677706156925e-05,
      "loss": 2.7807,
      "step": 28017
    },
    {
      "epoch": 0.6226222222222222,
      "grad_norm": 1.7677241563796997,
      "learning_rate": 7.549233162925094e-05,
      "loss": 1.994,
      "step": 28018
    },
    {
      "epoch": 0.6226444444444444,
      "grad_norm": 1.7343677282333374,
      "learning_rate": 7.548788619693265e-05,
      "loss": 2.0937,
      "step": 28019
    },
    {
      "epoch": 0.6226666666666667,
      "grad_norm": 1.4782507419586182,
      "learning_rate": 7.548344076461436e-05,
      "loss": 1.6051,
      "step": 28020
    },
    {
      "epoch": 0.6226888888888888,
      "grad_norm": 1.741336703300476,
      "learning_rate": 7.547899533229606e-05,
      "loss": 2.2404,
      "step": 28021
    },
    {
      "epoch": 0.6227111111111111,
      "grad_norm": 1.725960612297058,
      "learning_rate": 7.547454989997777e-05,
      "loss": 1.658,
      "step": 28022
    },
    {
      "epoch": 0.6227333333333334,
      "grad_norm": 1.852859377861023,
      "learning_rate": 7.547010446765949e-05,
      "loss": 2.0704,
      "step": 28023
    },
    {
      "epoch": 0.6227555555555555,
      "grad_norm": 1.7915359735488892,
      "learning_rate": 7.546565903534119e-05,
      "loss": 2.1554,
      "step": 28024
    },
    {
      "epoch": 0.6227777777777778,
      "grad_norm": 1.321905255317688,
      "learning_rate": 7.54612136030229e-05,
      "loss": 1.337,
      "step": 28025
    },
    {
      "epoch": 0.6228,
      "grad_norm": 1.7915064096450806,
      "learning_rate": 7.545676817070461e-05,
      "loss": 1.6202,
      "step": 28026
    },
    {
      "epoch": 0.6228222222222223,
      "grad_norm": 1.7633399963378906,
      "learning_rate": 7.545232273838632e-05,
      "loss": 1.8875,
      "step": 28027
    },
    {
      "epoch": 0.6228444444444444,
      "grad_norm": 1.0724031925201416,
      "learning_rate": 7.544787730606801e-05,
      "loss": 0.8833,
      "step": 28028
    },
    {
      "epoch": 0.6228666666666667,
      "grad_norm": 1.6533682346343994,
      "learning_rate": 7.544343187374972e-05,
      "loss": 1.6894,
      "step": 28029
    },
    {
      "epoch": 0.6228888888888889,
      "grad_norm": 1.649261236190796,
      "learning_rate": 7.543898644143143e-05,
      "loss": 2.0422,
      "step": 28030
    },
    {
      "epoch": 0.6229111111111111,
      "grad_norm": 1.9536653757095337,
      "learning_rate": 7.543454100911313e-05,
      "loss": 2.3201,
      "step": 28031
    },
    {
      "epoch": 0.6229333333333333,
      "grad_norm": 1.7542853355407715,
      "learning_rate": 7.543009557679485e-05,
      "loss": 1.7455,
      "step": 28032
    },
    {
      "epoch": 0.6229555555555556,
      "grad_norm": 1.3951656818389893,
      "learning_rate": 7.542565014447656e-05,
      "loss": 1.2113,
      "step": 28033
    },
    {
      "epoch": 0.6229777777777777,
      "grad_norm": 1.873515009880066,
      "learning_rate": 7.542120471215827e-05,
      "loss": 1.6083,
      "step": 28034
    },
    {
      "epoch": 0.623,
      "grad_norm": 1.6619421243667603,
      "learning_rate": 7.541675927983997e-05,
      "loss": 1.9856,
      "step": 28035
    },
    {
      "epoch": 0.6230222222222223,
      "grad_norm": 1.208182692527771,
      "learning_rate": 7.541231384752168e-05,
      "loss": 0.8777,
      "step": 28036
    },
    {
      "epoch": 0.6230444444444444,
      "grad_norm": 1.8139747381210327,
      "learning_rate": 7.540786841520339e-05,
      "loss": 1.6417,
      "step": 28037
    },
    {
      "epoch": 0.6230666666666667,
      "grad_norm": 1.5409775972366333,
      "learning_rate": 7.540342298288508e-05,
      "loss": 1.7358,
      "step": 28038
    },
    {
      "epoch": 0.6230888888888889,
      "grad_norm": 1.7688947916030884,
      "learning_rate": 7.539897755056679e-05,
      "loss": 2.0103,
      "step": 28039
    },
    {
      "epoch": 0.6231111111111111,
      "grad_norm": 1.628895878791809,
      "learning_rate": 7.53945321182485e-05,
      "loss": 1.6595,
      "step": 28040
    },
    {
      "epoch": 0.6231333333333333,
      "grad_norm": 1.785688877105713,
      "learning_rate": 7.539008668593021e-05,
      "loss": 1.721,
      "step": 28041
    },
    {
      "epoch": 0.6231555555555556,
      "grad_norm": 1.9412195682525635,
      "learning_rate": 7.538564125361192e-05,
      "loss": 1.8939,
      "step": 28042
    },
    {
      "epoch": 0.6231777777777778,
      "grad_norm": 2.1074423789978027,
      "learning_rate": 7.538119582129363e-05,
      "loss": 1.5976,
      "step": 28043
    },
    {
      "epoch": 0.6232,
      "grad_norm": 2.227391242980957,
      "learning_rate": 7.537675038897534e-05,
      "loss": 1.9225,
      "step": 28044
    },
    {
      "epoch": 0.6232222222222222,
      "grad_norm": 1.847145915031433,
      "learning_rate": 7.537230495665704e-05,
      "loss": 1.5274,
      "step": 28045
    },
    {
      "epoch": 0.6232444444444445,
      "grad_norm": 2.542794942855835,
      "learning_rate": 7.536785952433875e-05,
      "loss": 2.4347,
      "step": 28046
    },
    {
      "epoch": 0.6232666666666666,
      "grad_norm": 1.9294025897979736,
      "learning_rate": 7.536341409202046e-05,
      "loss": 1.9662,
      "step": 28047
    },
    {
      "epoch": 0.6232888888888889,
      "grad_norm": 1.1842116117477417,
      "learning_rate": 7.535896865970215e-05,
      "loss": 0.8846,
      "step": 28048
    },
    {
      "epoch": 0.6233111111111111,
      "grad_norm": 1.9983824491500854,
      "learning_rate": 7.535452322738386e-05,
      "loss": 1.8756,
      "step": 28049
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 1.9489094018936157,
      "learning_rate": 7.535007779506557e-05,
      "loss": 1.6686,
      "step": 28050
    },
    {
      "epoch": 0.6233555555555556,
      "grad_norm": 1.8719598054885864,
      "learning_rate": 7.534563236274728e-05,
      "loss": 2.0377,
      "step": 28051
    },
    {
      "epoch": 0.6233777777777778,
      "grad_norm": 1.7876286506652832,
      "learning_rate": 7.534118693042899e-05,
      "loss": 2.6911,
      "step": 28052
    },
    {
      "epoch": 0.6234,
      "grad_norm": 1.4274696111679077,
      "learning_rate": 7.53367414981107e-05,
      "loss": 1.9744,
      "step": 28053
    },
    {
      "epoch": 0.6234222222222222,
      "grad_norm": 1.7839244604110718,
      "learning_rate": 7.533229606579241e-05,
      "loss": 2.4189,
      "step": 28054
    },
    {
      "epoch": 0.6234444444444445,
      "grad_norm": 1.5739293098449707,
      "learning_rate": 7.53278506334741e-05,
      "loss": 1.8991,
      "step": 28055
    },
    {
      "epoch": 0.6234666666666666,
      "grad_norm": 2.45786190032959,
      "learning_rate": 7.532340520115582e-05,
      "loss": 2.428,
      "step": 28056
    },
    {
      "epoch": 0.6234888888888889,
      "grad_norm": 2.522510290145874,
      "learning_rate": 7.531895976883752e-05,
      "loss": 2.4247,
      "step": 28057
    },
    {
      "epoch": 0.6235111111111111,
      "grad_norm": 1.6587966680526733,
      "learning_rate": 7.531451433651922e-05,
      "loss": 2.0945,
      "step": 28058
    },
    {
      "epoch": 0.6235333333333334,
      "grad_norm": 1.7723037004470825,
      "learning_rate": 7.531006890420093e-05,
      "loss": 2.1222,
      "step": 28059
    },
    {
      "epoch": 0.6235555555555555,
      "grad_norm": 1.5230958461761475,
      "learning_rate": 7.530562347188265e-05,
      "loss": 2.4104,
      "step": 28060
    },
    {
      "epoch": 0.6235777777777778,
      "grad_norm": 1.460243582725525,
      "learning_rate": 7.530117803956435e-05,
      "loss": 0.8193,
      "step": 28061
    },
    {
      "epoch": 0.6236,
      "grad_norm": 1.7510052919387817,
      "learning_rate": 7.529673260724606e-05,
      "loss": 1.968,
      "step": 28062
    },
    {
      "epoch": 0.6236222222222222,
      "grad_norm": 1.5463873147964478,
      "learning_rate": 7.529228717492777e-05,
      "loss": 2.3151,
      "step": 28063
    },
    {
      "epoch": 0.6236444444444444,
      "grad_norm": 1.510756492614746,
      "learning_rate": 7.528784174260948e-05,
      "loss": 1.5273,
      "step": 28064
    },
    {
      "epoch": 0.6236666666666667,
      "grad_norm": 1.7299911975860596,
      "learning_rate": 7.528339631029117e-05,
      "loss": 2.1592,
      "step": 28065
    },
    {
      "epoch": 0.6236888888888888,
      "grad_norm": 1.775102972984314,
      "learning_rate": 7.527895087797288e-05,
      "loss": 2.5766,
      "step": 28066
    },
    {
      "epoch": 0.6237111111111111,
      "grad_norm": 1.8978391885757446,
      "learning_rate": 7.52745054456546e-05,
      "loss": 2.8868,
      "step": 28067
    },
    {
      "epoch": 0.6237333333333334,
      "grad_norm": 1.4233916997909546,
      "learning_rate": 7.527006001333629e-05,
      "loss": 1.7611,
      "step": 28068
    },
    {
      "epoch": 0.6237555555555555,
      "grad_norm": 1.5011509656906128,
      "learning_rate": 7.526561458101801e-05,
      "loss": 2.0248,
      "step": 28069
    },
    {
      "epoch": 0.6237777777777778,
      "grad_norm": 1.5596365928649902,
      "learning_rate": 7.526116914869972e-05,
      "loss": 2.1135,
      "step": 28070
    },
    {
      "epoch": 0.6238,
      "grad_norm": 0.19666370749473572,
      "learning_rate": 7.525672371638142e-05,
      "loss": 0.0258,
      "step": 28071
    },
    {
      "epoch": 0.6238222222222222,
      "grad_norm": 1.6305148601531982,
      "learning_rate": 7.525227828406313e-05,
      "loss": 1.9894,
      "step": 28072
    },
    {
      "epoch": 0.6238444444444444,
      "grad_norm": 1.5677214860916138,
      "learning_rate": 7.524783285174484e-05,
      "loss": 1.9228,
      "step": 28073
    },
    {
      "epoch": 0.6238666666666667,
      "grad_norm": 1.7453768253326416,
      "learning_rate": 7.524338741942655e-05,
      "loss": 2.0331,
      "step": 28074
    },
    {
      "epoch": 0.6238888888888889,
      "grad_norm": 1.7649633884429932,
      "learning_rate": 7.523894198710824e-05,
      "loss": 2.5632,
      "step": 28075
    },
    {
      "epoch": 0.6239111111111111,
      "grad_norm": 1.564621925354004,
      "learning_rate": 7.523449655478995e-05,
      "loss": 1.9003,
      "step": 28076
    },
    {
      "epoch": 0.6239333333333333,
      "grad_norm": 1.7973852157592773,
      "learning_rate": 7.523005112247166e-05,
      "loss": 2.2091,
      "step": 28077
    },
    {
      "epoch": 0.6239555555555556,
      "grad_norm": 1.7107487916946411,
      "learning_rate": 7.522560569015337e-05,
      "loss": 1.9508,
      "step": 28078
    },
    {
      "epoch": 0.6239777777777777,
      "grad_norm": 1.6050406694412231,
      "learning_rate": 7.522116025783508e-05,
      "loss": 1.8418,
      "step": 28079
    },
    {
      "epoch": 0.624,
      "grad_norm": 1.5532035827636719,
      "learning_rate": 7.521671482551679e-05,
      "loss": 1.7462,
      "step": 28080
    },
    {
      "epoch": 0.6240222222222223,
      "grad_norm": 1.7981599569320679,
      "learning_rate": 7.521226939319849e-05,
      "loss": 2.0927,
      "step": 28081
    },
    {
      "epoch": 0.6240444444444444,
      "grad_norm": 2.0693376064300537,
      "learning_rate": 7.52078239608802e-05,
      "loss": 2.339,
      "step": 28082
    },
    {
      "epoch": 0.6240666666666667,
      "grad_norm": 2.317495822906494,
      "learning_rate": 7.520337852856191e-05,
      "loss": 2.6896,
      "step": 28083
    },
    {
      "epoch": 0.6240888888888889,
      "grad_norm": 1.6972509622573853,
      "learning_rate": 7.519893309624362e-05,
      "loss": 2.0378,
      "step": 28084
    },
    {
      "epoch": 0.6241111111111111,
      "grad_norm": 1.830173373222351,
      "learning_rate": 7.519448766392531e-05,
      "loss": 2.1773,
      "step": 28085
    },
    {
      "epoch": 0.6241333333333333,
      "grad_norm": 2.4986438751220703,
      "learning_rate": 7.519004223160702e-05,
      "loss": 1.8763,
      "step": 28086
    },
    {
      "epoch": 0.6241555555555556,
      "grad_norm": 1.9697855710983276,
      "learning_rate": 7.518559679928873e-05,
      "loss": 1.5322,
      "step": 28087
    },
    {
      "epoch": 0.6241777777777778,
      "grad_norm": 1.905541181564331,
      "learning_rate": 7.518115136697044e-05,
      "loss": 1.6298,
      "step": 28088
    },
    {
      "epoch": 0.6242,
      "grad_norm": 1.5465525388717651,
      "learning_rate": 7.517670593465215e-05,
      "loss": 1.4808,
      "step": 28089
    },
    {
      "epoch": 0.6242222222222222,
      "grad_norm": 1.9321972131729126,
      "learning_rate": 7.517226050233386e-05,
      "loss": 1.6778,
      "step": 28090
    },
    {
      "epoch": 0.6242444444444445,
      "grad_norm": 1.919901728630066,
      "learning_rate": 7.516781507001557e-05,
      "loss": 2.01,
      "step": 28091
    },
    {
      "epoch": 0.6242666666666666,
      "grad_norm": 1.8274459838867188,
      "learning_rate": 7.516336963769727e-05,
      "loss": 2.2137,
      "step": 28092
    },
    {
      "epoch": 0.6242888888888889,
      "grad_norm": 1.757928729057312,
      "learning_rate": 7.515892420537898e-05,
      "loss": 1.6233,
      "step": 28093
    },
    {
      "epoch": 0.6243111111111111,
      "grad_norm": 1.7088501453399658,
      "learning_rate": 7.515447877306069e-05,
      "loss": 1.7571,
      "step": 28094
    },
    {
      "epoch": 0.6243333333333333,
      "grad_norm": 2.1138648986816406,
      "learning_rate": 7.515003334074238e-05,
      "loss": 2.3092,
      "step": 28095
    },
    {
      "epoch": 0.6243555555555556,
      "grad_norm": 1.675551414489746,
      "learning_rate": 7.514558790842409e-05,
      "loss": 1.7107,
      "step": 28096
    },
    {
      "epoch": 0.6243777777777778,
      "grad_norm": 1.9008680582046509,
      "learning_rate": 7.514114247610581e-05,
      "loss": 2.0442,
      "step": 28097
    },
    {
      "epoch": 0.6244,
      "grad_norm": 2.154712438583374,
      "learning_rate": 7.513669704378751e-05,
      "loss": 1.9904,
      "step": 28098
    },
    {
      "epoch": 0.6244222222222222,
      "grad_norm": 1.4223718643188477,
      "learning_rate": 7.513225161146922e-05,
      "loss": 0.9587,
      "step": 28099
    },
    {
      "epoch": 0.6244444444444445,
      "grad_norm": 2.5552480220794678,
      "learning_rate": 7.512780617915093e-05,
      "loss": 1.6455,
      "step": 28100
    },
    {
      "epoch": 0.6244666666666666,
      "grad_norm": 1.4165558815002441,
      "learning_rate": 7.512336074683264e-05,
      "loss": 2.0838,
      "step": 28101
    },
    {
      "epoch": 0.6244888888888889,
      "grad_norm": 1.561410665512085,
      "learning_rate": 7.511891531451434e-05,
      "loss": 2.2894,
      "step": 28102
    },
    {
      "epoch": 0.6245111111111111,
      "grad_norm": 1.31568443775177,
      "learning_rate": 7.511446988219605e-05,
      "loss": 2.087,
      "step": 28103
    },
    {
      "epoch": 0.6245333333333334,
      "grad_norm": 1.6914708614349365,
      "learning_rate": 7.511002444987775e-05,
      "loss": 1.9268,
      "step": 28104
    },
    {
      "epoch": 0.6245555555555555,
      "grad_norm": 1.6146295070648193,
      "learning_rate": 7.510557901755945e-05,
      "loss": 2.0463,
      "step": 28105
    },
    {
      "epoch": 0.6245777777777778,
      "grad_norm": 1.5655505657196045,
      "learning_rate": 7.510113358524117e-05,
      "loss": 2.1122,
      "step": 28106
    },
    {
      "epoch": 0.6246,
      "grad_norm": 1.5095285177230835,
      "learning_rate": 7.509668815292288e-05,
      "loss": 2.0841,
      "step": 28107
    },
    {
      "epoch": 0.6246222222222222,
      "grad_norm": 1.6935125589370728,
      "learning_rate": 7.509224272060458e-05,
      "loss": 1.5109,
      "step": 28108
    },
    {
      "epoch": 0.6246444444444444,
      "grad_norm": 1.5695096254348755,
      "learning_rate": 7.508779728828629e-05,
      "loss": 2.0201,
      "step": 28109
    },
    {
      "epoch": 0.6246666666666667,
      "grad_norm": 1.5828744173049927,
      "learning_rate": 7.5083351855968e-05,
      "loss": 2.3864,
      "step": 28110
    },
    {
      "epoch": 0.6246888888888888,
      "grad_norm": 1.9256597757339478,
      "learning_rate": 7.507890642364971e-05,
      "loss": 1.3124,
      "step": 28111
    },
    {
      "epoch": 0.6247111111111111,
      "grad_norm": 1.8132530450820923,
      "learning_rate": 7.50744609913314e-05,
      "loss": 1.9949,
      "step": 28112
    },
    {
      "epoch": 0.6247333333333334,
      "grad_norm": 1.9781066179275513,
      "learning_rate": 7.507001555901311e-05,
      "loss": 2.2829,
      "step": 28113
    },
    {
      "epoch": 0.6247555555555555,
      "grad_norm": 1.0637400150299072,
      "learning_rate": 7.506557012669482e-05,
      "loss": 1.1418,
      "step": 28114
    },
    {
      "epoch": 0.6247777777777778,
      "grad_norm": 1.4971493482589722,
      "learning_rate": 7.506112469437653e-05,
      "loss": 1.9301,
      "step": 28115
    },
    {
      "epoch": 0.6248,
      "grad_norm": 1.9875372648239136,
      "learning_rate": 7.505667926205824e-05,
      "loss": 1.9572,
      "step": 28116
    },
    {
      "epoch": 0.6248222222222222,
      "grad_norm": 1.5765823125839233,
      "learning_rate": 7.505223382973995e-05,
      "loss": 2.1686,
      "step": 28117
    },
    {
      "epoch": 0.6248444444444444,
      "grad_norm": 1.5952030420303345,
      "learning_rate": 7.504778839742165e-05,
      "loss": 1.7775,
      "step": 28118
    },
    {
      "epoch": 0.6248666666666667,
      "grad_norm": 1.9303405284881592,
      "learning_rate": 7.504334296510336e-05,
      "loss": 2.2577,
      "step": 28119
    },
    {
      "epoch": 0.6248888888888889,
      "grad_norm": 1.6546903848648071,
      "learning_rate": 7.503889753278507e-05,
      "loss": 1.9196,
      "step": 28120
    },
    {
      "epoch": 0.6249111111111111,
      "grad_norm": 1.4748766422271729,
      "learning_rate": 7.503445210046678e-05,
      "loss": 1.9852,
      "step": 28121
    },
    {
      "epoch": 0.6249333333333333,
      "grad_norm": 1.8407598733901978,
      "learning_rate": 7.503000666814847e-05,
      "loss": 1.7293,
      "step": 28122
    },
    {
      "epoch": 0.6249555555555556,
      "grad_norm": 1.8829072713851929,
      "learning_rate": 7.502556123583018e-05,
      "loss": 2.2661,
      "step": 28123
    },
    {
      "epoch": 0.6249777777777777,
      "grad_norm": 1.5948944091796875,
      "learning_rate": 7.502111580351189e-05,
      "loss": 1.7127,
      "step": 28124
    },
    {
      "epoch": 0.625,
      "grad_norm": 1.6878756284713745,
      "learning_rate": 7.50166703711936e-05,
      "loss": 2.1244,
      "step": 28125
    },
    {
      "epoch": 0.6250222222222223,
      "grad_norm": 1.5194244384765625,
      "learning_rate": 7.501222493887531e-05,
      "loss": 1.5466,
      "step": 28126
    },
    {
      "epoch": 0.6250444444444444,
      "grad_norm": 1.6358795166015625,
      "learning_rate": 7.500777950655702e-05,
      "loss": 1.8983,
      "step": 28127
    },
    {
      "epoch": 0.6250666666666667,
      "grad_norm": 1.9146581888198853,
      "learning_rate": 7.500333407423872e-05,
      "loss": 2.1941,
      "step": 28128
    },
    {
      "epoch": 0.6250888888888889,
      "grad_norm": 1.477559208869934,
      "learning_rate": 7.499888864192043e-05,
      "loss": 1.1678,
      "step": 28129
    },
    {
      "epoch": 0.6251111111111111,
      "grad_norm": 1.3219830989837646,
      "learning_rate": 7.499444320960214e-05,
      "loss": 1.3111,
      "step": 28130
    },
    {
      "epoch": 0.6251333333333333,
      "grad_norm": 1.3379400968551636,
      "learning_rate": 7.498999777728385e-05,
      "loss": 1.2058,
      "step": 28131
    },
    {
      "epoch": 0.6251555555555556,
      "grad_norm": 1.565895676612854,
      "learning_rate": 7.498555234496554e-05,
      "loss": 2.0447,
      "step": 28132
    },
    {
      "epoch": 0.6251777777777778,
      "grad_norm": 1.7458685636520386,
      "learning_rate": 7.498110691264725e-05,
      "loss": 1.6086,
      "step": 28133
    },
    {
      "epoch": 0.6252,
      "grad_norm": 1.5337018966674805,
      "learning_rate": 7.497666148032898e-05,
      "loss": 1.7856,
      "step": 28134
    },
    {
      "epoch": 0.6252222222222222,
      "grad_norm": 2.4415087699890137,
      "learning_rate": 7.497221604801067e-05,
      "loss": 2.4248,
      "step": 28135
    },
    {
      "epoch": 0.6252444444444445,
      "grad_norm": 1.7598092555999756,
      "learning_rate": 7.496777061569238e-05,
      "loss": 2.0031,
      "step": 28136
    },
    {
      "epoch": 0.6252666666666666,
      "grad_norm": 1.657050609588623,
      "learning_rate": 7.496332518337409e-05,
      "loss": 1.6827,
      "step": 28137
    },
    {
      "epoch": 0.6252888888888889,
      "grad_norm": 1.4472593069076538,
      "learning_rate": 7.495887975105579e-05,
      "loss": 1.5198,
      "step": 28138
    },
    {
      "epoch": 0.6253111111111112,
      "grad_norm": 0.7550368309020996,
      "learning_rate": 7.49544343187375e-05,
      "loss": 0.033,
      "step": 28139
    },
    {
      "epoch": 0.6253333333333333,
      "grad_norm": 1.9193103313446045,
      "learning_rate": 7.49499888864192e-05,
      "loss": 1.9755,
      "step": 28140
    },
    {
      "epoch": 0.6253555555555556,
      "grad_norm": 2.672001361846924,
      "learning_rate": 7.494554345410092e-05,
      "loss": 1.7431,
      "step": 28141
    },
    {
      "epoch": 0.6253777777777778,
      "grad_norm": 1.5714386701583862,
      "learning_rate": 7.494109802178261e-05,
      "loss": 1.9451,
      "step": 28142
    },
    {
      "epoch": 0.6254,
      "grad_norm": 1.6924715042114258,
      "learning_rate": 7.493665258946434e-05,
      "loss": 1.7028,
      "step": 28143
    },
    {
      "epoch": 0.6254222222222222,
      "grad_norm": 1.9398430585861206,
      "learning_rate": 7.493220715714604e-05,
      "loss": 2.1162,
      "step": 28144
    },
    {
      "epoch": 0.6254444444444445,
      "grad_norm": 1.5882272720336914,
      "learning_rate": 7.492776172482774e-05,
      "loss": 1.4288,
      "step": 28145
    },
    {
      "epoch": 0.6254666666666666,
      "grad_norm": 1.8803850412368774,
      "learning_rate": 7.492331629250945e-05,
      "loss": 1.7391,
      "step": 28146
    },
    {
      "epoch": 0.6254888888888889,
      "grad_norm": 1.6644755601882935,
      "learning_rate": 7.491887086019116e-05,
      "loss": 1.9229,
      "step": 28147
    },
    {
      "epoch": 0.6255111111111111,
      "grad_norm": 2.1229488849639893,
      "learning_rate": 7.491442542787287e-05,
      "loss": 1.6049,
      "step": 28148
    },
    {
      "epoch": 0.6255333333333334,
      "grad_norm": 1.5672968626022339,
      "learning_rate": 7.490997999555457e-05,
      "loss": 1.3858,
      "step": 28149
    },
    {
      "epoch": 0.6255555555555555,
      "grad_norm": 1.2970843315124512,
      "learning_rate": 7.490553456323628e-05,
      "loss": 0.5406,
      "step": 28150
    },
    {
      "epoch": 0.6255777777777778,
      "grad_norm": 1.9396559000015259,
      "learning_rate": 7.490108913091799e-05,
      "loss": 2.4668,
      "step": 28151
    },
    {
      "epoch": 0.6256,
      "grad_norm": 1.4108716249465942,
      "learning_rate": 7.48966436985997e-05,
      "loss": 1.8329,
      "step": 28152
    },
    {
      "epoch": 0.6256222222222222,
      "grad_norm": 1.3884369134902954,
      "learning_rate": 7.48921982662814e-05,
      "loss": 1.9971,
      "step": 28153
    },
    {
      "epoch": 0.6256444444444444,
      "grad_norm": 1.5661218166351318,
      "learning_rate": 7.488775283396311e-05,
      "loss": 2.4888,
      "step": 28154
    },
    {
      "epoch": 0.6256666666666667,
      "grad_norm": 1.4409959316253662,
      "learning_rate": 7.488330740164481e-05,
      "loss": 1.4596,
      "step": 28155
    },
    {
      "epoch": 0.6256888888888889,
      "grad_norm": 1.6241331100463867,
      "learning_rate": 7.487886196932652e-05,
      "loss": 2.219,
      "step": 28156
    },
    {
      "epoch": 0.6257111111111111,
      "grad_norm": 1.4938559532165527,
      "learning_rate": 7.487441653700823e-05,
      "loss": 2.295,
      "step": 28157
    },
    {
      "epoch": 0.6257333333333334,
      "grad_norm": 1.578965187072754,
      "learning_rate": 7.486997110468994e-05,
      "loss": 2.276,
      "step": 28158
    },
    {
      "epoch": 0.6257555555555555,
      "grad_norm": 1.4421511888504028,
      "learning_rate": 7.486552567237163e-05,
      "loss": 1.905,
      "step": 28159
    },
    {
      "epoch": 0.6257777777777778,
      "grad_norm": 1.6099575757980347,
      "learning_rate": 7.486108024005334e-05,
      "loss": 1.9368,
      "step": 28160
    },
    {
      "epoch": 0.6258,
      "grad_norm": 1.6032575368881226,
      "learning_rate": 7.485663480773505e-05,
      "loss": 1.7127,
      "step": 28161
    },
    {
      "epoch": 0.6258222222222222,
      "grad_norm": 1.719819188117981,
      "learning_rate": 7.485218937541676e-05,
      "loss": 2.3936,
      "step": 28162
    },
    {
      "epoch": 0.6258444444444444,
      "grad_norm": 1.682454228401184,
      "learning_rate": 7.484774394309847e-05,
      "loss": 2.2743,
      "step": 28163
    },
    {
      "epoch": 0.6258666666666667,
      "grad_norm": 1.3777753114700317,
      "learning_rate": 7.484329851078018e-05,
      "loss": 0.9647,
      "step": 28164
    },
    {
      "epoch": 0.6258888888888889,
      "grad_norm": 1.7213762998580933,
      "learning_rate": 7.483885307846188e-05,
      "loss": 2.2361,
      "step": 28165
    },
    {
      "epoch": 0.6259111111111111,
      "grad_norm": 1.4945802688598633,
      "learning_rate": 7.483440764614359e-05,
      "loss": 1.7347,
      "step": 28166
    },
    {
      "epoch": 0.6259333333333333,
      "grad_norm": 1.432998538017273,
      "learning_rate": 7.48299622138253e-05,
      "loss": 1.5117,
      "step": 28167
    },
    {
      "epoch": 0.6259555555555556,
      "grad_norm": 1.8089045286178589,
      "learning_rate": 7.482551678150701e-05,
      "loss": 2.1483,
      "step": 28168
    },
    {
      "epoch": 0.6259777777777777,
      "grad_norm": 1.4634894132614136,
      "learning_rate": 7.48210713491887e-05,
      "loss": 1.7531,
      "step": 28169
    },
    {
      "epoch": 0.626,
      "grad_norm": 1.5178799629211426,
      "learning_rate": 7.481662591687041e-05,
      "loss": 1.5721,
      "step": 28170
    },
    {
      "epoch": 0.6260222222222223,
      "grad_norm": 1.5224968194961548,
      "learning_rate": 7.481218048455214e-05,
      "loss": 1.9887,
      "step": 28171
    },
    {
      "epoch": 0.6260444444444444,
      "grad_norm": 1.3402128219604492,
      "learning_rate": 7.480773505223383e-05,
      "loss": 1.6201,
      "step": 28172
    },
    {
      "epoch": 0.6260666666666667,
      "grad_norm": 1.4766627550125122,
      "learning_rate": 7.480328961991554e-05,
      "loss": 1.7079,
      "step": 28173
    },
    {
      "epoch": 0.6260888888888889,
      "grad_norm": 1.459479570388794,
      "learning_rate": 7.479884418759725e-05,
      "loss": 1.4734,
      "step": 28174
    },
    {
      "epoch": 0.6261111111111111,
      "grad_norm": 1.8193565607070923,
      "learning_rate": 7.479439875527895e-05,
      "loss": 2.2156,
      "step": 28175
    },
    {
      "epoch": 0.6261333333333333,
      "grad_norm": 1.553693413734436,
      "learning_rate": 7.478995332296066e-05,
      "loss": 1.5702,
      "step": 28176
    },
    {
      "epoch": 0.6261555555555556,
      "grad_norm": 2.1361544132232666,
      "learning_rate": 7.478550789064237e-05,
      "loss": 1.8119,
      "step": 28177
    },
    {
      "epoch": 0.6261777777777778,
      "grad_norm": 1.7945271730422974,
      "learning_rate": 7.478106245832408e-05,
      "loss": 2.1368,
      "step": 28178
    },
    {
      "epoch": 0.6262,
      "grad_norm": 1.1177501678466797,
      "learning_rate": 7.477661702600577e-05,
      "loss": 0.7338,
      "step": 28179
    },
    {
      "epoch": 0.6262222222222222,
      "grad_norm": 1.8593310117721558,
      "learning_rate": 7.47721715936875e-05,
      "loss": 2.0467,
      "step": 28180
    },
    {
      "epoch": 0.6262444444444445,
      "grad_norm": 2.0093624591827393,
      "learning_rate": 7.47677261613692e-05,
      "loss": 1.9046,
      "step": 28181
    },
    {
      "epoch": 0.6262666666666666,
      "grad_norm": 2.9138686656951904,
      "learning_rate": 7.47632807290509e-05,
      "loss": 2.1785,
      "step": 28182
    },
    {
      "epoch": 0.6262888888888889,
      "grad_norm": 1.8873893022537231,
      "learning_rate": 7.475883529673261e-05,
      "loss": 1.7869,
      "step": 28183
    },
    {
      "epoch": 0.6263111111111112,
      "grad_norm": 1.9957176446914673,
      "learning_rate": 7.475438986441432e-05,
      "loss": 1.9079,
      "step": 28184
    },
    {
      "epoch": 0.6263333333333333,
      "grad_norm": 1.9087276458740234,
      "learning_rate": 7.474994443209602e-05,
      "loss": 2.3609,
      "step": 28185
    },
    {
      "epoch": 0.6263555555555556,
      "grad_norm": 1.6395312547683716,
      "learning_rate": 7.474549899977773e-05,
      "loss": 1.5422,
      "step": 28186
    },
    {
      "epoch": 0.6263777777777778,
      "grad_norm": 1.694113850593567,
      "learning_rate": 7.474105356745944e-05,
      "loss": 1.4948,
      "step": 28187
    },
    {
      "epoch": 0.6264,
      "grad_norm": 2.090855121612549,
      "learning_rate": 7.473660813514115e-05,
      "loss": 2.3313,
      "step": 28188
    },
    {
      "epoch": 0.6264222222222222,
      "grad_norm": 1.4489983320236206,
      "learning_rate": 7.473216270282286e-05,
      "loss": 1.4332,
      "step": 28189
    },
    {
      "epoch": 0.6264444444444445,
      "grad_norm": 1.713574767112732,
      "learning_rate": 7.472771727050457e-05,
      "loss": 1.8765,
      "step": 28190
    },
    {
      "epoch": 0.6264666666666666,
      "grad_norm": 1.9305528402328491,
      "learning_rate": 7.472327183818627e-05,
      "loss": 1.434,
      "step": 28191
    },
    {
      "epoch": 0.6264888888888889,
      "grad_norm": 2.201230764389038,
      "learning_rate": 7.471882640586797e-05,
      "loss": 1.412,
      "step": 28192
    },
    {
      "epoch": 0.6265111111111111,
      "grad_norm": 1.8815728425979614,
      "learning_rate": 7.471438097354968e-05,
      "loss": 1.5491,
      "step": 28193
    },
    {
      "epoch": 0.6265333333333334,
      "grad_norm": 1.3930691480636597,
      "learning_rate": 7.470993554123139e-05,
      "loss": 1.5035,
      "step": 28194
    },
    {
      "epoch": 0.6265555555555555,
      "grad_norm": 1.7491741180419922,
      "learning_rate": 7.470549010891309e-05,
      "loss": 1.6875,
      "step": 28195
    },
    {
      "epoch": 0.6265777777777778,
      "grad_norm": 2.281614303588867,
      "learning_rate": 7.47010446765948e-05,
      "loss": 2.1702,
      "step": 28196
    },
    {
      "epoch": 0.6266,
      "grad_norm": 1.478087306022644,
      "learning_rate": 7.46965992442765e-05,
      "loss": 1.4802,
      "step": 28197
    },
    {
      "epoch": 0.6266222222222222,
      "grad_norm": 2.5004618167877197,
      "learning_rate": 7.469215381195822e-05,
      "loss": 1.9388,
      "step": 28198
    },
    {
      "epoch": 0.6266444444444444,
      "grad_norm": 3.1494030952453613,
      "learning_rate": 7.468770837963992e-05,
      "loss": 2.192,
      "step": 28199
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 1.9602372646331787,
      "learning_rate": 7.468326294732163e-05,
      "loss": 1.2015,
      "step": 28200
    },
    {
      "epoch": 0.6266888888888889,
      "grad_norm": 1.803371548652649,
      "learning_rate": 7.467881751500334e-05,
      "loss": 2.1237,
      "step": 28201
    },
    {
      "epoch": 0.6267111111111111,
      "grad_norm": 1.682560682296753,
      "learning_rate": 7.467437208268504e-05,
      "loss": 2.3588,
      "step": 28202
    },
    {
      "epoch": 0.6267333333333334,
      "grad_norm": 1.5700569152832031,
      "learning_rate": 7.466992665036675e-05,
      "loss": 2.4099,
      "step": 28203
    },
    {
      "epoch": 0.6267555555555555,
      "grad_norm": 1.806165099143982,
      "learning_rate": 7.466548121804846e-05,
      "loss": 2.2097,
      "step": 28204
    },
    {
      "epoch": 0.6267777777777778,
      "grad_norm": 1.451766014099121,
      "learning_rate": 7.466103578573017e-05,
      "loss": 1.657,
      "step": 28205
    },
    {
      "epoch": 0.6268,
      "grad_norm": 1.5212419033050537,
      "learning_rate": 7.465659035341186e-05,
      "loss": 2.3481,
      "step": 28206
    },
    {
      "epoch": 0.6268222222222222,
      "grad_norm": 1.485065221786499,
      "learning_rate": 7.465214492109357e-05,
      "loss": 2.3113,
      "step": 28207
    },
    {
      "epoch": 0.6268444444444444,
      "grad_norm": 1.5031648874282837,
      "learning_rate": 7.46476994887753e-05,
      "loss": 1.9426,
      "step": 28208
    },
    {
      "epoch": 0.6268666666666667,
      "grad_norm": 1.8476406335830688,
      "learning_rate": 7.4643254056457e-05,
      "loss": 1.9221,
      "step": 28209
    },
    {
      "epoch": 0.6268888888888889,
      "grad_norm": 1.5286202430725098,
      "learning_rate": 7.46388086241387e-05,
      "loss": 1.9807,
      "step": 28210
    },
    {
      "epoch": 0.6269111111111111,
      "grad_norm": 1.6897189617156982,
      "learning_rate": 7.463436319182041e-05,
      "loss": 1.8853,
      "step": 28211
    },
    {
      "epoch": 0.6269333333333333,
      "grad_norm": 1.8951705694198608,
      "learning_rate": 7.462991775950211e-05,
      "loss": 1.9416,
      "step": 28212
    },
    {
      "epoch": 0.6269555555555556,
      "grad_norm": 1.5698425769805908,
      "learning_rate": 7.462547232718382e-05,
      "loss": 1.5634,
      "step": 28213
    },
    {
      "epoch": 0.6269777777777777,
      "grad_norm": 1.63398277759552,
      "learning_rate": 7.462102689486553e-05,
      "loss": 2.0327,
      "step": 28214
    },
    {
      "epoch": 0.627,
      "grad_norm": 1.5755960941314697,
      "learning_rate": 7.461658146254724e-05,
      "loss": 1.6802,
      "step": 28215
    },
    {
      "epoch": 0.6270222222222223,
      "grad_norm": 0.6174606084823608,
      "learning_rate": 7.461213603022893e-05,
      "loss": 0.0305,
      "step": 28216
    },
    {
      "epoch": 0.6270444444444444,
      "grad_norm": 1.692030429840088,
      "learning_rate": 7.460769059791066e-05,
      "loss": 2.2251,
      "step": 28217
    },
    {
      "epoch": 0.6270666666666667,
      "grad_norm": 1.5224628448486328,
      "learning_rate": 7.460324516559237e-05,
      "loss": 1.624,
      "step": 28218
    },
    {
      "epoch": 0.6270888888888889,
      "grad_norm": 1.9173451662063599,
      "learning_rate": 7.459879973327406e-05,
      "loss": 2.2157,
      "step": 28219
    },
    {
      "epoch": 0.6271111111111111,
      "grad_norm": 1.9144426584243774,
      "learning_rate": 7.459435430095577e-05,
      "loss": 2.6556,
      "step": 28220
    },
    {
      "epoch": 0.6271333333333333,
      "grad_norm": 1.8819726705551147,
      "learning_rate": 7.458990886863748e-05,
      "loss": 2.0855,
      "step": 28221
    },
    {
      "epoch": 0.6271555555555556,
      "grad_norm": 2.056820869445801,
      "learning_rate": 7.458546343631918e-05,
      "loss": 2.3333,
      "step": 28222
    },
    {
      "epoch": 0.6271777777777777,
      "grad_norm": 1.8170225620269775,
      "learning_rate": 7.458101800400089e-05,
      "loss": 1.8746,
      "step": 28223
    },
    {
      "epoch": 0.6272,
      "grad_norm": 1.4878606796264648,
      "learning_rate": 7.45765725716826e-05,
      "loss": 1.4699,
      "step": 28224
    },
    {
      "epoch": 0.6272222222222222,
      "grad_norm": 2.008486747741699,
      "learning_rate": 7.457212713936431e-05,
      "loss": 2.4197,
      "step": 28225
    },
    {
      "epoch": 0.6272444444444445,
      "grad_norm": 1.7091706991195679,
      "learning_rate": 7.456768170704602e-05,
      "loss": 2.0768,
      "step": 28226
    },
    {
      "epoch": 0.6272666666666666,
      "grad_norm": 1.7279984951019287,
      "learning_rate": 7.456323627472773e-05,
      "loss": 1.8261,
      "step": 28227
    },
    {
      "epoch": 0.6272888888888889,
      "grad_norm": 1.9838591814041138,
      "learning_rate": 7.455879084240944e-05,
      "loss": 1.7549,
      "step": 28228
    },
    {
      "epoch": 0.6273111111111112,
      "grad_norm": 1.8756340742111206,
      "learning_rate": 7.455434541009113e-05,
      "loss": 1.8588,
      "step": 28229
    },
    {
      "epoch": 0.6273333333333333,
      "grad_norm": 2.0535311698913574,
      "learning_rate": 7.454989997777284e-05,
      "loss": 2.3669,
      "step": 28230
    },
    {
      "epoch": 0.6273555555555556,
      "grad_norm": 1.7964155673980713,
      "learning_rate": 7.454545454545455e-05,
      "loss": 1.7613,
      "step": 28231
    },
    {
      "epoch": 0.6273777777777778,
      "grad_norm": 2.2725765705108643,
      "learning_rate": 7.454100911313625e-05,
      "loss": 2.5016,
      "step": 28232
    },
    {
      "epoch": 0.6274,
      "grad_norm": 1.988587498664856,
      "learning_rate": 7.453656368081796e-05,
      "loss": 1.9788,
      "step": 28233
    },
    {
      "epoch": 0.6274222222222222,
      "grad_norm": 1.7059104442596436,
      "learning_rate": 7.453211824849967e-05,
      "loss": 1.9183,
      "step": 28234
    },
    {
      "epoch": 0.6274444444444445,
      "grad_norm": 1.7577725648880005,
      "learning_rate": 7.452767281618138e-05,
      "loss": 2.0483,
      "step": 28235
    },
    {
      "epoch": 0.6274666666666666,
      "grad_norm": 1.6931707859039307,
      "learning_rate": 7.452322738386309e-05,
      "loss": 1.6994,
      "step": 28236
    },
    {
      "epoch": 0.6274888888888889,
      "grad_norm": 1.6592637300491333,
      "learning_rate": 7.45187819515448e-05,
      "loss": 1.5483,
      "step": 28237
    },
    {
      "epoch": 0.6275111111111111,
      "grad_norm": 1.3451963663101196,
      "learning_rate": 7.45143365192265e-05,
      "loss": 1.0713,
      "step": 28238
    },
    {
      "epoch": 0.6275333333333334,
      "grad_norm": 1.2414436340332031,
      "learning_rate": 7.45098910869082e-05,
      "loss": 0.9416,
      "step": 28239
    },
    {
      "epoch": 0.6275555555555555,
      "grad_norm": 1.9038292169570923,
      "learning_rate": 7.450544565458991e-05,
      "loss": 1.8877,
      "step": 28240
    },
    {
      "epoch": 0.6275777777777778,
      "grad_norm": 1.881089210510254,
      "learning_rate": 7.450100022227162e-05,
      "loss": 1.6985,
      "step": 28241
    },
    {
      "epoch": 0.6276,
      "grad_norm": 1.404329776763916,
      "learning_rate": 7.449655478995332e-05,
      "loss": 1.4275,
      "step": 28242
    },
    {
      "epoch": 0.6276222222222222,
      "grad_norm": 1.655401349067688,
      "learning_rate": 7.449210935763503e-05,
      "loss": 2.0994,
      "step": 28243
    },
    {
      "epoch": 0.6276444444444444,
      "grad_norm": 2.3409383296966553,
      "learning_rate": 7.448766392531674e-05,
      "loss": 2.3209,
      "step": 28244
    },
    {
      "epoch": 0.6276666666666667,
      "grad_norm": 1.8269544839859009,
      "learning_rate": 7.448321849299846e-05,
      "loss": 1.9272,
      "step": 28245
    },
    {
      "epoch": 0.6276888888888889,
      "grad_norm": 1.9554951190948486,
      "learning_rate": 7.447877306068015e-05,
      "loss": 2.1167,
      "step": 28246
    },
    {
      "epoch": 0.6277111111111111,
      "grad_norm": 1.4238810539245605,
      "learning_rate": 7.447432762836186e-05,
      "loss": 1.0804,
      "step": 28247
    },
    {
      "epoch": 0.6277333333333334,
      "grad_norm": 1.9184352159500122,
      "learning_rate": 7.446988219604357e-05,
      "loss": 1.945,
      "step": 28248
    },
    {
      "epoch": 0.6277555555555555,
      "grad_norm": 1.8719063997268677,
      "learning_rate": 7.446543676372527e-05,
      "loss": 1.7791,
      "step": 28249
    },
    {
      "epoch": 0.6277777777777778,
      "grad_norm": 1.7169616222381592,
      "learning_rate": 7.446099133140698e-05,
      "loss": 0.9318,
      "step": 28250
    },
    {
      "epoch": 0.6278,
      "grad_norm": 1.0853959321975708,
      "learning_rate": 7.445654589908869e-05,
      "loss": 0.9651,
      "step": 28251
    },
    {
      "epoch": 0.6278222222222222,
      "grad_norm": 1.5064071416854858,
      "learning_rate": 7.44521004667704e-05,
      "loss": 2.7501,
      "step": 28252
    },
    {
      "epoch": 0.6278444444444444,
      "grad_norm": 1.6041384935379028,
      "learning_rate": 7.44476550344521e-05,
      "loss": 2.051,
      "step": 28253
    },
    {
      "epoch": 0.6278666666666667,
      "grad_norm": 1.5042846202850342,
      "learning_rate": 7.444320960213382e-05,
      "loss": 2.0497,
      "step": 28254
    },
    {
      "epoch": 0.6278888888888889,
      "grad_norm": 1.3406095504760742,
      "learning_rate": 7.443876416981553e-05,
      "loss": 2.2745,
      "step": 28255
    },
    {
      "epoch": 0.6279111111111111,
      "grad_norm": 1.767425537109375,
      "learning_rate": 7.443431873749722e-05,
      "loss": 2.3426,
      "step": 28256
    },
    {
      "epoch": 0.6279333333333333,
      "grad_norm": 1.8688346147537231,
      "learning_rate": 7.442987330517893e-05,
      "loss": 2.042,
      "step": 28257
    },
    {
      "epoch": 0.6279555555555556,
      "grad_norm": 2.109346628189087,
      "learning_rate": 7.442542787286064e-05,
      "loss": 2.2495,
      "step": 28258
    },
    {
      "epoch": 0.6279777777777777,
      "grad_norm": 2.2193105220794678,
      "learning_rate": 7.442098244054234e-05,
      "loss": 2.1782,
      "step": 28259
    },
    {
      "epoch": 0.628,
      "grad_norm": 1.6535050868988037,
      "learning_rate": 7.441653700822405e-05,
      "loss": 2.3659,
      "step": 28260
    },
    {
      "epoch": 0.6280222222222223,
      "grad_norm": 0.8908278346061707,
      "learning_rate": 7.441209157590576e-05,
      "loss": 0.6832,
      "step": 28261
    },
    {
      "epoch": 0.6280444444444444,
      "grad_norm": 1.612201452255249,
      "learning_rate": 7.440764614358747e-05,
      "loss": 2.3098,
      "step": 28262
    },
    {
      "epoch": 0.6280666666666667,
      "grad_norm": 1.5728148221969604,
      "learning_rate": 7.440320071126918e-05,
      "loss": 1.993,
      "step": 28263
    },
    {
      "epoch": 0.6280888888888889,
      "grad_norm": 1.5704433917999268,
      "learning_rate": 7.439875527895089e-05,
      "loss": 2.0002,
      "step": 28264
    },
    {
      "epoch": 0.6281111111111111,
      "grad_norm": 1.6616250276565552,
      "learning_rate": 7.43943098466326e-05,
      "loss": 2.2513,
      "step": 28265
    },
    {
      "epoch": 0.6281333333333333,
      "grad_norm": 1.6211087703704834,
      "learning_rate": 7.438986441431429e-05,
      "loss": 1.7105,
      "step": 28266
    },
    {
      "epoch": 0.6281555555555556,
      "grad_norm": 1.5077217817306519,
      "learning_rate": 7.4385418981996e-05,
      "loss": 1.9318,
      "step": 28267
    },
    {
      "epoch": 0.6281777777777777,
      "grad_norm": 1.5681517124176025,
      "learning_rate": 7.438097354967771e-05,
      "loss": 1.7493,
      "step": 28268
    },
    {
      "epoch": 0.6282,
      "grad_norm": 1.7847591638565063,
      "learning_rate": 7.437652811735941e-05,
      "loss": 2.3265,
      "step": 28269
    },
    {
      "epoch": 0.6282222222222222,
      "grad_norm": 1.3881011009216309,
      "learning_rate": 7.437208268504112e-05,
      "loss": 1.7574,
      "step": 28270
    },
    {
      "epoch": 0.6282444444444445,
      "grad_norm": 1.2813900709152222,
      "learning_rate": 7.436763725272283e-05,
      "loss": 1.5656,
      "step": 28271
    },
    {
      "epoch": 0.6282666666666666,
      "grad_norm": 1.3996785879135132,
      "learning_rate": 7.436319182040454e-05,
      "loss": 1.1872,
      "step": 28272
    },
    {
      "epoch": 0.6282888888888889,
      "grad_norm": 1.6524691581726074,
      "learning_rate": 7.435874638808625e-05,
      "loss": 1.8171,
      "step": 28273
    },
    {
      "epoch": 0.6283111111111112,
      "grad_norm": 1.781345009803772,
      "learning_rate": 7.435430095576796e-05,
      "loss": 2.0514,
      "step": 28274
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 1.6943475008010864,
      "learning_rate": 7.434985552344967e-05,
      "loss": 2.1368,
      "step": 28275
    },
    {
      "epoch": 0.6283555555555556,
      "grad_norm": 1.695285439491272,
      "learning_rate": 7.434541009113136e-05,
      "loss": 1.9909,
      "step": 28276
    },
    {
      "epoch": 0.6283777777777778,
      "grad_norm": 1.768095850944519,
      "learning_rate": 7.434096465881307e-05,
      "loss": 2.0456,
      "step": 28277
    },
    {
      "epoch": 0.6284,
      "grad_norm": 1.7602506875991821,
      "learning_rate": 7.433651922649478e-05,
      "loss": 2.0481,
      "step": 28278
    },
    {
      "epoch": 0.6284222222222222,
      "grad_norm": 1.5751560926437378,
      "learning_rate": 7.433207379417648e-05,
      "loss": 1.7103,
      "step": 28279
    },
    {
      "epoch": 0.6284444444444445,
      "grad_norm": 1.458869218826294,
      "learning_rate": 7.432762836185819e-05,
      "loss": 1.6771,
      "step": 28280
    },
    {
      "epoch": 0.6284666666666666,
      "grad_norm": 1.6494125127792358,
      "learning_rate": 7.43231829295399e-05,
      "loss": 1.7331,
      "step": 28281
    },
    {
      "epoch": 0.6284888888888889,
      "grad_norm": 1.9761335849761963,
      "learning_rate": 7.431873749722162e-05,
      "loss": 2.1751,
      "step": 28282
    },
    {
      "epoch": 0.6285111111111111,
      "grad_norm": 1.5494686365127563,
      "learning_rate": 7.431429206490332e-05,
      "loss": 1.9114,
      "step": 28283
    },
    {
      "epoch": 0.6285333333333334,
      "grad_norm": 1.946640133857727,
      "learning_rate": 7.430984663258503e-05,
      "loss": 1.9682,
      "step": 28284
    },
    {
      "epoch": 0.6285555555555555,
      "grad_norm": 1.6203198432922363,
      "learning_rate": 7.430540120026674e-05,
      "loss": 1.9045,
      "step": 28285
    },
    {
      "epoch": 0.6285777777777778,
      "grad_norm": 1.078140377998352,
      "learning_rate": 7.430095576794843e-05,
      "loss": 0.8918,
      "step": 28286
    },
    {
      "epoch": 0.6286,
      "grad_norm": 1.5796608924865723,
      "learning_rate": 7.429651033563014e-05,
      "loss": 1.6461,
      "step": 28287
    },
    {
      "epoch": 0.6286222222222222,
      "grad_norm": 2.0373597145080566,
      "learning_rate": 7.429206490331185e-05,
      "loss": 2.0898,
      "step": 28288
    },
    {
      "epoch": 0.6286444444444445,
      "grad_norm": 1.6334196329116821,
      "learning_rate": 7.428761947099355e-05,
      "loss": 1.8604,
      "step": 28289
    },
    {
      "epoch": 0.6286666666666667,
      "grad_norm": 1.8665622472763062,
      "learning_rate": 7.428317403867526e-05,
      "loss": 1.7337,
      "step": 28290
    },
    {
      "epoch": 0.6286888888888889,
      "grad_norm": 1.641268014907837,
      "learning_rate": 7.427872860635698e-05,
      "loss": 2.0156,
      "step": 28291
    },
    {
      "epoch": 0.6287111111111111,
      "grad_norm": 1.8151181936264038,
      "learning_rate": 7.427428317403869e-05,
      "loss": 2.0465,
      "step": 28292
    },
    {
      "epoch": 0.6287333333333334,
      "grad_norm": 2.0497701168060303,
      "learning_rate": 7.426983774172038e-05,
      "loss": 2.0673,
      "step": 28293
    },
    {
      "epoch": 0.6287555555555555,
      "grad_norm": 1.5897787809371948,
      "learning_rate": 7.42653923094021e-05,
      "loss": 1.8692,
      "step": 28294
    },
    {
      "epoch": 0.6287777777777778,
      "grad_norm": 1.913669228553772,
      "learning_rate": 7.42609468770838e-05,
      "loss": 1.6572,
      "step": 28295
    },
    {
      "epoch": 0.6288,
      "grad_norm": 1.6216816902160645,
      "learning_rate": 7.42565014447655e-05,
      "loss": 1.7076,
      "step": 28296
    },
    {
      "epoch": 0.6288222222222222,
      "grad_norm": 1.8761065006256104,
      "learning_rate": 7.425205601244721e-05,
      "loss": 1.7828,
      "step": 28297
    },
    {
      "epoch": 0.6288444444444444,
      "grad_norm": 1.8865710496902466,
      "learning_rate": 7.424761058012892e-05,
      "loss": 1.6179,
      "step": 28298
    },
    {
      "epoch": 0.6288666666666667,
      "grad_norm": 2.1235756874084473,
      "learning_rate": 7.424316514781063e-05,
      "loss": 2.0475,
      "step": 28299
    },
    {
      "epoch": 0.6288888888888889,
      "grad_norm": 2.2243402004241943,
      "learning_rate": 7.423871971549234e-05,
      "loss": 1.7504,
      "step": 28300
    },
    {
      "epoch": 0.6289111111111111,
      "grad_norm": 1.769464373588562,
      "learning_rate": 7.423427428317405e-05,
      "loss": 2.6118,
      "step": 28301
    },
    {
      "epoch": 0.6289333333333333,
      "grad_norm": 1.8621481657028198,
      "learning_rate": 7.422982885085576e-05,
      "loss": 1.1403,
      "step": 28302
    },
    {
      "epoch": 0.6289555555555556,
      "grad_norm": 1.5293608903884888,
      "learning_rate": 7.422538341853745e-05,
      "loss": 2.2813,
      "step": 28303
    },
    {
      "epoch": 0.6289777777777777,
      "grad_norm": 1.328939437866211,
      "learning_rate": 7.422093798621916e-05,
      "loss": 1.8391,
      "step": 28304
    },
    {
      "epoch": 0.629,
      "grad_norm": 1.330453634262085,
      "learning_rate": 7.421649255390087e-05,
      "loss": 2.2479,
      "step": 28305
    },
    {
      "epoch": 0.6290222222222223,
      "grad_norm": 1.6832678318023682,
      "learning_rate": 7.421204712158257e-05,
      "loss": 2.405,
      "step": 28306
    },
    {
      "epoch": 0.6290444444444444,
      "grad_norm": 1.228036642074585,
      "learning_rate": 7.420760168926428e-05,
      "loss": 1.966,
      "step": 28307
    },
    {
      "epoch": 0.6290666666666667,
      "grad_norm": 1.3511638641357422,
      "learning_rate": 7.420315625694599e-05,
      "loss": 2.014,
      "step": 28308
    },
    {
      "epoch": 0.6290888888888889,
      "grad_norm": 1.5867738723754883,
      "learning_rate": 7.41987108246277e-05,
      "loss": 2.1594,
      "step": 28309
    },
    {
      "epoch": 0.6291111111111111,
      "grad_norm": 1.6926277875900269,
      "learning_rate": 7.419426539230941e-05,
      "loss": 2.2151,
      "step": 28310
    },
    {
      "epoch": 0.6291333333333333,
      "grad_norm": 2.021162271499634,
      "learning_rate": 7.418981995999112e-05,
      "loss": 2.1444,
      "step": 28311
    },
    {
      "epoch": 0.6291555555555556,
      "grad_norm": 2.1428580284118652,
      "learning_rate": 7.418537452767283e-05,
      "loss": 2.575,
      "step": 28312
    },
    {
      "epoch": 0.6291777777777777,
      "grad_norm": 1.5130378007888794,
      "learning_rate": 7.418092909535452e-05,
      "loss": 1.8039,
      "step": 28313
    },
    {
      "epoch": 0.6292,
      "grad_norm": 1.5649083852767944,
      "learning_rate": 7.417648366303623e-05,
      "loss": 1.6873,
      "step": 28314
    },
    {
      "epoch": 0.6292222222222222,
      "grad_norm": 1.5888735055923462,
      "learning_rate": 7.417203823071794e-05,
      "loss": 2.0904,
      "step": 28315
    },
    {
      "epoch": 0.6292444444444445,
      "grad_norm": 1.8082695007324219,
      "learning_rate": 7.416759279839964e-05,
      "loss": 2.3681,
      "step": 28316
    },
    {
      "epoch": 0.6292666666666666,
      "grad_norm": 1.7941712141036987,
      "learning_rate": 7.416314736608135e-05,
      "loss": 2.2749,
      "step": 28317
    },
    {
      "epoch": 0.6292888888888889,
      "grad_norm": 1.4473190307617188,
      "learning_rate": 7.415870193376306e-05,
      "loss": 1.7183,
      "step": 28318
    },
    {
      "epoch": 0.6293111111111112,
      "grad_norm": 1.321277141571045,
      "learning_rate": 7.415425650144478e-05,
      "loss": 1.3812,
      "step": 28319
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 2.0893523693084717,
      "learning_rate": 7.414981106912648e-05,
      "loss": 2.7359,
      "step": 28320
    },
    {
      "epoch": 0.6293555555555556,
      "grad_norm": 1.4881926774978638,
      "learning_rate": 7.414536563680819e-05,
      "loss": 1.6233,
      "step": 28321
    },
    {
      "epoch": 0.6293777777777778,
      "grad_norm": 1.9817962646484375,
      "learning_rate": 7.41409202044899e-05,
      "loss": 2.1383,
      "step": 28322
    },
    {
      "epoch": 0.6294,
      "grad_norm": 1.7774596214294434,
      "learning_rate": 7.413647477217159e-05,
      "loss": 2.2503,
      "step": 28323
    },
    {
      "epoch": 0.6294222222222222,
      "grad_norm": 1.7046529054641724,
      "learning_rate": 7.41320293398533e-05,
      "loss": 2.0507,
      "step": 28324
    },
    {
      "epoch": 0.6294444444444445,
      "grad_norm": 1.4740560054779053,
      "learning_rate": 7.412758390753501e-05,
      "loss": 1.6524,
      "step": 28325
    },
    {
      "epoch": 0.6294666666666666,
      "grad_norm": 1.5283254384994507,
      "learning_rate": 7.412313847521671e-05,
      "loss": 2.2177,
      "step": 28326
    },
    {
      "epoch": 0.6294888888888889,
      "grad_norm": 1.4951704740524292,
      "learning_rate": 7.411869304289842e-05,
      "loss": 1.9466,
      "step": 28327
    },
    {
      "epoch": 0.6295111111111111,
      "grad_norm": 1.6033143997192383,
      "learning_rate": 7.411424761058014e-05,
      "loss": 1.9761,
      "step": 28328
    },
    {
      "epoch": 0.6295333333333333,
      "grad_norm": 1.7867376804351807,
      "learning_rate": 7.410980217826185e-05,
      "loss": 1.8702,
      "step": 28329
    },
    {
      "epoch": 0.6295555555555555,
      "grad_norm": 1.4749178886413574,
      "learning_rate": 7.410535674594355e-05,
      "loss": 1.5522,
      "step": 28330
    },
    {
      "epoch": 0.6295777777777778,
      "grad_norm": 1.5684312582015991,
      "learning_rate": 7.410091131362526e-05,
      "loss": 1.2988,
      "step": 28331
    },
    {
      "epoch": 0.6296,
      "grad_norm": 1.4363404512405396,
      "learning_rate": 7.409646588130697e-05,
      "loss": 1.7482,
      "step": 28332
    },
    {
      "epoch": 0.6296222222222222,
      "grad_norm": 1.8172701597213745,
      "learning_rate": 7.409202044898866e-05,
      "loss": 1.7153,
      "step": 28333
    },
    {
      "epoch": 0.6296444444444445,
      "grad_norm": 1.687948226928711,
      "learning_rate": 7.408757501667037e-05,
      "loss": 1.9432,
      "step": 28334
    },
    {
      "epoch": 0.6296666666666667,
      "grad_norm": 1.816715955734253,
      "learning_rate": 7.408312958435208e-05,
      "loss": 1.9648,
      "step": 28335
    },
    {
      "epoch": 0.6296888888888889,
      "grad_norm": 1.7293776273727417,
      "learning_rate": 7.407868415203379e-05,
      "loss": 1.9419,
      "step": 28336
    },
    {
      "epoch": 0.6297111111111111,
      "grad_norm": 1.5770736932754517,
      "learning_rate": 7.40742387197155e-05,
      "loss": 1.8593,
      "step": 28337
    },
    {
      "epoch": 0.6297333333333334,
      "grad_norm": 1.74238920211792,
      "learning_rate": 7.406979328739721e-05,
      "loss": 2.2409,
      "step": 28338
    },
    {
      "epoch": 0.6297555555555555,
      "grad_norm": 1.8684200048446655,
      "learning_rate": 7.406534785507892e-05,
      "loss": 1.859,
      "step": 28339
    },
    {
      "epoch": 0.6297777777777778,
      "grad_norm": 1.713669776916504,
      "learning_rate": 7.406090242276062e-05,
      "loss": 1.7262,
      "step": 28340
    },
    {
      "epoch": 0.6298,
      "grad_norm": 1.7168631553649902,
      "learning_rate": 7.405645699044232e-05,
      "loss": 2.173,
      "step": 28341
    },
    {
      "epoch": 0.6298222222222222,
      "grad_norm": 1.9766662120819092,
      "learning_rate": 7.405201155812403e-05,
      "loss": 1.9445,
      "step": 28342
    },
    {
      "epoch": 0.6298444444444444,
      "grad_norm": 1.9945155382156372,
      "learning_rate": 7.404756612580573e-05,
      "loss": 1.865,
      "step": 28343
    },
    {
      "epoch": 0.6298666666666667,
      "grad_norm": 1.841382622718811,
      "learning_rate": 7.404312069348744e-05,
      "loss": 1.8165,
      "step": 28344
    },
    {
      "epoch": 0.6298888888888889,
      "grad_norm": 1.9434353113174438,
      "learning_rate": 7.403867526116915e-05,
      "loss": 1.7789,
      "step": 28345
    },
    {
      "epoch": 0.6299111111111111,
      "grad_norm": 2.029454469680786,
      "learning_rate": 7.403422982885086e-05,
      "loss": 2.1717,
      "step": 28346
    },
    {
      "epoch": 0.6299333333333333,
      "grad_norm": 2.521643877029419,
      "learning_rate": 7.402978439653257e-05,
      "loss": 2.3886,
      "step": 28347
    },
    {
      "epoch": 0.6299555555555556,
      "grad_norm": 1.5658351182937622,
      "learning_rate": 7.402533896421428e-05,
      "loss": 1.7562,
      "step": 28348
    },
    {
      "epoch": 0.6299777777777777,
      "grad_norm": 1.8885512351989746,
      "learning_rate": 7.402089353189599e-05,
      "loss": 1.4809,
      "step": 28349
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3135809898376465,
      "learning_rate": 7.401644809957768e-05,
      "loss": 0.8233,
      "step": 28350
    },
    {
      "epoch": 0.6300222222222223,
      "grad_norm": 1.5412646532058716,
      "learning_rate": 7.40120026672594e-05,
      "loss": 2.08,
      "step": 28351
    },
    {
      "epoch": 0.6300444444444444,
      "grad_norm": 0.986265242099762,
      "learning_rate": 7.40075572349411e-05,
      "loss": 0.8639,
      "step": 28352
    },
    {
      "epoch": 0.6300666666666667,
      "grad_norm": 7.895050048828125,
      "learning_rate": 7.40031118026228e-05,
      "loss": 2.2206,
      "step": 28353
    },
    {
      "epoch": 0.6300888888888889,
      "grad_norm": 1.8083707094192505,
      "learning_rate": 7.399866637030451e-05,
      "loss": 2.5821,
      "step": 28354
    },
    {
      "epoch": 0.6301111111111111,
      "grad_norm": 1.620503544807434,
      "learning_rate": 7.399422093798622e-05,
      "loss": 2.2363,
      "step": 28355
    },
    {
      "epoch": 0.6301333333333333,
      "grad_norm": 1.4891921281814575,
      "learning_rate": 7.398977550566793e-05,
      "loss": 1.24,
      "step": 28356
    },
    {
      "epoch": 0.6301555555555556,
      "grad_norm": 1.437220573425293,
      "learning_rate": 7.398533007334964e-05,
      "loss": 2.2225,
      "step": 28357
    },
    {
      "epoch": 0.6301777777777777,
      "grad_norm": 1.757455587387085,
      "learning_rate": 7.398088464103135e-05,
      "loss": 2.4739,
      "step": 28358
    },
    {
      "epoch": 0.6302,
      "grad_norm": 1.5432251691818237,
      "learning_rate": 7.397643920871306e-05,
      "loss": 1.9358,
      "step": 28359
    },
    {
      "epoch": 0.6302222222222222,
      "grad_norm": 1.6928318738937378,
      "learning_rate": 7.397199377639475e-05,
      "loss": 2.0875,
      "step": 28360
    },
    {
      "epoch": 0.6302444444444445,
      "grad_norm": 1.3686691522598267,
      "learning_rate": 7.396754834407646e-05,
      "loss": 1.8747,
      "step": 28361
    },
    {
      "epoch": 0.6302666666666666,
      "grad_norm": 1.6149375438690186,
      "learning_rate": 7.396310291175817e-05,
      "loss": 2.1837,
      "step": 28362
    },
    {
      "epoch": 0.6302888888888889,
      "grad_norm": 1.6666003465652466,
      "learning_rate": 7.395865747943987e-05,
      "loss": 2.0275,
      "step": 28363
    },
    {
      "epoch": 0.6303111111111112,
      "grad_norm": 1.603553295135498,
      "learning_rate": 7.395421204712158e-05,
      "loss": 2.3148,
      "step": 28364
    },
    {
      "epoch": 0.6303333333333333,
      "grad_norm": 1.6051143407821655,
      "learning_rate": 7.39497666148033e-05,
      "loss": 2.2403,
      "step": 28365
    },
    {
      "epoch": 0.6303555555555556,
      "grad_norm": 1.8546210527420044,
      "learning_rate": 7.394532118248501e-05,
      "loss": 2.2779,
      "step": 28366
    },
    {
      "epoch": 0.6303777777777778,
      "grad_norm": 1.7641934156417847,
      "learning_rate": 7.394087575016671e-05,
      "loss": 2.2434,
      "step": 28367
    },
    {
      "epoch": 0.6304,
      "grad_norm": 1.4324891567230225,
      "learning_rate": 7.393643031784842e-05,
      "loss": 1.8032,
      "step": 28368
    },
    {
      "epoch": 0.6304222222222222,
      "grad_norm": 1.5796635150909424,
      "learning_rate": 7.393198488553013e-05,
      "loss": 1.8798,
      "step": 28369
    },
    {
      "epoch": 0.6304444444444445,
      "grad_norm": 1.614767074584961,
      "learning_rate": 7.392753945321182e-05,
      "loss": 1.9635,
      "step": 28370
    },
    {
      "epoch": 0.6304666666666666,
      "grad_norm": 1.954885482788086,
      "learning_rate": 7.392309402089353e-05,
      "loss": 2.3244,
      "step": 28371
    },
    {
      "epoch": 0.6304888888888889,
      "grad_norm": 1.6378158330917358,
      "learning_rate": 7.391864858857524e-05,
      "loss": 2.1,
      "step": 28372
    },
    {
      "epoch": 0.6305111111111111,
      "grad_norm": 1.7912436723709106,
      "learning_rate": 7.391420315625695e-05,
      "loss": 2.1831,
      "step": 28373
    },
    {
      "epoch": 0.6305333333333333,
      "grad_norm": 1.5908149480819702,
      "learning_rate": 7.390975772393866e-05,
      "loss": 1.5954,
      "step": 28374
    },
    {
      "epoch": 0.6305555555555555,
      "grad_norm": 1.681992769241333,
      "learning_rate": 7.390531229162037e-05,
      "loss": 2.1747,
      "step": 28375
    },
    {
      "epoch": 0.6305777777777778,
      "grad_norm": 1.6367912292480469,
      "learning_rate": 7.390086685930208e-05,
      "loss": 2.3634,
      "step": 28376
    },
    {
      "epoch": 0.6306,
      "grad_norm": 1.787254810333252,
      "learning_rate": 7.389642142698378e-05,
      "loss": 2.2269,
      "step": 28377
    },
    {
      "epoch": 0.6306222222222222,
      "grad_norm": 1.8347268104553223,
      "learning_rate": 7.389197599466549e-05,
      "loss": 1.8225,
      "step": 28378
    },
    {
      "epoch": 0.6306444444444445,
      "grad_norm": 1.7412904500961304,
      "learning_rate": 7.38875305623472e-05,
      "loss": 1.6935,
      "step": 28379
    },
    {
      "epoch": 0.6306666666666667,
      "grad_norm": 1.8452202081680298,
      "learning_rate": 7.388308513002889e-05,
      "loss": 1.8675,
      "step": 28380
    },
    {
      "epoch": 0.6306888888888889,
      "grad_norm": 1.8450442552566528,
      "learning_rate": 7.38786396977106e-05,
      "loss": 2.0222,
      "step": 28381
    },
    {
      "epoch": 0.6307111111111111,
      "grad_norm": 1.9819624423980713,
      "learning_rate": 7.387419426539231e-05,
      "loss": 1.5903,
      "step": 28382
    },
    {
      "epoch": 0.6307333333333334,
      "grad_norm": 2.1070683002471924,
      "learning_rate": 7.386974883307402e-05,
      "loss": 2.2376,
      "step": 28383
    },
    {
      "epoch": 0.6307555555555555,
      "grad_norm": 2.4826745986938477,
      "learning_rate": 7.386530340075573e-05,
      "loss": 2.0857,
      "step": 28384
    },
    {
      "epoch": 0.6307777777777778,
      "grad_norm": 1.4686522483825684,
      "learning_rate": 7.386085796843744e-05,
      "loss": 1.6862,
      "step": 28385
    },
    {
      "epoch": 0.6308,
      "grad_norm": 1.6939491033554077,
      "learning_rate": 7.385641253611915e-05,
      "loss": 1.5444,
      "step": 28386
    },
    {
      "epoch": 0.6308222222222222,
      "grad_norm": 1.892615556716919,
      "learning_rate": 7.385196710380085e-05,
      "loss": 1.6596,
      "step": 28387
    },
    {
      "epoch": 0.6308444444444444,
      "grad_norm": 1.5864721536636353,
      "learning_rate": 7.384752167148255e-05,
      "loss": 1.8505,
      "step": 28388
    },
    {
      "epoch": 0.6308666666666667,
      "grad_norm": 1.7852271795272827,
      "learning_rate": 7.384307623916426e-05,
      "loss": 2.1614,
      "step": 28389
    },
    {
      "epoch": 0.6308888888888889,
      "grad_norm": 2.2662484645843506,
      "learning_rate": 7.383863080684596e-05,
      "loss": 1.9352,
      "step": 28390
    },
    {
      "epoch": 0.6309111111111111,
      "grad_norm": 1.8422645330429077,
      "learning_rate": 7.383418537452767e-05,
      "loss": 1.5843,
      "step": 28391
    },
    {
      "epoch": 0.6309333333333333,
      "grad_norm": 1.7014566659927368,
      "learning_rate": 7.382973994220938e-05,
      "loss": 1.9234,
      "step": 28392
    },
    {
      "epoch": 0.6309555555555556,
      "grad_norm": 1.7305951118469238,
      "learning_rate": 7.382529450989109e-05,
      "loss": 2.058,
      "step": 28393
    },
    {
      "epoch": 0.6309777777777777,
      "grad_norm": 1.942842721939087,
      "learning_rate": 7.38208490775728e-05,
      "loss": 2.0942,
      "step": 28394
    },
    {
      "epoch": 0.631,
      "grad_norm": 1.5892136096954346,
      "learning_rate": 7.381640364525451e-05,
      "loss": 1.4916,
      "step": 28395
    },
    {
      "epoch": 0.6310222222222223,
      "grad_norm": 1.6735446453094482,
      "learning_rate": 7.381195821293622e-05,
      "loss": 1.6573,
      "step": 28396
    },
    {
      "epoch": 0.6310444444444444,
      "grad_norm": 1.4542067050933838,
      "learning_rate": 7.380751278061791e-05,
      "loss": 1.4651,
      "step": 28397
    },
    {
      "epoch": 0.6310666666666667,
      "grad_norm": 1.794935941696167,
      "learning_rate": 7.380306734829962e-05,
      "loss": 1.508,
      "step": 28398
    },
    {
      "epoch": 0.6310888888888889,
      "grad_norm": 1.9414783716201782,
      "learning_rate": 7.379862191598133e-05,
      "loss": 1.8128,
      "step": 28399
    },
    {
      "epoch": 0.6311111111111111,
      "grad_norm": 1.4216324090957642,
      "learning_rate": 7.379417648366303e-05,
      "loss": 0.9064,
      "step": 28400
    },
    {
      "epoch": 0.6311333333333333,
      "grad_norm": 1.4880794286727905,
      "learning_rate": 7.378973105134474e-05,
      "loss": 2.2743,
      "step": 28401
    },
    {
      "epoch": 0.6311555555555556,
      "grad_norm": 1.5550297498703003,
      "learning_rate": 7.378528561902646e-05,
      "loss": 1.9959,
      "step": 28402
    },
    {
      "epoch": 0.6311777777777777,
      "grad_norm": 1.4357762336730957,
      "learning_rate": 7.378084018670816e-05,
      "loss": 2.1209,
      "step": 28403
    },
    {
      "epoch": 0.6312,
      "grad_norm": 1.5185269117355347,
      "learning_rate": 7.377639475438987e-05,
      "loss": 1.9705,
      "step": 28404
    },
    {
      "epoch": 0.6312222222222222,
      "grad_norm": 1.398624300956726,
      "learning_rate": 7.377194932207158e-05,
      "loss": 1.5216,
      "step": 28405
    },
    {
      "epoch": 0.6312444444444445,
      "grad_norm": 1.5025349855422974,
      "learning_rate": 7.376750388975329e-05,
      "loss": 2.089,
      "step": 28406
    },
    {
      "epoch": 0.6312666666666666,
      "grad_norm": 1.5183087587356567,
      "learning_rate": 7.376305845743498e-05,
      "loss": 1.9401,
      "step": 28407
    },
    {
      "epoch": 0.6312888888888889,
      "grad_norm": 1.4337327480316162,
      "learning_rate": 7.375861302511669e-05,
      "loss": 1.6506,
      "step": 28408
    },
    {
      "epoch": 0.6313111111111112,
      "grad_norm": 1.5042972564697266,
      "learning_rate": 7.37541675927984e-05,
      "loss": 2.1496,
      "step": 28409
    },
    {
      "epoch": 0.6313333333333333,
      "grad_norm": 2.031554698944092,
      "learning_rate": 7.374972216048011e-05,
      "loss": 2.2798,
      "step": 28410
    },
    {
      "epoch": 0.6313555555555556,
      "grad_norm": 1.6585062742233276,
      "learning_rate": 7.374527672816182e-05,
      "loss": 2.2681,
      "step": 28411
    },
    {
      "epoch": 0.6313777777777778,
      "grad_norm": 1.9968764781951904,
      "learning_rate": 7.374083129584353e-05,
      "loss": 2.1939,
      "step": 28412
    },
    {
      "epoch": 0.6314,
      "grad_norm": 1.8754717111587524,
      "learning_rate": 7.373638586352523e-05,
      "loss": 2.2713,
      "step": 28413
    },
    {
      "epoch": 0.6314222222222222,
      "grad_norm": 1.6223303079605103,
      "learning_rate": 7.373194043120694e-05,
      "loss": 2.0536,
      "step": 28414
    },
    {
      "epoch": 0.6314444444444445,
      "grad_norm": 1.6929534673690796,
      "learning_rate": 7.372749499888865e-05,
      "loss": 1.9036,
      "step": 28415
    },
    {
      "epoch": 0.6314666666666666,
      "grad_norm": 1.6671748161315918,
      "learning_rate": 7.372304956657036e-05,
      "loss": 1.9505,
      "step": 28416
    },
    {
      "epoch": 0.6314888888888889,
      "grad_norm": 2.055662155151367,
      "learning_rate": 7.371860413425205e-05,
      "loss": 2.4632,
      "step": 28417
    },
    {
      "epoch": 0.6315111111111111,
      "grad_norm": 1.5693776607513428,
      "learning_rate": 7.371415870193376e-05,
      "loss": 1.7384,
      "step": 28418
    },
    {
      "epoch": 0.6315333333333333,
      "grad_norm": 1.3068820238113403,
      "learning_rate": 7.370971326961547e-05,
      "loss": 0.6118,
      "step": 28419
    },
    {
      "epoch": 0.6315555555555555,
      "grad_norm": 1.467512845993042,
      "learning_rate": 7.370526783729718e-05,
      "loss": 2.0226,
      "step": 28420
    },
    {
      "epoch": 0.6315777777777778,
      "grad_norm": 1.5475867986679077,
      "learning_rate": 7.370082240497889e-05,
      "loss": 1.931,
      "step": 28421
    },
    {
      "epoch": 0.6316,
      "grad_norm": 1.5756876468658447,
      "learning_rate": 7.36963769726606e-05,
      "loss": 1.6972,
      "step": 28422
    },
    {
      "epoch": 0.6316222222222222,
      "grad_norm": 1.9265605211257935,
      "learning_rate": 7.369193154034231e-05,
      "loss": 2.3031,
      "step": 28423
    },
    {
      "epoch": 0.6316444444444445,
      "grad_norm": 1.5181357860565186,
      "learning_rate": 7.3687486108024e-05,
      "loss": 2.1034,
      "step": 28424
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 1.7012661695480347,
      "learning_rate": 7.368304067570572e-05,
      "loss": 2.1504,
      "step": 28425
    },
    {
      "epoch": 0.6316888888888889,
      "grad_norm": 1.4558168649673462,
      "learning_rate": 7.367859524338743e-05,
      "loss": 1.533,
      "step": 28426
    },
    {
      "epoch": 0.6317111111111111,
      "grad_norm": 1.610884189605713,
      "learning_rate": 7.367414981106912e-05,
      "loss": 2.0492,
      "step": 28427
    },
    {
      "epoch": 0.6317333333333334,
      "grad_norm": 1.6316362619400024,
      "learning_rate": 7.366970437875083e-05,
      "loss": 1.604,
      "step": 28428
    },
    {
      "epoch": 0.6317555555555555,
      "grad_norm": 1.0601921081542969,
      "learning_rate": 7.366525894643254e-05,
      "loss": 0.8132,
      "step": 28429
    },
    {
      "epoch": 0.6317777777777778,
      "grad_norm": 1.6722947359085083,
      "learning_rate": 7.366081351411425e-05,
      "loss": 1.6607,
      "step": 28430
    },
    {
      "epoch": 0.6318,
      "grad_norm": 2.0034799575805664,
      "learning_rate": 7.365636808179596e-05,
      "loss": 1.9938,
      "step": 28431
    },
    {
      "epoch": 0.6318222222222222,
      "grad_norm": 1.1785577535629272,
      "learning_rate": 7.365192264947767e-05,
      "loss": 0.8286,
      "step": 28432
    },
    {
      "epoch": 0.6318444444444444,
      "grad_norm": 1.7210696935653687,
      "learning_rate": 7.364747721715938e-05,
      "loss": 1.7816,
      "step": 28433
    },
    {
      "epoch": 0.6318666666666667,
      "grad_norm": 1.9599621295928955,
      "learning_rate": 7.364303178484108e-05,
      "loss": 2.3561,
      "step": 28434
    },
    {
      "epoch": 0.6318888888888889,
      "grad_norm": 1.6815145015716553,
      "learning_rate": 7.363858635252278e-05,
      "loss": 1.9247,
      "step": 28435
    },
    {
      "epoch": 0.6319111111111111,
      "grad_norm": 1.673786997795105,
      "learning_rate": 7.36341409202045e-05,
      "loss": 1.5815,
      "step": 28436
    },
    {
      "epoch": 0.6319333333333333,
      "grad_norm": 1.7454754114151,
      "learning_rate": 7.362969548788619e-05,
      "loss": 1.6624,
      "step": 28437
    },
    {
      "epoch": 0.6319555555555556,
      "grad_norm": 1.573633074760437,
      "learning_rate": 7.36252500555679e-05,
      "loss": 1.5709,
      "step": 28438
    },
    {
      "epoch": 0.6319777777777777,
      "grad_norm": 1.6286156177520752,
      "learning_rate": 7.362080462324962e-05,
      "loss": 1.5022,
      "step": 28439
    },
    {
      "epoch": 0.632,
      "grad_norm": 1.5434051752090454,
      "learning_rate": 7.361635919093132e-05,
      "loss": 1.8551,
      "step": 28440
    },
    {
      "epoch": 0.6320222222222223,
      "grad_norm": 1.667515754699707,
      "learning_rate": 7.361191375861303e-05,
      "loss": 1.4745,
      "step": 28441
    },
    {
      "epoch": 0.6320444444444444,
      "grad_norm": 1.844184160232544,
      "learning_rate": 7.360746832629474e-05,
      "loss": 1.8393,
      "step": 28442
    },
    {
      "epoch": 0.6320666666666667,
      "grad_norm": 1.635435938835144,
      "learning_rate": 7.360302289397645e-05,
      "loss": 1.4518,
      "step": 28443
    },
    {
      "epoch": 0.6320888888888889,
      "grad_norm": 2.1414828300476074,
      "learning_rate": 7.359857746165814e-05,
      "loss": 1.9476,
      "step": 28444
    },
    {
      "epoch": 0.6321111111111111,
      "grad_norm": 1.8981890678405762,
      "learning_rate": 7.359413202933985e-05,
      "loss": 1.882,
      "step": 28445
    },
    {
      "epoch": 0.6321333333333333,
      "grad_norm": 1.939850091934204,
      "learning_rate": 7.358968659702156e-05,
      "loss": 1.6742,
      "step": 28446
    },
    {
      "epoch": 0.6321555555555556,
      "grad_norm": 1.9543533325195312,
      "learning_rate": 7.358524116470327e-05,
      "loss": 1.6316,
      "step": 28447
    },
    {
      "epoch": 0.6321777777777777,
      "grad_norm": 1.5883665084838867,
      "learning_rate": 7.358079573238498e-05,
      "loss": 1.7852,
      "step": 28448
    },
    {
      "epoch": 0.6322,
      "grad_norm": 2.1732687950134277,
      "learning_rate": 7.357635030006669e-05,
      "loss": 1.5089,
      "step": 28449
    },
    {
      "epoch": 0.6322222222222222,
      "grad_norm": 2.041788101196289,
      "learning_rate": 7.357190486774839e-05,
      "loss": 1.3564,
      "step": 28450
    },
    {
      "epoch": 0.6322444444444445,
      "grad_norm": 1.011060118675232,
      "learning_rate": 7.35674594354301e-05,
      "loss": 1.1324,
      "step": 28451
    },
    {
      "epoch": 0.6322666666666666,
      "grad_norm": 2.093306064605713,
      "learning_rate": 7.356301400311181e-05,
      "loss": 2.4241,
      "step": 28452
    },
    {
      "epoch": 0.6322888888888889,
      "grad_norm": 1.4873263835906982,
      "learning_rate": 7.355856857079352e-05,
      "loss": 2.338,
      "step": 28453
    },
    {
      "epoch": 0.6323111111111112,
      "grad_norm": 2.758570432662964,
      "learning_rate": 7.355412313847521e-05,
      "loss": 1.6346,
      "step": 28454
    },
    {
      "epoch": 0.6323333333333333,
      "grad_norm": 1.6452229022979736,
      "learning_rate": 7.354967770615692e-05,
      "loss": 1.3205,
      "step": 28455
    },
    {
      "epoch": 0.6323555555555556,
      "grad_norm": 1.439057469367981,
      "learning_rate": 7.354523227383863e-05,
      "loss": 1.6358,
      "step": 28456
    },
    {
      "epoch": 0.6323777777777778,
      "grad_norm": 1.928806185722351,
      "learning_rate": 7.354078684152034e-05,
      "loss": 2.5795,
      "step": 28457
    },
    {
      "epoch": 0.6324,
      "grad_norm": 1.6794370412826538,
      "learning_rate": 7.353634140920205e-05,
      "loss": 2.255,
      "step": 28458
    },
    {
      "epoch": 0.6324222222222222,
      "grad_norm": 1.8662517070770264,
      "learning_rate": 7.353189597688376e-05,
      "loss": 1.6204,
      "step": 28459
    },
    {
      "epoch": 0.6324444444444445,
      "grad_norm": 1.5139602422714233,
      "learning_rate": 7.352745054456546e-05,
      "loss": 1.911,
      "step": 28460
    },
    {
      "epoch": 0.6324666666666666,
      "grad_norm": 1.6585510969161987,
      "learning_rate": 7.352300511224717e-05,
      "loss": 2.3561,
      "step": 28461
    },
    {
      "epoch": 0.6324888888888889,
      "grad_norm": 1.6817216873168945,
      "learning_rate": 7.351855967992888e-05,
      "loss": 2.1024,
      "step": 28462
    },
    {
      "epoch": 0.6325111111111111,
      "grad_norm": 1.553934097290039,
      "learning_rate": 7.351411424761059e-05,
      "loss": 1.975,
      "step": 28463
    },
    {
      "epoch": 0.6325333333333333,
      "grad_norm": 1.6149582862854004,
      "learning_rate": 7.350966881529228e-05,
      "loss": 2.3645,
      "step": 28464
    },
    {
      "epoch": 0.6325555555555555,
      "grad_norm": 1.5581504106521606,
      "learning_rate": 7.350522338297399e-05,
      "loss": 2.1551,
      "step": 28465
    },
    {
      "epoch": 0.6325777777777778,
      "grad_norm": 1.6197482347488403,
      "learning_rate": 7.35007779506557e-05,
      "loss": 2.0389,
      "step": 28466
    },
    {
      "epoch": 0.6326,
      "grad_norm": 2.02691388130188,
      "learning_rate": 7.349633251833741e-05,
      "loss": 1.8135,
      "step": 28467
    },
    {
      "epoch": 0.6326222222222222,
      "grad_norm": 1.5820540189743042,
      "learning_rate": 7.349188708601912e-05,
      "loss": 1.8064,
      "step": 28468
    },
    {
      "epoch": 0.6326444444444445,
      "grad_norm": 1.6677908897399902,
      "learning_rate": 7.348744165370083e-05,
      "loss": 1.9711,
      "step": 28469
    },
    {
      "epoch": 0.6326666666666667,
      "grad_norm": 1.846671223640442,
      "learning_rate": 7.348299622138254e-05,
      "loss": 1.7647,
      "step": 28470
    },
    {
      "epoch": 0.6326888888888889,
      "grad_norm": 1.6714377403259277,
      "learning_rate": 7.347855078906424e-05,
      "loss": 1.6715,
      "step": 28471
    },
    {
      "epoch": 0.6327111111111111,
      "grad_norm": 2.223407745361328,
      "learning_rate": 7.347410535674595e-05,
      "loss": 2.3233,
      "step": 28472
    },
    {
      "epoch": 0.6327333333333334,
      "grad_norm": 1.6671288013458252,
      "learning_rate": 7.346965992442766e-05,
      "loss": 1.8601,
      "step": 28473
    },
    {
      "epoch": 0.6327555555555555,
      "grad_norm": 1.7181869745254517,
      "learning_rate": 7.346521449210935e-05,
      "loss": 1.8613,
      "step": 28474
    },
    {
      "epoch": 0.6327777777777778,
      "grad_norm": 1.8806204795837402,
      "learning_rate": 7.346076905979106e-05,
      "loss": 2.8201,
      "step": 28475
    },
    {
      "epoch": 0.6328,
      "grad_norm": 1.6484366655349731,
      "learning_rate": 7.345632362747278e-05,
      "loss": 1.7206,
      "step": 28476
    },
    {
      "epoch": 0.6328222222222222,
      "grad_norm": 1.443996548652649,
      "learning_rate": 7.345187819515448e-05,
      "loss": 1.6574,
      "step": 28477
    },
    {
      "epoch": 0.6328444444444444,
      "grad_norm": 1.6608508825302124,
      "learning_rate": 7.344743276283619e-05,
      "loss": 1.6401,
      "step": 28478
    },
    {
      "epoch": 0.6328666666666667,
      "grad_norm": 2.0114076137542725,
      "learning_rate": 7.34429873305179e-05,
      "loss": 2.4515,
      "step": 28479
    },
    {
      "epoch": 0.6328888888888888,
      "grad_norm": 1.9120980501174927,
      "learning_rate": 7.343854189819961e-05,
      "loss": 2.0641,
      "step": 28480
    },
    {
      "epoch": 0.6329111111111111,
      "grad_norm": 1.7209848165512085,
      "learning_rate": 7.34340964658813e-05,
      "loss": 1.9164,
      "step": 28481
    },
    {
      "epoch": 0.6329333333333333,
      "grad_norm": 1.8291016817092896,
      "learning_rate": 7.342965103356302e-05,
      "loss": 2.1635,
      "step": 28482
    },
    {
      "epoch": 0.6329555555555556,
      "grad_norm": 1.7169533967971802,
      "learning_rate": 7.342520560124472e-05,
      "loss": 1.9718,
      "step": 28483
    },
    {
      "epoch": 0.6329777777777778,
      "grad_norm": 1.7712876796722412,
      "learning_rate": 7.342076016892643e-05,
      "loss": 1.8347,
      "step": 28484
    },
    {
      "epoch": 0.633,
      "grad_norm": 1.8500925302505493,
      "learning_rate": 7.341631473660814e-05,
      "loss": 1.8675,
      "step": 28485
    },
    {
      "epoch": 0.6330222222222223,
      "grad_norm": 1.7853578329086304,
      "learning_rate": 7.341186930428985e-05,
      "loss": 1.9601,
      "step": 28486
    },
    {
      "epoch": 0.6330444444444444,
      "grad_norm": 1.840130090713501,
      "learning_rate": 7.340742387197155e-05,
      "loss": 2.0153,
      "step": 28487
    },
    {
      "epoch": 0.6330666666666667,
      "grad_norm": 2.2379651069641113,
      "learning_rate": 7.340297843965326e-05,
      "loss": 2.0073,
      "step": 28488
    },
    {
      "epoch": 0.6330888888888889,
      "grad_norm": 1.6185786724090576,
      "learning_rate": 7.339853300733497e-05,
      "loss": 1.7823,
      "step": 28489
    },
    {
      "epoch": 0.6331111111111111,
      "grad_norm": 6.099532604217529,
      "learning_rate": 7.339408757501668e-05,
      "loss": 1.8272,
      "step": 28490
    },
    {
      "epoch": 0.6331333333333333,
      "grad_norm": 1.8324321508407593,
      "learning_rate": 7.338964214269837e-05,
      "loss": 2.173,
      "step": 28491
    },
    {
      "epoch": 0.6331555555555556,
      "grad_norm": 1.8781834840774536,
      "learning_rate": 7.338519671038008e-05,
      "loss": 1.8743,
      "step": 28492
    },
    {
      "epoch": 0.6331777777777777,
      "grad_norm": 2.0203893184661865,
      "learning_rate": 7.33807512780618e-05,
      "loss": 2.1924,
      "step": 28493
    },
    {
      "epoch": 0.6332,
      "grad_norm": 1.485815405845642,
      "learning_rate": 7.33763058457435e-05,
      "loss": 1.4762,
      "step": 28494
    },
    {
      "epoch": 0.6332222222222222,
      "grad_norm": 2.0100176334381104,
      "learning_rate": 7.337186041342521e-05,
      "loss": 2.186,
      "step": 28495
    },
    {
      "epoch": 0.6332444444444445,
      "grad_norm": 1.780142903327942,
      "learning_rate": 7.336741498110692e-05,
      "loss": 1.6422,
      "step": 28496
    },
    {
      "epoch": 0.6332666666666666,
      "grad_norm": 2.057020425796509,
      "learning_rate": 7.336296954878862e-05,
      "loss": 1.7511,
      "step": 28497
    },
    {
      "epoch": 0.6332888888888889,
      "grad_norm": 1.6470258235931396,
      "learning_rate": 7.335852411647033e-05,
      "loss": 1.7918,
      "step": 28498
    },
    {
      "epoch": 0.6333111111111112,
      "grad_norm": 1.5285764932632446,
      "learning_rate": 7.335407868415204e-05,
      "loss": 1.5708,
      "step": 28499
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 1.337584376335144,
      "learning_rate": 7.334963325183375e-05,
      "loss": 1.0091,
      "step": 28500
    },
    {
      "epoch": 0.6333555555555556,
      "grad_norm": 1.5156707763671875,
      "learning_rate": 7.334518781951544e-05,
      "loss": 2.3721,
      "step": 28501
    },
    {
      "epoch": 0.6333777777777778,
      "grad_norm": 1.9771760702133179,
      "learning_rate": 7.334074238719715e-05,
      "loss": 2.5071,
      "step": 28502
    },
    {
      "epoch": 0.6334,
      "grad_norm": 1.4453988075256348,
      "learning_rate": 7.333629695487886e-05,
      "loss": 2.2172,
      "step": 28503
    },
    {
      "epoch": 0.6334222222222222,
      "grad_norm": 1.5911939144134521,
      "learning_rate": 7.333185152256057e-05,
      "loss": 1.7264,
      "step": 28504
    },
    {
      "epoch": 0.6334444444444445,
      "grad_norm": 1.421743631362915,
      "learning_rate": 7.332740609024228e-05,
      "loss": 1.9622,
      "step": 28505
    },
    {
      "epoch": 0.6334666666666666,
      "grad_norm": 1.416795015335083,
      "learning_rate": 7.332296065792399e-05,
      "loss": 1.7702,
      "step": 28506
    },
    {
      "epoch": 0.6334888888888889,
      "grad_norm": 1.7996914386749268,
      "learning_rate": 7.331851522560569e-05,
      "loss": 1.6658,
      "step": 28507
    },
    {
      "epoch": 0.6335111111111111,
      "grad_norm": 1.7646291255950928,
      "learning_rate": 7.33140697932874e-05,
      "loss": 2.6733,
      "step": 28508
    },
    {
      "epoch": 0.6335333333333333,
      "grad_norm": 1.6536164283752441,
      "learning_rate": 7.330962436096911e-05,
      "loss": 1.9984,
      "step": 28509
    },
    {
      "epoch": 0.6335555555555555,
      "grad_norm": 1.6147255897521973,
      "learning_rate": 7.330517892865082e-05,
      "loss": 1.9761,
      "step": 28510
    },
    {
      "epoch": 0.6335777777777778,
      "grad_norm": 1.5083590745925903,
      "learning_rate": 7.330073349633251e-05,
      "loss": 1.7461,
      "step": 28511
    },
    {
      "epoch": 0.6336,
      "grad_norm": 1.7501157522201538,
      "learning_rate": 7.329628806401422e-05,
      "loss": 2.2495,
      "step": 28512
    },
    {
      "epoch": 0.6336222222222222,
      "grad_norm": 1.9548697471618652,
      "learning_rate": 7.329184263169595e-05,
      "loss": 2.637,
      "step": 28513
    },
    {
      "epoch": 0.6336444444444445,
      "grad_norm": 1.6512237787246704,
      "learning_rate": 7.328739719937764e-05,
      "loss": 2.0011,
      "step": 28514
    },
    {
      "epoch": 0.6336666666666667,
      "grad_norm": 1.7872507572174072,
      "learning_rate": 7.328295176705935e-05,
      "loss": 2.345,
      "step": 28515
    },
    {
      "epoch": 0.6336888888888889,
      "grad_norm": 1.7773979902267456,
      "learning_rate": 7.327850633474106e-05,
      "loss": 1.9037,
      "step": 28516
    },
    {
      "epoch": 0.6337111111111111,
      "grad_norm": 2.1018433570861816,
      "learning_rate": 7.327406090242276e-05,
      "loss": 2.0568,
      "step": 28517
    },
    {
      "epoch": 0.6337333333333334,
      "grad_norm": 1.9714939594268799,
      "learning_rate": 7.326961547010447e-05,
      "loss": 1.5208,
      "step": 28518
    },
    {
      "epoch": 0.6337555555555555,
      "grad_norm": 1.7774789333343506,
      "learning_rate": 7.326517003778618e-05,
      "loss": 2.0657,
      "step": 28519
    },
    {
      "epoch": 0.6337777777777778,
      "grad_norm": 1.48650324344635,
      "learning_rate": 7.326072460546789e-05,
      "loss": 2.0511,
      "step": 28520
    },
    {
      "epoch": 0.6338,
      "grad_norm": 1.7070021629333496,
      "learning_rate": 7.32562791731496e-05,
      "loss": 2.0907,
      "step": 28521
    },
    {
      "epoch": 0.6338222222222222,
      "grad_norm": 1.827212929725647,
      "learning_rate": 7.32518337408313e-05,
      "loss": 2.1822,
      "step": 28522
    },
    {
      "epoch": 0.6338444444444444,
      "grad_norm": 1.3869909048080444,
      "learning_rate": 7.324738830851301e-05,
      "loss": 1.672,
      "step": 28523
    },
    {
      "epoch": 0.6338666666666667,
      "grad_norm": 1.6951630115509033,
      "learning_rate": 7.324294287619471e-05,
      "loss": 1.6874,
      "step": 28524
    },
    {
      "epoch": 0.6338888888888888,
      "grad_norm": 1.5163898468017578,
      "learning_rate": 7.323849744387642e-05,
      "loss": 2.0067,
      "step": 28525
    },
    {
      "epoch": 0.6339111111111111,
      "grad_norm": 1.5956902503967285,
      "learning_rate": 7.323405201155813e-05,
      "loss": 1.7679,
      "step": 28526
    },
    {
      "epoch": 0.6339333333333333,
      "grad_norm": 1.5486507415771484,
      "learning_rate": 7.322960657923984e-05,
      "loss": 1.7618,
      "step": 28527
    },
    {
      "epoch": 0.6339555555555556,
      "grad_norm": 1.6986682415008545,
      "learning_rate": 7.322516114692154e-05,
      "loss": 2.2877,
      "step": 28528
    },
    {
      "epoch": 0.6339777777777778,
      "grad_norm": 1.615833044052124,
      "learning_rate": 7.322071571460325e-05,
      "loss": 1.9716,
      "step": 28529
    },
    {
      "epoch": 0.634,
      "grad_norm": 1.906920313835144,
      "learning_rate": 7.321627028228495e-05,
      "loss": 1.8578,
      "step": 28530
    },
    {
      "epoch": 0.6340222222222223,
      "grad_norm": 1.7437498569488525,
      "learning_rate": 7.321182484996666e-05,
      "loss": 1.7576,
      "step": 28531
    },
    {
      "epoch": 0.6340444444444444,
      "grad_norm": 1.6995993852615356,
      "learning_rate": 7.320737941764837e-05,
      "loss": 1.9975,
      "step": 28532
    },
    {
      "epoch": 0.6340666666666667,
      "grad_norm": 1.756561279296875,
      "learning_rate": 7.320293398533008e-05,
      "loss": 0.8284,
      "step": 28533
    },
    {
      "epoch": 0.6340888888888889,
      "grad_norm": 1.932459831237793,
      "learning_rate": 7.319848855301178e-05,
      "loss": 2.5953,
      "step": 28534
    },
    {
      "epoch": 0.6341111111111111,
      "grad_norm": 1.888073444366455,
      "learning_rate": 7.319404312069349e-05,
      "loss": 2.0259,
      "step": 28535
    },
    {
      "epoch": 0.6341333333333333,
      "grad_norm": 2.1089727878570557,
      "learning_rate": 7.31895976883752e-05,
      "loss": 2.2318,
      "step": 28536
    },
    {
      "epoch": 0.6341555555555556,
      "grad_norm": 1.951337218284607,
      "learning_rate": 7.318515225605691e-05,
      "loss": 1.7462,
      "step": 28537
    },
    {
      "epoch": 0.6341777777777777,
      "grad_norm": 1.523807168006897,
      "learning_rate": 7.31807068237386e-05,
      "loss": 1.8149,
      "step": 28538
    },
    {
      "epoch": 0.6342,
      "grad_norm": 1.58031165599823,
      "learning_rate": 7.317626139142031e-05,
      "loss": 1.8405,
      "step": 28539
    },
    {
      "epoch": 0.6342222222222222,
      "grad_norm": 1.4024109840393066,
      "learning_rate": 7.317181595910202e-05,
      "loss": 1.3146,
      "step": 28540
    },
    {
      "epoch": 0.6342444444444445,
      "grad_norm": 2.466278076171875,
      "learning_rate": 7.316737052678373e-05,
      "loss": 1.946,
      "step": 28541
    },
    {
      "epoch": 0.6342666666666666,
      "grad_norm": 1.586089849472046,
      "learning_rate": 7.316292509446544e-05,
      "loss": 1.9332,
      "step": 28542
    },
    {
      "epoch": 0.6342888888888889,
      "grad_norm": 1.5611326694488525,
      "learning_rate": 7.315847966214715e-05,
      "loss": 1.6498,
      "step": 28543
    },
    {
      "epoch": 0.6343111111111112,
      "grad_norm": 1.8813029527664185,
      "learning_rate": 7.315403422982885e-05,
      "loss": 1.7946,
      "step": 28544
    },
    {
      "epoch": 0.6343333333333333,
      "grad_norm": 1.7111068964004517,
      "learning_rate": 7.314958879751056e-05,
      "loss": 1.7456,
      "step": 28545
    },
    {
      "epoch": 0.6343555555555556,
      "grad_norm": 2.0285494327545166,
      "learning_rate": 7.314514336519227e-05,
      "loss": 1.8342,
      "step": 28546
    },
    {
      "epoch": 0.6343777777777778,
      "grad_norm": 1.7374845743179321,
      "learning_rate": 7.314069793287398e-05,
      "loss": 1.7883,
      "step": 28547
    },
    {
      "epoch": 0.6344,
      "grad_norm": 1.5826327800750732,
      "learning_rate": 7.313625250055567e-05,
      "loss": 1.3873,
      "step": 28548
    },
    {
      "epoch": 0.6344222222222222,
      "grad_norm": 1.2411465644836426,
      "learning_rate": 7.31318070682374e-05,
      "loss": 0.7282,
      "step": 28549
    },
    {
      "epoch": 0.6344444444444445,
      "grad_norm": 1.8891007900238037,
      "learning_rate": 7.31273616359191e-05,
      "loss": 1.24,
      "step": 28550
    },
    {
      "epoch": 0.6344666666666666,
      "grad_norm": 1.4046944379806519,
      "learning_rate": 7.31229162036008e-05,
      "loss": 2.2538,
      "step": 28551
    },
    {
      "epoch": 0.6344888888888889,
      "grad_norm": 1.4603004455566406,
      "learning_rate": 7.311847077128251e-05,
      "loss": 2.1524,
      "step": 28552
    },
    {
      "epoch": 0.6345111111111111,
      "grad_norm": 1.4375442266464233,
      "learning_rate": 7.311402533896422e-05,
      "loss": 2.4616,
      "step": 28553
    },
    {
      "epoch": 0.6345333333333333,
      "grad_norm": 1.6095811128616333,
      "learning_rate": 7.310957990664592e-05,
      "loss": 2.2056,
      "step": 28554
    },
    {
      "epoch": 0.6345555555555555,
      "grad_norm": 1.7685246467590332,
      "learning_rate": 7.310513447432763e-05,
      "loss": 2.2868,
      "step": 28555
    },
    {
      "epoch": 0.6345777777777778,
      "grad_norm": 0.9971567988395691,
      "learning_rate": 7.310068904200934e-05,
      "loss": 0.9219,
      "step": 28556
    },
    {
      "epoch": 0.6346,
      "grad_norm": 1.743350625038147,
      "learning_rate": 7.309624360969105e-05,
      "loss": 2.5285,
      "step": 28557
    },
    {
      "epoch": 0.6346222222222222,
      "grad_norm": 1.6786539554595947,
      "learning_rate": 7.309179817737276e-05,
      "loss": 1.6679,
      "step": 28558
    },
    {
      "epoch": 0.6346444444444445,
      "grad_norm": 1.6530226469039917,
      "learning_rate": 7.308735274505447e-05,
      "loss": 1.8407,
      "step": 28559
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 1.5131018161773682,
      "learning_rate": 7.308290731273618e-05,
      "loss": 2.0245,
      "step": 28560
    },
    {
      "epoch": 0.6346888888888889,
      "grad_norm": 1.5645263195037842,
      "learning_rate": 7.307846188041787e-05,
      "loss": 1.9042,
      "step": 28561
    },
    {
      "epoch": 0.6347111111111111,
      "grad_norm": 1.5649160146713257,
      "learning_rate": 7.307401644809958e-05,
      "loss": 2.1702,
      "step": 28562
    },
    {
      "epoch": 0.6347333333333334,
      "grad_norm": 1.6197746992111206,
      "learning_rate": 7.306957101578129e-05,
      "loss": 2.2538,
      "step": 28563
    },
    {
      "epoch": 0.6347555555555555,
      "grad_norm": 1.6465293169021606,
      "learning_rate": 7.306512558346299e-05,
      "loss": 2.389,
      "step": 28564
    },
    {
      "epoch": 0.6347777777777778,
      "grad_norm": 1.5573149919509888,
      "learning_rate": 7.30606801511447e-05,
      "loss": 2.0219,
      "step": 28565
    },
    {
      "epoch": 0.6348,
      "grad_norm": 1.5480624437332153,
      "learning_rate": 7.30562347188264e-05,
      "loss": 1.5438,
      "step": 28566
    },
    {
      "epoch": 0.6348222222222222,
      "grad_norm": 1.59479558467865,
      "learning_rate": 7.305178928650812e-05,
      "loss": 1.1533,
      "step": 28567
    },
    {
      "epoch": 0.6348444444444444,
      "grad_norm": 1.8960281610488892,
      "learning_rate": 7.304734385418983e-05,
      "loss": 2.0588,
      "step": 28568
    },
    {
      "epoch": 0.6348666666666667,
      "grad_norm": 1.7194708585739136,
      "learning_rate": 7.304289842187154e-05,
      "loss": 2.1623,
      "step": 28569
    },
    {
      "epoch": 0.6348888888888888,
      "grad_norm": 1.7426247596740723,
      "learning_rate": 7.303845298955324e-05,
      "loss": 2.4881,
      "step": 28570
    },
    {
      "epoch": 0.6349111111111111,
      "grad_norm": 1.7681390047073364,
      "learning_rate": 7.303400755723494e-05,
      "loss": 1.7168,
      "step": 28571
    },
    {
      "epoch": 0.6349333333333333,
      "grad_norm": 1.7570207118988037,
      "learning_rate": 7.302956212491665e-05,
      "loss": 1.8496,
      "step": 28572
    },
    {
      "epoch": 0.6349555555555556,
      "grad_norm": 1.7781468629837036,
      "learning_rate": 7.302511669259836e-05,
      "loss": 1.9237,
      "step": 28573
    },
    {
      "epoch": 0.6349777777777778,
      "grad_norm": 2.170135498046875,
      "learning_rate": 7.302067126028006e-05,
      "loss": 2.6366,
      "step": 28574
    },
    {
      "epoch": 0.635,
      "grad_norm": 1.726895809173584,
      "learning_rate": 7.301622582796177e-05,
      "loss": 1.9751,
      "step": 28575
    },
    {
      "epoch": 0.6350222222222223,
      "grad_norm": 1.7290587425231934,
      "learning_rate": 7.301178039564348e-05,
      "loss": 2.4883,
      "step": 28576
    },
    {
      "epoch": 0.6350444444444444,
      "grad_norm": 1.654848337173462,
      "learning_rate": 7.300733496332518e-05,
      "loss": 2.0482,
      "step": 28577
    },
    {
      "epoch": 0.6350666666666667,
      "grad_norm": 1.8695530891418457,
      "learning_rate": 7.30028895310069e-05,
      "loss": 1.987,
      "step": 28578
    },
    {
      "epoch": 0.6350888888888889,
      "grad_norm": 1.7678459882736206,
      "learning_rate": 7.29984440986886e-05,
      "loss": 2.162,
      "step": 28579
    },
    {
      "epoch": 0.6351111111111111,
      "grad_norm": 1.806392788887024,
      "learning_rate": 7.299399866637031e-05,
      "loss": 1.9873,
      "step": 28580
    },
    {
      "epoch": 0.6351333333333333,
      "grad_norm": 1.878972053527832,
      "learning_rate": 7.298955323405201e-05,
      "loss": 2.217,
      "step": 28581
    },
    {
      "epoch": 0.6351555555555556,
      "grad_norm": 1.5210174322128296,
      "learning_rate": 7.298510780173372e-05,
      "loss": 1.8135,
      "step": 28582
    },
    {
      "epoch": 0.6351777777777777,
      "grad_norm": 1.3945029973983765,
      "learning_rate": 7.298066236941543e-05,
      "loss": 1.2624,
      "step": 28583
    },
    {
      "epoch": 0.6352,
      "grad_norm": 1.7245527505874634,
      "learning_rate": 7.297621693709714e-05,
      "loss": 1.9487,
      "step": 28584
    },
    {
      "epoch": 0.6352222222222222,
      "grad_norm": 1.6345226764678955,
      "learning_rate": 7.297177150477883e-05,
      "loss": 1.7475,
      "step": 28585
    },
    {
      "epoch": 0.6352444444444444,
      "grad_norm": 1.9497441053390503,
      "learning_rate": 7.296732607246056e-05,
      "loss": 1.898,
      "step": 28586
    },
    {
      "epoch": 0.6352666666666666,
      "grad_norm": 2.098942279815674,
      "learning_rate": 7.296288064014227e-05,
      "loss": 1.8164,
      "step": 28587
    },
    {
      "epoch": 0.6352888888888889,
      "grad_norm": 2.027961492538452,
      "learning_rate": 7.295843520782396e-05,
      "loss": 2.0378,
      "step": 28588
    },
    {
      "epoch": 0.6353111111111112,
      "grad_norm": 1.3239794969558716,
      "learning_rate": 7.295398977550567e-05,
      "loss": 1.2233,
      "step": 28589
    },
    {
      "epoch": 0.6353333333333333,
      "grad_norm": 1.8406566381454468,
      "learning_rate": 7.294954434318738e-05,
      "loss": 1.9132,
      "step": 28590
    },
    {
      "epoch": 0.6353555555555556,
      "grad_norm": 1.7158334255218506,
      "learning_rate": 7.294509891086908e-05,
      "loss": 1.5789,
      "step": 28591
    },
    {
      "epoch": 0.6353777777777778,
      "grad_norm": 1.7892802953720093,
      "learning_rate": 7.294065347855079e-05,
      "loss": 1.9597,
      "step": 28592
    },
    {
      "epoch": 0.6354,
      "grad_norm": 1.775794506072998,
      "learning_rate": 7.29362080462325e-05,
      "loss": 2.115,
      "step": 28593
    },
    {
      "epoch": 0.6354222222222222,
      "grad_norm": 1.8277240991592407,
      "learning_rate": 7.293176261391421e-05,
      "loss": 1.7255,
      "step": 28594
    },
    {
      "epoch": 0.6354444444444445,
      "grad_norm": 1.9447377920150757,
      "learning_rate": 7.292731718159592e-05,
      "loss": 1.9657,
      "step": 28595
    },
    {
      "epoch": 0.6354666666666666,
      "grad_norm": 1.974876046180725,
      "learning_rate": 7.292287174927763e-05,
      "loss": 1.7476,
      "step": 28596
    },
    {
      "epoch": 0.6354888888888889,
      "grad_norm": 2.3403728008270264,
      "learning_rate": 7.291842631695934e-05,
      "loss": 2.101,
      "step": 28597
    },
    {
      "epoch": 0.6355111111111111,
      "grad_norm": 1.9675029516220093,
      "learning_rate": 7.291398088464103e-05,
      "loss": 2.0985,
      "step": 28598
    },
    {
      "epoch": 0.6355333333333333,
      "grad_norm": 1.6708178520202637,
      "learning_rate": 7.290953545232274e-05,
      "loss": 1.4453,
      "step": 28599
    },
    {
      "epoch": 0.6355555555555555,
      "grad_norm": 2.2771944999694824,
      "learning_rate": 7.290509002000445e-05,
      "loss": 1.4697,
      "step": 28600
    },
    {
      "epoch": 0.6355777777777778,
      "grad_norm": 1.8394581079483032,
      "learning_rate": 7.290064458768615e-05,
      "loss": 2.1661,
      "step": 28601
    },
    {
      "epoch": 0.6356,
      "grad_norm": 1.8911298513412476,
      "learning_rate": 7.289619915536786e-05,
      "loss": 2.4016,
      "step": 28602
    },
    {
      "epoch": 0.6356222222222222,
      "grad_norm": 1.4113638401031494,
      "learning_rate": 7.289175372304957e-05,
      "loss": 2.1418,
      "step": 28603
    },
    {
      "epoch": 0.6356444444444445,
      "grad_norm": 0.29859021306037903,
      "learning_rate": 7.288730829073128e-05,
      "loss": 0.0205,
      "step": 28604
    },
    {
      "epoch": 0.6356666666666667,
      "grad_norm": 1.9816783666610718,
      "learning_rate": 7.288286285841299e-05,
      "loss": 1.8118,
      "step": 28605
    },
    {
      "epoch": 0.6356888888888889,
      "grad_norm": 1.4286977052688599,
      "learning_rate": 7.28784174260947e-05,
      "loss": 1.9265,
      "step": 28606
    },
    {
      "epoch": 0.6357111111111111,
      "grad_norm": 1.6861002445220947,
      "learning_rate": 7.28739719937764e-05,
      "loss": 2.3091,
      "step": 28607
    },
    {
      "epoch": 0.6357333333333334,
      "grad_norm": 1.5298811197280884,
      "learning_rate": 7.28695265614581e-05,
      "loss": 2.1259,
      "step": 28608
    },
    {
      "epoch": 0.6357555555555555,
      "grad_norm": 1.7088412046432495,
      "learning_rate": 7.286508112913981e-05,
      "loss": 1.7914,
      "step": 28609
    },
    {
      "epoch": 0.6357777777777778,
      "grad_norm": 1.6431035995483398,
      "learning_rate": 7.286063569682152e-05,
      "loss": 2.349,
      "step": 28610
    },
    {
      "epoch": 0.6358,
      "grad_norm": 1.3370503187179565,
      "learning_rate": 7.285619026450322e-05,
      "loss": 1.8768,
      "step": 28611
    },
    {
      "epoch": 0.6358222222222222,
      "grad_norm": 1.6042437553405762,
      "learning_rate": 7.285174483218493e-05,
      "loss": 1.9377,
      "step": 28612
    },
    {
      "epoch": 0.6358444444444444,
      "grad_norm": 0.9689003229141235,
      "learning_rate": 7.284729939986664e-05,
      "loss": 0.9605,
      "step": 28613
    },
    {
      "epoch": 0.6358666666666667,
      "grad_norm": 1.4642431735992432,
      "learning_rate": 7.284285396754835e-05,
      "loss": 1.7675,
      "step": 28614
    },
    {
      "epoch": 0.6358888888888888,
      "grad_norm": 1.6015061140060425,
      "learning_rate": 7.283840853523006e-05,
      "loss": 2.0033,
      "step": 28615
    },
    {
      "epoch": 0.6359111111111111,
      "grad_norm": 1.7440736293792725,
      "learning_rate": 7.283396310291177e-05,
      "loss": 2.25,
      "step": 28616
    },
    {
      "epoch": 0.6359333333333334,
      "grad_norm": 1.5764706134796143,
      "learning_rate": 7.282951767059347e-05,
      "loss": 1.6149,
      "step": 28617
    },
    {
      "epoch": 0.6359555555555556,
      "grad_norm": 1.6555157899856567,
      "learning_rate": 7.282507223827517e-05,
      "loss": 2.1503,
      "step": 28618
    },
    {
      "epoch": 0.6359777777777778,
      "grad_norm": 1.5757826566696167,
      "learning_rate": 7.282062680595688e-05,
      "loss": 1.9042,
      "step": 28619
    },
    {
      "epoch": 0.636,
      "grad_norm": 2.0371313095092773,
      "learning_rate": 7.281618137363859e-05,
      "loss": 2.2666,
      "step": 28620
    },
    {
      "epoch": 0.6360222222222223,
      "grad_norm": 1.907381296157837,
      "learning_rate": 7.281173594132029e-05,
      "loss": 1.9729,
      "step": 28621
    },
    {
      "epoch": 0.6360444444444444,
      "grad_norm": 1.9274381399154663,
      "learning_rate": 7.2807290509002e-05,
      "loss": 2.2086,
      "step": 28622
    },
    {
      "epoch": 0.6360666666666667,
      "grad_norm": 1.6238957643508911,
      "learning_rate": 7.280284507668372e-05,
      "loss": 1.9729,
      "step": 28623
    },
    {
      "epoch": 0.6360888888888889,
      "grad_norm": 1.978137731552124,
      "learning_rate": 7.279839964436543e-05,
      "loss": 2.1478,
      "step": 28624
    },
    {
      "epoch": 0.6361111111111111,
      "grad_norm": 1.505639910697937,
      "learning_rate": 7.279395421204712e-05,
      "loss": 1.7419,
      "step": 28625
    },
    {
      "epoch": 0.6361333333333333,
      "grad_norm": 1.651392936706543,
      "learning_rate": 7.278950877972883e-05,
      "loss": 1.9836,
      "step": 28626
    },
    {
      "epoch": 0.6361555555555556,
      "grad_norm": 2.5465140342712402,
      "learning_rate": 7.278506334741054e-05,
      "loss": 2.0878,
      "step": 28627
    },
    {
      "epoch": 0.6361777777777777,
      "grad_norm": 1.9380546808242798,
      "learning_rate": 7.278061791509224e-05,
      "loss": 2.1909,
      "step": 28628
    },
    {
      "epoch": 0.6362,
      "grad_norm": 1.6133519411087036,
      "learning_rate": 7.277617248277395e-05,
      "loss": 1.9931,
      "step": 28629
    },
    {
      "epoch": 0.6362222222222222,
      "grad_norm": 1.7483313083648682,
      "learning_rate": 7.277172705045566e-05,
      "loss": 1.6586,
      "step": 28630
    },
    {
      "epoch": 0.6362444444444444,
      "grad_norm": 1.6443977355957031,
      "learning_rate": 7.276728161813737e-05,
      "loss": 1.9233,
      "step": 28631
    },
    {
      "epoch": 0.6362666666666666,
      "grad_norm": 2.09979510307312,
      "learning_rate": 7.276283618581908e-05,
      "loss": 1.6895,
      "step": 28632
    },
    {
      "epoch": 0.6362888888888889,
      "grad_norm": 1.843942642211914,
      "learning_rate": 7.275839075350079e-05,
      "loss": 1.7228,
      "step": 28633
    },
    {
      "epoch": 0.6363111111111112,
      "grad_norm": 1.4837838411331177,
      "learning_rate": 7.27539453211825e-05,
      "loss": 1.6651,
      "step": 28634
    },
    {
      "epoch": 0.6363333333333333,
      "grad_norm": 1.5741617679595947,
      "learning_rate": 7.27494998888642e-05,
      "loss": 1.6383,
      "step": 28635
    },
    {
      "epoch": 0.6363555555555556,
      "grad_norm": 2.0141563415527344,
      "learning_rate": 7.27450544565459e-05,
      "loss": 2.3839,
      "step": 28636
    },
    {
      "epoch": 0.6363777777777778,
      "grad_norm": 1.6650718450546265,
      "learning_rate": 7.274060902422761e-05,
      "loss": 1.8759,
      "step": 28637
    },
    {
      "epoch": 0.6364,
      "grad_norm": 1.608781337738037,
      "learning_rate": 7.273616359190931e-05,
      "loss": 1.4356,
      "step": 28638
    },
    {
      "epoch": 0.6364222222222222,
      "grad_norm": 1.8974065780639648,
      "learning_rate": 7.273171815959102e-05,
      "loss": 2.0662,
      "step": 28639
    },
    {
      "epoch": 0.6364444444444445,
      "grad_norm": 1.67244291305542,
      "learning_rate": 7.272727272727273e-05,
      "loss": 1.7112,
      "step": 28640
    },
    {
      "epoch": 0.6364666666666666,
      "grad_norm": 2.118295431137085,
      "learning_rate": 7.272282729495444e-05,
      "loss": 1.9977,
      "step": 28641
    },
    {
      "epoch": 0.6364888888888889,
      "grad_norm": 2.3757729530334473,
      "learning_rate": 7.271838186263615e-05,
      "loss": 2.4056,
      "step": 28642
    },
    {
      "epoch": 0.6365111111111111,
      "grad_norm": 1.6669895648956299,
      "learning_rate": 7.271393643031786e-05,
      "loss": 1.5257,
      "step": 28643
    },
    {
      "epoch": 0.6365333333333333,
      "grad_norm": 1.4742716550827026,
      "learning_rate": 7.270949099799957e-05,
      "loss": 1.361,
      "step": 28644
    },
    {
      "epoch": 0.6365555555555555,
      "grad_norm": 2.1252920627593994,
      "learning_rate": 7.270504556568126e-05,
      "loss": 1.7919,
      "step": 28645
    },
    {
      "epoch": 0.6365777777777778,
      "grad_norm": 1.695860505104065,
      "learning_rate": 7.270060013336297e-05,
      "loss": 1.8634,
      "step": 28646
    },
    {
      "epoch": 0.6366,
      "grad_norm": 2.3226397037506104,
      "learning_rate": 7.269615470104468e-05,
      "loss": 1.8964,
      "step": 28647
    },
    {
      "epoch": 0.6366222222222222,
      "grad_norm": 1.852975606918335,
      "learning_rate": 7.269170926872638e-05,
      "loss": 1.5989,
      "step": 28648
    },
    {
      "epoch": 0.6366444444444445,
      "grad_norm": 1.5640804767608643,
      "learning_rate": 7.268726383640809e-05,
      "loss": 1.5557,
      "step": 28649
    },
    {
      "epoch": 0.6366666666666667,
      "grad_norm": 2.081127882003784,
      "learning_rate": 7.26828184040898e-05,
      "loss": 1.8513,
      "step": 28650
    },
    {
      "epoch": 0.6366888888888889,
      "grad_norm": 1.040666103363037,
      "learning_rate": 7.267837297177151e-05,
      "loss": 0.0264,
      "step": 28651
    },
    {
      "epoch": 0.6367111111111111,
      "grad_norm": 0.20972059667110443,
      "learning_rate": 7.267392753945322e-05,
      "loss": 0.0186,
      "step": 28652
    },
    {
      "epoch": 0.6367333333333334,
      "grad_norm": 1.5281065702438354,
      "learning_rate": 7.266948210713493e-05,
      "loss": 1.9655,
      "step": 28653
    },
    {
      "epoch": 0.6367555555555555,
      "grad_norm": 1.4604177474975586,
      "learning_rate": 7.266503667481664e-05,
      "loss": 1.9184,
      "step": 28654
    },
    {
      "epoch": 0.6367777777777778,
      "grad_norm": 1.5252203941345215,
      "learning_rate": 7.266059124249833e-05,
      "loss": 1.9986,
      "step": 28655
    },
    {
      "epoch": 0.6368,
      "grad_norm": 1.656562328338623,
      "learning_rate": 7.265614581018004e-05,
      "loss": 1.8098,
      "step": 28656
    },
    {
      "epoch": 0.6368222222222222,
      "grad_norm": 1.582373857498169,
      "learning_rate": 7.265170037786175e-05,
      "loss": 1.4481,
      "step": 28657
    },
    {
      "epoch": 0.6368444444444444,
      "grad_norm": 2.045361280441284,
      "learning_rate": 7.264725494554345e-05,
      "loss": 2.5536,
      "step": 28658
    },
    {
      "epoch": 0.6368666666666667,
      "grad_norm": 1.7420368194580078,
      "learning_rate": 7.264280951322516e-05,
      "loss": 2.2029,
      "step": 28659
    },
    {
      "epoch": 0.6368888888888888,
      "grad_norm": 1.4882012605667114,
      "learning_rate": 7.263836408090688e-05,
      "loss": 1.6128,
      "step": 28660
    },
    {
      "epoch": 0.6369111111111111,
      "grad_norm": 1.2847424745559692,
      "learning_rate": 7.263391864858859e-05,
      "loss": 1.1251,
      "step": 28661
    },
    {
      "epoch": 0.6369333333333334,
      "grad_norm": 1.6982362270355225,
      "learning_rate": 7.262947321627029e-05,
      "loss": 2.031,
      "step": 28662
    },
    {
      "epoch": 0.6369555555555556,
      "grad_norm": 2.1967759132385254,
      "learning_rate": 7.2625027783952e-05,
      "loss": 2.1992,
      "step": 28663
    },
    {
      "epoch": 0.6369777777777778,
      "grad_norm": 1.2060320377349854,
      "learning_rate": 7.26205823516337e-05,
      "loss": 0.92,
      "step": 28664
    },
    {
      "epoch": 0.637,
      "grad_norm": 1.366573691368103,
      "learning_rate": 7.26161369193154e-05,
      "loss": 1.611,
      "step": 28665
    },
    {
      "epoch": 0.6370222222222223,
      "grad_norm": 1.792948842048645,
      "learning_rate": 7.261169148699711e-05,
      "loss": 1.9003,
      "step": 28666
    },
    {
      "epoch": 0.6370444444444444,
      "grad_norm": 1.3751440048217773,
      "learning_rate": 7.260724605467882e-05,
      "loss": 1.7083,
      "step": 28667
    },
    {
      "epoch": 0.6370666666666667,
      "grad_norm": 1.6102418899536133,
      "learning_rate": 7.260280062236052e-05,
      "loss": 1.9591,
      "step": 28668
    },
    {
      "epoch": 0.6370888888888889,
      "grad_norm": 2.0655267238616943,
      "learning_rate": 7.259835519004224e-05,
      "loss": 2.3119,
      "step": 28669
    },
    {
      "epoch": 0.6371111111111111,
      "grad_norm": 1.8483701944351196,
      "learning_rate": 7.259390975772395e-05,
      "loss": 2.1266,
      "step": 28670
    },
    {
      "epoch": 0.6371333333333333,
      "grad_norm": 1.8502991199493408,
      "learning_rate": 7.258946432540566e-05,
      "loss": 2.212,
      "step": 28671
    },
    {
      "epoch": 0.6371555555555556,
      "grad_norm": 1.7456656694412231,
      "learning_rate": 7.258501889308735e-05,
      "loss": 1.7485,
      "step": 28672
    },
    {
      "epoch": 0.6371777777777777,
      "grad_norm": 1.6352704763412476,
      "learning_rate": 7.258057346076906e-05,
      "loss": 1.7125,
      "step": 28673
    },
    {
      "epoch": 0.6372,
      "grad_norm": 1.7602741718292236,
      "learning_rate": 7.257612802845077e-05,
      "loss": 2.0005,
      "step": 28674
    },
    {
      "epoch": 0.6372222222222222,
      "grad_norm": 1.2574185132980347,
      "learning_rate": 7.257168259613247e-05,
      "loss": 1.2635,
      "step": 28675
    },
    {
      "epoch": 0.6372444444444444,
      "grad_norm": 1.5207939147949219,
      "learning_rate": 7.256723716381418e-05,
      "loss": 1.473,
      "step": 28676
    },
    {
      "epoch": 0.6372666666666666,
      "grad_norm": 1.6920651197433472,
      "learning_rate": 7.256279173149589e-05,
      "loss": 1.9603,
      "step": 28677
    },
    {
      "epoch": 0.6372888888888889,
      "grad_norm": 1.7033255100250244,
      "learning_rate": 7.25583462991776e-05,
      "loss": 1.6898,
      "step": 28678
    },
    {
      "epoch": 0.6373111111111112,
      "grad_norm": 1.9950025081634521,
      "learning_rate": 7.255390086685931e-05,
      "loss": 2.1322,
      "step": 28679
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 1.4635943174362183,
      "learning_rate": 7.254945543454102e-05,
      "loss": 1.3099,
      "step": 28680
    },
    {
      "epoch": 0.6373555555555556,
      "grad_norm": 1.6194703578948975,
      "learning_rate": 7.254501000222273e-05,
      "loss": 1.7211,
      "step": 28681
    },
    {
      "epoch": 0.6373777777777778,
      "grad_norm": 1.7633742094039917,
      "learning_rate": 7.254056456990442e-05,
      "loss": 1.8104,
      "step": 28682
    },
    {
      "epoch": 0.6374,
      "grad_norm": 1.9420922994613647,
      "learning_rate": 7.253611913758613e-05,
      "loss": 1.694,
      "step": 28683
    },
    {
      "epoch": 0.6374222222222222,
      "grad_norm": 1.8654829263687134,
      "learning_rate": 7.253167370526784e-05,
      "loss": 1.8214,
      "step": 28684
    },
    {
      "epoch": 0.6374444444444445,
      "grad_norm": 2.2684643268585205,
      "learning_rate": 7.252722827294954e-05,
      "loss": 2.2231,
      "step": 28685
    },
    {
      "epoch": 0.6374666666666666,
      "grad_norm": 2.0050923824310303,
      "learning_rate": 7.252278284063125e-05,
      "loss": 2.0718,
      "step": 28686
    },
    {
      "epoch": 0.6374888888888889,
      "grad_norm": 1.8627880811691284,
      "learning_rate": 7.251833740831296e-05,
      "loss": 1.8782,
      "step": 28687
    },
    {
      "epoch": 0.6375111111111111,
      "grad_norm": 1.5710184574127197,
      "learning_rate": 7.251389197599467e-05,
      "loss": 1.5789,
      "step": 28688
    },
    {
      "epoch": 0.6375333333333333,
      "grad_norm": 1.7555488348007202,
      "learning_rate": 7.250944654367638e-05,
      "loss": 1.8122,
      "step": 28689
    },
    {
      "epoch": 0.6375555555555555,
      "grad_norm": 1.7349294424057007,
      "learning_rate": 7.250500111135809e-05,
      "loss": 1.8575,
      "step": 28690
    },
    {
      "epoch": 0.6375777777777778,
      "grad_norm": 1.8430469036102295,
      "learning_rate": 7.25005556790398e-05,
      "loss": 1.6942,
      "step": 28691
    },
    {
      "epoch": 0.6376,
      "grad_norm": 1.8953179121017456,
      "learning_rate": 7.249611024672149e-05,
      "loss": 1.504,
      "step": 28692
    },
    {
      "epoch": 0.6376222222222222,
      "grad_norm": 1.7643966674804688,
      "learning_rate": 7.24916648144032e-05,
      "loss": 1.7468,
      "step": 28693
    },
    {
      "epoch": 0.6376444444444445,
      "grad_norm": 1.9069668054580688,
      "learning_rate": 7.248721938208491e-05,
      "loss": 2.0379,
      "step": 28694
    },
    {
      "epoch": 0.6376666666666667,
      "grad_norm": 1.7193044424057007,
      "learning_rate": 7.248277394976661e-05,
      "loss": 1.5639,
      "step": 28695
    },
    {
      "epoch": 0.6376888888888889,
      "grad_norm": 1.7010250091552734,
      "learning_rate": 7.247832851744832e-05,
      "loss": 1.7881,
      "step": 28696
    },
    {
      "epoch": 0.6377111111111111,
      "grad_norm": 1.6988699436187744,
      "learning_rate": 7.247388308513004e-05,
      "loss": 1.9145,
      "step": 28697
    },
    {
      "epoch": 0.6377333333333334,
      "grad_norm": 1.434458613395691,
      "learning_rate": 7.246943765281175e-05,
      "loss": 1.2502,
      "step": 28698
    },
    {
      "epoch": 0.6377555555555555,
      "grad_norm": 1.992437481880188,
      "learning_rate": 7.246499222049345e-05,
      "loss": 1.8448,
      "step": 28699
    },
    {
      "epoch": 0.6377777777777778,
      "grad_norm": 1.5702959299087524,
      "learning_rate": 7.246054678817516e-05,
      "loss": 1.3579,
      "step": 28700
    },
    {
      "epoch": 0.6378,
      "grad_norm": 1.6802828311920166,
      "learning_rate": 7.245610135585687e-05,
      "loss": 2.341,
      "step": 28701
    },
    {
      "epoch": 0.6378222222222222,
      "grad_norm": 1.627329707145691,
      "learning_rate": 7.245165592353856e-05,
      "loss": 2.8105,
      "step": 28702
    },
    {
      "epoch": 0.6378444444444444,
      "grad_norm": 1.342093586921692,
      "learning_rate": 7.244721049122027e-05,
      "loss": 1.9832,
      "step": 28703
    },
    {
      "epoch": 0.6378666666666667,
      "grad_norm": 1.5474640130996704,
      "learning_rate": 7.244276505890198e-05,
      "loss": 2.4607,
      "step": 28704
    },
    {
      "epoch": 0.6378888888888888,
      "grad_norm": 1.531585454940796,
      "learning_rate": 7.243831962658368e-05,
      "loss": 2.0354,
      "step": 28705
    },
    {
      "epoch": 0.6379111111111111,
      "grad_norm": 1.5042400360107422,
      "learning_rate": 7.24338741942654e-05,
      "loss": 2.1718,
      "step": 28706
    },
    {
      "epoch": 0.6379333333333334,
      "grad_norm": 1.3284921646118164,
      "learning_rate": 7.242942876194711e-05,
      "loss": 1.6979,
      "step": 28707
    },
    {
      "epoch": 0.6379555555555556,
      "grad_norm": 1.4425671100616455,
      "learning_rate": 7.242498332962882e-05,
      "loss": 1.9872,
      "step": 28708
    },
    {
      "epoch": 0.6379777777777778,
      "grad_norm": 1.7384395599365234,
      "learning_rate": 7.242053789731052e-05,
      "loss": 2.2414,
      "step": 28709
    },
    {
      "epoch": 0.638,
      "grad_norm": 1.554915189743042,
      "learning_rate": 7.241609246499223e-05,
      "loss": 2.3454,
      "step": 28710
    },
    {
      "epoch": 0.6380222222222223,
      "grad_norm": 1.8486429452896118,
      "learning_rate": 7.241164703267394e-05,
      "loss": 2.168,
      "step": 28711
    },
    {
      "epoch": 0.6380444444444444,
      "grad_norm": 1.7188366651535034,
      "learning_rate": 7.240720160035563e-05,
      "loss": 2.25,
      "step": 28712
    },
    {
      "epoch": 0.6380666666666667,
      "grad_norm": 1.8007780313491821,
      "learning_rate": 7.240275616803734e-05,
      "loss": 2.4567,
      "step": 28713
    },
    {
      "epoch": 0.6380888888888889,
      "grad_norm": 1.6362093687057495,
      "learning_rate": 7.239831073571905e-05,
      "loss": 2.0876,
      "step": 28714
    },
    {
      "epoch": 0.6381111111111111,
      "grad_norm": 1.621285319328308,
      "learning_rate": 7.239386530340076e-05,
      "loss": 2.183,
      "step": 28715
    },
    {
      "epoch": 0.6381333333333333,
      "grad_norm": 1.888231635093689,
      "learning_rate": 7.238941987108247e-05,
      "loss": 2.0216,
      "step": 28716
    },
    {
      "epoch": 0.6381555555555556,
      "grad_norm": 1.4312587976455688,
      "learning_rate": 7.238497443876418e-05,
      "loss": 1.6035,
      "step": 28717
    },
    {
      "epoch": 0.6381777777777777,
      "grad_norm": 1.1737911701202393,
      "learning_rate": 7.238052900644589e-05,
      "loss": 0.6206,
      "step": 28718
    },
    {
      "epoch": 0.6382,
      "grad_norm": 1.8380234241485596,
      "learning_rate": 7.237608357412758e-05,
      "loss": 2.3758,
      "step": 28719
    },
    {
      "epoch": 0.6382222222222222,
      "grad_norm": 1.6413174867630005,
      "learning_rate": 7.23716381418093e-05,
      "loss": 1.7652,
      "step": 28720
    },
    {
      "epoch": 0.6382444444444444,
      "grad_norm": 1.5186172723770142,
      "learning_rate": 7.2367192709491e-05,
      "loss": 1.9663,
      "step": 28721
    },
    {
      "epoch": 0.6382666666666666,
      "grad_norm": 1.8024673461914062,
      "learning_rate": 7.23627472771727e-05,
      "loss": 2.0255,
      "step": 28722
    },
    {
      "epoch": 0.6382888888888889,
      "grad_norm": 1.5912338495254517,
      "learning_rate": 7.235830184485441e-05,
      "loss": 1.7869,
      "step": 28723
    },
    {
      "epoch": 0.6383111111111112,
      "grad_norm": 1.888502836227417,
      "learning_rate": 7.235385641253612e-05,
      "loss": 2.0113,
      "step": 28724
    },
    {
      "epoch": 0.6383333333333333,
      "grad_norm": 1.4829522371292114,
      "learning_rate": 7.234941098021783e-05,
      "loss": 1.7279,
      "step": 28725
    },
    {
      "epoch": 0.6383555555555556,
      "grad_norm": 1.761410117149353,
      "learning_rate": 7.234496554789954e-05,
      "loss": 1.6857,
      "step": 28726
    },
    {
      "epoch": 0.6383777777777778,
      "grad_norm": 1.7559994459152222,
      "learning_rate": 7.234052011558125e-05,
      "loss": 2.2451,
      "step": 28727
    },
    {
      "epoch": 0.6384,
      "grad_norm": 1.6013765335083008,
      "learning_rate": 7.233607468326296e-05,
      "loss": 1.6825,
      "step": 28728
    },
    {
      "epoch": 0.6384222222222222,
      "grad_norm": 1.9847111701965332,
      "learning_rate": 7.233162925094465e-05,
      "loss": 2.1672,
      "step": 28729
    },
    {
      "epoch": 0.6384444444444445,
      "grad_norm": 1.9318690299987793,
      "learning_rate": 7.232718381862636e-05,
      "loss": 1.7432,
      "step": 28730
    },
    {
      "epoch": 0.6384666666666666,
      "grad_norm": 1.307256817817688,
      "learning_rate": 7.232273838630807e-05,
      "loss": 0.9803,
      "step": 28731
    },
    {
      "epoch": 0.6384888888888889,
      "grad_norm": 1.7495099306106567,
      "learning_rate": 7.231829295398977e-05,
      "loss": 1.606,
      "step": 28732
    },
    {
      "epoch": 0.6385111111111111,
      "grad_norm": 1.1634020805358887,
      "learning_rate": 7.231384752167148e-05,
      "loss": 0.9347,
      "step": 28733
    },
    {
      "epoch": 0.6385333333333333,
      "grad_norm": 2.0177419185638428,
      "learning_rate": 7.23094020893532e-05,
      "loss": 2.1003,
      "step": 28734
    },
    {
      "epoch": 0.6385555555555555,
      "grad_norm": 1.7657959461212158,
      "learning_rate": 7.23049566570349e-05,
      "loss": 1.7731,
      "step": 28735
    },
    {
      "epoch": 0.6385777777777778,
      "grad_norm": 1.8546388149261475,
      "learning_rate": 7.230051122471661e-05,
      "loss": 1.5486,
      "step": 28736
    },
    {
      "epoch": 0.6386,
      "grad_norm": 1.8040077686309814,
      "learning_rate": 7.229606579239832e-05,
      "loss": 2.0225,
      "step": 28737
    },
    {
      "epoch": 0.6386222222222222,
      "grad_norm": 1.7609293460845947,
      "learning_rate": 7.229162036008003e-05,
      "loss": 2.2548,
      "step": 28738
    },
    {
      "epoch": 0.6386444444444445,
      "grad_norm": 2.3687591552734375,
      "learning_rate": 7.228717492776172e-05,
      "loss": 2.1545,
      "step": 28739
    },
    {
      "epoch": 0.6386666666666667,
      "grad_norm": 3.026139259338379,
      "learning_rate": 7.228272949544343e-05,
      "loss": 2.0457,
      "step": 28740
    },
    {
      "epoch": 0.6386888888888889,
      "grad_norm": 2.389371395111084,
      "learning_rate": 7.227828406312514e-05,
      "loss": 2.1006,
      "step": 28741
    },
    {
      "epoch": 0.6387111111111111,
      "grad_norm": 1.8829636573791504,
      "learning_rate": 7.227383863080684e-05,
      "loss": 2.157,
      "step": 28742
    },
    {
      "epoch": 0.6387333333333334,
      "grad_norm": 1.4691171646118164,
      "learning_rate": 7.226939319848856e-05,
      "loss": 1.1827,
      "step": 28743
    },
    {
      "epoch": 0.6387555555555555,
      "grad_norm": 1.8725281953811646,
      "learning_rate": 7.226494776617027e-05,
      "loss": 2.0211,
      "step": 28744
    },
    {
      "epoch": 0.6387777777777778,
      "grad_norm": 2.3019354343414307,
      "learning_rate": 7.226050233385198e-05,
      "loss": 1.9218,
      "step": 28745
    },
    {
      "epoch": 0.6388,
      "grad_norm": 2.649057626724243,
      "learning_rate": 7.225605690153368e-05,
      "loss": 2.4973,
      "step": 28746
    },
    {
      "epoch": 0.6388222222222222,
      "grad_norm": 2.0913870334625244,
      "learning_rate": 7.225161146921539e-05,
      "loss": 1.7488,
      "step": 28747
    },
    {
      "epoch": 0.6388444444444444,
      "grad_norm": 1.7658172845840454,
      "learning_rate": 7.22471660368971e-05,
      "loss": 1.3801,
      "step": 28748
    },
    {
      "epoch": 0.6388666666666667,
      "grad_norm": 1.7374156713485718,
      "learning_rate": 7.224272060457879e-05,
      "loss": 1.6473,
      "step": 28749
    },
    {
      "epoch": 0.6388888888888888,
      "grad_norm": 1.4828306436538696,
      "learning_rate": 7.22382751722605e-05,
      "loss": 0.9041,
      "step": 28750
    },
    {
      "epoch": 0.6389111111111111,
      "grad_norm": 1.3354045152664185,
      "learning_rate": 7.223382973994221e-05,
      "loss": 2.0015,
      "step": 28751
    },
    {
      "epoch": 0.6389333333333334,
      "grad_norm": 2.6666393280029297,
      "learning_rate": 7.222938430762392e-05,
      "loss": 0.0448,
      "step": 28752
    },
    {
      "epoch": 0.6389555555555556,
      "grad_norm": 1.3696006536483765,
      "learning_rate": 7.222493887530563e-05,
      "loss": 1.8281,
      "step": 28753
    },
    {
      "epoch": 0.6389777777777778,
      "grad_norm": 1.4097464084625244,
      "learning_rate": 7.222049344298734e-05,
      "loss": 1.2002,
      "step": 28754
    },
    {
      "epoch": 0.639,
      "grad_norm": 1.7855876684188843,
      "learning_rate": 7.221604801066905e-05,
      "loss": 2.0857,
      "step": 28755
    },
    {
      "epoch": 0.6390222222222223,
      "grad_norm": 1.5594568252563477,
      "learning_rate": 7.221160257835075e-05,
      "loss": 1.6816,
      "step": 28756
    },
    {
      "epoch": 0.6390444444444444,
      "grad_norm": 1.421626091003418,
      "learning_rate": 7.220715714603246e-05,
      "loss": 1.7824,
      "step": 28757
    },
    {
      "epoch": 0.6390666666666667,
      "grad_norm": 2.0007307529449463,
      "learning_rate": 7.220271171371417e-05,
      "loss": 2.2619,
      "step": 28758
    },
    {
      "epoch": 0.6390888888888889,
      "grad_norm": 1.9237414598464966,
      "learning_rate": 7.219826628139586e-05,
      "loss": 2.0441,
      "step": 28759
    },
    {
      "epoch": 0.6391111111111111,
      "grad_norm": 1.8039405345916748,
      "learning_rate": 7.219382084907757e-05,
      "loss": 1.708,
      "step": 28760
    },
    {
      "epoch": 0.6391333333333333,
      "grad_norm": 1.5210480690002441,
      "learning_rate": 7.218937541675928e-05,
      "loss": 2.385,
      "step": 28761
    },
    {
      "epoch": 0.6391555555555556,
      "grad_norm": 1.5081499814987183,
      "learning_rate": 7.218492998444099e-05,
      "loss": 1.2788,
      "step": 28762
    },
    {
      "epoch": 0.6391777777777777,
      "grad_norm": 1.9141021966934204,
      "learning_rate": 7.21804845521227e-05,
      "loss": 1.3567,
      "step": 28763
    },
    {
      "epoch": 0.6392,
      "grad_norm": 3.3286590576171875,
      "learning_rate": 7.217603911980441e-05,
      "loss": 1.9065,
      "step": 28764
    },
    {
      "epoch": 0.6392222222222222,
      "grad_norm": 0.9982495307922363,
      "learning_rate": 7.217159368748612e-05,
      "loss": 0.7088,
      "step": 28765
    },
    {
      "epoch": 0.6392444444444444,
      "grad_norm": 1.485310673713684,
      "learning_rate": 7.216714825516782e-05,
      "loss": 1.1706,
      "step": 28766
    },
    {
      "epoch": 0.6392666666666666,
      "grad_norm": 1.6460174322128296,
      "learning_rate": 7.216270282284952e-05,
      "loss": 1.7584,
      "step": 28767
    },
    {
      "epoch": 0.6392888888888889,
      "grad_norm": 1.8000679016113281,
      "learning_rate": 7.215825739053123e-05,
      "loss": 1.9528,
      "step": 28768
    },
    {
      "epoch": 0.6393111111111112,
      "grad_norm": 1.925246000289917,
      "learning_rate": 7.215381195821293e-05,
      "loss": 2.0873,
      "step": 28769
    },
    {
      "epoch": 0.6393333333333333,
      "grad_norm": 1.6026747226715088,
      "learning_rate": 7.214936652589464e-05,
      "loss": 1.6128,
      "step": 28770
    },
    {
      "epoch": 0.6393555555555556,
      "grad_norm": 2.411868095397949,
      "learning_rate": 7.214492109357636e-05,
      "loss": 2.344,
      "step": 28771
    },
    {
      "epoch": 0.6393777777777778,
      "grad_norm": 1.7101866006851196,
      "learning_rate": 7.214047566125806e-05,
      "loss": 1.7117,
      "step": 28772
    },
    {
      "epoch": 0.6394,
      "grad_norm": 1.8014975786209106,
      "learning_rate": 7.213603022893977e-05,
      "loss": 1.6977,
      "step": 28773
    },
    {
      "epoch": 0.6394222222222222,
      "grad_norm": 1.1885337829589844,
      "learning_rate": 7.213158479662148e-05,
      "loss": 1.0145,
      "step": 28774
    },
    {
      "epoch": 0.6394444444444445,
      "grad_norm": 1.8605204820632935,
      "learning_rate": 7.212713936430319e-05,
      "loss": 2.1966,
      "step": 28775
    },
    {
      "epoch": 0.6394666666666666,
      "grad_norm": 1.8864420652389526,
      "learning_rate": 7.212269393198488e-05,
      "loss": 1.8072,
      "step": 28776
    },
    {
      "epoch": 0.6394888888888889,
      "grad_norm": 1.7543187141418457,
      "learning_rate": 7.21182484996666e-05,
      "loss": 1.6595,
      "step": 28777
    },
    {
      "epoch": 0.6395111111111111,
      "grad_norm": 1.7286779880523682,
      "learning_rate": 7.21138030673483e-05,
      "loss": 1.7274,
      "step": 28778
    },
    {
      "epoch": 0.6395333333333333,
      "grad_norm": 1.0491361618041992,
      "learning_rate": 7.210935763503e-05,
      "loss": 0.7481,
      "step": 28779
    },
    {
      "epoch": 0.6395555555555555,
      "grad_norm": 1.604767084121704,
      "learning_rate": 7.210491220271172e-05,
      "loss": 1.6491,
      "step": 28780
    },
    {
      "epoch": 0.6395777777777778,
      "grad_norm": 1.9371610879898071,
      "learning_rate": 7.210046677039343e-05,
      "loss": 1.691,
      "step": 28781
    },
    {
      "epoch": 0.6396,
      "grad_norm": 1.6699118614196777,
      "learning_rate": 7.209602133807513e-05,
      "loss": 1.7054,
      "step": 28782
    },
    {
      "epoch": 0.6396222222222222,
      "grad_norm": 2.032633066177368,
      "learning_rate": 7.209157590575684e-05,
      "loss": 1.6071,
      "step": 28783
    },
    {
      "epoch": 0.6396444444444445,
      "grad_norm": 2.003582239151001,
      "learning_rate": 7.208713047343855e-05,
      "loss": 2.2553,
      "step": 28784
    },
    {
      "epoch": 0.6396666666666667,
      "grad_norm": 1.4603201150894165,
      "learning_rate": 7.208268504112026e-05,
      "loss": 1.6134,
      "step": 28785
    },
    {
      "epoch": 0.6396888888888889,
      "grad_norm": 2.1268177032470703,
      "learning_rate": 7.207823960880195e-05,
      "loss": 1.8333,
      "step": 28786
    },
    {
      "epoch": 0.6397111111111111,
      "grad_norm": 2.0532491207122803,
      "learning_rate": 7.207379417648366e-05,
      "loss": 1.9751,
      "step": 28787
    },
    {
      "epoch": 0.6397333333333334,
      "grad_norm": 2.148063898086548,
      "learning_rate": 7.206934874416537e-05,
      "loss": 2.6461,
      "step": 28788
    },
    {
      "epoch": 0.6397555555555555,
      "grad_norm": 2.0925416946411133,
      "learning_rate": 7.206490331184708e-05,
      "loss": 1.6654,
      "step": 28789
    },
    {
      "epoch": 0.6397777777777778,
      "grad_norm": 1.6371979713439941,
      "learning_rate": 7.206045787952879e-05,
      "loss": 1.7088,
      "step": 28790
    },
    {
      "epoch": 0.6398,
      "grad_norm": 2.2275896072387695,
      "learning_rate": 7.20560124472105e-05,
      "loss": 2.0222,
      "step": 28791
    },
    {
      "epoch": 0.6398222222222222,
      "grad_norm": 1.7818533182144165,
      "learning_rate": 7.20515670148922e-05,
      "loss": 1.7862,
      "step": 28792
    },
    {
      "epoch": 0.6398444444444444,
      "grad_norm": 1.8481240272521973,
      "learning_rate": 7.204712158257391e-05,
      "loss": 1.4648,
      "step": 28793
    },
    {
      "epoch": 0.6398666666666667,
      "grad_norm": 1.8847888708114624,
      "learning_rate": 7.204267615025562e-05,
      "loss": 2.2493,
      "step": 28794
    },
    {
      "epoch": 0.6398888888888888,
      "grad_norm": 2.177549362182617,
      "learning_rate": 7.203823071793733e-05,
      "loss": 2.3858,
      "step": 28795
    },
    {
      "epoch": 0.6399111111111111,
      "grad_norm": 1.6145027875900269,
      "learning_rate": 7.203378528561902e-05,
      "loss": 1.475,
      "step": 28796
    },
    {
      "epoch": 0.6399333333333334,
      "grad_norm": 1.8633002042770386,
      "learning_rate": 7.202933985330073e-05,
      "loss": 2.1072,
      "step": 28797
    },
    {
      "epoch": 0.6399555555555556,
      "grad_norm": 1.697845220565796,
      "learning_rate": 7.202489442098244e-05,
      "loss": 1.5116,
      "step": 28798
    },
    {
      "epoch": 0.6399777777777778,
      "grad_norm": 1.8304460048675537,
      "learning_rate": 7.202044898866415e-05,
      "loss": 2.1342,
      "step": 28799
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6719493865966797,
      "learning_rate": 7.201600355634586e-05,
      "loss": 1.5713,
      "step": 28800
    },
    {
      "epoch": 0.6400222222222223,
      "grad_norm": 1.6436892747879028,
      "learning_rate": 7.201155812402757e-05,
      "loss": 2.2734,
      "step": 28801
    },
    {
      "epoch": 0.6400444444444444,
      "grad_norm": 0.18774180114269257,
      "learning_rate": 7.200711269170928e-05,
      "loss": 0.0162,
      "step": 28802
    },
    {
      "epoch": 0.6400666666666667,
      "grad_norm": 1.8824647665023804,
      "learning_rate": 7.200266725939098e-05,
      "loss": 2.5967,
      "step": 28803
    },
    {
      "epoch": 0.6400888888888889,
      "grad_norm": 1.5691263675689697,
      "learning_rate": 7.199822182707269e-05,
      "loss": 2.3886,
      "step": 28804
    },
    {
      "epoch": 0.6401111111111111,
      "grad_norm": 1.7049403190612793,
      "learning_rate": 7.19937763947544e-05,
      "loss": 2.1433,
      "step": 28805
    },
    {
      "epoch": 0.6401333333333333,
      "grad_norm": 1.461273193359375,
      "learning_rate": 7.198933096243609e-05,
      "loss": 1.9639,
      "step": 28806
    },
    {
      "epoch": 0.6401555555555556,
      "grad_norm": 1.6055644750595093,
      "learning_rate": 7.19848855301178e-05,
      "loss": 2.2601,
      "step": 28807
    },
    {
      "epoch": 0.6401777777777777,
      "grad_norm": 1.67502760887146,
      "learning_rate": 7.198044009779952e-05,
      "loss": 2.0551,
      "step": 28808
    },
    {
      "epoch": 0.6402,
      "grad_norm": 1.8794890642166138,
      "learning_rate": 7.197599466548122e-05,
      "loss": 2.1515,
      "step": 28809
    },
    {
      "epoch": 0.6402222222222222,
      "grad_norm": 1.5921684503555298,
      "learning_rate": 7.197154923316293e-05,
      "loss": 2.0577,
      "step": 28810
    },
    {
      "epoch": 0.6402444444444444,
      "grad_norm": 1.6569201946258545,
      "learning_rate": 7.196710380084464e-05,
      "loss": 1.8993,
      "step": 28811
    },
    {
      "epoch": 0.6402666666666667,
      "grad_norm": 1.6281111240386963,
      "learning_rate": 7.196265836852635e-05,
      "loss": 2.0419,
      "step": 28812
    },
    {
      "epoch": 0.6402888888888889,
      "grad_norm": 1.9701122045516968,
      "learning_rate": 7.195821293620805e-05,
      "loss": 2.1372,
      "step": 28813
    },
    {
      "epoch": 0.6403111111111112,
      "grad_norm": 1.0676236152648926,
      "learning_rate": 7.195376750388975e-05,
      "loss": 1.1958,
      "step": 28814
    },
    {
      "epoch": 0.6403333333333333,
      "grad_norm": 1.5588091611862183,
      "learning_rate": 7.194932207157146e-05,
      "loss": 1.4684,
      "step": 28815
    },
    {
      "epoch": 0.6403555555555556,
      "grad_norm": 1.7817189693450928,
      "learning_rate": 7.194487663925316e-05,
      "loss": 2.1338,
      "step": 28816
    },
    {
      "epoch": 0.6403777777777778,
      "grad_norm": 1.8440243005752563,
      "learning_rate": 7.194043120693488e-05,
      "loss": 1.8603,
      "step": 28817
    },
    {
      "epoch": 0.6404,
      "grad_norm": 1.5460695028305054,
      "learning_rate": 7.19359857746166e-05,
      "loss": 1.6515,
      "step": 28818
    },
    {
      "epoch": 0.6404222222222222,
      "grad_norm": 1.8269490003585815,
      "learning_rate": 7.193154034229829e-05,
      "loss": 2.3875,
      "step": 28819
    },
    {
      "epoch": 0.6404444444444445,
      "grad_norm": 1.5759791135787964,
      "learning_rate": 7.192709490998e-05,
      "loss": 1.9152,
      "step": 28820
    },
    {
      "epoch": 0.6404666666666666,
      "grad_norm": 1.8602632284164429,
      "learning_rate": 7.192264947766171e-05,
      "loss": 2.1399,
      "step": 28821
    },
    {
      "epoch": 0.6404888888888889,
      "grad_norm": 1.6041455268859863,
      "learning_rate": 7.191820404534342e-05,
      "loss": 1.9356,
      "step": 28822
    },
    {
      "epoch": 0.6405111111111111,
      "grad_norm": 1.8999677896499634,
      "learning_rate": 7.191375861302511e-05,
      "loss": 2.1473,
      "step": 28823
    },
    {
      "epoch": 0.6405333333333333,
      "grad_norm": 1.381639838218689,
      "learning_rate": 7.190931318070682e-05,
      "loss": 1.7347,
      "step": 28824
    },
    {
      "epoch": 0.6405555555555555,
      "grad_norm": 2.126990795135498,
      "learning_rate": 7.190486774838853e-05,
      "loss": 2.4627,
      "step": 28825
    },
    {
      "epoch": 0.6405777777777778,
      "grad_norm": 1.8442226648330688,
      "learning_rate": 7.190042231607024e-05,
      "loss": 1.6449,
      "step": 28826
    },
    {
      "epoch": 0.6406,
      "grad_norm": 1.4026455879211426,
      "learning_rate": 7.189597688375195e-05,
      "loss": 1.5099,
      "step": 28827
    },
    {
      "epoch": 0.6406222222222222,
      "grad_norm": 2.226283550262451,
      "learning_rate": 7.189153145143366e-05,
      "loss": 1.5443,
      "step": 28828
    },
    {
      "epoch": 0.6406444444444445,
      "grad_norm": 1.6985044479370117,
      "learning_rate": 7.188708601911536e-05,
      "loss": 1.6088,
      "step": 28829
    },
    {
      "epoch": 0.6406666666666667,
      "grad_norm": 1.2343090772628784,
      "learning_rate": 7.188264058679707e-05,
      "loss": 0.8093,
      "step": 28830
    },
    {
      "epoch": 0.6406888888888889,
      "grad_norm": 0.5151288509368896,
      "learning_rate": 7.187819515447878e-05,
      "loss": 0.0383,
      "step": 28831
    },
    {
      "epoch": 0.6407111111111111,
      "grad_norm": 1.7729060649871826,
      "learning_rate": 7.187374972216049e-05,
      "loss": 1.5273,
      "step": 28832
    },
    {
      "epoch": 0.6407333333333334,
      "grad_norm": 2.00065541267395,
      "learning_rate": 7.186930428984218e-05,
      "loss": 2.1591,
      "step": 28833
    },
    {
      "epoch": 0.6407555555555555,
      "grad_norm": 1.6418817043304443,
      "learning_rate": 7.186485885752389e-05,
      "loss": 2.2355,
      "step": 28834
    },
    {
      "epoch": 0.6407777777777778,
      "grad_norm": 1.126987099647522,
      "learning_rate": 7.18604134252056e-05,
      "loss": 0.65,
      "step": 28835
    },
    {
      "epoch": 0.6408,
      "grad_norm": 1.324263572692871,
      "learning_rate": 7.185596799288731e-05,
      "loss": 1.1635,
      "step": 28836
    },
    {
      "epoch": 0.6408222222222222,
      "grad_norm": 1.718005895614624,
      "learning_rate": 7.185152256056902e-05,
      "loss": 1.6372,
      "step": 28837
    },
    {
      "epoch": 0.6408444444444444,
      "grad_norm": 1.81002676486969,
      "learning_rate": 7.184707712825073e-05,
      "loss": 2.1625,
      "step": 28838
    },
    {
      "epoch": 0.6408666666666667,
      "grad_norm": 1.6128833293914795,
      "learning_rate": 7.184263169593243e-05,
      "loss": 1.8423,
      "step": 28839
    },
    {
      "epoch": 0.6408888888888888,
      "grad_norm": 1.8957856893539429,
      "learning_rate": 7.183818626361414e-05,
      "loss": 1.791,
      "step": 28840
    },
    {
      "epoch": 0.6409111111111111,
      "grad_norm": 1.8511956930160522,
      "learning_rate": 7.183374083129585e-05,
      "loss": 1.7306,
      "step": 28841
    },
    {
      "epoch": 0.6409333333333334,
      "grad_norm": 1.8138313293457031,
      "learning_rate": 7.182929539897756e-05,
      "loss": 1.9937,
      "step": 28842
    },
    {
      "epoch": 0.6409555555555555,
      "grad_norm": 2.3374853134155273,
      "learning_rate": 7.182484996665925e-05,
      "loss": 2.0165,
      "step": 28843
    },
    {
      "epoch": 0.6409777777777778,
      "grad_norm": 1.9973797798156738,
      "learning_rate": 7.182040453434096e-05,
      "loss": 2.0304,
      "step": 28844
    },
    {
      "epoch": 0.641,
      "grad_norm": 1.9620558023452759,
      "learning_rate": 7.181595910202269e-05,
      "loss": 1.7683,
      "step": 28845
    },
    {
      "epoch": 0.6410222222222223,
      "grad_norm": 1.861804723739624,
      "learning_rate": 7.181151366970438e-05,
      "loss": 1.8745,
      "step": 28846
    },
    {
      "epoch": 0.6410444444444444,
      "grad_norm": 1.9343196153640747,
      "learning_rate": 7.180706823738609e-05,
      "loss": 2.1023,
      "step": 28847
    },
    {
      "epoch": 0.6410666666666667,
      "grad_norm": 1.6749043464660645,
      "learning_rate": 7.18026228050678e-05,
      "loss": 1.4079,
      "step": 28848
    },
    {
      "epoch": 0.6410888888888889,
      "grad_norm": 1.8276622295379639,
      "learning_rate": 7.179817737274951e-05,
      "loss": 1.7603,
      "step": 28849
    },
    {
      "epoch": 0.6411111111111111,
      "grad_norm": 2.2006306648254395,
      "learning_rate": 7.17937319404312e-05,
      "loss": 1.4094,
      "step": 28850
    },
    {
      "epoch": 0.6411333333333333,
      "grad_norm": 1.417955756187439,
      "learning_rate": 7.178928650811292e-05,
      "loss": 1.0786,
      "step": 28851
    },
    {
      "epoch": 0.6411555555555556,
      "grad_norm": 1.5691580772399902,
      "learning_rate": 7.178484107579463e-05,
      "loss": 0.7504,
      "step": 28852
    },
    {
      "epoch": 0.6411777777777777,
      "grad_norm": 1.7956329584121704,
      "learning_rate": 7.178039564347632e-05,
      "loss": 2.7077,
      "step": 28853
    },
    {
      "epoch": 0.6412,
      "grad_norm": 0.820685088634491,
      "learning_rate": 7.177595021115804e-05,
      "loss": 0.9948,
      "step": 28854
    },
    {
      "epoch": 0.6412222222222222,
      "grad_norm": 1.52669358253479,
      "learning_rate": 7.177150477883975e-05,
      "loss": 2.2596,
      "step": 28855
    },
    {
      "epoch": 0.6412444444444444,
      "grad_norm": 1.7392785549163818,
      "learning_rate": 7.176705934652145e-05,
      "loss": 2.2223,
      "step": 28856
    },
    {
      "epoch": 0.6412666666666667,
      "grad_norm": 1.745495319366455,
      "learning_rate": 7.176261391420316e-05,
      "loss": 0.0464,
      "step": 28857
    },
    {
      "epoch": 0.6412888888888889,
      "grad_norm": 1.4235334396362305,
      "learning_rate": 7.175816848188487e-05,
      "loss": 2.0477,
      "step": 28858
    },
    {
      "epoch": 0.6413111111111112,
      "grad_norm": 1.6636027097702026,
      "learning_rate": 7.175372304956658e-05,
      "loss": 2.2592,
      "step": 28859
    },
    {
      "epoch": 0.6413333333333333,
      "grad_norm": 1.500736951828003,
      "learning_rate": 7.174927761724828e-05,
      "loss": 1.5237,
      "step": 28860
    },
    {
      "epoch": 0.6413555555555556,
      "grad_norm": 1.7351739406585693,
      "learning_rate": 7.174483218492998e-05,
      "loss": 1.9768,
      "step": 28861
    },
    {
      "epoch": 0.6413777777777778,
      "grad_norm": 1.5094364881515503,
      "learning_rate": 7.17403867526117e-05,
      "loss": 2.0292,
      "step": 28862
    },
    {
      "epoch": 0.6414,
      "grad_norm": 1.594172716140747,
      "learning_rate": 7.17359413202934e-05,
      "loss": 2.2337,
      "step": 28863
    },
    {
      "epoch": 0.6414222222222222,
      "grad_norm": 2.1875925064086914,
      "learning_rate": 7.173149588797511e-05,
      "loss": 2.3735,
      "step": 28864
    },
    {
      "epoch": 0.6414444444444445,
      "grad_norm": 1.6282321214675903,
      "learning_rate": 7.172705045565682e-05,
      "loss": 2.1575,
      "step": 28865
    },
    {
      "epoch": 0.6414666666666666,
      "grad_norm": 1.6158971786499023,
      "learning_rate": 7.172260502333852e-05,
      "loss": 1.9549,
      "step": 28866
    },
    {
      "epoch": 0.6414888888888889,
      "grad_norm": 1.8376556634902954,
      "learning_rate": 7.171815959102023e-05,
      "loss": 1.9984,
      "step": 28867
    },
    {
      "epoch": 0.6415111111111111,
      "grad_norm": 1.7575677633285522,
      "learning_rate": 7.171371415870194e-05,
      "loss": 2.0017,
      "step": 28868
    },
    {
      "epoch": 0.6415333333333333,
      "grad_norm": 1.7002308368682861,
      "learning_rate": 7.170926872638365e-05,
      "loss": 1.9536,
      "step": 28869
    },
    {
      "epoch": 0.6415555555555555,
      "grad_norm": 1.6438381671905518,
      "learning_rate": 7.170482329406534e-05,
      "loss": 1.4856,
      "step": 28870
    },
    {
      "epoch": 0.6415777777777778,
      "grad_norm": 1.813004493713379,
      "learning_rate": 7.170037786174705e-05,
      "loss": 1.8227,
      "step": 28871
    },
    {
      "epoch": 0.6416,
      "grad_norm": 1.6936862468719482,
      "learning_rate": 7.169593242942876e-05,
      "loss": 2.3135,
      "step": 28872
    },
    {
      "epoch": 0.6416222222222222,
      "grad_norm": 1.5419673919677734,
      "learning_rate": 7.169148699711047e-05,
      "loss": 1.9524,
      "step": 28873
    },
    {
      "epoch": 0.6416444444444445,
      "grad_norm": 1.786665916442871,
      "learning_rate": 7.168704156479218e-05,
      "loss": 2.0306,
      "step": 28874
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 1.6579208374023438,
      "learning_rate": 7.168259613247389e-05,
      "loss": 1.9428,
      "step": 28875
    },
    {
      "epoch": 0.6416888888888889,
      "grad_norm": 1.7095891237258911,
      "learning_rate": 7.167815070015559e-05,
      "loss": 1.9264,
      "step": 28876
    },
    {
      "epoch": 0.6417111111111111,
      "grad_norm": 1.598313570022583,
      "learning_rate": 7.16737052678373e-05,
      "loss": 1.7624,
      "step": 28877
    },
    {
      "epoch": 0.6417333333333334,
      "grad_norm": 1.8565610647201538,
      "learning_rate": 7.166925983551901e-05,
      "loss": 1.9579,
      "step": 28878
    },
    {
      "epoch": 0.6417555555555555,
      "grad_norm": 1.7740898132324219,
      "learning_rate": 7.166481440320072e-05,
      "loss": 1.817,
      "step": 28879
    },
    {
      "epoch": 0.6417777777777778,
      "grad_norm": 1.8127964735031128,
      "learning_rate": 7.166036897088241e-05,
      "loss": 2.2289,
      "step": 28880
    },
    {
      "epoch": 0.6418,
      "grad_norm": 1.7820124626159668,
      "learning_rate": 7.165592353856412e-05,
      "loss": 1.7684,
      "step": 28881
    },
    {
      "epoch": 0.6418222222222222,
      "grad_norm": 1.5686150789260864,
      "learning_rate": 7.165147810624585e-05,
      "loss": 2.0081,
      "step": 28882
    },
    {
      "epoch": 0.6418444444444444,
      "grad_norm": 1.3537559509277344,
      "learning_rate": 7.164703267392754e-05,
      "loss": 1.4353,
      "step": 28883
    },
    {
      "epoch": 0.6418666666666667,
      "grad_norm": 1.7080589532852173,
      "learning_rate": 7.164258724160925e-05,
      "loss": 1.9397,
      "step": 28884
    },
    {
      "epoch": 0.6418888888888888,
      "grad_norm": 1.935981035232544,
      "learning_rate": 7.163814180929096e-05,
      "loss": 1.7046,
      "step": 28885
    },
    {
      "epoch": 0.6419111111111111,
      "grad_norm": 1.734411597251892,
      "learning_rate": 7.163369637697266e-05,
      "loss": 2.0956,
      "step": 28886
    },
    {
      "epoch": 0.6419333333333334,
      "grad_norm": 1.9430949687957764,
      "learning_rate": 7.162925094465437e-05,
      "loss": 1.619,
      "step": 28887
    },
    {
      "epoch": 0.6419555555555555,
      "grad_norm": 1.137198805809021,
      "learning_rate": 7.162480551233608e-05,
      "loss": 0.6831,
      "step": 28888
    },
    {
      "epoch": 0.6419777777777778,
      "grad_norm": 1.6652976274490356,
      "learning_rate": 7.162036008001779e-05,
      "loss": 1.8329,
      "step": 28889
    },
    {
      "epoch": 0.642,
      "grad_norm": 1.7454249858856201,
      "learning_rate": 7.161591464769948e-05,
      "loss": 1.8221,
      "step": 28890
    },
    {
      "epoch": 0.6420222222222223,
      "grad_norm": 1.548720359802246,
      "learning_rate": 7.16114692153812e-05,
      "loss": 1.8067,
      "step": 28891
    },
    {
      "epoch": 0.6420444444444444,
      "grad_norm": 1.8045750856399536,
      "learning_rate": 7.160702378306292e-05,
      "loss": 1.3626,
      "step": 28892
    },
    {
      "epoch": 0.6420666666666667,
      "grad_norm": 1.8985451459884644,
      "learning_rate": 7.160257835074461e-05,
      "loss": 1.9183,
      "step": 28893
    },
    {
      "epoch": 0.6420888888888889,
      "grad_norm": 1.6870826482772827,
      "learning_rate": 7.159813291842632e-05,
      "loss": 1.8397,
      "step": 28894
    },
    {
      "epoch": 0.6421111111111111,
      "grad_norm": 1.941114902496338,
      "learning_rate": 7.159368748610803e-05,
      "loss": 2.1521,
      "step": 28895
    },
    {
      "epoch": 0.6421333333333333,
      "grad_norm": 1.5407544374465942,
      "learning_rate": 7.158924205378973e-05,
      "loss": 1.6867,
      "step": 28896
    },
    {
      "epoch": 0.6421555555555556,
      "grad_norm": 1.2025772333145142,
      "learning_rate": 7.158479662147144e-05,
      "loss": 0.8019,
      "step": 28897
    },
    {
      "epoch": 0.6421777777777777,
      "grad_norm": 1.5493876934051514,
      "learning_rate": 7.158035118915315e-05,
      "loss": 1.5128,
      "step": 28898
    },
    {
      "epoch": 0.6422,
      "grad_norm": 1.7517184019088745,
      "learning_rate": 7.157590575683486e-05,
      "loss": 1.6096,
      "step": 28899
    },
    {
      "epoch": 0.6422222222222222,
      "grad_norm": 1.934634804725647,
      "learning_rate": 7.157146032451657e-05,
      "loss": 1.3253,
      "step": 28900
    },
    {
      "epoch": 0.6422444444444444,
      "grad_norm": 1.406434416770935,
      "learning_rate": 7.156701489219827e-05,
      "loss": 1.9834,
      "step": 28901
    },
    {
      "epoch": 0.6422666666666667,
      "grad_norm": 1.0627119541168213,
      "learning_rate": 7.156256945987998e-05,
      "loss": 1.5022,
      "step": 28902
    },
    {
      "epoch": 0.6422888888888889,
      "grad_norm": 1.4767934083938599,
      "learning_rate": 7.155812402756168e-05,
      "loss": 2.177,
      "step": 28903
    },
    {
      "epoch": 0.6423111111111112,
      "grad_norm": 1.4371474981307983,
      "learning_rate": 7.155367859524339e-05,
      "loss": 2.339,
      "step": 28904
    },
    {
      "epoch": 0.6423333333333333,
      "grad_norm": 1.7908233404159546,
      "learning_rate": 7.15492331629251e-05,
      "loss": 2.4955,
      "step": 28905
    },
    {
      "epoch": 0.6423555555555556,
      "grad_norm": 1.7578809261322021,
      "learning_rate": 7.154478773060681e-05,
      "loss": 2.1955,
      "step": 28906
    },
    {
      "epoch": 0.6423777777777778,
      "grad_norm": 1.7062569856643677,
      "learning_rate": 7.15403422982885e-05,
      "loss": 2.7585,
      "step": 28907
    },
    {
      "epoch": 0.6424,
      "grad_norm": 1.4424821138381958,
      "learning_rate": 7.153589686597021e-05,
      "loss": 2.0638,
      "step": 28908
    },
    {
      "epoch": 0.6424222222222222,
      "grad_norm": 1.797548770904541,
      "learning_rate": 7.153145143365192e-05,
      "loss": 2.3194,
      "step": 28909
    },
    {
      "epoch": 0.6424444444444445,
      "grad_norm": 2.008291721343994,
      "learning_rate": 7.152700600133363e-05,
      "loss": 2.2287,
      "step": 28910
    },
    {
      "epoch": 0.6424666666666666,
      "grad_norm": 1.5889003276824951,
      "learning_rate": 7.152256056901534e-05,
      "loss": 1.4463,
      "step": 28911
    },
    {
      "epoch": 0.6424888888888889,
      "grad_norm": 1.6907141208648682,
      "learning_rate": 7.151811513669705e-05,
      "loss": 1.9515,
      "step": 28912
    },
    {
      "epoch": 0.6425111111111111,
      "grad_norm": 1.3028802871704102,
      "learning_rate": 7.151366970437875e-05,
      "loss": 1.6399,
      "step": 28913
    },
    {
      "epoch": 0.6425333333333333,
      "grad_norm": 1.5053068399429321,
      "learning_rate": 7.150922427206046e-05,
      "loss": 1.8337,
      "step": 28914
    },
    {
      "epoch": 0.6425555555555555,
      "grad_norm": 1.4605801105499268,
      "learning_rate": 7.150477883974217e-05,
      "loss": 1.8094,
      "step": 28915
    },
    {
      "epoch": 0.6425777777777778,
      "grad_norm": 1.552448034286499,
      "learning_rate": 7.150033340742388e-05,
      "loss": 1.659,
      "step": 28916
    },
    {
      "epoch": 0.6426,
      "grad_norm": 1.7648966312408447,
      "learning_rate": 7.149588797510557e-05,
      "loss": 2.2957,
      "step": 28917
    },
    {
      "epoch": 0.6426222222222222,
      "grad_norm": 1.7324978113174438,
      "learning_rate": 7.149144254278728e-05,
      "loss": 2.1141,
      "step": 28918
    },
    {
      "epoch": 0.6426444444444445,
      "grad_norm": 2.1639018058776855,
      "learning_rate": 7.148699711046901e-05,
      "loss": 2.5954,
      "step": 28919
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 1.7023972272872925,
      "learning_rate": 7.14825516781507e-05,
      "loss": 1.3876,
      "step": 28920
    },
    {
      "epoch": 0.6426888888888889,
      "grad_norm": 2.214062213897705,
      "learning_rate": 7.147810624583241e-05,
      "loss": 2.5949,
      "step": 28921
    },
    {
      "epoch": 0.6427111111111111,
      "grad_norm": 1.7753064632415771,
      "learning_rate": 7.147366081351412e-05,
      "loss": 2.0713,
      "step": 28922
    },
    {
      "epoch": 0.6427333333333334,
      "grad_norm": 1.664215326309204,
      "learning_rate": 7.146921538119582e-05,
      "loss": 2.0425,
      "step": 28923
    },
    {
      "epoch": 0.6427555555555555,
      "grad_norm": 1.6645792722702026,
      "learning_rate": 7.146476994887753e-05,
      "loss": 1.7387,
      "step": 28924
    },
    {
      "epoch": 0.6427777777777778,
      "grad_norm": 1.8174889087677002,
      "learning_rate": 7.146032451655924e-05,
      "loss": 1.9186,
      "step": 28925
    },
    {
      "epoch": 0.6428,
      "grad_norm": 1.781592607498169,
      "learning_rate": 7.145587908424095e-05,
      "loss": 2.0698,
      "step": 28926
    },
    {
      "epoch": 0.6428222222222222,
      "grad_norm": 1.753316879272461,
      "learning_rate": 7.145143365192264e-05,
      "loss": 2.1797,
      "step": 28927
    },
    {
      "epoch": 0.6428444444444444,
      "grad_norm": 1.7087000608444214,
      "learning_rate": 7.144698821960437e-05,
      "loss": 1.826,
      "step": 28928
    },
    {
      "epoch": 0.6428666666666667,
      "grad_norm": 1.5608490705490112,
      "learning_rate": 7.144254278728608e-05,
      "loss": 1.7394,
      "step": 28929
    },
    {
      "epoch": 0.6428888888888888,
      "grad_norm": 2.120506525039673,
      "learning_rate": 7.143809735496777e-05,
      "loss": 1.8856,
      "step": 28930
    },
    {
      "epoch": 0.6429111111111111,
      "grad_norm": 2.612682342529297,
      "learning_rate": 7.143365192264948e-05,
      "loss": 2.0027,
      "step": 28931
    },
    {
      "epoch": 0.6429333333333334,
      "grad_norm": 1.8839622735977173,
      "learning_rate": 7.142920649033119e-05,
      "loss": 1.8474,
      "step": 28932
    },
    {
      "epoch": 0.6429555555555555,
      "grad_norm": 1.8573490381240845,
      "learning_rate": 7.142476105801289e-05,
      "loss": 2.2052,
      "step": 28933
    },
    {
      "epoch": 0.6429777777777778,
      "grad_norm": 1.7652058601379395,
      "learning_rate": 7.14203156256946e-05,
      "loss": 1.7029,
      "step": 28934
    },
    {
      "epoch": 0.643,
      "grad_norm": 1.7231435775756836,
      "learning_rate": 7.141587019337631e-05,
      "loss": 1.7502,
      "step": 28935
    },
    {
      "epoch": 0.6430222222222223,
      "grad_norm": 1.7900536060333252,
      "learning_rate": 7.141142476105802e-05,
      "loss": 2.1998,
      "step": 28936
    },
    {
      "epoch": 0.6430444444444444,
      "grad_norm": 1.664600133895874,
      "learning_rate": 7.140697932873973e-05,
      "loss": 1.7662,
      "step": 28937
    },
    {
      "epoch": 0.6430666666666667,
      "grad_norm": 2.0292153358459473,
      "learning_rate": 7.140253389642144e-05,
      "loss": 2.5704,
      "step": 28938
    },
    {
      "epoch": 0.6430888888888889,
      "grad_norm": 1.509979248046875,
      "learning_rate": 7.139808846410315e-05,
      "loss": 1.0218,
      "step": 28939
    },
    {
      "epoch": 0.6431111111111111,
      "grad_norm": 0.9186019897460938,
      "learning_rate": 7.139364303178484e-05,
      "loss": 0.5662,
      "step": 28940
    },
    {
      "epoch": 0.6431333333333333,
      "grad_norm": 1.5803574323654175,
      "learning_rate": 7.138919759946655e-05,
      "loss": 1.5752,
      "step": 28941
    },
    {
      "epoch": 0.6431555555555556,
      "grad_norm": 1.9634132385253906,
      "learning_rate": 7.138475216714826e-05,
      "loss": 1.9959,
      "step": 28942
    },
    {
      "epoch": 0.6431777777777777,
      "grad_norm": 1.919405221939087,
      "learning_rate": 7.138030673482996e-05,
      "loss": 2.1137,
      "step": 28943
    },
    {
      "epoch": 0.6432,
      "grad_norm": 1.5899920463562012,
      "learning_rate": 7.137586130251167e-05,
      "loss": 1.9365,
      "step": 28944
    },
    {
      "epoch": 0.6432222222222223,
      "grad_norm": 2.470597267150879,
      "learning_rate": 7.137141587019338e-05,
      "loss": 1.7956,
      "step": 28945
    },
    {
      "epoch": 0.6432444444444444,
      "grad_norm": 1.7212203741073608,
      "learning_rate": 7.136697043787509e-05,
      "loss": 1.8821,
      "step": 28946
    },
    {
      "epoch": 0.6432666666666667,
      "grad_norm": 1.7492668628692627,
      "learning_rate": 7.13625250055568e-05,
      "loss": 1.6948,
      "step": 28947
    },
    {
      "epoch": 0.6432888888888889,
      "grad_norm": 1.3097518682479858,
      "learning_rate": 7.13580795732385e-05,
      "loss": 0.8045,
      "step": 28948
    },
    {
      "epoch": 0.6433111111111111,
      "grad_norm": 1.538679838180542,
      "learning_rate": 7.135363414092021e-05,
      "loss": 1.4235,
      "step": 28949
    },
    {
      "epoch": 0.6433333333333333,
      "grad_norm": 1.3475881814956665,
      "learning_rate": 7.134918870860191e-05,
      "loss": 0.836,
      "step": 28950
    },
    {
      "epoch": 0.6433555555555556,
      "grad_norm": 1.8413110971450806,
      "learning_rate": 7.134474327628362e-05,
      "loss": 2.3781,
      "step": 28951
    },
    {
      "epoch": 0.6433777777777778,
      "grad_norm": 1.575206995010376,
      "learning_rate": 7.134029784396533e-05,
      "loss": 2.3801,
      "step": 28952
    },
    {
      "epoch": 0.6434,
      "grad_norm": 1.3493009805679321,
      "learning_rate": 7.133585241164703e-05,
      "loss": 1.9338,
      "step": 28953
    },
    {
      "epoch": 0.6434222222222222,
      "grad_norm": 2.175967216491699,
      "learning_rate": 7.133140697932874e-05,
      "loss": 2.695,
      "step": 28954
    },
    {
      "epoch": 0.6434444444444445,
      "grad_norm": 1.4450469017028809,
      "learning_rate": 7.132696154701045e-05,
      "loss": 1.7778,
      "step": 28955
    },
    {
      "epoch": 0.6434666666666666,
      "grad_norm": 1.4620064496994019,
      "learning_rate": 7.132251611469217e-05,
      "loss": 1.841,
      "step": 28956
    },
    {
      "epoch": 0.6434888888888889,
      "grad_norm": 1.7964931726455688,
      "learning_rate": 7.131807068237386e-05,
      "loss": 2.0961,
      "step": 28957
    },
    {
      "epoch": 0.6435111111111111,
      "grad_norm": 1.6290562152862549,
      "learning_rate": 7.131362525005557e-05,
      "loss": 2.2417,
      "step": 28958
    },
    {
      "epoch": 0.6435333333333333,
      "grad_norm": 1.3939601182937622,
      "learning_rate": 7.130917981773728e-05,
      "loss": 1.4903,
      "step": 28959
    },
    {
      "epoch": 0.6435555555555555,
      "grad_norm": 1.6482905149459839,
      "learning_rate": 7.130473438541898e-05,
      "loss": 2.6648,
      "step": 28960
    },
    {
      "epoch": 0.6435777777777778,
      "grad_norm": 2.1006858348846436,
      "learning_rate": 7.130028895310069e-05,
      "loss": 2.8309,
      "step": 28961
    },
    {
      "epoch": 0.6436,
      "grad_norm": 1.5466973781585693,
      "learning_rate": 7.12958435207824e-05,
      "loss": 2.219,
      "step": 28962
    },
    {
      "epoch": 0.6436222222222222,
      "grad_norm": 1.6188929080963135,
      "learning_rate": 7.129139808846411e-05,
      "loss": 1.6512,
      "step": 28963
    },
    {
      "epoch": 0.6436444444444445,
      "grad_norm": 1.6394859552383423,
      "learning_rate": 7.12869526561458e-05,
      "loss": 1.9599,
      "step": 28964
    },
    {
      "epoch": 0.6436666666666667,
      "grad_norm": 1.5032265186309814,
      "learning_rate": 7.128250722382753e-05,
      "loss": 2.1569,
      "step": 28965
    },
    {
      "epoch": 0.6436888888888889,
      "grad_norm": 1.6356178522109985,
      "learning_rate": 7.127806179150924e-05,
      "loss": 2.1785,
      "step": 28966
    },
    {
      "epoch": 0.6437111111111111,
      "grad_norm": 1.3364404439926147,
      "learning_rate": 7.127361635919093e-05,
      "loss": 1.3715,
      "step": 28967
    },
    {
      "epoch": 0.6437333333333334,
      "grad_norm": 2.5799660682678223,
      "learning_rate": 7.126917092687264e-05,
      "loss": 1.8913,
      "step": 28968
    },
    {
      "epoch": 0.6437555555555555,
      "grad_norm": 1.5566381216049194,
      "learning_rate": 7.126472549455435e-05,
      "loss": 1.7737,
      "step": 28969
    },
    {
      "epoch": 0.6437777777777778,
      "grad_norm": 1.677599549293518,
      "learning_rate": 7.126028006223605e-05,
      "loss": 1.8859,
      "step": 28970
    },
    {
      "epoch": 0.6438,
      "grad_norm": 1.5886155366897583,
      "learning_rate": 7.125583462991776e-05,
      "loss": 1.9092,
      "step": 28971
    },
    {
      "epoch": 0.6438222222222222,
      "grad_norm": 1.4532115459442139,
      "learning_rate": 7.125138919759947e-05,
      "loss": 1.3206,
      "step": 28972
    },
    {
      "epoch": 0.6438444444444444,
      "grad_norm": 1.7453795671463013,
      "learning_rate": 7.124694376528118e-05,
      "loss": 1.73,
      "step": 28973
    },
    {
      "epoch": 0.6438666666666667,
      "grad_norm": 1.896207571029663,
      "learning_rate": 7.124249833296289e-05,
      "loss": 1.9166,
      "step": 28974
    },
    {
      "epoch": 0.6438888888888888,
      "grad_norm": 1.6417932510375977,
      "learning_rate": 7.12380529006446e-05,
      "loss": 1.9912,
      "step": 28975
    },
    {
      "epoch": 0.6439111111111111,
      "grad_norm": 2.062929630279541,
      "learning_rate": 7.12336074683263e-05,
      "loss": 2.1088,
      "step": 28976
    },
    {
      "epoch": 0.6439333333333334,
      "grad_norm": 1.370573878288269,
      "learning_rate": 7.1229162036008e-05,
      "loss": 1.4623,
      "step": 28977
    },
    {
      "epoch": 0.6439555555555555,
      "grad_norm": 1.727644443511963,
      "learning_rate": 7.122471660368971e-05,
      "loss": 1.547,
      "step": 28978
    },
    {
      "epoch": 0.6439777777777778,
      "grad_norm": 1.6774473190307617,
      "learning_rate": 7.122027117137142e-05,
      "loss": 2.0309,
      "step": 28979
    },
    {
      "epoch": 0.644,
      "grad_norm": 1.7936469316482544,
      "learning_rate": 7.121582573905312e-05,
      "loss": 1.8048,
      "step": 28980
    },
    {
      "epoch": 0.6440222222222223,
      "grad_norm": 1.6021851301193237,
      "learning_rate": 7.121138030673483e-05,
      "loss": 1.8476,
      "step": 28981
    },
    {
      "epoch": 0.6440444444444444,
      "grad_norm": 1.6705433130264282,
      "learning_rate": 7.120693487441654e-05,
      "loss": 1.8819,
      "step": 28982
    },
    {
      "epoch": 0.6440666666666667,
      "grad_norm": 2.086313009262085,
      "learning_rate": 7.120248944209825e-05,
      "loss": 2.1044,
      "step": 28983
    },
    {
      "epoch": 0.6440888888888889,
      "grad_norm": 2.1750640869140625,
      "learning_rate": 7.119804400977996e-05,
      "loss": 1.7156,
      "step": 28984
    },
    {
      "epoch": 0.6441111111111111,
      "grad_norm": 1.8231173753738403,
      "learning_rate": 7.119359857746167e-05,
      "loss": 1.8609,
      "step": 28985
    },
    {
      "epoch": 0.6441333333333333,
      "grad_norm": 2.0555918216705322,
      "learning_rate": 7.118915314514338e-05,
      "loss": 2.4212,
      "step": 28986
    },
    {
      "epoch": 0.6441555555555556,
      "grad_norm": 2.163342237472534,
      "learning_rate": 7.118470771282507e-05,
      "loss": 1.8877,
      "step": 28987
    },
    {
      "epoch": 0.6441777777777777,
      "grad_norm": 1.6176615953445435,
      "learning_rate": 7.118026228050678e-05,
      "loss": 1.5502,
      "step": 28988
    },
    {
      "epoch": 0.6442,
      "grad_norm": 1.878800630569458,
      "learning_rate": 7.117581684818849e-05,
      "loss": 1.7773,
      "step": 28989
    },
    {
      "epoch": 0.6442222222222223,
      "grad_norm": 1.7244913578033447,
      "learning_rate": 7.117137141587019e-05,
      "loss": 1.9062,
      "step": 28990
    },
    {
      "epoch": 0.6442444444444444,
      "grad_norm": 1.8530195951461792,
      "learning_rate": 7.11669259835519e-05,
      "loss": 1.9271,
      "step": 28991
    },
    {
      "epoch": 0.6442666666666667,
      "grad_norm": 1.9446215629577637,
      "learning_rate": 7.11624805512336e-05,
      "loss": 2.044,
      "step": 28992
    },
    {
      "epoch": 0.6442888888888889,
      "grad_norm": 1.711171269416809,
      "learning_rate": 7.115803511891533e-05,
      "loss": 1.6565,
      "step": 28993
    },
    {
      "epoch": 0.6443111111111111,
      "grad_norm": 1.7592583894729614,
      "learning_rate": 7.115358968659703e-05,
      "loss": 1.8452,
      "step": 28994
    },
    {
      "epoch": 0.6443333333333333,
      "grad_norm": 1.7510658502578735,
      "learning_rate": 7.114914425427873e-05,
      "loss": 1.9349,
      "step": 28995
    },
    {
      "epoch": 0.6443555555555556,
      "grad_norm": 2.019502639770508,
      "learning_rate": 7.114469882196044e-05,
      "loss": 2.0444,
      "step": 28996
    },
    {
      "epoch": 0.6443777777777778,
      "grad_norm": 1.7224868535995483,
      "learning_rate": 7.114025338964214e-05,
      "loss": 2.0977,
      "step": 28997
    },
    {
      "epoch": 0.6444,
      "grad_norm": 0.34710970520973206,
      "learning_rate": 7.113580795732385e-05,
      "loss": 0.0366,
      "step": 28998
    },
    {
      "epoch": 0.6444222222222222,
      "grad_norm": 2.390554428100586,
      "learning_rate": 7.113136252500556e-05,
      "loss": 2.1436,
      "step": 28999
    },
    {
      "epoch": 0.6444444444444445,
      "grad_norm": 1.99862539768219,
      "learning_rate": 7.112691709268726e-05,
      "loss": 1.5966,
      "step": 29000
    },
    {
      "epoch": 0.6444666666666666,
      "grad_norm": 1.686181902885437,
      "learning_rate": 7.112247166036897e-05,
      "loss": 2.3817,
      "step": 29001
    },
    {
      "epoch": 0.6444888888888889,
      "grad_norm": 1.5259734392166138,
      "learning_rate": 7.111802622805069e-05,
      "loss": 1.845,
      "step": 29002
    },
    {
      "epoch": 0.6445111111111111,
      "grad_norm": 1.4012967348098755,
      "learning_rate": 7.11135807957324e-05,
      "loss": 2.2198,
      "step": 29003
    },
    {
      "epoch": 0.6445333333333333,
      "grad_norm": 1.4382514953613281,
      "learning_rate": 7.11091353634141e-05,
      "loss": 1.8372,
      "step": 29004
    },
    {
      "epoch": 0.6445555555555555,
      "grad_norm": 1.8115453720092773,
      "learning_rate": 7.11046899310958e-05,
      "loss": 1.7997,
      "step": 29005
    },
    {
      "epoch": 0.6445777777777778,
      "grad_norm": 1.711234211921692,
      "learning_rate": 7.110024449877751e-05,
      "loss": 2.125,
      "step": 29006
    },
    {
      "epoch": 0.6446,
      "grad_norm": 1.3862836360931396,
      "learning_rate": 7.109579906645921e-05,
      "loss": 2.1216,
      "step": 29007
    },
    {
      "epoch": 0.6446222222222222,
      "grad_norm": 1.8051152229309082,
      "learning_rate": 7.109135363414092e-05,
      "loss": 1.5909,
      "step": 29008
    },
    {
      "epoch": 0.6446444444444445,
      "grad_norm": 1.8862489461898804,
      "learning_rate": 7.108690820182263e-05,
      "loss": 2.0823,
      "step": 29009
    },
    {
      "epoch": 0.6446666666666667,
      "grad_norm": 1.46207594871521,
      "learning_rate": 7.108246276950434e-05,
      "loss": 2.1865,
      "step": 29010
    },
    {
      "epoch": 0.6446888888888889,
      "grad_norm": 0.224213108420372,
      "learning_rate": 7.107801733718605e-05,
      "loss": 0.025,
      "step": 29011
    },
    {
      "epoch": 0.6447111111111111,
      "grad_norm": 1.5012792348861694,
      "learning_rate": 7.107357190486776e-05,
      "loss": 2.1706,
      "step": 29012
    },
    {
      "epoch": 0.6447333333333334,
      "grad_norm": 1.9338184595108032,
      "learning_rate": 7.106912647254947e-05,
      "loss": 2.2592,
      "step": 29013
    },
    {
      "epoch": 0.6447555555555555,
      "grad_norm": 1.810837745666504,
      "learning_rate": 7.106468104023116e-05,
      "loss": 1.7871,
      "step": 29014
    },
    {
      "epoch": 0.6447777777777778,
      "grad_norm": 1.4336885213851929,
      "learning_rate": 7.106023560791287e-05,
      "loss": 1.8581,
      "step": 29015
    },
    {
      "epoch": 0.6448,
      "grad_norm": 1.5249687433242798,
      "learning_rate": 7.105579017559458e-05,
      "loss": 1.3569,
      "step": 29016
    },
    {
      "epoch": 0.6448222222222222,
      "grad_norm": 2.3387036323547363,
      "learning_rate": 7.105134474327628e-05,
      "loss": 2.1901,
      "step": 29017
    },
    {
      "epoch": 0.6448444444444444,
      "grad_norm": 1.683835744857788,
      "learning_rate": 7.104689931095799e-05,
      "loss": 2.242,
      "step": 29018
    },
    {
      "epoch": 0.6448666666666667,
      "grad_norm": 1.5120434761047363,
      "learning_rate": 7.10424538786397e-05,
      "loss": 1.9611,
      "step": 29019
    },
    {
      "epoch": 0.6448888888888888,
      "grad_norm": 1.8133294582366943,
      "learning_rate": 7.103800844632141e-05,
      "loss": 2.2278,
      "step": 29020
    },
    {
      "epoch": 0.6449111111111111,
      "grad_norm": 1.528519630432129,
      "learning_rate": 7.103356301400312e-05,
      "loss": 1.7234,
      "step": 29021
    },
    {
      "epoch": 0.6449333333333334,
      "grad_norm": 1.6087287664413452,
      "learning_rate": 7.102911758168483e-05,
      "loss": 1.8672,
      "step": 29022
    },
    {
      "epoch": 0.6449555555555555,
      "grad_norm": 1.694104790687561,
      "learning_rate": 7.102467214936654e-05,
      "loss": 2.2416,
      "step": 29023
    },
    {
      "epoch": 0.6449777777777778,
      "grad_norm": 2.1608152389526367,
      "learning_rate": 7.102022671704823e-05,
      "loss": 2.186,
      "step": 29024
    },
    {
      "epoch": 0.645,
      "grad_norm": 1.8009564876556396,
      "learning_rate": 7.101578128472994e-05,
      "loss": 2.168,
      "step": 29025
    },
    {
      "epoch": 0.6450222222222223,
      "grad_norm": 1.6181777715682983,
      "learning_rate": 7.101133585241165e-05,
      "loss": 2.2455,
      "step": 29026
    },
    {
      "epoch": 0.6450444444444444,
      "grad_norm": 1.9097341299057007,
      "learning_rate": 7.100689042009335e-05,
      "loss": 2.0104,
      "step": 29027
    },
    {
      "epoch": 0.6450666666666667,
      "grad_norm": 1.472928524017334,
      "learning_rate": 7.100244498777506e-05,
      "loss": 1.7127,
      "step": 29028
    },
    {
      "epoch": 0.6450888888888889,
      "grad_norm": 1.8379104137420654,
      "learning_rate": 7.099799955545677e-05,
      "loss": 2.4129,
      "step": 29029
    },
    {
      "epoch": 0.6451111111111111,
      "grad_norm": 1.4409955739974976,
      "learning_rate": 7.099355412313849e-05,
      "loss": 1.5263,
      "step": 29030
    },
    {
      "epoch": 0.6451333333333333,
      "grad_norm": 1.8723595142364502,
      "learning_rate": 7.098910869082019e-05,
      "loss": 1.9664,
      "step": 29031
    },
    {
      "epoch": 0.6451555555555556,
      "grad_norm": 0.896340012550354,
      "learning_rate": 7.09846632585019e-05,
      "loss": 0.6383,
      "step": 29032
    },
    {
      "epoch": 0.6451777777777777,
      "grad_norm": 1.6818281412124634,
      "learning_rate": 7.09802178261836e-05,
      "loss": 2.082,
      "step": 29033
    },
    {
      "epoch": 0.6452,
      "grad_norm": 1.591972827911377,
      "learning_rate": 7.09757723938653e-05,
      "loss": 1.7117,
      "step": 29034
    },
    {
      "epoch": 0.6452222222222223,
      "grad_norm": 1.9729094505310059,
      "learning_rate": 7.097132696154701e-05,
      "loss": 2.056,
      "step": 29035
    },
    {
      "epoch": 0.6452444444444444,
      "grad_norm": 1.9406650066375732,
      "learning_rate": 7.096688152922872e-05,
      "loss": 2.3653,
      "step": 29036
    },
    {
      "epoch": 0.6452666666666667,
      "grad_norm": 1.635969877243042,
      "learning_rate": 7.096243609691042e-05,
      "loss": 1.4225,
      "step": 29037
    },
    {
      "epoch": 0.6452888888888889,
      "grad_norm": 1.8061898946762085,
      "learning_rate": 7.095799066459213e-05,
      "loss": 2.1575,
      "step": 29038
    },
    {
      "epoch": 0.6453111111111111,
      "grad_norm": 0.9610072374343872,
      "learning_rate": 7.095354523227385e-05,
      "loss": 0.7144,
      "step": 29039
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 1.6564658880233765,
      "learning_rate": 7.094909979995556e-05,
      "loss": 1.6961,
      "step": 29040
    },
    {
      "epoch": 0.6453555555555556,
      "grad_norm": 2.188620090484619,
      "learning_rate": 7.094465436763726e-05,
      "loss": 1.992,
      "step": 29041
    },
    {
      "epoch": 0.6453777777777778,
      "grad_norm": 2.1346263885498047,
      "learning_rate": 7.094020893531897e-05,
      "loss": 1.7606,
      "step": 29042
    },
    {
      "epoch": 0.6454,
      "grad_norm": 1.584122896194458,
      "learning_rate": 7.093576350300067e-05,
      "loss": 1.9503,
      "step": 29043
    },
    {
      "epoch": 0.6454222222222222,
      "grad_norm": 2.2534492015838623,
      "learning_rate": 7.093131807068237e-05,
      "loss": 2.2768,
      "step": 29044
    },
    {
      "epoch": 0.6454444444444445,
      "grad_norm": 1.9511295557022095,
      "learning_rate": 7.092687263836408e-05,
      "loss": 2.1601,
      "step": 29045
    },
    {
      "epoch": 0.6454666666666666,
      "grad_norm": 1.7901535034179688,
      "learning_rate": 7.092242720604579e-05,
      "loss": 1.8901,
      "step": 29046
    },
    {
      "epoch": 0.6454888888888889,
      "grad_norm": 1.7285199165344238,
      "learning_rate": 7.09179817737275e-05,
      "loss": 1.5072,
      "step": 29047
    },
    {
      "epoch": 0.6455111111111111,
      "grad_norm": 1.8059173822402954,
      "learning_rate": 7.091353634140921e-05,
      "loss": 1.8646,
      "step": 29048
    },
    {
      "epoch": 0.6455333333333333,
      "grad_norm": 1.863149881362915,
      "learning_rate": 7.090909090909092e-05,
      "loss": 1.971,
      "step": 29049
    },
    {
      "epoch": 0.6455555555555555,
      "grad_norm": 1.723754644393921,
      "learning_rate": 7.090464547677263e-05,
      "loss": 1.5036,
      "step": 29050
    },
    {
      "epoch": 0.6455777777777778,
      "grad_norm": 1.1470249891281128,
      "learning_rate": 7.090020004445432e-05,
      "loss": 1.0734,
      "step": 29051
    },
    {
      "epoch": 0.6456,
      "grad_norm": 1.4927550554275513,
      "learning_rate": 7.089575461213603e-05,
      "loss": 2.4021,
      "step": 29052
    },
    {
      "epoch": 0.6456222222222222,
      "grad_norm": 1.577982783317566,
      "learning_rate": 7.089130917981774e-05,
      "loss": 2.2874,
      "step": 29053
    },
    {
      "epoch": 0.6456444444444445,
      "grad_norm": 1.6243376731872559,
      "learning_rate": 7.088686374749944e-05,
      "loss": 1.0384,
      "step": 29054
    },
    {
      "epoch": 0.6456666666666667,
      "grad_norm": 1.6546640396118164,
      "learning_rate": 7.088241831518115e-05,
      "loss": 1.1537,
      "step": 29055
    },
    {
      "epoch": 0.6456888888888889,
      "grad_norm": 1.5087653398513794,
      "learning_rate": 7.087797288286286e-05,
      "loss": 2.3756,
      "step": 29056
    },
    {
      "epoch": 0.6457111111111111,
      "grad_norm": 1.4392410516738892,
      "learning_rate": 7.087352745054457e-05,
      "loss": 1.8451,
      "step": 29057
    },
    {
      "epoch": 0.6457333333333334,
      "grad_norm": 1.604750156402588,
      "learning_rate": 7.086908201822628e-05,
      "loss": 2.3932,
      "step": 29058
    },
    {
      "epoch": 0.6457555555555555,
      "grad_norm": 1.3697820901870728,
      "learning_rate": 7.086463658590799e-05,
      "loss": 1.99,
      "step": 29059
    },
    {
      "epoch": 0.6457777777777778,
      "grad_norm": 1.5392061471939087,
      "learning_rate": 7.08601911535897e-05,
      "loss": 1.8891,
      "step": 29060
    },
    {
      "epoch": 0.6458,
      "grad_norm": 1.8606305122375488,
      "learning_rate": 7.08557457212714e-05,
      "loss": 2.2007,
      "step": 29061
    },
    {
      "epoch": 0.6458222222222222,
      "grad_norm": 1.821648359298706,
      "learning_rate": 7.08513002889531e-05,
      "loss": 2.2572,
      "step": 29062
    },
    {
      "epoch": 0.6458444444444444,
      "grad_norm": 1.64143967628479,
      "learning_rate": 7.084685485663481e-05,
      "loss": 1.8566,
      "step": 29063
    },
    {
      "epoch": 0.6458666666666667,
      "grad_norm": 1.5850093364715576,
      "learning_rate": 7.084240942431651e-05,
      "loss": 1.8496,
      "step": 29064
    },
    {
      "epoch": 0.6458888888888888,
      "grad_norm": 1.6152373552322388,
      "learning_rate": 7.083796399199822e-05,
      "loss": 1.1328,
      "step": 29065
    },
    {
      "epoch": 0.6459111111111111,
      "grad_norm": 1.1689858436584473,
      "learning_rate": 7.083351855967993e-05,
      "loss": 1.2043,
      "step": 29066
    },
    {
      "epoch": 0.6459333333333334,
      "grad_norm": 1.7024846076965332,
      "learning_rate": 7.082907312736165e-05,
      "loss": 1.9357,
      "step": 29067
    },
    {
      "epoch": 0.6459555555555555,
      "grad_norm": 1.3479031324386597,
      "learning_rate": 7.082462769504335e-05,
      "loss": 1.3946,
      "step": 29068
    },
    {
      "epoch": 0.6459777777777778,
      "grad_norm": 1.5222748517990112,
      "learning_rate": 7.082018226272506e-05,
      "loss": 1.8374,
      "step": 29069
    },
    {
      "epoch": 0.646,
      "grad_norm": 1.5448720455169678,
      "learning_rate": 7.081573683040677e-05,
      "loss": 1.7917,
      "step": 29070
    },
    {
      "epoch": 0.6460222222222223,
      "grad_norm": 1.8289965391159058,
      "learning_rate": 7.081129139808846e-05,
      "loss": 1.3985,
      "step": 29071
    },
    {
      "epoch": 0.6460444444444444,
      "grad_norm": 1.918680191040039,
      "learning_rate": 7.080684596577017e-05,
      "loss": 1.5956,
      "step": 29072
    },
    {
      "epoch": 0.6460666666666667,
      "grad_norm": 1.5386064052581787,
      "learning_rate": 7.080240053345188e-05,
      "loss": 1.7289,
      "step": 29073
    },
    {
      "epoch": 0.6460888888888889,
      "grad_norm": 1.6020234823226929,
      "learning_rate": 7.079795510113358e-05,
      "loss": 1.7265,
      "step": 29074
    },
    {
      "epoch": 0.6461111111111111,
      "grad_norm": 1.6040480136871338,
      "learning_rate": 7.079350966881529e-05,
      "loss": 1.6565,
      "step": 29075
    },
    {
      "epoch": 0.6461333333333333,
      "grad_norm": 1.5008918046951294,
      "learning_rate": 7.078906423649701e-05,
      "loss": 1.9662,
      "step": 29076
    },
    {
      "epoch": 0.6461555555555556,
      "grad_norm": 1.6811549663543701,
      "learning_rate": 7.078461880417872e-05,
      "loss": 1.83,
      "step": 29077
    },
    {
      "epoch": 0.6461777777777777,
      "grad_norm": 1.627158284187317,
      "learning_rate": 7.078017337186042e-05,
      "loss": 2.421,
      "step": 29078
    },
    {
      "epoch": 0.6462,
      "grad_norm": 1.6065196990966797,
      "learning_rate": 7.077572793954213e-05,
      "loss": 1.8298,
      "step": 29079
    },
    {
      "epoch": 0.6462222222222223,
      "grad_norm": 1.4701594114303589,
      "learning_rate": 7.077128250722384e-05,
      "loss": 1.3981,
      "step": 29080
    },
    {
      "epoch": 0.6462444444444444,
      "grad_norm": 1.77341890335083,
      "learning_rate": 7.076683707490553e-05,
      "loss": 2.2195,
      "step": 29081
    },
    {
      "epoch": 0.6462666666666667,
      "grad_norm": 1.2583370208740234,
      "learning_rate": 7.076239164258724e-05,
      "loss": 0.795,
      "step": 29082
    },
    {
      "epoch": 0.6462888888888889,
      "grad_norm": 1.5209894180297852,
      "learning_rate": 7.075794621026895e-05,
      "loss": 1.8441,
      "step": 29083
    },
    {
      "epoch": 0.6463111111111111,
      "grad_norm": 1.5885052680969238,
      "learning_rate": 7.075350077795066e-05,
      "loss": 2.0454,
      "step": 29084
    },
    {
      "epoch": 0.6463333333333333,
      "grad_norm": 1.8185741901397705,
      "learning_rate": 7.074905534563237e-05,
      "loss": 1.8766,
      "step": 29085
    },
    {
      "epoch": 0.6463555555555556,
      "grad_norm": 1.6103633642196655,
      "learning_rate": 7.074460991331408e-05,
      "loss": 1.5191,
      "step": 29086
    },
    {
      "epoch": 0.6463777777777778,
      "grad_norm": 1.9912450313568115,
      "learning_rate": 7.074016448099579e-05,
      "loss": 2.1519,
      "step": 29087
    },
    {
      "epoch": 0.6464,
      "grad_norm": 2.1047565937042236,
      "learning_rate": 7.073571904867749e-05,
      "loss": 2.1204,
      "step": 29088
    },
    {
      "epoch": 0.6464222222222222,
      "grad_norm": 1.7408231496810913,
      "learning_rate": 7.07312736163592e-05,
      "loss": 1.687,
      "step": 29089
    },
    {
      "epoch": 0.6464444444444445,
      "grad_norm": 2.2416300773620605,
      "learning_rate": 7.07268281840409e-05,
      "loss": 2.5354,
      "step": 29090
    },
    {
      "epoch": 0.6464666666666666,
      "grad_norm": 2.1599998474121094,
      "learning_rate": 7.07223827517226e-05,
      "loss": 2.36,
      "step": 29091
    },
    {
      "epoch": 0.6464888888888889,
      "grad_norm": 1.4476076364517212,
      "learning_rate": 7.071793731940431e-05,
      "loss": 1.1872,
      "step": 29092
    },
    {
      "epoch": 0.6465111111111111,
      "grad_norm": 1.974564552307129,
      "learning_rate": 7.071349188708602e-05,
      "loss": 2.0381,
      "step": 29093
    },
    {
      "epoch": 0.6465333333333333,
      "grad_norm": 1.7401434183120728,
      "learning_rate": 7.070904645476773e-05,
      "loss": 1.646,
      "step": 29094
    },
    {
      "epoch": 0.6465555555555556,
      "grad_norm": 1.8770774602890015,
      "learning_rate": 7.070460102244944e-05,
      "loss": 1.6141,
      "step": 29095
    },
    {
      "epoch": 0.6465777777777778,
      "grad_norm": 1.7361961603164673,
      "learning_rate": 7.070015559013115e-05,
      "loss": 1.3437,
      "step": 29096
    },
    {
      "epoch": 0.6466,
      "grad_norm": 1.6656427383422852,
      "learning_rate": 7.069571015781286e-05,
      "loss": 1.5471,
      "step": 29097
    },
    {
      "epoch": 0.6466222222222222,
      "grad_norm": 1.9020168781280518,
      "learning_rate": 7.069126472549455e-05,
      "loss": 1.9409,
      "step": 29098
    },
    {
      "epoch": 0.6466444444444445,
      "grad_norm": 2.2219109535217285,
      "learning_rate": 7.068681929317626e-05,
      "loss": 2.1355,
      "step": 29099
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 2.644800901412964,
      "learning_rate": 7.068237386085797e-05,
      "loss": 1.2337,
      "step": 29100
    },
    {
      "epoch": 0.6466888888888889,
      "grad_norm": 1.3294848203659058,
      "learning_rate": 7.067792842853967e-05,
      "loss": 1.0227,
      "step": 29101
    },
    {
      "epoch": 0.6467111111111111,
      "grad_norm": 1.480413556098938,
      "learning_rate": 7.067348299622138e-05,
      "loss": 2.1486,
      "step": 29102
    },
    {
      "epoch": 0.6467333333333334,
      "grad_norm": 1.4161555767059326,
      "learning_rate": 7.066903756390309e-05,
      "loss": 1.8185,
      "step": 29103
    },
    {
      "epoch": 0.6467555555555555,
      "grad_norm": 0.9094601273536682,
      "learning_rate": 7.06645921315848e-05,
      "loss": 1.1822,
      "step": 29104
    },
    {
      "epoch": 0.6467777777777778,
      "grad_norm": 1.4612770080566406,
      "learning_rate": 7.066014669926651e-05,
      "loss": 2.2132,
      "step": 29105
    },
    {
      "epoch": 0.6468,
      "grad_norm": 1.5787962675094604,
      "learning_rate": 7.065570126694822e-05,
      "loss": 2.2369,
      "step": 29106
    },
    {
      "epoch": 0.6468222222222222,
      "grad_norm": 1.8740125894546509,
      "learning_rate": 7.065125583462993e-05,
      "loss": 2.5167,
      "step": 29107
    },
    {
      "epoch": 0.6468444444444444,
      "grad_norm": 1.66010582447052,
      "learning_rate": 7.064681040231162e-05,
      "loss": 2.4951,
      "step": 29108
    },
    {
      "epoch": 0.6468666666666667,
      "grad_norm": 1.5209728479385376,
      "learning_rate": 7.064236496999333e-05,
      "loss": 2.2145,
      "step": 29109
    },
    {
      "epoch": 0.6468888888888888,
      "grad_norm": 1.2550688982009888,
      "learning_rate": 7.063791953767504e-05,
      "loss": 1.5124,
      "step": 29110
    },
    {
      "epoch": 0.6469111111111111,
      "grad_norm": 1.596299648284912,
      "learning_rate": 7.063347410535674e-05,
      "loss": 2.3205,
      "step": 29111
    },
    {
      "epoch": 0.6469333333333334,
      "grad_norm": 1.7290644645690918,
      "learning_rate": 7.062902867303845e-05,
      "loss": 1.424,
      "step": 29112
    },
    {
      "epoch": 0.6469555555555555,
      "grad_norm": 1.6497602462768555,
      "learning_rate": 7.062458324072017e-05,
      "loss": 1.7248,
      "step": 29113
    },
    {
      "epoch": 0.6469777777777778,
      "grad_norm": 1.732588768005371,
      "learning_rate": 7.062013780840187e-05,
      "loss": 2.3204,
      "step": 29114
    },
    {
      "epoch": 0.647,
      "grad_norm": 1.65004563331604,
      "learning_rate": 7.061569237608358e-05,
      "loss": 2.0739,
      "step": 29115
    },
    {
      "epoch": 0.6470222222222223,
      "grad_norm": 1.4575328826904297,
      "learning_rate": 7.061124694376529e-05,
      "loss": 1.1476,
      "step": 29116
    },
    {
      "epoch": 0.6470444444444444,
      "grad_norm": 1.8705321550369263,
      "learning_rate": 7.0606801511447e-05,
      "loss": 2.2397,
      "step": 29117
    },
    {
      "epoch": 0.6470666666666667,
      "grad_norm": 1.4159882068634033,
      "learning_rate": 7.060235607912869e-05,
      "loss": 2.1124,
      "step": 29118
    },
    {
      "epoch": 0.6470888888888889,
      "grad_norm": 1.5113205909729004,
      "learning_rate": 7.05979106468104e-05,
      "loss": 1.5342,
      "step": 29119
    },
    {
      "epoch": 0.6471111111111111,
      "grad_norm": 1.9303370714187622,
      "learning_rate": 7.059346521449211e-05,
      "loss": 1.8784,
      "step": 29120
    },
    {
      "epoch": 0.6471333333333333,
      "grad_norm": 1.6839933395385742,
      "learning_rate": 7.058901978217382e-05,
      "loss": 1.967,
      "step": 29121
    },
    {
      "epoch": 0.6471555555555556,
      "grad_norm": 1.7867637872695923,
      "learning_rate": 7.058457434985553e-05,
      "loss": 2.0391,
      "step": 29122
    },
    {
      "epoch": 0.6471777777777777,
      "grad_norm": 1.8341662883758545,
      "learning_rate": 7.058012891753724e-05,
      "loss": 1.9629,
      "step": 29123
    },
    {
      "epoch": 0.6472,
      "grad_norm": 1.563461184501648,
      "learning_rate": 7.057568348521895e-05,
      "loss": 1.4533,
      "step": 29124
    },
    {
      "epoch": 0.6472222222222223,
      "grad_norm": 1.56820547580719,
      "learning_rate": 7.057123805290065e-05,
      "loss": 2.1632,
      "step": 29125
    },
    {
      "epoch": 0.6472444444444444,
      "grad_norm": 2.0252976417541504,
      "learning_rate": 7.056679262058236e-05,
      "loss": 2.6123,
      "step": 29126
    },
    {
      "epoch": 0.6472666666666667,
      "grad_norm": 1.8063596487045288,
      "learning_rate": 7.056234718826407e-05,
      "loss": 1.9402,
      "step": 29127
    },
    {
      "epoch": 0.6472888888888889,
      "grad_norm": 1.1451598405838013,
      "learning_rate": 7.055790175594576e-05,
      "loss": 1.0699,
      "step": 29128
    },
    {
      "epoch": 0.6473111111111111,
      "grad_norm": 1.7466984987258911,
      "learning_rate": 7.055345632362747e-05,
      "loss": 1.846,
      "step": 29129
    },
    {
      "epoch": 0.6473333333333333,
      "grad_norm": 1.801710605621338,
      "learning_rate": 7.054901089130918e-05,
      "loss": 1.5419,
      "step": 29130
    },
    {
      "epoch": 0.6473555555555556,
      "grad_norm": 1.829551100730896,
      "learning_rate": 7.054456545899089e-05,
      "loss": 2.5472,
      "step": 29131
    },
    {
      "epoch": 0.6473777777777778,
      "grad_norm": 2.013662099838257,
      "learning_rate": 7.05401200266726e-05,
      "loss": 2.0472,
      "step": 29132
    },
    {
      "epoch": 0.6474,
      "grad_norm": 1.3499835729599,
      "learning_rate": 7.053567459435431e-05,
      "loss": 0.7647,
      "step": 29133
    },
    {
      "epoch": 0.6474222222222222,
      "grad_norm": 2.016878843307495,
      "learning_rate": 7.053122916203602e-05,
      "loss": 2.2325,
      "step": 29134
    },
    {
      "epoch": 0.6474444444444445,
      "grad_norm": 1.7505043745040894,
      "learning_rate": 7.052678372971772e-05,
      "loss": 2.1693,
      "step": 29135
    },
    {
      "epoch": 0.6474666666666666,
      "grad_norm": 1.9273511171340942,
      "learning_rate": 7.052233829739943e-05,
      "loss": 1.8722,
      "step": 29136
    },
    {
      "epoch": 0.6474888888888889,
      "grad_norm": 1.839815616607666,
      "learning_rate": 7.051789286508113e-05,
      "loss": 2.2612,
      "step": 29137
    },
    {
      "epoch": 0.6475111111111111,
      "grad_norm": 1.7973805665969849,
      "learning_rate": 7.051344743276283e-05,
      "loss": 1.6756,
      "step": 29138
    },
    {
      "epoch": 0.6475333333333333,
      "grad_norm": 1.2534786462783813,
      "learning_rate": 7.050900200044454e-05,
      "loss": 0.8786,
      "step": 29139
    },
    {
      "epoch": 0.6475555555555556,
      "grad_norm": 1.5299891233444214,
      "learning_rate": 7.050455656812625e-05,
      "loss": 1.3872,
      "step": 29140
    },
    {
      "epoch": 0.6475777777777778,
      "grad_norm": 1.5156304836273193,
      "learning_rate": 7.050011113580796e-05,
      "loss": 1.6405,
      "step": 29141
    },
    {
      "epoch": 0.6476,
      "grad_norm": 1.7062276601791382,
      "learning_rate": 7.049566570348967e-05,
      "loss": 2.0486,
      "step": 29142
    },
    {
      "epoch": 0.6476222222222222,
      "grad_norm": 1.7123117446899414,
      "learning_rate": 7.049122027117138e-05,
      "loss": 1.9122,
      "step": 29143
    },
    {
      "epoch": 0.6476444444444445,
      "grad_norm": 1.8518922328948975,
      "learning_rate": 7.048677483885309e-05,
      "loss": 2.0751,
      "step": 29144
    },
    {
      "epoch": 0.6476666666666666,
      "grad_norm": 1.8861069679260254,
      "learning_rate": 7.048232940653478e-05,
      "loss": 1.831,
      "step": 29145
    },
    {
      "epoch": 0.6476888888888889,
      "grad_norm": 1.7695550918579102,
      "learning_rate": 7.04778839742165e-05,
      "loss": 1.9029,
      "step": 29146
    },
    {
      "epoch": 0.6477111111111111,
      "grad_norm": 2.139415979385376,
      "learning_rate": 7.04734385418982e-05,
      "loss": 2.0564,
      "step": 29147
    },
    {
      "epoch": 0.6477333333333334,
      "grad_norm": 1.5689301490783691,
      "learning_rate": 7.04689931095799e-05,
      "loss": 1.7203,
      "step": 29148
    },
    {
      "epoch": 0.6477555555555555,
      "grad_norm": 1.9944018125534058,
      "learning_rate": 7.046454767726161e-05,
      "loss": 1.9389,
      "step": 29149
    },
    {
      "epoch": 0.6477777777777778,
      "grad_norm": 2.172898054122925,
      "learning_rate": 7.046010224494333e-05,
      "loss": 1.5803,
      "step": 29150
    },
    {
      "epoch": 0.6478,
      "grad_norm": 1.5711785554885864,
      "learning_rate": 7.045565681262503e-05,
      "loss": 2.575,
      "step": 29151
    },
    {
      "epoch": 0.6478222222222222,
      "grad_norm": 1.8806873559951782,
      "learning_rate": 7.045121138030674e-05,
      "loss": 2.7309,
      "step": 29152
    },
    {
      "epoch": 0.6478444444444444,
      "grad_norm": 1.4180324077606201,
      "learning_rate": 7.044676594798845e-05,
      "loss": 2.1319,
      "step": 29153
    },
    {
      "epoch": 0.6478666666666667,
      "grad_norm": 1.5303846597671509,
      "learning_rate": 7.044232051567016e-05,
      "loss": 2.1468,
      "step": 29154
    },
    {
      "epoch": 0.6478888888888888,
      "grad_norm": 1.6324728727340698,
      "learning_rate": 7.043787508335185e-05,
      "loss": 1.595,
      "step": 29155
    },
    {
      "epoch": 0.6479111111111111,
      "grad_norm": 1.6591416597366333,
      "learning_rate": 7.043342965103356e-05,
      "loss": 2.4564,
      "step": 29156
    },
    {
      "epoch": 0.6479333333333334,
      "grad_norm": 1.2871074676513672,
      "learning_rate": 7.042898421871527e-05,
      "loss": 1.7271,
      "step": 29157
    },
    {
      "epoch": 0.6479555555555555,
      "grad_norm": 1.3471856117248535,
      "learning_rate": 7.042453878639698e-05,
      "loss": 2.1456,
      "step": 29158
    },
    {
      "epoch": 0.6479777777777778,
      "grad_norm": 1.4971389770507812,
      "learning_rate": 7.042009335407869e-05,
      "loss": 1.8597,
      "step": 29159
    },
    {
      "epoch": 0.648,
      "grad_norm": 1.63566255569458,
      "learning_rate": 7.04156479217604e-05,
      "loss": 2.0335,
      "step": 29160
    },
    {
      "epoch": 0.6480222222222223,
      "grad_norm": 1.4445345401763916,
      "learning_rate": 7.04112024894421e-05,
      "loss": 1.5174,
      "step": 29161
    },
    {
      "epoch": 0.6480444444444444,
      "grad_norm": 1.633418083190918,
      "learning_rate": 7.040675705712381e-05,
      "loss": 1.92,
      "step": 29162
    },
    {
      "epoch": 0.6480666666666667,
      "grad_norm": 0.33277857303619385,
      "learning_rate": 7.040231162480552e-05,
      "loss": 0.0243,
      "step": 29163
    },
    {
      "epoch": 0.6480888888888889,
      "grad_norm": 1.222267746925354,
      "learning_rate": 7.039786619248723e-05,
      "loss": 1.1443,
      "step": 29164
    },
    {
      "epoch": 0.6481111111111111,
      "grad_norm": 1.243935227394104,
      "learning_rate": 7.039342076016892e-05,
      "loss": 0.7909,
      "step": 29165
    },
    {
      "epoch": 0.6481333333333333,
      "grad_norm": 1.5980591773986816,
      "learning_rate": 7.038897532785063e-05,
      "loss": 2.0629,
      "step": 29166
    },
    {
      "epoch": 0.6481555555555556,
      "grad_norm": 1.7505806684494019,
      "learning_rate": 7.038452989553234e-05,
      "loss": 2.0045,
      "step": 29167
    },
    {
      "epoch": 0.6481777777777777,
      "grad_norm": 1.5095384120941162,
      "learning_rate": 7.038008446321405e-05,
      "loss": 1.6692,
      "step": 29168
    },
    {
      "epoch": 0.6482,
      "grad_norm": 1.7710570096969604,
      "learning_rate": 7.037563903089576e-05,
      "loss": 2.0661,
      "step": 29169
    },
    {
      "epoch": 0.6482222222222223,
      "grad_norm": 1.5297256708145142,
      "learning_rate": 7.037119359857747e-05,
      "loss": 1.8635,
      "step": 29170
    },
    {
      "epoch": 0.6482444444444444,
      "grad_norm": 1.8935678005218506,
      "learning_rate": 7.036674816625917e-05,
      "loss": 2.1259,
      "step": 29171
    },
    {
      "epoch": 0.6482666666666667,
      "grad_norm": 1.6577333211898804,
      "learning_rate": 7.036230273394088e-05,
      "loss": 1.5838,
      "step": 29172
    },
    {
      "epoch": 0.6482888888888889,
      "grad_norm": 1.8225229978561401,
      "learning_rate": 7.035785730162259e-05,
      "loss": 2.3188,
      "step": 29173
    },
    {
      "epoch": 0.6483111111111111,
      "grad_norm": 1.8094227313995361,
      "learning_rate": 7.03534118693043e-05,
      "loss": 2.2508,
      "step": 29174
    },
    {
      "epoch": 0.6483333333333333,
      "grad_norm": 1.651315689086914,
      "learning_rate": 7.034896643698599e-05,
      "loss": 1.8218,
      "step": 29175
    },
    {
      "epoch": 0.6483555555555556,
      "grad_norm": 1.819054126739502,
      "learning_rate": 7.03445210046677e-05,
      "loss": 1.7227,
      "step": 29176
    },
    {
      "epoch": 0.6483777777777778,
      "grad_norm": 1.9914813041687012,
      "learning_rate": 7.034007557234941e-05,
      "loss": 2.3753,
      "step": 29177
    },
    {
      "epoch": 0.6484,
      "grad_norm": 2.263993501663208,
      "learning_rate": 7.033563014003112e-05,
      "loss": 1.438,
      "step": 29178
    },
    {
      "epoch": 0.6484222222222222,
      "grad_norm": 1.7326619625091553,
      "learning_rate": 7.033118470771283e-05,
      "loss": 2.0003,
      "step": 29179
    },
    {
      "epoch": 0.6484444444444445,
      "grad_norm": 2.027819871902466,
      "learning_rate": 7.032673927539454e-05,
      "loss": 2.2009,
      "step": 29180
    },
    {
      "epoch": 0.6484666666666666,
      "grad_norm": 1.8078641891479492,
      "learning_rate": 7.032229384307625e-05,
      "loss": 1.7488,
      "step": 29181
    },
    {
      "epoch": 0.6484888888888889,
      "grad_norm": 1.6092551946640015,
      "learning_rate": 7.031784841075795e-05,
      "loss": 1.5736,
      "step": 29182
    },
    {
      "epoch": 0.6485111111111111,
      "grad_norm": 1.5341358184814453,
      "learning_rate": 7.031340297843966e-05,
      "loss": 1.9011,
      "step": 29183
    },
    {
      "epoch": 0.6485333333333333,
      "grad_norm": 1.4618282318115234,
      "learning_rate": 7.030895754612137e-05,
      "loss": 1.5799,
      "step": 29184
    },
    {
      "epoch": 0.6485555555555556,
      "grad_norm": 1.7872344255447388,
      "learning_rate": 7.030451211380306e-05,
      "loss": 1.6422,
      "step": 29185
    },
    {
      "epoch": 0.6485777777777778,
      "grad_norm": 1.677580714225769,
      "learning_rate": 7.030006668148477e-05,
      "loss": 1.9763,
      "step": 29186
    },
    {
      "epoch": 0.6486,
      "grad_norm": 1.6863222122192383,
      "learning_rate": 7.02956212491665e-05,
      "loss": 1.8678,
      "step": 29187
    },
    {
      "epoch": 0.6486222222222222,
      "grad_norm": 1.24997079372406,
      "learning_rate": 7.029117581684819e-05,
      "loss": 1.3101,
      "step": 29188
    },
    {
      "epoch": 0.6486444444444445,
      "grad_norm": 1.3846231698989868,
      "learning_rate": 7.02867303845299e-05,
      "loss": 1.7414,
      "step": 29189
    },
    {
      "epoch": 0.6486666666666666,
      "grad_norm": 1.944069504737854,
      "learning_rate": 7.028228495221161e-05,
      "loss": 2.381,
      "step": 29190
    },
    {
      "epoch": 0.6486888888888889,
      "grad_norm": 1.7412798404693604,
      "learning_rate": 7.027783951989332e-05,
      "loss": 1.7451,
      "step": 29191
    },
    {
      "epoch": 0.6487111111111111,
      "grad_norm": 1.9458290338516235,
      "learning_rate": 7.027339408757501e-05,
      "loss": 2.1176,
      "step": 29192
    },
    {
      "epoch": 0.6487333333333334,
      "grad_norm": 1.7362381219863892,
      "learning_rate": 7.026894865525672e-05,
      "loss": 1.4444,
      "step": 29193
    },
    {
      "epoch": 0.6487555555555555,
      "grad_norm": 1.9106467962265015,
      "learning_rate": 7.026450322293843e-05,
      "loss": 1.8456,
      "step": 29194
    },
    {
      "epoch": 0.6487777777777778,
      "grad_norm": 1.5858999490737915,
      "learning_rate": 7.026005779062014e-05,
      "loss": 1.6961,
      "step": 29195
    },
    {
      "epoch": 0.6488,
      "grad_norm": 1.915849208831787,
      "learning_rate": 7.025561235830185e-05,
      "loss": 1.7903,
      "step": 29196
    },
    {
      "epoch": 0.6488222222222222,
      "grad_norm": 1.544602394104004,
      "learning_rate": 7.025116692598356e-05,
      "loss": 1.1969,
      "step": 29197
    },
    {
      "epoch": 0.6488444444444444,
      "grad_norm": 1.9226042032241821,
      "learning_rate": 7.024672149366526e-05,
      "loss": 1.826,
      "step": 29198
    },
    {
      "epoch": 0.6488666666666667,
      "grad_norm": 1.8153972625732422,
      "learning_rate": 7.024227606134697e-05,
      "loss": 1.5014,
      "step": 29199
    },
    {
      "epoch": 0.6488888888888888,
      "grad_norm": 1.5163156986236572,
      "learning_rate": 7.023783062902868e-05,
      "loss": 1.1973,
      "step": 29200
    },
    {
      "epoch": 0.6489111111111111,
      "grad_norm": 1.4240121841430664,
      "learning_rate": 7.023338519671039e-05,
      "loss": 2.5114,
      "step": 29201
    },
    {
      "epoch": 0.6489333333333334,
      "grad_norm": 1.366631031036377,
      "learning_rate": 7.022893976439208e-05,
      "loss": 2.4166,
      "step": 29202
    },
    {
      "epoch": 0.6489555555555555,
      "grad_norm": 1.802046298980713,
      "learning_rate": 7.02244943320738e-05,
      "loss": 3.01,
      "step": 29203
    },
    {
      "epoch": 0.6489777777777778,
      "grad_norm": 1.4731266498565674,
      "learning_rate": 7.02200488997555e-05,
      "loss": 2.2481,
      "step": 29204
    },
    {
      "epoch": 0.649,
      "grad_norm": 1.8114069700241089,
      "learning_rate": 7.021560346743721e-05,
      "loss": 2.2668,
      "step": 29205
    },
    {
      "epoch": 0.6490222222222222,
      "grad_norm": 1.574411153793335,
      "learning_rate": 7.021115803511892e-05,
      "loss": 2.3854,
      "step": 29206
    },
    {
      "epoch": 0.6490444444444444,
      "grad_norm": 1.6780638694763184,
      "learning_rate": 7.020671260280063e-05,
      "loss": 2.4121,
      "step": 29207
    },
    {
      "epoch": 0.6490666666666667,
      "grad_norm": 1.9986330270767212,
      "learning_rate": 7.020226717048233e-05,
      "loss": 2.5218,
      "step": 29208
    },
    {
      "epoch": 0.6490888888888889,
      "grad_norm": 1.8758296966552734,
      "learning_rate": 7.019782173816404e-05,
      "loss": 1.8691,
      "step": 29209
    },
    {
      "epoch": 0.6491111111111111,
      "grad_norm": 1.7497591972351074,
      "learning_rate": 7.019337630584575e-05,
      "loss": 2.0199,
      "step": 29210
    },
    {
      "epoch": 0.6491333333333333,
      "grad_norm": 2.0398762226104736,
      "learning_rate": 7.018893087352746e-05,
      "loss": 2.1921,
      "step": 29211
    },
    {
      "epoch": 0.6491555555555556,
      "grad_norm": 1.2331268787384033,
      "learning_rate": 7.018448544120915e-05,
      "loss": 0.9171,
      "step": 29212
    },
    {
      "epoch": 0.6491777777777777,
      "grad_norm": 1.537521243095398,
      "learning_rate": 7.018004000889086e-05,
      "loss": 1.5539,
      "step": 29213
    },
    {
      "epoch": 0.6492,
      "grad_norm": 1.4166390895843506,
      "learning_rate": 7.017559457657257e-05,
      "loss": 1.7561,
      "step": 29214
    },
    {
      "epoch": 0.6492222222222223,
      "grad_norm": 1.5925884246826172,
      "learning_rate": 7.017114914425428e-05,
      "loss": 1.7955,
      "step": 29215
    },
    {
      "epoch": 0.6492444444444444,
      "grad_norm": 1.5275793075561523,
      "learning_rate": 7.016670371193599e-05,
      "loss": 1.911,
      "step": 29216
    },
    {
      "epoch": 0.6492666666666667,
      "grad_norm": 2.0152485370635986,
      "learning_rate": 7.01622582796177e-05,
      "loss": 1.8886,
      "step": 29217
    },
    {
      "epoch": 0.6492888888888889,
      "grad_norm": 1.747724175453186,
      "learning_rate": 7.01578128472994e-05,
      "loss": 2.0026,
      "step": 29218
    },
    {
      "epoch": 0.6493111111111111,
      "grad_norm": 1.6655484437942505,
      "learning_rate": 7.015336741498111e-05,
      "loss": 2.2749,
      "step": 29219
    },
    {
      "epoch": 0.6493333333333333,
      "grad_norm": 1.7254546880722046,
      "learning_rate": 7.014892198266282e-05,
      "loss": 1.9314,
      "step": 29220
    },
    {
      "epoch": 0.6493555555555556,
      "grad_norm": 1.608613133430481,
      "learning_rate": 7.014447655034453e-05,
      "loss": 1.9615,
      "step": 29221
    },
    {
      "epoch": 0.6493777777777778,
      "grad_norm": 1.9358397722244263,
      "learning_rate": 7.014003111802622e-05,
      "loss": 2.3336,
      "step": 29222
    },
    {
      "epoch": 0.6494,
      "grad_norm": 1.6523768901824951,
      "learning_rate": 7.013558568570793e-05,
      "loss": 2.1089,
      "step": 29223
    },
    {
      "epoch": 0.6494222222222222,
      "grad_norm": 2.0118861198425293,
      "learning_rate": 7.013114025338965e-05,
      "loss": 2.4732,
      "step": 29224
    },
    {
      "epoch": 0.6494444444444445,
      "grad_norm": 1.8435945510864258,
      "learning_rate": 7.012669482107135e-05,
      "loss": 1.9642,
      "step": 29225
    },
    {
      "epoch": 0.6494666666666666,
      "grad_norm": 1.514154076576233,
      "learning_rate": 7.012224938875306e-05,
      "loss": 1.6705,
      "step": 29226
    },
    {
      "epoch": 0.6494888888888889,
      "grad_norm": 1.780166745185852,
      "learning_rate": 7.011780395643477e-05,
      "loss": 1.512,
      "step": 29227
    },
    {
      "epoch": 0.6495111111111112,
      "grad_norm": 1.433593511581421,
      "learning_rate": 7.011335852411648e-05,
      "loss": 1.7877,
      "step": 29228
    },
    {
      "epoch": 0.6495333333333333,
      "grad_norm": 1.7081892490386963,
      "learning_rate": 7.010891309179818e-05,
      "loss": 1.9008,
      "step": 29229
    },
    {
      "epoch": 0.6495555555555556,
      "grad_norm": 1.8547171354293823,
      "learning_rate": 7.010446765947989e-05,
      "loss": 2.4596,
      "step": 29230
    },
    {
      "epoch": 0.6495777777777778,
      "grad_norm": 1.7276898622512817,
      "learning_rate": 7.01000222271616e-05,
      "loss": 1.9145,
      "step": 29231
    },
    {
      "epoch": 0.6496,
      "grad_norm": 2.084520101547241,
      "learning_rate": 7.00955767948433e-05,
      "loss": 2.3716,
      "step": 29232
    },
    {
      "epoch": 0.6496222222222222,
      "grad_norm": 1.6999021768569946,
      "learning_rate": 7.009113136252501e-05,
      "loss": 1.7156,
      "step": 29233
    },
    {
      "epoch": 0.6496444444444445,
      "grad_norm": 1.4727013111114502,
      "learning_rate": 7.008668593020672e-05,
      "loss": 1.7079,
      "step": 29234
    },
    {
      "epoch": 0.6496666666666666,
      "grad_norm": 1.6207228899002075,
      "learning_rate": 7.008224049788842e-05,
      "loss": 1.4759,
      "step": 29235
    },
    {
      "epoch": 0.6496888888888889,
      "grad_norm": 1.706359624862671,
      "learning_rate": 7.007779506557013e-05,
      "loss": 1.8351,
      "step": 29236
    },
    {
      "epoch": 0.6497111111111111,
      "grad_norm": 1.4816555976867676,
      "learning_rate": 7.007334963325184e-05,
      "loss": 1.5791,
      "step": 29237
    },
    {
      "epoch": 0.6497333333333334,
      "grad_norm": 1.713639259338379,
      "learning_rate": 7.006890420093355e-05,
      "loss": 1.7698,
      "step": 29238
    },
    {
      "epoch": 0.6497555555555555,
      "grad_norm": 1.8787704706192017,
      "learning_rate": 7.006445876861525e-05,
      "loss": 1.9489,
      "step": 29239
    },
    {
      "epoch": 0.6497777777777778,
      "grad_norm": 1.6118589639663696,
      "learning_rate": 7.006001333629695e-05,
      "loss": 1.2888,
      "step": 29240
    },
    {
      "epoch": 0.6498,
      "grad_norm": 1.7838908433914185,
      "learning_rate": 7.005556790397866e-05,
      "loss": 2.0457,
      "step": 29241
    },
    {
      "epoch": 0.6498222222222222,
      "grad_norm": 2.315001964569092,
      "learning_rate": 7.005112247166037e-05,
      "loss": 2.044,
      "step": 29242
    },
    {
      "epoch": 0.6498444444444444,
      "grad_norm": 1.7782366275787354,
      "learning_rate": 7.004667703934208e-05,
      "loss": 1.7675,
      "step": 29243
    },
    {
      "epoch": 0.6498666666666667,
      "grad_norm": 1.7710777521133423,
      "learning_rate": 7.004223160702379e-05,
      "loss": 1.7482,
      "step": 29244
    },
    {
      "epoch": 0.6498888888888888,
      "grad_norm": 2.2236485481262207,
      "learning_rate": 7.003778617470549e-05,
      "loss": 1.7651,
      "step": 29245
    },
    {
      "epoch": 0.6499111111111111,
      "grad_norm": 1.7950549125671387,
      "learning_rate": 7.00333407423872e-05,
      "loss": 1.6507,
      "step": 29246
    },
    {
      "epoch": 0.6499333333333334,
      "grad_norm": 1.7493401765823364,
      "learning_rate": 7.002889531006891e-05,
      "loss": 1.5964,
      "step": 29247
    },
    {
      "epoch": 0.6499555555555555,
      "grad_norm": 2.2070393562316895,
      "learning_rate": 7.002444987775062e-05,
      "loss": 1.8369,
      "step": 29248
    },
    {
      "epoch": 0.6499777777777778,
      "grad_norm": 2.0941531658172607,
      "learning_rate": 7.002000444543231e-05,
      "loss": 2.0079,
      "step": 29249
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.0086233615875244,
      "learning_rate": 7.001555901311402e-05,
      "loss": 1.8565,
      "step": 29250
    },
    {
      "epoch": 0.6500222222222222,
      "grad_norm": 1.5135737657546997,
      "learning_rate": 7.001111358079573e-05,
      "loss": 2.3019,
      "step": 29251
    },
    {
      "epoch": 0.6500444444444444,
      "grad_norm": 1.2567074298858643,
      "learning_rate": 7.000666814847744e-05,
      "loss": 1.8777,
      "step": 29252
    },
    {
      "epoch": 0.6500666666666667,
      "grad_norm": 0.17498348653316498,
      "learning_rate": 7.000222271615915e-05,
      "loss": 0.018,
      "step": 29253
    },
    {
      "epoch": 0.6500888888888889,
      "grad_norm": 1.7214148044586182,
      "learning_rate": 6.999777728384086e-05,
      "loss": 2.4307,
      "step": 29254
    },
    {
      "epoch": 0.6501111111111111,
      "grad_norm": 1.6908961534500122,
      "learning_rate": 6.999333185152256e-05,
      "loss": 2.3565,
      "step": 29255
    },
    {
      "epoch": 0.6501333333333333,
      "grad_norm": 2.346676826477051,
      "learning_rate": 6.998888641920427e-05,
      "loss": 2.1449,
      "step": 29256
    },
    {
      "epoch": 0.6501555555555556,
      "grad_norm": 1.7402980327606201,
      "learning_rate": 6.998444098688598e-05,
      "loss": 2.0284,
      "step": 29257
    },
    {
      "epoch": 0.6501777777777777,
      "grad_norm": 1.891755223274231,
      "learning_rate": 6.997999555456769e-05,
      "loss": 2.0583,
      "step": 29258
    },
    {
      "epoch": 0.6502,
      "grad_norm": 1.889899730682373,
      "learning_rate": 6.997555012224938e-05,
      "loss": 1.9627,
      "step": 29259
    },
    {
      "epoch": 0.6502222222222223,
      "grad_norm": 1.6953115463256836,
      "learning_rate": 6.997110468993109e-05,
      "loss": 2.3591,
      "step": 29260
    },
    {
      "epoch": 0.6502444444444444,
      "grad_norm": 1.7562839984893799,
      "learning_rate": 6.996665925761282e-05,
      "loss": 2.2369,
      "step": 29261
    },
    {
      "epoch": 0.6502666666666667,
      "grad_norm": 1.4049495458602905,
      "learning_rate": 6.996221382529451e-05,
      "loss": 2.1355,
      "step": 29262
    },
    {
      "epoch": 0.6502888888888889,
      "grad_norm": 1.5074312686920166,
      "learning_rate": 6.995776839297622e-05,
      "loss": 2.13,
      "step": 29263
    },
    {
      "epoch": 0.6503111111111111,
      "grad_norm": 1.7136636972427368,
      "learning_rate": 6.995332296065793e-05,
      "loss": 1.8946,
      "step": 29264
    },
    {
      "epoch": 0.6503333333333333,
      "grad_norm": 1.636090636253357,
      "learning_rate": 6.994887752833963e-05,
      "loss": 2.1277,
      "step": 29265
    },
    {
      "epoch": 0.6503555555555556,
      "grad_norm": 2.028170347213745,
      "learning_rate": 6.994443209602134e-05,
      "loss": 2.0288,
      "step": 29266
    },
    {
      "epoch": 0.6503777777777778,
      "grad_norm": 1.5597490072250366,
      "learning_rate": 6.993998666370305e-05,
      "loss": 1.7009,
      "step": 29267
    },
    {
      "epoch": 0.6504,
      "grad_norm": 1.6211811304092407,
      "learning_rate": 6.993554123138476e-05,
      "loss": 2.1396,
      "step": 29268
    },
    {
      "epoch": 0.6504222222222222,
      "grad_norm": 1.767333745956421,
      "learning_rate": 6.993109579906647e-05,
      "loss": 2.4782,
      "step": 29269
    },
    {
      "epoch": 0.6504444444444445,
      "grad_norm": 1.4722760915756226,
      "learning_rate": 6.992665036674818e-05,
      "loss": 1.9787,
      "step": 29270
    },
    {
      "epoch": 0.6504666666666666,
      "grad_norm": 1.608223557472229,
      "learning_rate": 6.992220493442989e-05,
      "loss": 2.326,
      "step": 29271
    },
    {
      "epoch": 0.6504888888888889,
      "grad_norm": 1.988062858581543,
      "learning_rate": 6.991775950211158e-05,
      "loss": 2.6228,
      "step": 29272
    },
    {
      "epoch": 0.6505111111111112,
      "grad_norm": 1.5838956832885742,
      "learning_rate": 6.991331406979329e-05,
      "loss": 1.75,
      "step": 29273
    },
    {
      "epoch": 0.6505333333333333,
      "grad_norm": 1.4592198133468628,
      "learning_rate": 6.9908868637475e-05,
      "loss": 1.7813,
      "step": 29274
    },
    {
      "epoch": 0.6505555555555556,
      "grad_norm": 1.73031485080719,
      "learning_rate": 6.99044232051567e-05,
      "loss": 2.2714,
      "step": 29275
    },
    {
      "epoch": 0.6505777777777778,
      "grad_norm": 1.753232717514038,
      "learning_rate": 6.98999777728384e-05,
      "loss": 1.9807,
      "step": 29276
    },
    {
      "epoch": 0.6506,
      "grad_norm": 1.6164661645889282,
      "learning_rate": 6.989553234052012e-05,
      "loss": 1.4149,
      "step": 29277
    },
    {
      "epoch": 0.6506222222222222,
      "grad_norm": 1.8052868843078613,
      "learning_rate": 6.989108690820183e-05,
      "loss": 1.9208,
      "step": 29278
    },
    {
      "epoch": 0.6506444444444445,
      "grad_norm": 1.4451102018356323,
      "learning_rate": 6.988664147588353e-05,
      "loss": 2.1409,
      "step": 29279
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 1.5738019943237305,
      "learning_rate": 6.988219604356524e-05,
      "loss": 1.9391,
      "step": 29280
    },
    {
      "epoch": 0.6506888888888889,
      "grad_norm": 1.637847661972046,
      "learning_rate": 6.987775061124695e-05,
      "loss": 1.9187,
      "step": 29281
    },
    {
      "epoch": 0.6507111111111111,
      "grad_norm": 1.3089234828948975,
      "learning_rate": 6.987330517892865e-05,
      "loss": 0.885,
      "step": 29282
    },
    {
      "epoch": 0.6507333333333334,
      "grad_norm": 1.7746233940124512,
      "learning_rate": 6.986885974661036e-05,
      "loss": 1.9604,
      "step": 29283
    },
    {
      "epoch": 0.6507555555555555,
      "grad_norm": 1.536644458770752,
      "learning_rate": 6.986441431429207e-05,
      "loss": 1.9093,
      "step": 29284
    },
    {
      "epoch": 0.6507777777777778,
      "grad_norm": 1.560268759727478,
      "learning_rate": 6.985996888197378e-05,
      "loss": 1.367,
      "step": 29285
    },
    {
      "epoch": 0.6508,
      "grad_norm": 1.840164065361023,
      "learning_rate": 6.985552344965548e-05,
      "loss": 1.9394,
      "step": 29286
    },
    {
      "epoch": 0.6508222222222222,
      "grad_norm": 1.6413569450378418,
      "learning_rate": 6.985107801733718e-05,
      "loss": 1.4838,
      "step": 29287
    },
    {
      "epoch": 0.6508444444444444,
      "grad_norm": 1.576214075088501,
      "learning_rate": 6.98466325850189e-05,
      "loss": 1.8984,
      "step": 29288
    },
    {
      "epoch": 0.6508666666666667,
      "grad_norm": 1.3859788179397583,
      "learning_rate": 6.98421871527006e-05,
      "loss": 1.4899,
      "step": 29289
    },
    {
      "epoch": 0.6508888888888889,
      "grad_norm": 1.5814870595932007,
      "learning_rate": 6.983774172038231e-05,
      "loss": 1.4805,
      "step": 29290
    },
    {
      "epoch": 0.6509111111111111,
      "grad_norm": 1.8000617027282715,
      "learning_rate": 6.983329628806402e-05,
      "loss": 1.8311,
      "step": 29291
    },
    {
      "epoch": 0.6509333333333334,
      "grad_norm": 1.9427064657211304,
      "learning_rate": 6.982885085574572e-05,
      "loss": 1.9634,
      "step": 29292
    },
    {
      "epoch": 0.6509555555555555,
      "grad_norm": 1.5224941968917847,
      "learning_rate": 6.982440542342743e-05,
      "loss": 1.4516,
      "step": 29293
    },
    {
      "epoch": 0.6509777777777778,
      "grad_norm": 1.658179521560669,
      "learning_rate": 6.981995999110914e-05,
      "loss": 1.682,
      "step": 29294
    },
    {
      "epoch": 0.651,
      "grad_norm": 1.6062688827514648,
      "learning_rate": 6.981551455879085e-05,
      "loss": 1.7161,
      "step": 29295
    },
    {
      "epoch": 0.6510222222222222,
      "grad_norm": 2.0045063495635986,
      "learning_rate": 6.981106912647254e-05,
      "loss": 2.073,
      "step": 29296
    },
    {
      "epoch": 0.6510444444444444,
      "grad_norm": 1.722097396850586,
      "learning_rate": 6.980662369415425e-05,
      "loss": 1.7127,
      "step": 29297
    },
    {
      "epoch": 0.6510666666666667,
      "grad_norm": 1.8101304769515991,
      "learning_rate": 6.980217826183598e-05,
      "loss": 1.6494,
      "step": 29298
    },
    {
      "epoch": 0.6510888888888889,
      "grad_norm": 1.9141604900360107,
      "learning_rate": 6.979773282951767e-05,
      "loss": 1.4045,
      "step": 29299
    },
    {
      "epoch": 0.6511111111111111,
      "grad_norm": 2.0712220668792725,
      "learning_rate": 6.979328739719938e-05,
      "loss": 1.5308,
      "step": 29300
    },
    {
      "epoch": 0.6511333333333333,
      "grad_norm": 1.2344119548797607,
      "learning_rate": 6.978884196488109e-05,
      "loss": 1.1758,
      "step": 29301
    },
    {
      "epoch": 0.6511555555555556,
      "grad_norm": 1.4297155141830444,
      "learning_rate": 6.978439653256279e-05,
      "loss": 2.1887,
      "step": 29302
    },
    {
      "epoch": 0.6511777777777777,
      "grad_norm": 0.8754487633705139,
      "learning_rate": 6.97799511002445e-05,
      "loss": 0.8814,
      "step": 29303
    },
    {
      "epoch": 0.6512,
      "grad_norm": 1.4717179536819458,
      "learning_rate": 6.977550566792621e-05,
      "loss": 2.1349,
      "step": 29304
    },
    {
      "epoch": 0.6512222222222223,
      "grad_norm": 1.4106658697128296,
      "learning_rate": 6.977106023560792e-05,
      "loss": 2.1573,
      "step": 29305
    },
    {
      "epoch": 0.6512444444444444,
      "grad_norm": 1.9039552211761475,
      "learning_rate": 6.976661480328963e-05,
      "loss": 1.8249,
      "step": 29306
    },
    {
      "epoch": 0.6512666666666667,
      "grad_norm": 1.3200098276138306,
      "learning_rate": 6.976216937097134e-05,
      "loss": 1.7248,
      "step": 29307
    },
    {
      "epoch": 0.6512888888888889,
      "grad_norm": 1.861236810684204,
      "learning_rate": 6.975772393865305e-05,
      "loss": 2.4081,
      "step": 29308
    },
    {
      "epoch": 0.6513111111111111,
      "grad_norm": 1.6973249912261963,
      "learning_rate": 6.975327850633474e-05,
      "loss": 1.9996,
      "step": 29309
    },
    {
      "epoch": 0.6513333333333333,
      "grad_norm": 1.8404150009155273,
      "learning_rate": 6.974883307401645e-05,
      "loss": 2.4652,
      "step": 29310
    },
    {
      "epoch": 0.6513555555555556,
      "grad_norm": 1.7387663125991821,
      "learning_rate": 6.974438764169816e-05,
      "loss": 1.4416,
      "step": 29311
    },
    {
      "epoch": 0.6513777777777778,
      "grad_norm": 1.6357557773590088,
      "learning_rate": 6.973994220937986e-05,
      "loss": 1.6109,
      "step": 29312
    },
    {
      "epoch": 0.6514,
      "grad_norm": 1.6437475681304932,
      "learning_rate": 6.973549677706157e-05,
      "loss": 1.9761,
      "step": 29313
    },
    {
      "epoch": 0.6514222222222222,
      "grad_norm": 1.6953421831130981,
      "learning_rate": 6.973105134474328e-05,
      "loss": 2.1356,
      "step": 29314
    },
    {
      "epoch": 0.6514444444444445,
      "grad_norm": 1.6046780347824097,
      "learning_rate": 6.972660591242499e-05,
      "loss": 2.1672,
      "step": 29315
    },
    {
      "epoch": 0.6514666666666666,
      "grad_norm": 1.550767421722412,
      "learning_rate": 6.97221604801067e-05,
      "loss": 1.653,
      "step": 29316
    },
    {
      "epoch": 0.6514888888888889,
      "grad_norm": 1.5348842144012451,
      "learning_rate": 6.97177150477884e-05,
      "loss": 1.8861,
      "step": 29317
    },
    {
      "epoch": 0.6515111111111112,
      "grad_norm": 1.7914471626281738,
      "learning_rate": 6.971326961547012e-05,
      "loss": 2.2415,
      "step": 29318
    },
    {
      "epoch": 0.6515333333333333,
      "grad_norm": 1.428574800491333,
      "learning_rate": 6.970882418315181e-05,
      "loss": 1.4008,
      "step": 29319
    },
    {
      "epoch": 0.6515555555555556,
      "grad_norm": 1.382114052772522,
      "learning_rate": 6.970437875083352e-05,
      "loss": 1.7083,
      "step": 29320
    },
    {
      "epoch": 0.6515777777777778,
      "grad_norm": 2.0291502475738525,
      "learning_rate": 6.969993331851523e-05,
      "loss": 1.5898,
      "step": 29321
    },
    {
      "epoch": 0.6516,
      "grad_norm": 1.5214177370071411,
      "learning_rate": 6.969548788619693e-05,
      "loss": 1.9985,
      "step": 29322
    },
    {
      "epoch": 0.6516222222222222,
      "grad_norm": 1.516836166381836,
      "learning_rate": 6.969104245387864e-05,
      "loss": 1.6018,
      "step": 29323
    },
    {
      "epoch": 0.6516444444444445,
      "grad_norm": 1.7093638181686401,
      "learning_rate": 6.968659702156035e-05,
      "loss": 2.0104,
      "step": 29324
    },
    {
      "epoch": 0.6516666666666666,
      "grad_norm": 1.858313798904419,
      "learning_rate": 6.968215158924206e-05,
      "loss": 2.0254,
      "step": 29325
    },
    {
      "epoch": 0.6516888888888889,
      "grad_norm": 2.083031177520752,
      "learning_rate": 6.967770615692377e-05,
      "loss": 2.307,
      "step": 29326
    },
    {
      "epoch": 0.6517111111111111,
      "grad_norm": 1.7572811841964722,
      "learning_rate": 6.967326072460547e-05,
      "loss": 1.9557,
      "step": 29327
    },
    {
      "epoch": 0.6517333333333334,
      "grad_norm": 1.7568235397338867,
      "learning_rate": 6.966881529228718e-05,
      "loss": 2.1862,
      "step": 29328
    },
    {
      "epoch": 0.6517555555555555,
      "grad_norm": 1.9669950008392334,
      "learning_rate": 6.966436985996888e-05,
      "loss": 1.9378,
      "step": 29329
    },
    {
      "epoch": 0.6517777777777778,
      "grad_norm": 1.1136808395385742,
      "learning_rate": 6.965992442765059e-05,
      "loss": 0.8185,
      "step": 29330
    },
    {
      "epoch": 0.6518,
      "grad_norm": 1.4626590013504028,
      "learning_rate": 6.96554789953323e-05,
      "loss": 1.6177,
      "step": 29331
    },
    {
      "epoch": 0.6518222222222222,
      "grad_norm": 1.4172871112823486,
      "learning_rate": 6.9651033563014e-05,
      "loss": 1.1709,
      "step": 29332
    },
    {
      "epoch": 0.6518444444444444,
      "grad_norm": 1.4712958335876465,
      "learning_rate": 6.96465881306957e-05,
      "loss": 1.5426,
      "step": 29333
    },
    {
      "epoch": 0.6518666666666667,
      "grad_norm": 1.5287601947784424,
      "learning_rate": 6.964214269837741e-05,
      "loss": 1.3882,
      "step": 29334
    },
    {
      "epoch": 0.6518888888888889,
      "grad_norm": 1.9561853408813477,
      "learning_rate": 6.963769726605914e-05,
      "loss": 1.9832,
      "step": 29335
    },
    {
      "epoch": 0.6519111111111111,
      "grad_norm": 1.5903472900390625,
      "learning_rate": 6.963325183374083e-05,
      "loss": 1.5891,
      "step": 29336
    },
    {
      "epoch": 0.6519333333333334,
      "grad_norm": 1.7223854064941406,
      "learning_rate": 6.962880640142254e-05,
      "loss": 2.1605,
      "step": 29337
    },
    {
      "epoch": 0.6519555555555555,
      "grad_norm": 1.8184937238693237,
      "learning_rate": 6.962436096910425e-05,
      "loss": 1.7764,
      "step": 29338
    },
    {
      "epoch": 0.6519777777777778,
      "grad_norm": 2.029592752456665,
      "learning_rate": 6.961991553678595e-05,
      "loss": 2.023,
      "step": 29339
    },
    {
      "epoch": 0.652,
      "grad_norm": 1.8846449851989746,
      "learning_rate": 6.961547010446766e-05,
      "loss": 1.8893,
      "step": 29340
    },
    {
      "epoch": 0.6520222222222222,
      "grad_norm": 1.637250542640686,
      "learning_rate": 6.961102467214937e-05,
      "loss": 1.5786,
      "step": 29341
    },
    {
      "epoch": 0.6520444444444444,
      "grad_norm": 1.8435598611831665,
      "learning_rate": 6.960657923983108e-05,
      "loss": 1.6511,
      "step": 29342
    },
    {
      "epoch": 0.6520666666666667,
      "grad_norm": 1.94805109500885,
      "learning_rate": 6.960213380751279e-05,
      "loss": 1.8842,
      "step": 29343
    },
    {
      "epoch": 0.6520888888888889,
      "grad_norm": 1.7755887508392334,
      "learning_rate": 6.95976883751945e-05,
      "loss": 2.0506,
      "step": 29344
    },
    {
      "epoch": 0.6521111111111111,
      "grad_norm": 2.023674964904785,
      "learning_rate": 6.959324294287621e-05,
      "loss": 2.1951,
      "step": 29345
    },
    {
      "epoch": 0.6521333333333333,
      "grad_norm": 1.8801541328430176,
      "learning_rate": 6.95887975105579e-05,
      "loss": 2.0137,
      "step": 29346
    },
    {
      "epoch": 0.6521555555555556,
      "grad_norm": 1.7253317832946777,
      "learning_rate": 6.958435207823961e-05,
      "loss": 1.9039,
      "step": 29347
    },
    {
      "epoch": 0.6521777777777777,
      "grad_norm": 1.8239405155181885,
      "learning_rate": 6.957990664592132e-05,
      "loss": 1.5129,
      "step": 29348
    },
    {
      "epoch": 0.6522,
      "grad_norm": 1.4606218338012695,
      "learning_rate": 6.957546121360302e-05,
      "loss": 0.9085,
      "step": 29349
    },
    {
      "epoch": 0.6522222222222223,
      "grad_norm": 2.2330949306488037,
      "learning_rate": 6.957101578128473e-05,
      "loss": 1.3404,
      "step": 29350
    },
    {
      "epoch": 0.6522444444444444,
      "grad_norm": 1.858919382095337,
      "learning_rate": 6.956657034896644e-05,
      "loss": 2.718,
      "step": 29351
    },
    {
      "epoch": 0.6522666666666667,
      "grad_norm": 0.23877856135368347,
      "learning_rate": 6.956212491664815e-05,
      "loss": 0.0166,
      "step": 29352
    },
    {
      "epoch": 0.6522888888888889,
      "grad_norm": 0.24272207915782928,
      "learning_rate": 6.955767948432986e-05,
      "loss": 0.0162,
      "step": 29353
    },
    {
      "epoch": 0.6523111111111111,
      "grad_norm": 1.4344298839569092,
      "learning_rate": 6.955323405201157e-05,
      "loss": 2.3705,
      "step": 29354
    },
    {
      "epoch": 0.6523333333333333,
      "grad_norm": 1.3044419288635254,
      "learning_rate": 6.954878861969328e-05,
      "loss": 2.1032,
      "step": 29355
    },
    {
      "epoch": 0.6523555555555556,
      "grad_norm": 1.8512741327285767,
      "learning_rate": 6.954434318737497e-05,
      "loss": 2.3973,
      "step": 29356
    },
    {
      "epoch": 0.6523777777777777,
      "grad_norm": 1.987452745437622,
      "learning_rate": 6.953989775505668e-05,
      "loss": 1.2002,
      "step": 29357
    },
    {
      "epoch": 0.6524,
      "grad_norm": 1.310753583908081,
      "learning_rate": 6.953545232273839e-05,
      "loss": 1.9942,
      "step": 29358
    },
    {
      "epoch": 0.6524222222222222,
      "grad_norm": 1.4221051931381226,
      "learning_rate": 6.953100689042009e-05,
      "loss": 1.8441,
      "step": 29359
    },
    {
      "epoch": 0.6524444444444445,
      "grad_norm": 1.6217492818832397,
      "learning_rate": 6.95265614581018e-05,
      "loss": 2.3557,
      "step": 29360
    },
    {
      "epoch": 0.6524666666666666,
      "grad_norm": 1.9682235717773438,
      "learning_rate": 6.952211602578351e-05,
      "loss": 1.7465,
      "step": 29361
    },
    {
      "epoch": 0.6524888888888889,
      "grad_norm": 1.491863489151001,
      "learning_rate": 6.951767059346522e-05,
      "loss": 1.6969,
      "step": 29362
    },
    {
      "epoch": 0.6525111111111112,
      "grad_norm": 1.5127167701721191,
      "learning_rate": 6.951322516114693e-05,
      "loss": 2.0036,
      "step": 29363
    },
    {
      "epoch": 0.6525333333333333,
      "grad_norm": 1.4923393726348877,
      "learning_rate": 6.950877972882864e-05,
      "loss": 1.715,
      "step": 29364
    },
    {
      "epoch": 0.6525555555555556,
      "grad_norm": 1.6749690771102905,
      "learning_rate": 6.950433429651035e-05,
      "loss": 2.1604,
      "step": 29365
    },
    {
      "epoch": 0.6525777777777778,
      "grad_norm": 1.8960293531417847,
      "learning_rate": 6.949988886419204e-05,
      "loss": 1.997,
      "step": 29366
    },
    {
      "epoch": 0.6526,
      "grad_norm": 1.4093700647354126,
      "learning_rate": 6.949544343187375e-05,
      "loss": 2.076,
      "step": 29367
    },
    {
      "epoch": 0.6526222222222222,
      "grad_norm": 1.5399001836776733,
      "learning_rate": 6.949099799955546e-05,
      "loss": 1.9729,
      "step": 29368
    },
    {
      "epoch": 0.6526444444444445,
      "grad_norm": 1.6583781242370605,
      "learning_rate": 6.948655256723716e-05,
      "loss": 1.9131,
      "step": 29369
    },
    {
      "epoch": 0.6526666666666666,
      "grad_norm": 1.5324383974075317,
      "learning_rate": 6.948210713491887e-05,
      "loss": 1.7619,
      "step": 29370
    },
    {
      "epoch": 0.6526888888888889,
      "grad_norm": 1.7012816667556763,
      "learning_rate": 6.947766170260059e-05,
      "loss": 2.1841,
      "step": 29371
    },
    {
      "epoch": 0.6527111111111111,
      "grad_norm": 1.626502275466919,
      "learning_rate": 6.94732162702823e-05,
      "loss": 1.9042,
      "step": 29372
    },
    {
      "epoch": 0.6527333333333334,
      "grad_norm": 1.9852179288864136,
      "learning_rate": 6.9468770837964e-05,
      "loss": 1.9659,
      "step": 29373
    },
    {
      "epoch": 0.6527555555555555,
      "grad_norm": 1.7495781183242798,
      "learning_rate": 6.94643254056457e-05,
      "loss": 2.356,
      "step": 29374
    },
    {
      "epoch": 0.6527777777777778,
      "grad_norm": 1.5500662326812744,
      "learning_rate": 6.945987997332741e-05,
      "loss": 1.9053,
      "step": 29375
    },
    {
      "epoch": 0.6528,
      "grad_norm": 1.7778003215789795,
      "learning_rate": 6.945543454100911e-05,
      "loss": 1.7993,
      "step": 29376
    },
    {
      "epoch": 0.6528222222222222,
      "grad_norm": 1.6801308393478394,
      "learning_rate": 6.945098910869082e-05,
      "loss": 1.7258,
      "step": 29377
    },
    {
      "epoch": 0.6528444444444444,
      "grad_norm": 1.6005624532699585,
      "learning_rate": 6.944654367637253e-05,
      "loss": 1.1401,
      "step": 29378
    },
    {
      "epoch": 0.6528666666666667,
      "grad_norm": 2.02657151222229,
      "learning_rate": 6.944209824405423e-05,
      "loss": 1.6297,
      "step": 29379
    },
    {
      "epoch": 0.6528888888888889,
      "grad_norm": 1.8680578470230103,
      "learning_rate": 6.943765281173595e-05,
      "loss": 2.0188,
      "step": 29380
    },
    {
      "epoch": 0.6529111111111111,
      "grad_norm": 1.6274778842926025,
      "learning_rate": 6.943320737941766e-05,
      "loss": 1.6062,
      "step": 29381
    },
    {
      "epoch": 0.6529333333333334,
      "grad_norm": 1.5393065214157104,
      "learning_rate": 6.942876194709937e-05,
      "loss": 0.8731,
      "step": 29382
    },
    {
      "epoch": 0.6529555555555555,
      "grad_norm": 1.7478028535842896,
      "learning_rate": 6.942431651478106e-05,
      "loss": 2.1741,
      "step": 29383
    },
    {
      "epoch": 0.6529777777777778,
      "grad_norm": 1.7424736022949219,
      "learning_rate": 6.941987108246277e-05,
      "loss": 2.0114,
      "step": 29384
    },
    {
      "epoch": 0.653,
      "grad_norm": 1.6595288515090942,
      "learning_rate": 6.941542565014448e-05,
      "loss": 1.7124,
      "step": 29385
    },
    {
      "epoch": 0.6530222222222222,
      "grad_norm": 1.862471103668213,
      "learning_rate": 6.941098021782618e-05,
      "loss": 1.3923,
      "step": 29386
    },
    {
      "epoch": 0.6530444444444444,
      "grad_norm": 1.7211300134658813,
      "learning_rate": 6.940653478550789e-05,
      "loss": 2.1222,
      "step": 29387
    },
    {
      "epoch": 0.6530666666666667,
      "grad_norm": 1.7551764249801636,
      "learning_rate": 6.94020893531896e-05,
      "loss": 2.3051,
      "step": 29388
    },
    {
      "epoch": 0.6530888888888889,
      "grad_norm": 2.34627628326416,
      "learning_rate": 6.939764392087131e-05,
      "loss": 2.3686,
      "step": 29389
    },
    {
      "epoch": 0.6531111111111111,
      "grad_norm": 1.6594637632369995,
      "learning_rate": 6.939319848855302e-05,
      "loss": 2.0798,
      "step": 29390
    },
    {
      "epoch": 0.6531333333333333,
      "grad_norm": 1.7297558784484863,
      "learning_rate": 6.938875305623473e-05,
      "loss": 1.7862,
      "step": 29391
    },
    {
      "epoch": 0.6531555555555556,
      "grad_norm": 1.5960259437561035,
      "learning_rate": 6.938430762391644e-05,
      "loss": 1.7059,
      "step": 29392
    },
    {
      "epoch": 0.6531777777777777,
      "grad_norm": 1.6867831945419312,
      "learning_rate": 6.937986219159813e-05,
      "loss": 1.8962,
      "step": 29393
    },
    {
      "epoch": 0.6532,
      "grad_norm": 1.8363149166107178,
      "learning_rate": 6.937541675927984e-05,
      "loss": 1.6911,
      "step": 29394
    },
    {
      "epoch": 0.6532222222222223,
      "grad_norm": 1.8267245292663574,
      "learning_rate": 6.937097132696155e-05,
      "loss": 1.9225,
      "step": 29395
    },
    {
      "epoch": 0.6532444444444444,
      "grad_norm": 1.8893781900405884,
      "learning_rate": 6.936652589464325e-05,
      "loss": 1.8525,
      "step": 29396
    },
    {
      "epoch": 0.6532666666666667,
      "grad_norm": 1.3311126232147217,
      "learning_rate": 6.936208046232496e-05,
      "loss": 1.0012,
      "step": 29397
    },
    {
      "epoch": 0.6532888888888889,
      "grad_norm": 1.7276990413665771,
      "learning_rate": 6.935763503000667e-05,
      "loss": 1.8642,
      "step": 29398
    },
    {
      "epoch": 0.6533111111111111,
      "grad_norm": 1.8954962491989136,
      "learning_rate": 6.935318959768838e-05,
      "loss": 1.9947,
      "step": 29399
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 2.5243430137634277,
      "learning_rate": 6.934874416537009e-05,
      "loss": 1.7075,
      "step": 29400
    },
    {
      "epoch": 0.6533555555555556,
      "grad_norm": 1.5330208539962769,
      "learning_rate": 6.93442987330518e-05,
      "loss": 2.5989,
      "step": 29401
    },
    {
      "epoch": 0.6533777777777777,
      "grad_norm": 1.3771998882293701,
      "learning_rate": 6.93398533007335e-05,
      "loss": 2.0617,
      "step": 29402
    },
    {
      "epoch": 0.6534,
      "grad_norm": 1.2721847295761108,
      "learning_rate": 6.93354078684152e-05,
      "loss": 1.001,
      "step": 29403
    },
    {
      "epoch": 0.6534222222222222,
      "grad_norm": 1.885785698890686,
      "learning_rate": 6.933096243609691e-05,
      "loss": 2.2274,
      "step": 29404
    },
    {
      "epoch": 0.6534444444444445,
      "grad_norm": 1.6090855598449707,
      "learning_rate": 6.932651700377862e-05,
      "loss": 2.017,
      "step": 29405
    },
    {
      "epoch": 0.6534666666666666,
      "grad_norm": 1.3860564231872559,
      "learning_rate": 6.932207157146032e-05,
      "loss": 2.1833,
      "step": 29406
    },
    {
      "epoch": 0.6534888888888889,
      "grad_norm": 1.5746746063232422,
      "learning_rate": 6.931762613914203e-05,
      "loss": 1.9449,
      "step": 29407
    },
    {
      "epoch": 0.6535111111111112,
      "grad_norm": 1.605556607246399,
      "learning_rate": 6.931318070682375e-05,
      "loss": 2.3436,
      "step": 29408
    },
    {
      "epoch": 0.6535333333333333,
      "grad_norm": 1.6281412839889526,
      "learning_rate": 6.930873527450546e-05,
      "loss": 1.9975,
      "step": 29409
    },
    {
      "epoch": 0.6535555555555556,
      "grad_norm": 1.5633022785186768,
      "learning_rate": 6.930428984218716e-05,
      "loss": 1.875,
      "step": 29410
    },
    {
      "epoch": 0.6535777777777778,
      "grad_norm": 1.6272820234298706,
      "learning_rate": 6.929984440986887e-05,
      "loss": 2.2241,
      "step": 29411
    },
    {
      "epoch": 0.6536,
      "grad_norm": 1.4241611957550049,
      "learning_rate": 6.929539897755058e-05,
      "loss": 1.9127,
      "step": 29412
    },
    {
      "epoch": 0.6536222222222222,
      "grad_norm": 1.8110153675079346,
      "learning_rate": 6.929095354523227e-05,
      "loss": 2.2737,
      "step": 29413
    },
    {
      "epoch": 0.6536444444444445,
      "grad_norm": 1.5204417705535889,
      "learning_rate": 6.928650811291398e-05,
      "loss": 1.8794,
      "step": 29414
    },
    {
      "epoch": 0.6536666666666666,
      "grad_norm": 1.456246256828308,
      "learning_rate": 6.928206268059569e-05,
      "loss": 2.1589,
      "step": 29415
    },
    {
      "epoch": 0.6536888888888889,
      "grad_norm": 1.581737756729126,
      "learning_rate": 6.927761724827739e-05,
      "loss": 2.0204,
      "step": 29416
    },
    {
      "epoch": 0.6537111111111111,
      "grad_norm": 1.9131207466125488,
      "learning_rate": 6.927317181595911e-05,
      "loss": 2.2468,
      "step": 29417
    },
    {
      "epoch": 0.6537333333333334,
      "grad_norm": 1.531806468963623,
      "learning_rate": 6.926872638364082e-05,
      "loss": 1.9102,
      "step": 29418
    },
    {
      "epoch": 0.6537555555555555,
      "grad_norm": 1.7774204015731812,
      "learning_rate": 6.926428095132253e-05,
      "loss": 2.2159,
      "step": 29419
    },
    {
      "epoch": 0.6537777777777778,
      "grad_norm": 1.632561206817627,
      "learning_rate": 6.925983551900423e-05,
      "loss": 1.7789,
      "step": 29420
    },
    {
      "epoch": 0.6538,
      "grad_norm": 1.4562997817993164,
      "learning_rate": 6.925539008668593e-05,
      "loss": 1.7284,
      "step": 29421
    },
    {
      "epoch": 0.6538222222222222,
      "grad_norm": 1.8392057418823242,
      "learning_rate": 6.925094465436764e-05,
      "loss": 1.7259,
      "step": 29422
    },
    {
      "epoch": 0.6538444444444445,
      "grad_norm": 1.8033900260925293,
      "learning_rate": 6.924649922204934e-05,
      "loss": 2.0409,
      "step": 29423
    },
    {
      "epoch": 0.6538666666666667,
      "grad_norm": 1.638187289237976,
      "learning_rate": 6.924205378973105e-05,
      "loss": 1.9508,
      "step": 29424
    },
    {
      "epoch": 0.6538888888888889,
      "grad_norm": 2.0364911556243896,
      "learning_rate": 6.923760835741276e-05,
      "loss": 2.0946,
      "step": 29425
    },
    {
      "epoch": 0.6539111111111111,
      "grad_norm": 1.5568419694900513,
      "learning_rate": 6.923316292509447e-05,
      "loss": 1.9651,
      "step": 29426
    },
    {
      "epoch": 0.6539333333333334,
      "grad_norm": 1.6838810443878174,
      "learning_rate": 6.922871749277618e-05,
      "loss": 2.1729,
      "step": 29427
    },
    {
      "epoch": 0.6539555555555555,
      "grad_norm": 1.4847619533538818,
      "learning_rate": 6.922427206045789e-05,
      "loss": 1.8529,
      "step": 29428
    },
    {
      "epoch": 0.6539777777777778,
      "grad_norm": 1.2320556640625,
      "learning_rate": 6.92198266281396e-05,
      "loss": 0.7937,
      "step": 29429
    },
    {
      "epoch": 0.654,
      "grad_norm": 1.8546630144119263,
      "learning_rate": 6.92153811958213e-05,
      "loss": 1.6273,
      "step": 29430
    },
    {
      "epoch": 0.6540222222222222,
      "grad_norm": 1.7034964561462402,
      "learning_rate": 6.9210935763503e-05,
      "loss": 1.9266,
      "step": 29431
    },
    {
      "epoch": 0.6540444444444444,
      "grad_norm": 1.6947805881500244,
      "learning_rate": 6.920649033118471e-05,
      "loss": 1.9812,
      "step": 29432
    },
    {
      "epoch": 0.6540666666666667,
      "grad_norm": 1.985138177871704,
      "learning_rate": 6.920204489886641e-05,
      "loss": 2.1235,
      "step": 29433
    },
    {
      "epoch": 0.6540888888888889,
      "grad_norm": 1.9874866008758545,
      "learning_rate": 6.919759946654812e-05,
      "loss": 1.7606,
      "step": 29434
    },
    {
      "epoch": 0.6541111111111111,
      "grad_norm": 1.6188753843307495,
      "learning_rate": 6.919315403422983e-05,
      "loss": 1.6674,
      "step": 29435
    },
    {
      "epoch": 0.6541333333333333,
      "grad_norm": 1.4949100017547607,
      "learning_rate": 6.918870860191154e-05,
      "loss": 1.8744,
      "step": 29436
    },
    {
      "epoch": 0.6541555555555556,
      "grad_norm": 1.6058498620986938,
      "learning_rate": 6.918426316959325e-05,
      "loss": 1.6328,
      "step": 29437
    },
    {
      "epoch": 0.6541777777777777,
      "grad_norm": 1.6887714862823486,
      "learning_rate": 6.917981773727496e-05,
      "loss": 1.6641,
      "step": 29438
    },
    {
      "epoch": 0.6542,
      "grad_norm": 1.9345225095748901,
      "learning_rate": 6.917537230495667e-05,
      "loss": 1.7995,
      "step": 29439
    },
    {
      "epoch": 0.6542222222222223,
      "grad_norm": 1.9309325218200684,
      "learning_rate": 6.917092687263836e-05,
      "loss": 1.731,
      "step": 29440
    },
    {
      "epoch": 0.6542444444444444,
      "grad_norm": 1.5484614372253418,
      "learning_rate": 6.916648144032007e-05,
      "loss": 1.8296,
      "step": 29441
    },
    {
      "epoch": 0.6542666666666667,
      "grad_norm": 1.6554497480392456,
      "learning_rate": 6.916203600800178e-05,
      "loss": 1.7379,
      "step": 29442
    },
    {
      "epoch": 0.6542888888888889,
      "grad_norm": 2.0249950885772705,
      "learning_rate": 6.915759057568348e-05,
      "loss": 1.827,
      "step": 29443
    },
    {
      "epoch": 0.6543111111111111,
      "grad_norm": 1.835463523864746,
      "learning_rate": 6.915314514336519e-05,
      "loss": 1.9925,
      "step": 29444
    },
    {
      "epoch": 0.6543333333333333,
      "grad_norm": 2.0246810913085938,
      "learning_rate": 6.914869971104691e-05,
      "loss": 2.0876,
      "step": 29445
    },
    {
      "epoch": 0.6543555555555556,
      "grad_norm": 2.1907918453216553,
      "learning_rate": 6.914425427872862e-05,
      "loss": 1.8498,
      "step": 29446
    },
    {
      "epoch": 0.6543777777777777,
      "grad_norm": 2.0203280448913574,
      "learning_rate": 6.913980884641032e-05,
      "loss": 1.9762,
      "step": 29447
    },
    {
      "epoch": 0.6544,
      "grad_norm": 2.1965038776397705,
      "learning_rate": 6.913536341409203e-05,
      "loss": 2.0273,
      "step": 29448
    },
    {
      "epoch": 0.6544222222222222,
      "grad_norm": 2.1303956508636475,
      "learning_rate": 6.913091798177374e-05,
      "loss": 1.9217,
      "step": 29449
    },
    {
      "epoch": 0.6544444444444445,
      "grad_norm": 1.9999853372573853,
      "learning_rate": 6.912647254945543e-05,
      "loss": 1.485,
      "step": 29450
    },
    {
      "epoch": 0.6544666666666666,
      "grad_norm": 1.4747973680496216,
      "learning_rate": 6.912202711713714e-05,
      "loss": 2.2189,
      "step": 29451
    },
    {
      "epoch": 0.6544888888888889,
      "grad_norm": 1.6959315538406372,
      "learning_rate": 6.911758168481885e-05,
      "loss": 2.6387,
      "step": 29452
    },
    {
      "epoch": 0.6545111111111112,
      "grad_norm": 1.709522008895874,
      "learning_rate": 6.911313625250055e-05,
      "loss": 2.4668,
      "step": 29453
    },
    {
      "epoch": 0.6545333333333333,
      "grad_norm": 1.0732325315475464,
      "learning_rate": 6.910869082018227e-05,
      "loss": 1.189,
      "step": 29454
    },
    {
      "epoch": 0.6545555555555556,
      "grad_norm": 1.5143368244171143,
      "learning_rate": 6.910424538786398e-05,
      "loss": 2.1954,
      "step": 29455
    },
    {
      "epoch": 0.6545777777777778,
      "grad_norm": 1.6703866720199585,
      "learning_rate": 6.909979995554569e-05,
      "loss": 2.5903,
      "step": 29456
    },
    {
      "epoch": 0.6546,
      "grad_norm": 1.806408166885376,
      "learning_rate": 6.909535452322739e-05,
      "loss": 2.0729,
      "step": 29457
    },
    {
      "epoch": 0.6546222222222222,
      "grad_norm": 1.9158971309661865,
      "learning_rate": 6.90909090909091e-05,
      "loss": 2.732,
      "step": 29458
    },
    {
      "epoch": 0.6546444444444445,
      "grad_norm": 1.7235842943191528,
      "learning_rate": 6.90864636585908e-05,
      "loss": 1.8045,
      "step": 29459
    },
    {
      "epoch": 0.6546666666666666,
      "grad_norm": 2.2138214111328125,
      "learning_rate": 6.90820182262725e-05,
      "loss": 2.4499,
      "step": 29460
    },
    {
      "epoch": 0.6546888888888889,
      "grad_norm": 1.5769482851028442,
      "learning_rate": 6.907757279395421e-05,
      "loss": 1.8384,
      "step": 29461
    },
    {
      "epoch": 0.6547111111111111,
      "grad_norm": 1.7914637327194214,
      "learning_rate": 6.907312736163592e-05,
      "loss": 2.0621,
      "step": 29462
    },
    {
      "epoch": 0.6547333333333333,
      "grad_norm": 1.412074327468872,
      "learning_rate": 6.906868192931763e-05,
      "loss": 1.6855,
      "step": 29463
    },
    {
      "epoch": 0.6547555555555555,
      "grad_norm": 1.8703691959381104,
      "learning_rate": 6.906423649699934e-05,
      "loss": 2.2053,
      "step": 29464
    },
    {
      "epoch": 0.6547777777777778,
      "grad_norm": 1.5958142280578613,
      "learning_rate": 6.905979106468105e-05,
      "loss": 2.143,
      "step": 29465
    },
    {
      "epoch": 0.6548,
      "grad_norm": 1.4695812463760376,
      "learning_rate": 6.905534563236276e-05,
      "loss": 1.7765,
      "step": 29466
    },
    {
      "epoch": 0.6548222222222222,
      "grad_norm": 1.472147822380066,
      "learning_rate": 6.905090020004446e-05,
      "loss": 1.1977,
      "step": 29467
    },
    {
      "epoch": 0.6548444444444445,
      "grad_norm": 1.6705714464187622,
      "learning_rate": 6.904645476772617e-05,
      "loss": 2.2475,
      "step": 29468
    },
    {
      "epoch": 0.6548666666666667,
      "grad_norm": 1.4583940505981445,
      "learning_rate": 6.904200933540787e-05,
      "loss": 1.7501,
      "step": 29469
    },
    {
      "epoch": 0.6548888888888889,
      "grad_norm": 1.5646191835403442,
      "learning_rate": 6.903756390308957e-05,
      "loss": 1.6958,
      "step": 29470
    },
    {
      "epoch": 0.6549111111111111,
      "grad_norm": 1.6197688579559326,
      "learning_rate": 6.903311847077128e-05,
      "loss": 2.0638,
      "step": 29471
    },
    {
      "epoch": 0.6549333333333334,
      "grad_norm": 1.7141706943511963,
      "learning_rate": 6.902867303845299e-05,
      "loss": 1.8158,
      "step": 29472
    },
    {
      "epoch": 0.6549555555555555,
      "grad_norm": 1.6812819242477417,
      "learning_rate": 6.90242276061347e-05,
      "loss": 2.1096,
      "step": 29473
    },
    {
      "epoch": 0.6549777777777778,
      "grad_norm": 1.5177154541015625,
      "learning_rate": 6.901978217381641e-05,
      "loss": 1.5467,
      "step": 29474
    },
    {
      "epoch": 0.655,
      "grad_norm": 1.914524793624878,
      "learning_rate": 6.901533674149812e-05,
      "loss": 2.4122,
      "step": 29475
    },
    {
      "epoch": 0.6550222222222222,
      "grad_norm": 1.8134791851043701,
      "learning_rate": 6.901089130917983e-05,
      "loss": 1.9971,
      "step": 29476
    },
    {
      "epoch": 0.6550444444444444,
      "grad_norm": 2.0190398693084717,
      "learning_rate": 6.900644587686152e-05,
      "loss": 2.315,
      "step": 29477
    },
    {
      "epoch": 0.6550666666666667,
      "grad_norm": 1.5984684228897095,
      "learning_rate": 6.900200044454323e-05,
      "loss": 2.2506,
      "step": 29478
    },
    {
      "epoch": 0.6550888888888889,
      "grad_norm": 1.6222925186157227,
      "learning_rate": 6.899755501222494e-05,
      "loss": 2.2784,
      "step": 29479
    },
    {
      "epoch": 0.6551111111111111,
      "grad_norm": 1.7684059143066406,
      "learning_rate": 6.899310957990664e-05,
      "loss": 1.4624,
      "step": 29480
    },
    {
      "epoch": 0.6551333333333333,
      "grad_norm": 1.797141671180725,
      "learning_rate": 6.898866414758835e-05,
      "loss": 1.712,
      "step": 29481
    },
    {
      "epoch": 0.6551555555555556,
      "grad_norm": 1.7618950605392456,
      "learning_rate": 6.898421871527007e-05,
      "loss": 1.8547,
      "step": 29482
    },
    {
      "epoch": 0.6551777777777777,
      "grad_norm": 1.7545932531356812,
      "learning_rate": 6.897977328295177e-05,
      "loss": 2.2939,
      "step": 29483
    },
    {
      "epoch": 0.6552,
      "grad_norm": 2.0590357780456543,
      "learning_rate": 6.897532785063348e-05,
      "loss": 2.5174,
      "step": 29484
    },
    {
      "epoch": 0.6552222222222223,
      "grad_norm": 1.5144672393798828,
      "learning_rate": 6.897088241831519e-05,
      "loss": 1.5754,
      "step": 29485
    },
    {
      "epoch": 0.6552444444444444,
      "grad_norm": 0.1713659167289734,
      "learning_rate": 6.89664369859969e-05,
      "loss": 0.0272,
      "step": 29486
    },
    {
      "epoch": 0.6552666666666667,
      "grad_norm": 1.5620533227920532,
      "learning_rate": 6.89619915536786e-05,
      "loss": 1.5878,
      "step": 29487
    },
    {
      "epoch": 0.6552888888888889,
      "grad_norm": 1.8646880388259888,
      "learning_rate": 6.89575461213603e-05,
      "loss": 1.9633,
      "step": 29488
    },
    {
      "epoch": 0.6553111111111111,
      "grad_norm": 1.9776960611343384,
      "learning_rate": 6.895310068904201e-05,
      "loss": 2.3859,
      "step": 29489
    },
    {
      "epoch": 0.6553333333333333,
      "grad_norm": 2.0050442218780518,
      "learning_rate": 6.894865525672371e-05,
      "loss": 1.9738,
      "step": 29490
    },
    {
      "epoch": 0.6553555555555556,
      "grad_norm": 1.5091774463653564,
      "learning_rate": 6.894420982440543e-05,
      "loss": 1.4317,
      "step": 29491
    },
    {
      "epoch": 0.6553777777777777,
      "grad_norm": 1.7000620365142822,
      "learning_rate": 6.893976439208714e-05,
      "loss": 2.1876,
      "step": 29492
    },
    {
      "epoch": 0.6554,
      "grad_norm": 1.7755290269851685,
      "learning_rate": 6.893531895976884e-05,
      "loss": 1.7824,
      "step": 29493
    },
    {
      "epoch": 0.6554222222222222,
      "grad_norm": 1.6783421039581299,
      "learning_rate": 6.893087352745055e-05,
      "loss": 1.6337,
      "step": 29494
    },
    {
      "epoch": 0.6554444444444445,
      "grad_norm": 2.275012254714966,
      "learning_rate": 6.892642809513226e-05,
      "loss": 1.7613,
      "step": 29495
    },
    {
      "epoch": 0.6554666666666666,
      "grad_norm": 1.8266583681106567,
      "learning_rate": 6.892198266281397e-05,
      "loss": 2.0478,
      "step": 29496
    },
    {
      "epoch": 0.6554888888888889,
      "grad_norm": 1.857939600944519,
      "learning_rate": 6.891753723049566e-05,
      "loss": 1.874,
      "step": 29497
    },
    {
      "epoch": 0.6555111111111112,
      "grad_norm": 2.2057530879974365,
      "learning_rate": 6.891309179817737e-05,
      "loss": 2.0207,
      "step": 29498
    },
    {
      "epoch": 0.6555333333333333,
      "grad_norm": 2.1313059329986572,
      "learning_rate": 6.890864636585908e-05,
      "loss": 2.0267,
      "step": 29499
    },
    {
      "epoch": 0.6555555555555556,
      "grad_norm": 1.5375425815582275,
      "learning_rate": 6.890420093354079e-05,
      "loss": 1.0636,
      "step": 29500
    },
    {
      "epoch": 0.6555777777777778,
      "grad_norm": 1.5120632648468018,
      "learning_rate": 6.88997555012225e-05,
      "loss": 1.5956,
      "step": 29501
    },
    {
      "epoch": 0.6556,
      "grad_norm": 1.6631743907928467,
      "learning_rate": 6.889531006890421e-05,
      "loss": 2.4788,
      "step": 29502
    },
    {
      "epoch": 0.6556222222222222,
      "grad_norm": 1.5857105255126953,
      "learning_rate": 6.889086463658592e-05,
      "loss": 2.9431,
      "step": 29503
    },
    {
      "epoch": 0.6556444444444445,
      "grad_norm": 1.843294382095337,
      "learning_rate": 6.888641920426762e-05,
      "loss": 1.8507,
      "step": 29504
    },
    {
      "epoch": 0.6556666666666666,
      "grad_norm": 2.2526984214782715,
      "learning_rate": 6.888197377194933e-05,
      "loss": 2.0335,
      "step": 29505
    },
    {
      "epoch": 0.6556888888888889,
      "grad_norm": 1.6078662872314453,
      "learning_rate": 6.887752833963104e-05,
      "loss": 2.5839,
      "step": 29506
    },
    {
      "epoch": 0.6557111111111111,
      "grad_norm": 1.6662286520004272,
      "learning_rate": 6.887308290731273e-05,
      "loss": 2.2819,
      "step": 29507
    },
    {
      "epoch": 0.6557333333333333,
      "grad_norm": 1.4887229204177856,
      "learning_rate": 6.886863747499444e-05,
      "loss": 2.1366,
      "step": 29508
    },
    {
      "epoch": 0.6557555555555555,
      "grad_norm": 1.8119449615478516,
      "learning_rate": 6.886419204267615e-05,
      "loss": 2.6567,
      "step": 29509
    },
    {
      "epoch": 0.6557777777777778,
      "grad_norm": 1.9445807933807373,
      "learning_rate": 6.885974661035786e-05,
      "loss": 2.3424,
      "step": 29510
    },
    {
      "epoch": 0.6558,
      "grad_norm": 1.461766004562378,
      "learning_rate": 6.885530117803957e-05,
      "loss": 1.5104,
      "step": 29511
    },
    {
      "epoch": 0.6558222222222222,
      "grad_norm": 1.448891520500183,
      "learning_rate": 6.885085574572128e-05,
      "loss": 1.9026,
      "step": 29512
    },
    {
      "epoch": 0.6558444444444445,
      "grad_norm": 1.5717157125473022,
      "learning_rate": 6.884641031340299e-05,
      "loss": 2.3704,
      "step": 29513
    },
    {
      "epoch": 0.6558666666666667,
      "grad_norm": 1.8957597017288208,
      "learning_rate": 6.884196488108469e-05,
      "loss": 2.3059,
      "step": 29514
    },
    {
      "epoch": 0.6558888888888889,
      "grad_norm": 1.5091511011123657,
      "learning_rate": 6.88375194487664e-05,
      "loss": 2.1742,
      "step": 29515
    },
    {
      "epoch": 0.6559111111111111,
      "grad_norm": 1.6314390897750854,
      "learning_rate": 6.88330740164481e-05,
      "loss": 1.9497,
      "step": 29516
    },
    {
      "epoch": 0.6559333333333334,
      "grad_norm": 1.682511568069458,
      "learning_rate": 6.88286285841298e-05,
      "loss": 2.5928,
      "step": 29517
    },
    {
      "epoch": 0.6559555555555555,
      "grad_norm": 1.6695607900619507,
      "learning_rate": 6.882418315181151e-05,
      "loss": 2.4622,
      "step": 29518
    },
    {
      "epoch": 0.6559777777777778,
      "grad_norm": 2.0376710891723633,
      "learning_rate": 6.881973771949323e-05,
      "loss": 2.1434,
      "step": 29519
    },
    {
      "epoch": 0.656,
      "grad_norm": 1.7357299327850342,
      "learning_rate": 6.881529228717493e-05,
      "loss": 1.02,
      "step": 29520
    },
    {
      "epoch": 0.6560222222222222,
      "grad_norm": 1.7393115758895874,
      "learning_rate": 6.881084685485664e-05,
      "loss": 2.2984,
      "step": 29521
    },
    {
      "epoch": 0.6560444444444444,
      "grad_norm": 1.6580684185028076,
      "learning_rate": 6.880640142253835e-05,
      "loss": 2.1213,
      "step": 29522
    },
    {
      "epoch": 0.6560666666666667,
      "grad_norm": 1.7607481479644775,
      "learning_rate": 6.880195599022006e-05,
      "loss": 1.9981,
      "step": 29523
    },
    {
      "epoch": 0.6560888888888889,
      "grad_norm": 1.508754014968872,
      "learning_rate": 6.879751055790175e-05,
      "loss": 1.4985,
      "step": 29524
    },
    {
      "epoch": 0.6561111111111111,
      "grad_norm": 1.6106895208358765,
      "learning_rate": 6.879306512558346e-05,
      "loss": 2.0425,
      "step": 29525
    },
    {
      "epoch": 0.6561333333333333,
      "grad_norm": 1.9137887954711914,
      "learning_rate": 6.878861969326517e-05,
      "loss": 1.9829,
      "step": 29526
    },
    {
      "epoch": 0.6561555555555556,
      "grad_norm": 1.5618802309036255,
      "learning_rate": 6.878417426094687e-05,
      "loss": 1.7582,
      "step": 29527
    },
    {
      "epoch": 0.6561777777777777,
      "grad_norm": 1.4684094190597534,
      "learning_rate": 6.877972882862859e-05,
      "loss": 1.7052,
      "step": 29528
    },
    {
      "epoch": 0.6562,
      "grad_norm": 1.937695026397705,
      "learning_rate": 6.87752833963103e-05,
      "loss": 2.0951,
      "step": 29529
    },
    {
      "epoch": 0.6562222222222223,
      "grad_norm": 1.691579818725586,
      "learning_rate": 6.8770837963992e-05,
      "loss": 1.9227,
      "step": 29530
    },
    {
      "epoch": 0.6562444444444444,
      "grad_norm": 1.5953030586242676,
      "learning_rate": 6.876639253167371e-05,
      "loss": 1.5954,
      "step": 29531
    },
    {
      "epoch": 0.6562666666666667,
      "grad_norm": 1.897382378578186,
      "learning_rate": 6.876194709935542e-05,
      "loss": 2.3019,
      "step": 29532
    },
    {
      "epoch": 0.6562888888888889,
      "grad_norm": 1.8537498712539673,
      "learning_rate": 6.875750166703713e-05,
      "loss": 2.1086,
      "step": 29533
    },
    {
      "epoch": 0.6563111111111111,
      "grad_norm": 1.8957946300506592,
      "learning_rate": 6.875305623471882e-05,
      "loss": 1.8338,
      "step": 29534
    },
    {
      "epoch": 0.6563333333333333,
      "grad_norm": 1.5951693058013916,
      "learning_rate": 6.874861080240053e-05,
      "loss": 1.7943,
      "step": 29535
    },
    {
      "epoch": 0.6563555555555556,
      "grad_norm": 1.6607433557510376,
      "learning_rate": 6.874416537008224e-05,
      "loss": 1.9024,
      "step": 29536
    },
    {
      "epoch": 0.6563777777777777,
      "grad_norm": 1.5129278898239136,
      "learning_rate": 6.873971993776395e-05,
      "loss": 1.636,
      "step": 29537
    },
    {
      "epoch": 0.6564,
      "grad_norm": 1.4948451519012451,
      "learning_rate": 6.873527450544566e-05,
      "loss": 1.9594,
      "step": 29538
    },
    {
      "epoch": 0.6564222222222222,
      "grad_norm": 2.0458195209503174,
      "learning_rate": 6.873082907312737e-05,
      "loss": 2.0937,
      "step": 29539
    },
    {
      "epoch": 0.6564444444444445,
      "grad_norm": 1.569808840751648,
      "learning_rate": 6.872638364080907e-05,
      "loss": 1.3614,
      "step": 29540
    },
    {
      "epoch": 0.6564666666666666,
      "grad_norm": 1.8471095561981201,
      "learning_rate": 6.872193820849078e-05,
      "loss": 1.6355,
      "step": 29541
    },
    {
      "epoch": 0.6564888888888889,
      "grad_norm": 1.5188415050506592,
      "learning_rate": 6.871749277617249e-05,
      "loss": 1.2968,
      "step": 29542
    },
    {
      "epoch": 0.6565111111111112,
      "grad_norm": 1.6712753772735596,
      "learning_rate": 6.87130473438542e-05,
      "loss": 1.5632,
      "step": 29543
    },
    {
      "epoch": 0.6565333333333333,
      "grad_norm": 1.6549158096313477,
      "learning_rate": 6.870860191153589e-05,
      "loss": 2.0788,
      "step": 29544
    },
    {
      "epoch": 0.6565555555555556,
      "grad_norm": 1.7481123208999634,
      "learning_rate": 6.87041564792176e-05,
      "loss": 1.4649,
      "step": 29545
    },
    {
      "epoch": 0.6565777777777778,
      "grad_norm": 1.8728467226028442,
      "learning_rate": 6.869971104689931e-05,
      "loss": 1.9749,
      "step": 29546
    },
    {
      "epoch": 0.6566,
      "grad_norm": 1.7548919916152954,
      "learning_rate": 6.869526561458102e-05,
      "loss": 2.0778,
      "step": 29547
    },
    {
      "epoch": 0.6566222222222222,
      "grad_norm": 1.713470220565796,
      "learning_rate": 6.869082018226273e-05,
      "loss": 1.6491,
      "step": 29548
    },
    {
      "epoch": 0.6566444444444445,
      "grad_norm": 1.8220151662826538,
      "learning_rate": 6.868637474994444e-05,
      "loss": 2.0425,
      "step": 29549
    },
    {
      "epoch": 0.6566666666666666,
      "grad_norm": 1.7327014207839966,
      "learning_rate": 6.868192931762614e-05,
      "loss": 1.7185,
      "step": 29550
    },
    {
      "epoch": 0.6566888888888889,
      "grad_norm": 0.9733756184577942,
      "learning_rate": 6.867748388530785e-05,
      "loss": 1.1545,
      "step": 29551
    },
    {
      "epoch": 0.6567111111111111,
      "grad_norm": 1.092980146408081,
      "learning_rate": 6.867303845298956e-05,
      "loss": 1.2458,
      "step": 29552
    },
    {
      "epoch": 0.6567333333333333,
      "grad_norm": 1.8089306354522705,
      "learning_rate": 6.866859302067127e-05,
      "loss": 1.9041,
      "step": 29553
    },
    {
      "epoch": 0.6567555555555555,
      "grad_norm": 1.3253194093704224,
      "learning_rate": 6.866414758835296e-05,
      "loss": 1.9735,
      "step": 29554
    },
    {
      "epoch": 0.6567777777777778,
      "grad_norm": 2.6289620399475098,
      "learning_rate": 6.865970215603467e-05,
      "loss": 1.8887,
      "step": 29555
    },
    {
      "epoch": 0.6568,
      "grad_norm": 1.636061191558838,
      "learning_rate": 6.86552567237164e-05,
      "loss": 2.3801,
      "step": 29556
    },
    {
      "epoch": 0.6568222222222222,
      "grad_norm": 1.466566801071167,
      "learning_rate": 6.865081129139809e-05,
      "loss": 1.0834,
      "step": 29557
    },
    {
      "epoch": 0.6568444444444445,
      "grad_norm": 1.4488520622253418,
      "learning_rate": 6.86463658590798e-05,
      "loss": 1.9759,
      "step": 29558
    },
    {
      "epoch": 0.6568666666666667,
      "grad_norm": 1.8230533599853516,
      "learning_rate": 6.864192042676151e-05,
      "loss": 2.4713,
      "step": 29559
    },
    {
      "epoch": 0.6568888888888889,
      "grad_norm": 1.695978045463562,
      "learning_rate": 6.863747499444322e-05,
      "loss": 2.4114,
      "step": 29560
    },
    {
      "epoch": 0.6569111111111111,
      "grad_norm": 1.4497877359390259,
      "learning_rate": 6.863302956212492e-05,
      "loss": 2.0624,
      "step": 29561
    },
    {
      "epoch": 0.6569333333333334,
      "grad_norm": 1.780235767364502,
      "learning_rate": 6.862858412980663e-05,
      "loss": 1.9743,
      "step": 29562
    },
    {
      "epoch": 0.6569555555555555,
      "grad_norm": 1.5658392906188965,
      "learning_rate": 6.862413869748833e-05,
      "loss": 1.8545,
      "step": 29563
    },
    {
      "epoch": 0.6569777777777778,
      "grad_norm": 1.272002100944519,
      "learning_rate": 6.861969326517003e-05,
      "loss": 1.5825,
      "step": 29564
    },
    {
      "epoch": 0.657,
      "grad_norm": 1.6310688257217407,
      "learning_rate": 6.861524783285175e-05,
      "loss": 2.2191,
      "step": 29565
    },
    {
      "epoch": 0.6570222222222222,
      "grad_norm": 1.7843564748764038,
      "learning_rate": 6.861080240053346e-05,
      "loss": 2.2956,
      "step": 29566
    },
    {
      "epoch": 0.6570444444444444,
      "grad_norm": 1.9026020765304565,
      "learning_rate": 6.860635696821516e-05,
      "loss": 2.1435,
      "step": 29567
    },
    {
      "epoch": 0.6570666666666667,
      "grad_norm": 1.5643749237060547,
      "learning_rate": 6.860191153589687e-05,
      "loss": 2.0786,
      "step": 29568
    },
    {
      "epoch": 0.6570888888888888,
      "grad_norm": 1.9233726263046265,
      "learning_rate": 6.859746610357858e-05,
      "loss": 1.6316,
      "step": 29569
    },
    {
      "epoch": 0.6571111111111111,
      "grad_norm": 1.754144549369812,
      "learning_rate": 6.859302067126029e-05,
      "loss": 2.0501,
      "step": 29570
    },
    {
      "epoch": 0.6571333333333333,
      "grad_norm": 1.6095532178878784,
      "learning_rate": 6.858857523894198e-05,
      "loss": 1.973,
      "step": 29571
    },
    {
      "epoch": 0.6571555555555556,
      "grad_norm": 1.6992303133010864,
      "learning_rate": 6.85841298066237e-05,
      "loss": 1.8782,
      "step": 29572
    },
    {
      "epoch": 0.6571777777777777,
      "grad_norm": 2.066359043121338,
      "learning_rate": 6.85796843743054e-05,
      "loss": 2.3603,
      "step": 29573
    },
    {
      "epoch": 0.6572,
      "grad_norm": 1.9374815225601196,
      "learning_rate": 6.857523894198711e-05,
      "loss": 1.8272,
      "step": 29574
    },
    {
      "epoch": 0.6572222222222223,
      "grad_norm": 1.6850558519363403,
      "learning_rate": 6.857079350966882e-05,
      "loss": 2.108,
      "step": 29575
    },
    {
      "epoch": 0.6572444444444444,
      "grad_norm": 1.5528672933578491,
      "learning_rate": 6.856634807735053e-05,
      "loss": 1.6883,
      "step": 29576
    },
    {
      "epoch": 0.6572666666666667,
      "grad_norm": 1.6508656740188599,
      "learning_rate": 6.856190264503223e-05,
      "loss": 1.9709,
      "step": 29577
    },
    {
      "epoch": 0.6572888888888889,
      "grad_norm": 1.7889775037765503,
      "learning_rate": 6.855745721271394e-05,
      "loss": 1.8791,
      "step": 29578
    },
    {
      "epoch": 0.6573111111111111,
      "grad_norm": 2.086968421936035,
      "learning_rate": 6.855301178039565e-05,
      "loss": 2.4607,
      "step": 29579
    },
    {
      "epoch": 0.6573333333333333,
      "grad_norm": 1.2391284704208374,
      "learning_rate": 6.854856634807736e-05,
      "loss": 0.9328,
      "step": 29580
    },
    {
      "epoch": 0.6573555555555556,
      "grad_norm": 1.818240761756897,
      "learning_rate": 6.854412091575905e-05,
      "loss": 1.5874,
      "step": 29581
    },
    {
      "epoch": 0.6573777777777777,
      "grad_norm": 1.5828113555908203,
      "learning_rate": 6.853967548344076e-05,
      "loss": 1.6431,
      "step": 29582
    },
    {
      "epoch": 0.6574,
      "grad_norm": 1.8962316513061523,
      "learning_rate": 6.853523005112247e-05,
      "loss": 2.2709,
      "step": 29583
    },
    {
      "epoch": 0.6574222222222222,
      "grad_norm": 1.5729304552078247,
      "learning_rate": 6.853078461880418e-05,
      "loss": 1.5839,
      "step": 29584
    },
    {
      "epoch": 0.6574444444444445,
      "grad_norm": 2.0226142406463623,
      "learning_rate": 6.852633918648589e-05,
      "loss": 2.0012,
      "step": 29585
    },
    {
      "epoch": 0.6574666666666666,
      "grad_norm": 1.720937728881836,
      "learning_rate": 6.85218937541676e-05,
      "loss": 1.717,
      "step": 29586
    },
    {
      "epoch": 0.6574888888888889,
      "grad_norm": 1.8267759084701538,
      "learning_rate": 6.85174483218493e-05,
      "loss": 1.6517,
      "step": 29587
    },
    {
      "epoch": 0.6575111111111112,
      "grad_norm": 1.7748316526412964,
      "learning_rate": 6.851300288953101e-05,
      "loss": 1.7497,
      "step": 29588
    },
    {
      "epoch": 0.6575333333333333,
      "grad_norm": 1.5970873832702637,
      "learning_rate": 6.850855745721272e-05,
      "loss": 1.9194,
      "step": 29589
    },
    {
      "epoch": 0.6575555555555556,
      "grad_norm": 1.6664336919784546,
      "learning_rate": 6.850411202489443e-05,
      "loss": 1.8788,
      "step": 29590
    },
    {
      "epoch": 0.6575777777777778,
      "grad_norm": 1.6667951345443726,
      "learning_rate": 6.849966659257612e-05,
      "loss": 1.8426,
      "step": 29591
    },
    {
      "epoch": 0.6576,
      "grad_norm": 1.5941898822784424,
      "learning_rate": 6.849522116025783e-05,
      "loss": 1.5277,
      "step": 29592
    },
    {
      "epoch": 0.6576222222222222,
      "grad_norm": 1.630222201347351,
      "learning_rate": 6.849077572793956e-05,
      "loss": 1.6931,
      "step": 29593
    },
    {
      "epoch": 0.6576444444444445,
      "grad_norm": 1.4186203479766846,
      "learning_rate": 6.848633029562125e-05,
      "loss": 1.4202,
      "step": 29594
    },
    {
      "epoch": 0.6576666666666666,
      "grad_norm": 1.4970699548721313,
      "learning_rate": 6.848188486330296e-05,
      "loss": 1.3966,
      "step": 29595
    },
    {
      "epoch": 0.6576888888888889,
      "grad_norm": 1.7796052694320679,
      "learning_rate": 6.847743943098467e-05,
      "loss": 1.799,
      "step": 29596
    },
    {
      "epoch": 0.6577111111111111,
      "grad_norm": 1.919205904006958,
      "learning_rate": 6.847299399866637e-05,
      "loss": 1.7903,
      "step": 29597
    },
    {
      "epoch": 0.6577333333333333,
      "grad_norm": 1.979422926902771,
      "learning_rate": 6.846854856634808e-05,
      "loss": 1.9165,
      "step": 29598
    },
    {
      "epoch": 0.6577555555555555,
      "grad_norm": 1.5138273239135742,
      "learning_rate": 6.846410313402979e-05,
      "loss": 1.5262,
      "step": 29599
    },
    {
      "epoch": 0.6577777777777778,
      "grad_norm": 1.6930948495864868,
      "learning_rate": 6.84596577017115e-05,
      "loss": 1.0738,
      "step": 29600
    },
    {
      "epoch": 0.6578,
      "grad_norm": 1.5009393692016602,
      "learning_rate": 6.845521226939319e-05,
      "loss": 1.9558,
      "step": 29601
    },
    {
      "epoch": 0.6578222222222222,
      "grad_norm": 1.225827693939209,
      "learning_rate": 6.845076683707492e-05,
      "loss": 1.5175,
      "step": 29602
    },
    {
      "epoch": 0.6578444444444445,
      "grad_norm": 1.4594206809997559,
      "learning_rate": 6.844632140475662e-05,
      "loss": 2.0969,
      "step": 29603
    },
    {
      "epoch": 0.6578666666666667,
      "grad_norm": 1.7906701564788818,
      "learning_rate": 6.844187597243832e-05,
      "loss": 2.1246,
      "step": 29604
    },
    {
      "epoch": 0.6578888888888889,
      "grad_norm": 1.4477447271347046,
      "learning_rate": 6.843743054012003e-05,
      "loss": 1.8149,
      "step": 29605
    },
    {
      "epoch": 0.6579111111111111,
      "grad_norm": 1.7752348184585571,
      "learning_rate": 6.843298510780174e-05,
      "loss": 2.6142,
      "step": 29606
    },
    {
      "epoch": 0.6579333333333334,
      "grad_norm": 1.4473702907562256,
      "learning_rate": 6.842853967548345e-05,
      "loss": 1.5544,
      "step": 29607
    },
    {
      "epoch": 0.6579555555555555,
      "grad_norm": 1.456236720085144,
      "learning_rate": 6.842409424316515e-05,
      "loss": 2.0661,
      "step": 29608
    },
    {
      "epoch": 0.6579777777777778,
      "grad_norm": 1.6258362531661987,
      "learning_rate": 6.841964881084686e-05,
      "loss": 1.7835,
      "step": 29609
    },
    {
      "epoch": 0.658,
      "grad_norm": 1.791027307510376,
      "learning_rate": 6.841520337852857e-05,
      "loss": 2.0022,
      "step": 29610
    },
    {
      "epoch": 0.6580222222222222,
      "grad_norm": 2.289262056350708,
      "learning_rate": 6.841075794621027e-05,
      "loss": 1.7229,
      "step": 29611
    },
    {
      "epoch": 0.6580444444444444,
      "grad_norm": 1.7048383951187134,
      "learning_rate": 6.840631251389198e-05,
      "loss": 2.1676,
      "step": 29612
    },
    {
      "epoch": 0.6580666666666667,
      "grad_norm": 1.8120087385177612,
      "learning_rate": 6.84018670815737e-05,
      "loss": 2.9178,
      "step": 29613
    },
    {
      "epoch": 0.6580888888888888,
      "grad_norm": 1.4685407876968384,
      "learning_rate": 6.839742164925539e-05,
      "loss": 1.1795,
      "step": 29614
    },
    {
      "epoch": 0.6581111111111111,
      "grad_norm": 1.9184573888778687,
      "learning_rate": 6.83929762169371e-05,
      "loss": 2.4737,
      "step": 29615
    },
    {
      "epoch": 0.6581333333333333,
      "grad_norm": 1.8086332082748413,
      "learning_rate": 6.838853078461881e-05,
      "loss": 1.844,
      "step": 29616
    },
    {
      "epoch": 0.6581555555555556,
      "grad_norm": 1.885086178779602,
      "learning_rate": 6.838408535230052e-05,
      "loss": 1.7616,
      "step": 29617
    },
    {
      "epoch": 0.6581777777777778,
      "grad_norm": 1.7152103185653687,
      "learning_rate": 6.837963991998221e-05,
      "loss": 2.3195,
      "step": 29618
    },
    {
      "epoch": 0.6582,
      "grad_norm": 2.053940773010254,
      "learning_rate": 6.837519448766392e-05,
      "loss": 2.235,
      "step": 29619
    },
    {
      "epoch": 0.6582222222222223,
      "grad_norm": 1.9013762474060059,
      "learning_rate": 6.837074905534563e-05,
      "loss": 2.3344,
      "step": 29620
    },
    {
      "epoch": 0.6582444444444444,
      "grad_norm": 1.1086158752441406,
      "learning_rate": 6.836630362302734e-05,
      "loss": 0.9228,
      "step": 29621
    },
    {
      "epoch": 0.6582666666666667,
      "grad_norm": 1.6535439491271973,
      "learning_rate": 6.836185819070905e-05,
      "loss": 1.9664,
      "step": 29622
    },
    {
      "epoch": 0.6582888888888889,
      "grad_norm": 1.2858459949493408,
      "learning_rate": 6.835741275839076e-05,
      "loss": 0.9314,
      "step": 29623
    },
    {
      "epoch": 0.6583111111111111,
      "grad_norm": 1.4932442903518677,
      "learning_rate": 6.835296732607246e-05,
      "loss": 1.8218,
      "step": 29624
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 1.3918441534042358,
      "learning_rate": 6.834852189375417e-05,
      "loss": 1.7047,
      "step": 29625
    },
    {
      "epoch": 0.6583555555555556,
      "grad_norm": 2.063030242919922,
      "learning_rate": 6.834407646143588e-05,
      "loss": 2.3652,
      "step": 29626
    },
    {
      "epoch": 0.6583777777777777,
      "grad_norm": 2.071507453918457,
      "learning_rate": 6.833963102911759e-05,
      "loss": 1.9228,
      "step": 29627
    },
    {
      "epoch": 0.6584,
      "grad_norm": 1.5261411666870117,
      "learning_rate": 6.833518559679928e-05,
      "loss": 1.667,
      "step": 29628
    },
    {
      "epoch": 0.6584222222222222,
      "grad_norm": 1.715639591217041,
      "learning_rate": 6.8330740164481e-05,
      "loss": 1.8281,
      "step": 29629
    },
    {
      "epoch": 0.6584444444444445,
      "grad_norm": 1.7601677179336548,
      "learning_rate": 6.832629473216272e-05,
      "loss": 2.1907,
      "step": 29630
    },
    {
      "epoch": 0.6584666666666666,
      "grad_norm": 1.5039981603622437,
      "learning_rate": 6.832184929984441e-05,
      "loss": 1.7468,
      "step": 29631
    },
    {
      "epoch": 0.6584888888888889,
      "grad_norm": 1.8185672760009766,
      "learning_rate": 6.831740386752612e-05,
      "loss": 1.5048,
      "step": 29632
    },
    {
      "epoch": 0.6585111111111112,
      "grad_norm": 1.8447353839874268,
      "learning_rate": 6.831295843520783e-05,
      "loss": 1.9108,
      "step": 29633
    },
    {
      "epoch": 0.6585333333333333,
      "grad_norm": 2.0437545776367188,
      "learning_rate": 6.830851300288953e-05,
      "loss": 2.3156,
      "step": 29634
    },
    {
      "epoch": 0.6585555555555556,
      "grad_norm": 1.719464659690857,
      "learning_rate": 6.830406757057124e-05,
      "loss": 1.751,
      "step": 29635
    },
    {
      "epoch": 0.6585777777777778,
      "grad_norm": 1.796617865562439,
      "learning_rate": 6.829962213825295e-05,
      "loss": 1.6782,
      "step": 29636
    },
    {
      "epoch": 0.6586,
      "grad_norm": 1.913540244102478,
      "learning_rate": 6.829517670593466e-05,
      "loss": 2.1384,
      "step": 29637
    },
    {
      "epoch": 0.6586222222222222,
      "grad_norm": 1.398923397064209,
      "learning_rate": 6.829073127361635e-05,
      "loss": 1.5806,
      "step": 29638
    },
    {
      "epoch": 0.6586444444444445,
      "grad_norm": 1.6090314388275146,
      "learning_rate": 6.828628584129808e-05,
      "loss": 1.4752,
      "step": 29639
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 2.2967145442962646,
      "learning_rate": 6.828184040897979e-05,
      "loss": 2.758,
      "step": 29640
    },
    {
      "epoch": 0.6586888888888889,
      "grad_norm": 1.6961264610290527,
      "learning_rate": 6.827739497666148e-05,
      "loss": 1.7788,
      "step": 29641
    },
    {
      "epoch": 0.6587111111111111,
      "grad_norm": 1.4948949813842773,
      "learning_rate": 6.827294954434319e-05,
      "loss": 1.3806,
      "step": 29642
    },
    {
      "epoch": 0.6587333333333333,
      "grad_norm": 1.6879496574401855,
      "learning_rate": 6.82685041120249e-05,
      "loss": 2.105,
      "step": 29643
    },
    {
      "epoch": 0.6587555555555555,
      "grad_norm": 1.7877131700515747,
      "learning_rate": 6.82640586797066e-05,
      "loss": 1.9023,
      "step": 29644
    },
    {
      "epoch": 0.6587777777777778,
      "grad_norm": 1.640920639038086,
      "learning_rate": 6.825961324738831e-05,
      "loss": 1.5046,
      "step": 29645
    },
    {
      "epoch": 0.6588,
      "grad_norm": 1.6340906620025635,
      "learning_rate": 6.825516781507002e-05,
      "loss": 1.6889,
      "step": 29646
    },
    {
      "epoch": 0.6588222222222222,
      "grad_norm": 1.9517959356307983,
      "learning_rate": 6.825072238275173e-05,
      "loss": 1.8836,
      "step": 29647
    },
    {
      "epoch": 0.6588444444444445,
      "grad_norm": 2.099510669708252,
      "learning_rate": 6.824627695043344e-05,
      "loss": 1.684,
      "step": 29648
    },
    {
      "epoch": 0.6588666666666667,
      "grad_norm": 1.5277636051177979,
      "learning_rate": 6.824183151811515e-05,
      "loss": 1.368,
      "step": 29649
    },
    {
      "epoch": 0.6588888888888889,
      "grad_norm": 2.4442501068115234,
      "learning_rate": 6.823738608579685e-05,
      "loss": 2.1152,
      "step": 29650
    },
    {
      "epoch": 0.6589111111111111,
      "grad_norm": 0.9391299486160278,
      "learning_rate": 6.823294065347855e-05,
      "loss": 1.2782,
      "step": 29651
    },
    {
      "epoch": 0.6589333333333334,
      "grad_norm": 1.7166022062301636,
      "learning_rate": 6.822849522116026e-05,
      "loss": 2.52,
      "step": 29652
    },
    {
      "epoch": 0.6589555555555555,
      "grad_norm": 0.9608427286148071,
      "learning_rate": 6.822404978884197e-05,
      "loss": 0.9397,
      "step": 29653
    },
    {
      "epoch": 0.6589777777777778,
      "grad_norm": 0.9675276279449463,
      "learning_rate": 6.821960435652367e-05,
      "loss": 0.9316,
      "step": 29654
    },
    {
      "epoch": 0.659,
      "grad_norm": 1.6645857095718384,
      "learning_rate": 6.821515892420538e-05,
      "loss": 2.3069,
      "step": 29655
    },
    {
      "epoch": 0.6590222222222222,
      "grad_norm": 1.3648736476898193,
      "learning_rate": 6.821071349188709e-05,
      "loss": 1.6865,
      "step": 29656
    },
    {
      "epoch": 0.6590444444444444,
      "grad_norm": 1.2589092254638672,
      "learning_rate": 6.82062680595688e-05,
      "loss": 2.0334,
      "step": 29657
    },
    {
      "epoch": 0.6590666666666667,
      "grad_norm": 1.7342948913574219,
      "learning_rate": 6.82018226272505e-05,
      "loss": 2.4378,
      "step": 29658
    },
    {
      "epoch": 0.6590888888888888,
      "grad_norm": 1.6458474397659302,
      "learning_rate": 6.819737719493221e-05,
      "loss": 1.6645,
      "step": 29659
    },
    {
      "epoch": 0.6591111111111111,
      "grad_norm": 1.6723769903182983,
      "learning_rate": 6.819293176261392e-05,
      "loss": 1.7515,
      "step": 29660
    },
    {
      "epoch": 0.6591333333333333,
      "grad_norm": 1.7363861799240112,
      "learning_rate": 6.818848633029562e-05,
      "loss": 2.6189,
      "step": 29661
    },
    {
      "epoch": 0.6591555555555556,
      "grad_norm": 1.4819042682647705,
      "learning_rate": 6.818404089797733e-05,
      "loss": 1.5243,
      "step": 29662
    },
    {
      "epoch": 0.6591777777777778,
      "grad_norm": 1.7086176872253418,
      "learning_rate": 6.817959546565904e-05,
      "loss": 2.3058,
      "step": 29663
    },
    {
      "epoch": 0.6592,
      "grad_norm": 1.4702590703964233,
      "learning_rate": 6.817515003334075e-05,
      "loss": 1.3932,
      "step": 29664
    },
    {
      "epoch": 0.6592222222222223,
      "grad_norm": 1.6508628129959106,
      "learning_rate": 6.817070460102244e-05,
      "loss": 2.3402,
      "step": 29665
    },
    {
      "epoch": 0.6592444444444444,
      "grad_norm": 1.8322089910507202,
      "learning_rate": 6.816625916870415e-05,
      "loss": 2.0941,
      "step": 29666
    },
    {
      "epoch": 0.6592666666666667,
      "grad_norm": 1.5012660026550293,
      "learning_rate": 6.816181373638588e-05,
      "loss": 1.861,
      "step": 29667
    },
    {
      "epoch": 0.6592888888888889,
      "grad_norm": 1.5552964210510254,
      "learning_rate": 6.815736830406757e-05,
      "loss": 1.7842,
      "step": 29668
    },
    {
      "epoch": 0.6593111111111111,
      "grad_norm": 1.3963440656661987,
      "learning_rate": 6.815292287174928e-05,
      "loss": 1.2243,
      "step": 29669
    },
    {
      "epoch": 0.6593333333333333,
      "grad_norm": 1.7548903226852417,
      "learning_rate": 6.814847743943099e-05,
      "loss": 1.9696,
      "step": 29670
    },
    {
      "epoch": 0.6593555555555556,
      "grad_norm": 1.929069995880127,
      "learning_rate": 6.814403200711269e-05,
      "loss": 2.0156,
      "step": 29671
    },
    {
      "epoch": 0.6593777777777777,
      "grad_norm": 1.6079157590866089,
      "learning_rate": 6.81395865747944e-05,
      "loss": 2.0887,
      "step": 29672
    },
    {
      "epoch": 0.6594,
      "grad_norm": 2.9583001136779785,
      "learning_rate": 6.813514114247611e-05,
      "loss": 1.8755,
      "step": 29673
    },
    {
      "epoch": 0.6594222222222222,
      "grad_norm": 1.3937418460845947,
      "learning_rate": 6.813069571015782e-05,
      "loss": 1.1554,
      "step": 29674
    },
    {
      "epoch": 0.6594444444444445,
      "grad_norm": 1.1485793590545654,
      "learning_rate": 6.812625027783951e-05,
      "loss": 1.0502,
      "step": 29675
    },
    {
      "epoch": 0.6594666666666666,
      "grad_norm": 1.6714928150177002,
      "learning_rate": 6.812180484552124e-05,
      "loss": 1.9522,
      "step": 29676
    },
    {
      "epoch": 0.6594888888888889,
      "grad_norm": 1.5369539260864258,
      "learning_rate": 6.811735941320295e-05,
      "loss": 1.8008,
      "step": 29677
    },
    {
      "epoch": 0.6595111111111112,
      "grad_norm": 1.638718843460083,
      "learning_rate": 6.811291398088464e-05,
      "loss": 1.6649,
      "step": 29678
    },
    {
      "epoch": 0.6595333333333333,
      "grad_norm": 2.0578885078430176,
      "learning_rate": 6.810846854856635e-05,
      "loss": 2.3217,
      "step": 29679
    },
    {
      "epoch": 0.6595555555555556,
      "grad_norm": 1.6226433515548706,
      "learning_rate": 6.810402311624806e-05,
      "loss": 1.8039,
      "step": 29680
    },
    {
      "epoch": 0.6595777777777778,
      "grad_norm": 1.656620740890503,
      "learning_rate": 6.809957768392976e-05,
      "loss": 1.5798,
      "step": 29681
    },
    {
      "epoch": 0.6596,
      "grad_norm": 1.6753404140472412,
      "learning_rate": 6.809513225161147e-05,
      "loss": 1.861,
      "step": 29682
    },
    {
      "epoch": 0.6596222222222222,
      "grad_norm": 1.7894854545593262,
      "learning_rate": 6.809068681929318e-05,
      "loss": 1.6227,
      "step": 29683
    },
    {
      "epoch": 0.6596444444444445,
      "grad_norm": 1.937540888786316,
      "learning_rate": 6.808624138697489e-05,
      "loss": 2.182,
      "step": 29684
    },
    {
      "epoch": 0.6596666666666666,
      "grad_norm": 1.7234638929367065,
      "learning_rate": 6.80817959546566e-05,
      "loss": 2.4864,
      "step": 29685
    },
    {
      "epoch": 0.6596888888888889,
      "grad_norm": 1.9724160432815552,
      "learning_rate": 6.80773505223383e-05,
      "loss": 2.3914,
      "step": 29686
    },
    {
      "epoch": 0.6597111111111111,
      "grad_norm": 1.872678518295288,
      "learning_rate": 6.807290509002002e-05,
      "loss": 1.9283,
      "step": 29687
    },
    {
      "epoch": 0.6597333333333333,
      "grad_norm": 1.7543476819992065,
      "learning_rate": 6.806845965770171e-05,
      "loss": 1.6584,
      "step": 29688
    },
    {
      "epoch": 0.6597555555555555,
      "grad_norm": 1.8167245388031006,
      "learning_rate": 6.806401422538342e-05,
      "loss": 1.7004,
      "step": 29689
    },
    {
      "epoch": 0.6597777777777778,
      "grad_norm": 1.886895775794983,
      "learning_rate": 6.805956879306513e-05,
      "loss": 1.8245,
      "step": 29690
    },
    {
      "epoch": 0.6598,
      "grad_norm": 1.7559186220169067,
      "learning_rate": 6.805512336074683e-05,
      "loss": 1.9585,
      "step": 29691
    },
    {
      "epoch": 0.6598222222222222,
      "grad_norm": 1.783811330795288,
      "learning_rate": 6.805067792842854e-05,
      "loss": 1.9343,
      "step": 29692
    },
    {
      "epoch": 0.6598444444444445,
      "grad_norm": 1.630228877067566,
      "learning_rate": 6.804623249611025e-05,
      "loss": 1.4084,
      "step": 29693
    },
    {
      "epoch": 0.6598666666666667,
      "grad_norm": 1.8122942447662354,
      "learning_rate": 6.804178706379196e-05,
      "loss": 1.8979,
      "step": 29694
    },
    {
      "epoch": 0.6598888888888889,
      "grad_norm": 2.2165892124176025,
      "learning_rate": 6.803734163147367e-05,
      "loss": 2.2585,
      "step": 29695
    },
    {
      "epoch": 0.6599111111111111,
      "grad_norm": 1.2415522336959839,
      "learning_rate": 6.803289619915538e-05,
      "loss": 1.1165,
      "step": 29696
    },
    {
      "epoch": 0.6599333333333334,
      "grad_norm": 1.784896969795227,
      "learning_rate": 6.802845076683709e-05,
      "loss": 1.7723,
      "step": 29697
    },
    {
      "epoch": 0.6599555555555555,
      "grad_norm": 2.093536615371704,
      "learning_rate": 6.802400533451878e-05,
      "loss": 1.4105,
      "step": 29698
    },
    {
      "epoch": 0.6599777777777778,
      "grad_norm": 1.7735121250152588,
      "learning_rate": 6.801955990220049e-05,
      "loss": 1.7523,
      "step": 29699
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0457617044448853,
      "learning_rate": 6.80151144698822e-05,
      "loss": 0.6506,
      "step": 29700
    },
    {
      "epoch": 0.6600222222222222,
      "grad_norm": 1.3916157484054565,
      "learning_rate": 6.80106690375639e-05,
      "loss": 2.4461,
      "step": 29701
    },
    {
      "epoch": 0.6600444444444444,
      "grad_norm": 1.639994502067566,
      "learning_rate": 6.80062236052456e-05,
      "loss": 2.5601,
      "step": 29702
    },
    {
      "epoch": 0.6600666666666667,
      "grad_norm": 1.5185401439666748,
      "learning_rate": 6.800177817292732e-05,
      "loss": 2.6104,
      "step": 29703
    },
    {
      "epoch": 0.6600888888888888,
      "grad_norm": 1.7068262100219727,
      "learning_rate": 6.799733274060904e-05,
      "loss": 1.9843,
      "step": 29704
    },
    {
      "epoch": 0.6601111111111111,
      "grad_norm": 1.891868233680725,
      "learning_rate": 6.799288730829073e-05,
      "loss": 3.0391,
      "step": 29705
    },
    {
      "epoch": 0.6601333333333333,
      "grad_norm": 1.5163244009017944,
      "learning_rate": 6.798844187597244e-05,
      "loss": 2.0175,
      "step": 29706
    },
    {
      "epoch": 0.6601555555555556,
      "grad_norm": 1.5959887504577637,
      "learning_rate": 6.798399644365415e-05,
      "loss": 2.1754,
      "step": 29707
    },
    {
      "epoch": 0.6601777777777778,
      "grad_norm": 1.3765621185302734,
      "learning_rate": 6.797955101133585e-05,
      "loss": 2.1678,
      "step": 29708
    },
    {
      "epoch": 0.6602,
      "grad_norm": 1.5355892181396484,
      "learning_rate": 6.797510557901756e-05,
      "loss": 1.8159,
      "step": 29709
    },
    {
      "epoch": 0.6602222222222223,
      "grad_norm": 1.7196125984191895,
      "learning_rate": 6.797066014669927e-05,
      "loss": 1.6837,
      "step": 29710
    },
    {
      "epoch": 0.6602444444444444,
      "grad_norm": 1.511362910270691,
      "learning_rate": 6.796621471438097e-05,
      "loss": 2.4021,
      "step": 29711
    },
    {
      "epoch": 0.6602666666666667,
      "grad_norm": 1.6308833360671997,
      "learning_rate": 6.796176928206268e-05,
      "loss": 1.6508,
      "step": 29712
    },
    {
      "epoch": 0.6602888888888889,
      "grad_norm": 1.5413122177124023,
      "learning_rate": 6.79573238497444e-05,
      "loss": 2.0749,
      "step": 29713
    },
    {
      "epoch": 0.6603111111111111,
      "grad_norm": 1.774201512336731,
      "learning_rate": 6.795287841742611e-05,
      "loss": 1.9161,
      "step": 29714
    },
    {
      "epoch": 0.6603333333333333,
      "grad_norm": 1.5780080556869507,
      "learning_rate": 6.79484329851078e-05,
      "loss": 2.2094,
      "step": 29715
    },
    {
      "epoch": 0.6603555555555556,
      "grad_norm": 1.2944010496139526,
      "learning_rate": 6.794398755278951e-05,
      "loss": 1.785,
      "step": 29716
    },
    {
      "epoch": 0.6603777777777777,
      "grad_norm": 1.6052595376968384,
      "learning_rate": 6.793954212047122e-05,
      "loss": 2.0328,
      "step": 29717
    },
    {
      "epoch": 0.6604,
      "grad_norm": 1.6314421892166138,
      "learning_rate": 6.793509668815292e-05,
      "loss": 1.9605,
      "step": 29718
    },
    {
      "epoch": 0.6604222222222222,
      "grad_norm": 1.7301579713821411,
      "learning_rate": 6.793065125583463e-05,
      "loss": 1.9727,
      "step": 29719
    },
    {
      "epoch": 0.6604444444444444,
      "grad_norm": 1.8894845247268677,
      "learning_rate": 6.792620582351634e-05,
      "loss": 2.1291,
      "step": 29720
    },
    {
      "epoch": 0.6604666666666666,
      "grad_norm": 1.5691381692886353,
      "learning_rate": 6.792176039119805e-05,
      "loss": 1.5028,
      "step": 29721
    },
    {
      "epoch": 0.6604888888888889,
      "grad_norm": 1.8337043523788452,
      "learning_rate": 6.791731495887976e-05,
      "loss": 1.5781,
      "step": 29722
    },
    {
      "epoch": 0.6605111111111112,
      "grad_norm": 1.8304129838943481,
      "learning_rate": 6.791286952656147e-05,
      "loss": 2.2604,
      "step": 29723
    },
    {
      "epoch": 0.6605333333333333,
      "grad_norm": 1.7375537157058716,
      "learning_rate": 6.790842409424318e-05,
      "loss": 2.2333,
      "step": 29724
    },
    {
      "epoch": 0.6605555555555556,
      "grad_norm": 1.5077272653579712,
      "learning_rate": 6.790397866192487e-05,
      "loss": 1.47,
      "step": 29725
    },
    {
      "epoch": 0.6605777777777778,
      "grad_norm": 1.7780345678329468,
      "learning_rate": 6.789953322960658e-05,
      "loss": 1.7045,
      "step": 29726
    },
    {
      "epoch": 0.6606,
      "grad_norm": 1.7432992458343506,
      "learning_rate": 6.789508779728829e-05,
      "loss": 1.9861,
      "step": 29727
    },
    {
      "epoch": 0.6606222222222222,
      "grad_norm": 1.5569027662277222,
      "learning_rate": 6.789064236496999e-05,
      "loss": 1.6343,
      "step": 29728
    },
    {
      "epoch": 0.6606444444444445,
      "grad_norm": 1.9147087335586548,
      "learning_rate": 6.78861969326517e-05,
      "loss": 1.8007,
      "step": 29729
    },
    {
      "epoch": 0.6606666666666666,
      "grad_norm": 1.8529517650604248,
      "learning_rate": 6.788175150033341e-05,
      "loss": 2.0208,
      "step": 29730
    },
    {
      "epoch": 0.6606888888888889,
      "grad_norm": 1.5898747444152832,
      "learning_rate": 6.787730606801512e-05,
      "loss": 1.9657,
      "step": 29731
    },
    {
      "epoch": 0.6607111111111111,
      "grad_norm": 2.055760622024536,
      "learning_rate": 6.787286063569683e-05,
      "loss": 2.0554,
      "step": 29732
    },
    {
      "epoch": 0.6607333333333333,
      "grad_norm": 2.072956085205078,
      "learning_rate": 6.786841520337854e-05,
      "loss": 2.523,
      "step": 29733
    },
    {
      "epoch": 0.6607555555555555,
      "grad_norm": 1.6523401737213135,
      "learning_rate": 6.786396977106025e-05,
      "loss": 1.6765,
      "step": 29734
    },
    {
      "epoch": 0.6607777777777778,
      "grad_norm": 1.8183640241622925,
      "learning_rate": 6.785952433874194e-05,
      "loss": 2.185,
      "step": 29735
    },
    {
      "epoch": 0.6608,
      "grad_norm": 1.4948359727859497,
      "learning_rate": 6.785507890642365e-05,
      "loss": 1.467,
      "step": 29736
    },
    {
      "epoch": 0.6608222222222222,
      "grad_norm": 1.782305121421814,
      "learning_rate": 6.785063347410536e-05,
      "loss": 2.0008,
      "step": 29737
    },
    {
      "epoch": 0.6608444444444445,
      "grad_norm": 1.9820513725280762,
      "learning_rate": 6.784618804178706e-05,
      "loss": 1.8032,
      "step": 29738
    },
    {
      "epoch": 0.6608666666666667,
      "grad_norm": 1.8400990962982178,
      "learning_rate": 6.784174260946877e-05,
      "loss": 2.0825,
      "step": 29739
    },
    {
      "epoch": 0.6608888888888889,
      "grad_norm": 1.880311131477356,
      "learning_rate": 6.783729717715048e-05,
      "loss": 2.0094,
      "step": 29740
    },
    {
      "epoch": 0.6609111111111111,
      "grad_norm": 1.5467296838760376,
      "learning_rate": 6.78328517448322e-05,
      "loss": 1.53,
      "step": 29741
    },
    {
      "epoch": 0.6609333333333334,
      "grad_norm": 1.9151309728622437,
      "learning_rate": 6.78284063125139e-05,
      "loss": 2.0012,
      "step": 29742
    },
    {
      "epoch": 0.6609555555555555,
      "grad_norm": 1.48209547996521,
      "learning_rate": 6.78239608801956e-05,
      "loss": 1.5927,
      "step": 29743
    },
    {
      "epoch": 0.6609777777777778,
      "grad_norm": 2.134293556213379,
      "learning_rate": 6.781951544787732e-05,
      "loss": 1.918,
      "step": 29744
    },
    {
      "epoch": 0.661,
      "grad_norm": 1.6198315620422363,
      "learning_rate": 6.781507001555901e-05,
      "loss": 1.6545,
      "step": 29745
    },
    {
      "epoch": 0.6610222222222222,
      "grad_norm": 1.608734130859375,
      "learning_rate": 6.781062458324072e-05,
      "loss": 1.5489,
      "step": 29746
    },
    {
      "epoch": 0.6610444444444444,
      "grad_norm": 1.6038824319839478,
      "learning_rate": 6.780617915092243e-05,
      "loss": 1.4575,
      "step": 29747
    },
    {
      "epoch": 0.6610666666666667,
      "grad_norm": 1.6160492897033691,
      "learning_rate": 6.780173371860413e-05,
      "loss": 1.6108,
      "step": 29748
    },
    {
      "epoch": 0.6610888888888888,
      "grad_norm": 1.9526495933532715,
      "learning_rate": 6.779728828628584e-05,
      "loss": 2.0151,
      "step": 29749
    },
    {
      "epoch": 0.6611111111111111,
      "grad_norm": 1.8424237966537476,
      "learning_rate": 6.779284285396756e-05,
      "loss": 1.6796,
      "step": 29750
    },
    {
      "epoch": 0.6611333333333334,
      "grad_norm": 1.365674376487732,
      "learning_rate": 6.778839742164927e-05,
      "loss": 2.4502,
      "step": 29751
    },
    {
      "epoch": 0.6611555555555556,
      "grad_norm": 1.7497609853744507,
      "learning_rate": 6.778395198933096e-05,
      "loss": 2.7399,
      "step": 29752
    },
    {
      "epoch": 0.6611777777777778,
      "grad_norm": 1.6796815395355225,
      "learning_rate": 6.777950655701267e-05,
      "loss": 2.0876,
      "step": 29753
    },
    {
      "epoch": 0.6612,
      "grad_norm": 1.3631795644760132,
      "learning_rate": 6.777506112469438e-05,
      "loss": 1.9842,
      "step": 29754
    },
    {
      "epoch": 0.6612222222222223,
      "grad_norm": 1.490350365638733,
      "learning_rate": 6.777061569237608e-05,
      "loss": 1.9246,
      "step": 29755
    },
    {
      "epoch": 0.6612444444444444,
      "grad_norm": 1.5525401830673218,
      "learning_rate": 6.776617026005779e-05,
      "loss": 1.9768,
      "step": 29756
    },
    {
      "epoch": 0.6612666666666667,
      "grad_norm": 2.369767904281616,
      "learning_rate": 6.77617248277395e-05,
      "loss": 1.8494,
      "step": 29757
    },
    {
      "epoch": 0.6612888888888889,
      "grad_norm": 1.6807938814163208,
      "learning_rate": 6.775727939542121e-05,
      "loss": 2.0463,
      "step": 29758
    },
    {
      "epoch": 0.6613111111111111,
      "grad_norm": 1.5899170637130737,
      "learning_rate": 6.775283396310292e-05,
      "loss": 2.4831,
      "step": 29759
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 1.462839961051941,
      "learning_rate": 6.774838853078463e-05,
      "loss": 2.0605,
      "step": 29760
    },
    {
      "epoch": 0.6613555555555556,
      "grad_norm": 1.7161911725997925,
      "learning_rate": 6.774394309846634e-05,
      "loss": 2.0418,
      "step": 29761
    },
    {
      "epoch": 0.6613777777777777,
      "grad_norm": 1.541351318359375,
      "learning_rate": 6.773949766614803e-05,
      "loss": 1.7762,
      "step": 29762
    },
    {
      "epoch": 0.6614,
      "grad_norm": 1.732049822807312,
      "learning_rate": 6.773505223382974e-05,
      "loss": 2.1298,
      "step": 29763
    },
    {
      "epoch": 0.6614222222222222,
      "grad_norm": 1.5366971492767334,
      "learning_rate": 6.773060680151145e-05,
      "loss": 1.7534,
      "step": 29764
    },
    {
      "epoch": 0.6614444444444444,
      "grad_norm": 1.4801750183105469,
      "learning_rate": 6.772616136919315e-05,
      "loss": 1.811,
      "step": 29765
    },
    {
      "epoch": 0.6614666666666666,
      "grad_norm": 1.6979097127914429,
      "learning_rate": 6.772171593687486e-05,
      "loss": 2.5855,
      "step": 29766
    },
    {
      "epoch": 0.6614888888888889,
      "grad_norm": 1.709199070930481,
      "learning_rate": 6.771727050455657e-05,
      "loss": 2.179,
      "step": 29767
    },
    {
      "epoch": 0.6615111111111112,
      "grad_norm": 1.6825566291809082,
      "learning_rate": 6.771282507223828e-05,
      "loss": 2.3518,
      "step": 29768
    },
    {
      "epoch": 0.6615333333333333,
      "grad_norm": 1.5685398578643799,
      "learning_rate": 6.770837963991999e-05,
      "loss": 1.6449,
      "step": 29769
    },
    {
      "epoch": 0.6615555555555556,
      "grad_norm": 2.124915838241577,
      "learning_rate": 6.77039342076017e-05,
      "loss": 0.7097,
      "step": 29770
    },
    {
      "epoch": 0.6615777777777778,
      "grad_norm": 1.4958488941192627,
      "learning_rate": 6.769948877528341e-05,
      "loss": 1.2729,
      "step": 29771
    },
    {
      "epoch": 0.6616,
      "grad_norm": 2.002549409866333,
      "learning_rate": 6.76950433429651e-05,
      "loss": 2.3574,
      "step": 29772
    },
    {
      "epoch": 0.6616222222222222,
      "grad_norm": 1.654229760169983,
      "learning_rate": 6.769059791064681e-05,
      "loss": 2.0806,
      "step": 29773
    },
    {
      "epoch": 0.6616444444444445,
      "grad_norm": 1.7626105546951294,
      "learning_rate": 6.768615247832852e-05,
      "loss": 1.9968,
      "step": 29774
    },
    {
      "epoch": 0.6616666666666666,
      "grad_norm": 1.9881726503372192,
      "learning_rate": 6.768170704601022e-05,
      "loss": 2.1822,
      "step": 29775
    },
    {
      "epoch": 0.6616888888888889,
      "grad_norm": 1.5868173837661743,
      "learning_rate": 6.767726161369193e-05,
      "loss": 1.8892,
      "step": 29776
    },
    {
      "epoch": 0.6617111111111111,
      "grad_norm": 1.8402587175369263,
      "learning_rate": 6.767281618137364e-05,
      "loss": 1.5504,
      "step": 29777
    },
    {
      "epoch": 0.6617333333333333,
      "grad_norm": 1.462702751159668,
      "learning_rate": 6.766837074905536e-05,
      "loss": 2.1335,
      "step": 29778
    },
    {
      "epoch": 0.6617555555555555,
      "grad_norm": 1.7339056730270386,
      "learning_rate": 6.766392531673706e-05,
      "loss": 2.0455,
      "step": 29779
    },
    {
      "epoch": 0.6617777777777778,
      "grad_norm": 1.7997807264328003,
      "learning_rate": 6.765947988441877e-05,
      "loss": 1.7998,
      "step": 29780
    },
    {
      "epoch": 0.6618,
      "grad_norm": 1.674707055091858,
      "learning_rate": 6.765503445210048e-05,
      "loss": 1.8069,
      "step": 29781
    },
    {
      "epoch": 0.6618222222222222,
      "grad_norm": 1.5384355783462524,
      "learning_rate": 6.765058901978217e-05,
      "loss": 1.8479,
      "step": 29782
    },
    {
      "epoch": 0.6618444444444445,
      "grad_norm": 2.0576751232147217,
      "learning_rate": 6.764614358746388e-05,
      "loss": 1.7632,
      "step": 29783
    },
    {
      "epoch": 0.6618666666666667,
      "grad_norm": 1.397933840751648,
      "learning_rate": 6.764169815514559e-05,
      "loss": 0.9408,
      "step": 29784
    },
    {
      "epoch": 0.6618888888888889,
      "grad_norm": 1.7931183576583862,
      "learning_rate": 6.763725272282729e-05,
      "loss": 1.9449,
      "step": 29785
    },
    {
      "epoch": 0.6619111111111111,
      "grad_norm": 1.3988561630249023,
      "learning_rate": 6.7632807290509e-05,
      "loss": 1.2232,
      "step": 29786
    },
    {
      "epoch": 0.6619333333333334,
      "grad_norm": 1.7735909223556519,
      "learning_rate": 6.762836185819072e-05,
      "loss": 1.8449,
      "step": 29787
    },
    {
      "epoch": 0.6619555555555555,
      "grad_norm": 1.4180495738983154,
      "learning_rate": 6.762391642587243e-05,
      "loss": 1.471,
      "step": 29788
    },
    {
      "epoch": 0.6619777777777778,
      "grad_norm": 1.846642255783081,
      "learning_rate": 6.761947099355413e-05,
      "loss": 2.0046,
      "step": 29789
    },
    {
      "epoch": 0.662,
      "grad_norm": 1.1563552618026733,
      "learning_rate": 6.761502556123584e-05,
      "loss": 0.9774,
      "step": 29790
    },
    {
      "epoch": 0.6620222222222222,
      "grad_norm": 1.5811171531677246,
      "learning_rate": 6.761058012891755e-05,
      "loss": 1.7614,
      "step": 29791
    },
    {
      "epoch": 0.6620444444444444,
      "grad_norm": 1.9264756441116333,
      "learning_rate": 6.760613469659924e-05,
      "loss": 1.8206,
      "step": 29792
    },
    {
      "epoch": 0.6620666666666667,
      "grad_norm": 1.555372953414917,
      "learning_rate": 6.760168926428095e-05,
      "loss": 1.3343,
      "step": 29793
    },
    {
      "epoch": 0.6620888888888888,
      "grad_norm": 2.0197927951812744,
      "learning_rate": 6.759724383196266e-05,
      "loss": 1.5174,
      "step": 29794
    },
    {
      "epoch": 0.6621111111111111,
      "grad_norm": 1.9780981540679932,
      "learning_rate": 6.759279839964437e-05,
      "loss": 1.6895,
      "step": 29795
    },
    {
      "epoch": 0.6621333333333334,
      "grad_norm": 1.7140216827392578,
      "learning_rate": 6.758835296732608e-05,
      "loss": 1.5978,
      "step": 29796
    },
    {
      "epoch": 0.6621555555555556,
      "grad_norm": 2.1798079013824463,
      "learning_rate": 6.758390753500779e-05,
      "loss": 1.1335,
      "step": 29797
    },
    {
      "epoch": 0.6621777777777778,
      "grad_norm": 1.043080449104309,
      "learning_rate": 6.75794621026895e-05,
      "loss": 0.719,
      "step": 29798
    },
    {
      "epoch": 0.6622,
      "grad_norm": 2.2078845500946045,
      "learning_rate": 6.75750166703712e-05,
      "loss": 2.1393,
      "step": 29799
    },
    {
      "epoch": 0.6622222222222223,
      "grad_norm": 2.1851742267608643,
      "learning_rate": 6.75705712380529e-05,
      "loss": 1.9053,
      "step": 29800
    },
    {
      "epoch": 0.6622444444444444,
      "grad_norm": 2.015225648880005,
      "learning_rate": 6.756612580573461e-05,
      "loss": 3.1311,
      "step": 29801
    },
    {
      "epoch": 0.6622666666666667,
      "grad_norm": 1.6868116855621338,
      "learning_rate": 6.756168037341631e-05,
      "loss": 2.4089,
      "step": 29802
    },
    {
      "epoch": 0.6622888888888889,
      "grad_norm": 1.5408720970153809,
      "learning_rate": 6.755723494109802e-05,
      "loss": 1.1948,
      "step": 29803
    },
    {
      "epoch": 0.6623111111111111,
      "grad_norm": 1.2142361402511597,
      "learning_rate": 6.755278950877973e-05,
      "loss": 1.1249,
      "step": 29804
    },
    {
      "epoch": 0.6623333333333333,
      "grad_norm": 1.530510425567627,
      "learning_rate": 6.754834407646144e-05,
      "loss": 2.4555,
      "step": 29805
    },
    {
      "epoch": 0.6623555555555556,
      "grad_norm": 1.4871829748153687,
      "learning_rate": 6.754389864414315e-05,
      "loss": 2.1614,
      "step": 29806
    },
    {
      "epoch": 0.6623777777777777,
      "grad_norm": 1.8419668674468994,
      "learning_rate": 6.753945321182486e-05,
      "loss": 2.5486,
      "step": 29807
    },
    {
      "epoch": 0.6624,
      "grad_norm": 1.5700019598007202,
      "learning_rate": 6.753500777950657e-05,
      "loss": 1.9956,
      "step": 29808
    },
    {
      "epoch": 0.6624222222222222,
      "grad_norm": 1.4468845129013062,
      "learning_rate": 6.753056234718826e-05,
      "loss": 1.6379,
      "step": 29809
    },
    {
      "epoch": 0.6624444444444444,
      "grad_norm": 1.574005365371704,
      "learning_rate": 6.752611691486997e-05,
      "loss": 2.0273,
      "step": 29810
    },
    {
      "epoch": 0.6624666666666666,
      "grad_norm": 1.4133375883102417,
      "learning_rate": 6.752167148255168e-05,
      "loss": 1.6354,
      "step": 29811
    },
    {
      "epoch": 0.6624888888888889,
      "grad_norm": 1.696982502937317,
      "learning_rate": 6.751722605023338e-05,
      "loss": 2.2724,
      "step": 29812
    },
    {
      "epoch": 0.6625111111111112,
      "grad_norm": 1.4631052017211914,
      "learning_rate": 6.751278061791509e-05,
      "loss": 2.0235,
      "step": 29813
    },
    {
      "epoch": 0.6625333333333333,
      "grad_norm": 1.6357436180114746,
      "learning_rate": 6.75083351855968e-05,
      "loss": 1.7853,
      "step": 29814
    },
    {
      "epoch": 0.6625555555555556,
      "grad_norm": 1.5390557050704956,
      "learning_rate": 6.750388975327851e-05,
      "loss": 1.7458,
      "step": 29815
    },
    {
      "epoch": 0.6625777777777778,
      "grad_norm": 1.714276909828186,
      "learning_rate": 6.749944432096022e-05,
      "loss": 1.8244,
      "step": 29816
    },
    {
      "epoch": 0.6626,
      "grad_norm": 1.4015839099884033,
      "learning_rate": 6.749499888864193e-05,
      "loss": 1.6646,
      "step": 29817
    },
    {
      "epoch": 0.6626222222222222,
      "grad_norm": 1.5322781801223755,
      "learning_rate": 6.749055345632364e-05,
      "loss": 1.5663,
      "step": 29818
    },
    {
      "epoch": 0.6626444444444445,
      "grad_norm": 1.8195284605026245,
      "learning_rate": 6.748610802400533e-05,
      "loss": 1.7811,
      "step": 29819
    },
    {
      "epoch": 0.6626666666666666,
      "grad_norm": 1.9035009145736694,
      "learning_rate": 6.748166259168704e-05,
      "loss": 1.8438,
      "step": 29820
    },
    {
      "epoch": 0.6626888888888889,
      "grad_norm": 1.8950119018554688,
      "learning_rate": 6.747721715936875e-05,
      "loss": 1.9304,
      "step": 29821
    },
    {
      "epoch": 0.6627111111111111,
      "grad_norm": 1.8354183435440063,
      "learning_rate": 6.747277172705045e-05,
      "loss": 1.8252,
      "step": 29822
    },
    {
      "epoch": 0.6627333333333333,
      "grad_norm": 1.8345448970794678,
      "learning_rate": 6.746832629473216e-05,
      "loss": 1.8646,
      "step": 29823
    },
    {
      "epoch": 0.6627555555555555,
      "grad_norm": 1.8485467433929443,
      "learning_rate": 6.746388086241388e-05,
      "loss": 2.2144,
      "step": 29824
    },
    {
      "epoch": 0.6627777777777778,
      "grad_norm": 1.7133246660232544,
      "learning_rate": 6.745943543009559e-05,
      "loss": 1.832,
      "step": 29825
    },
    {
      "epoch": 0.6628,
      "grad_norm": 1.6095284223556519,
      "learning_rate": 6.745498999777729e-05,
      "loss": 1.5356,
      "step": 29826
    },
    {
      "epoch": 0.6628222222222222,
      "grad_norm": 1.4461475610733032,
      "learning_rate": 6.7450544565459e-05,
      "loss": 1.6122,
      "step": 29827
    },
    {
      "epoch": 0.6628444444444445,
      "grad_norm": 1.8822609186172485,
      "learning_rate": 6.74460991331407e-05,
      "loss": 1.7766,
      "step": 29828
    },
    {
      "epoch": 0.6628666666666667,
      "grad_norm": 1.944409966468811,
      "learning_rate": 6.74416537008224e-05,
      "loss": 1.8874,
      "step": 29829
    },
    {
      "epoch": 0.6628888888888889,
      "grad_norm": 1.6179362535476685,
      "learning_rate": 6.743720826850411e-05,
      "loss": 1.8056,
      "step": 29830
    },
    {
      "epoch": 0.6629111111111111,
      "grad_norm": 2.0456881523132324,
      "learning_rate": 6.743276283618582e-05,
      "loss": 1.6853,
      "step": 29831
    },
    {
      "epoch": 0.6629333333333334,
      "grad_norm": 1.715853214263916,
      "learning_rate": 6.742831740386753e-05,
      "loss": 1.886,
      "step": 29832
    },
    {
      "epoch": 0.6629555555555555,
      "grad_norm": 1.9937889575958252,
      "learning_rate": 6.742387197154924e-05,
      "loss": 1.998,
      "step": 29833
    },
    {
      "epoch": 0.6629777777777778,
      "grad_norm": 1.687606692314148,
      "learning_rate": 6.741942653923095e-05,
      "loss": 1.9692,
      "step": 29834
    },
    {
      "epoch": 0.663,
      "grad_norm": 1.661903977394104,
      "learning_rate": 6.741498110691266e-05,
      "loss": 1.675,
      "step": 29835
    },
    {
      "epoch": 0.6630222222222222,
      "grad_norm": 2.170902729034424,
      "learning_rate": 6.741053567459436e-05,
      "loss": 2.1342,
      "step": 29836
    },
    {
      "epoch": 0.6630444444444444,
      "grad_norm": 0.8865088820457458,
      "learning_rate": 6.740609024227607e-05,
      "loss": 0.7062,
      "step": 29837
    },
    {
      "epoch": 0.6630666666666667,
      "grad_norm": 2.08332896232605,
      "learning_rate": 6.740164480995778e-05,
      "loss": 2.2277,
      "step": 29838
    },
    {
      "epoch": 0.6630888888888888,
      "grad_norm": 1.8963425159454346,
      "learning_rate": 6.739719937763947e-05,
      "loss": 2.13,
      "step": 29839
    },
    {
      "epoch": 0.6631111111111111,
      "grad_norm": 1.5987082719802856,
      "learning_rate": 6.739275394532118e-05,
      "loss": 1.5478,
      "step": 29840
    },
    {
      "epoch": 0.6631333333333334,
      "grad_norm": 1.8892338275909424,
      "learning_rate": 6.738830851300289e-05,
      "loss": 2.3368,
      "step": 29841
    },
    {
      "epoch": 0.6631555555555556,
      "grad_norm": 1.368084192276001,
      "learning_rate": 6.73838630806846e-05,
      "loss": 1.2946,
      "step": 29842
    },
    {
      "epoch": 0.6631777777777778,
      "grad_norm": 2.3991076946258545,
      "learning_rate": 6.737941764836631e-05,
      "loss": 2.455,
      "step": 29843
    },
    {
      "epoch": 0.6632,
      "grad_norm": 1.8040879964828491,
      "learning_rate": 6.737497221604802e-05,
      "loss": 1.7914,
      "step": 29844
    },
    {
      "epoch": 0.6632222222222223,
      "grad_norm": 1.668006181716919,
      "learning_rate": 6.737052678372973e-05,
      "loss": 1.7811,
      "step": 29845
    },
    {
      "epoch": 0.6632444444444444,
      "grad_norm": 1.5654646158218384,
      "learning_rate": 6.736608135141143e-05,
      "loss": 1.384,
      "step": 29846
    },
    {
      "epoch": 0.6632666666666667,
      "grad_norm": 2.4598138332366943,
      "learning_rate": 6.736163591909313e-05,
      "loss": 1.9209,
      "step": 29847
    },
    {
      "epoch": 0.6632888888888889,
      "grad_norm": 1.0733261108398438,
      "learning_rate": 6.735719048677484e-05,
      "loss": 0.789,
      "step": 29848
    },
    {
      "epoch": 0.6633111111111111,
      "grad_norm": 1.8876014947891235,
      "learning_rate": 6.735274505445654e-05,
      "loss": 1.9376,
      "step": 29849
    },
    {
      "epoch": 0.6633333333333333,
      "grad_norm": 2.126352548599243,
      "learning_rate": 6.734829962213825e-05,
      "loss": 1.7392,
      "step": 29850
    },
    {
      "epoch": 0.6633555555555556,
      "grad_norm": 0.9994049668312073,
      "learning_rate": 6.734385418981996e-05,
      "loss": 1.4126,
      "step": 29851
    },
    {
      "epoch": 0.6633777777777777,
      "grad_norm": 1.020012378692627,
      "learning_rate": 6.733940875750167e-05,
      "loss": 1.054,
      "step": 29852
    },
    {
      "epoch": 0.6634,
      "grad_norm": 1.5305405855178833,
      "learning_rate": 6.733496332518338e-05,
      "loss": 2.3882,
      "step": 29853
    },
    {
      "epoch": 0.6634222222222222,
      "grad_norm": 1.1586368083953857,
      "learning_rate": 6.733051789286509e-05,
      "loss": 1.6271,
      "step": 29854
    },
    {
      "epoch": 0.6634444444444444,
      "grad_norm": 1.5261671543121338,
      "learning_rate": 6.73260724605468e-05,
      "loss": 1.771,
      "step": 29855
    },
    {
      "epoch": 0.6634666666666666,
      "grad_norm": 1.3771371841430664,
      "learning_rate": 6.73216270282285e-05,
      "loss": 1.4175,
      "step": 29856
    },
    {
      "epoch": 0.6634888888888889,
      "grad_norm": 1.535698413848877,
      "learning_rate": 6.73171815959102e-05,
      "loss": 1.0387,
      "step": 29857
    },
    {
      "epoch": 0.6635111111111112,
      "grad_norm": 1.5857796669006348,
      "learning_rate": 6.731273616359191e-05,
      "loss": 1.9065,
      "step": 29858
    },
    {
      "epoch": 0.6635333333333333,
      "grad_norm": 1.5167961120605469,
      "learning_rate": 6.730829073127361e-05,
      "loss": 1.8251,
      "step": 29859
    },
    {
      "epoch": 0.6635555555555556,
      "grad_norm": 1.5984530448913574,
      "learning_rate": 6.730384529895532e-05,
      "loss": 1.9663,
      "step": 29860
    },
    {
      "epoch": 0.6635777777777778,
      "grad_norm": 1.4273908138275146,
      "learning_rate": 6.729939986663704e-05,
      "loss": 1.9222,
      "step": 29861
    },
    {
      "epoch": 0.6636,
      "grad_norm": 1.4247217178344727,
      "learning_rate": 6.729495443431874e-05,
      "loss": 1.7142,
      "step": 29862
    },
    {
      "epoch": 0.6636222222222222,
      "grad_norm": 1.9986554384231567,
      "learning_rate": 6.729050900200045e-05,
      "loss": 2.0371,
      "step": 29863
    },
    {
      "epoch": 0.6636444444444445,
      "grad_norm": 1.9894723892211914,
      "learning_rate": 6.728606356968216e-05,
      "loss": 2.0388,
      "step": 29864
    },
    {
      "epoch": 0.6636666666666666,
      "grad_norm": 2.0761454105377197,
      "learning_rate": 6.728161813736387e-05,
      "loss": 1.1724,
      "step": 29865
    },
    {
      "epoch": 0.6636888888888889,
      "grad_norm": 1.590334415435791,
      "learning_rate": 6.727717270504556e-05,
      "loss": 1.8133,
      "step": 29866
    },
    {
      "epoch": 0.6637111111111111,
      "grad_norm": 1.7695194482803345,
      "learning_rate": 6.727272727272727e-05,
      "loss": 1.9001,
      "step": 29867
    },
    {
      "epoch": 0.6637333333333333,
      "grad_norm": 1.504016399383545,
      "learning_rate": 6.726828184040898e-05,
      "loss": 2.0085,
      "step": 29868
    },
    {
      "epoch": 0.6637555555555555,
      "grad_norm": 1.9227676391601562,
      "learning_rate": 6.726383640809069e-05,
      "loss": 1.9244,
      "step": 29869
    },
    {
      "epoch": 0.6637777777777778,
      "grad_norm": 1.641811728477478,
      "learning_rate": 6.72593909757724e-05,
      "loss": 1.7412,
      "step": 29870
    },
    {
      "epoch": 0.6638,
      "grad_norm": 2.3565618991851807,
      "learning_rate": 6.725494554345411e-05,
      "loss": 1.8609,
      "step": 29871
    },
    {
      "epoch": 0.6638222222222222,
      "grad_norm": 2.0382018089294434,
      "learning_rate": 6.725050011113581e-05,
      "loss": 2.0848,
      "step": 29872
    },
    {
      "epoch": 0.6638444444444445,
      "grad_norm": 2.107382297515869,
      "learning_rate": 6.724605467881752e-05,
      "loss": 1.7436,
      "step": 29873
    },
    {
      "epoch": 0.6638666666666667,
      "grad_norm": 1.684561848640442,
      "learning_rate": 6.724160924649923e-05,
      "loss": 1.8383,
      "step": 29874
    },
    {
      "epoch": 0.6638888888888889,
      "grad_norm": 1.0685566663742065,
      "learning_rate": 6.723716381418094e-05,
      "loss": 0.9968,
      "step": 29875
    },
    {
      "epoch": 0.6639111111111111,
      "grad_norm": 2.0837154388427734,
      "learning_rate": 6.723271838186263e-05,
      "loss": 2.1355,
      "step": 29876
    },
    {
      "epoch": 0.6639333333333334,
      "grad_norm": 1.7028639316558838,
      "learning_rate": 6.722827294954434e-05,
      "loss": 2.1359,
      "step": 29877
    },
    {
      "epoch": 0.6639555555555555,
      "grad_norm": 1.3876352310180664,
      "learning_rate": 6.722382751722605e-05,
      "loss": 1.3667,
      "step": 29878
    },
    {
      "epoch": 0.6639777777777778,
      "grad_norm": 1.7416679859161377,
      "learning_rate": 6.721938208490776e-05,
      "loss": 1.8754,
      "step": 29879
    },
    {
      "epoch": 0.664,
      "grad_norm": 1.6241660118103027,
      "learning_rate": 6.721493665258947e-05,
      "loss": 1.6207,
      "step": 29880
    },
    {
      "epoch": 0.6640222222222222,
      "grad_norm": 1.7644826173782349,
      "learning_rate": 6.721049122027118e-05,
      "loss": 1.7229,
      "step": 29881
    },
    {
      "epoch": 0.6640444444444444,
      "grad_norm": 1.7775423526763916,
      "learning_rate": 6.720604578795289e-05,
      "loss": 1.9053,
      "step": 29882
    },
    {
      "epoch": 0.6640666666666667,
      "grad_norm": 1.7751245498657227,
      "learning_rate": 6.720160035563459e-05,
      "loss": 1.8768,
      "step": 29883
    },
    {
      "epoch": 0.6640888888888888,
      "grad_norm": 2.0301311016082764,
      "learning_rate": 6.71971549233163e-05,
      "loss": 2.4465,
      "step": 29884
    },
    {
      "epoch": 0.6641111111111111,
      "grad_norm": 1.7487518787384033,
      "learning_rate": 6.7192709490998e-05,
      "loss": 1.6696,
      "step": 29885
    },
    {
      "epoch": 0.6641333333333334,
      "grad_norm": 2.3853297233581543,
      "learning_rate": 6.71882640586797e-05,
      "loss": 2.2918,
      "step": 29886
    },
    {
      "epoch": 0.6641555555555556,
      "grad_norm": 2.0184779167175293,
      "learning_rate": 6.718381862636141e-05,
      "loss": 1.7051,
      "step": 29887
    },
    {
      "epoch": 0.6641777777777778,
      "grad_norm": 1.8643485307693481,
      "learning_rate": 6.717937319404312e-05,
      "loss": 1.9038,
      "step": 29888
    },
    {
      "epoch": 0.6642,
      "grad_norm": 2.1959586143493652,
      "learning_rate": 6.717492776172483e-05,
      "loss": 1.5555,
      "step": 29889
    },
    {
      "epoch": 0.6642222222222223,
      "grad_norm": 1.7016730308532715,
      "learning_rate": 6.717048232940654e-05,
      "loss": 1.5396,
      "step": 29890
    },
    {
      "epoch": 0.6642444444444444,
      "grad_norm": 2.1555588245391846,
      "learning_rate": 6.716603689708825e-05,
      "loss": 2.1698,
      "step": 29891
    },
    {
      "epoch": 0.6642666666666667,
      "grad_norm": 1.6451393365859985,
      "learning_rate": 6.716159146476996e-05,
      "loss": 1.3959,
      "step": 29892
    },
    {
      "epoch": 0.6642888888888889,
      "grad_norm": 1.5219990015029907,
      "learning_rate": 6.715714603245166e-05,
      "loss": 1.5174,
      "step": 29893
    },
    {
      "epoch": 0.6643111111111111,
      "grad_norm": 1.9876725673675537,
      "learning_rate": 6.715270060013336e-05,
      "loss": 2.0229,
      "step": 29894
    },
    {
      "epoch": 0.6643333333333333,
      "grad_norm": 1.7877013683319092,
      "learning_rate": 6.714825516781507e-05,
      "loss": 1.8763,
      "step": 29895
    },
    {
      "epoch": 0.6643555555555556,
      "grad_norm": 2.0413553714752197,
      "learning_rate": 6.714380973549677e-05,
      "loss": 1.671,
      "step": 29896
    },
    {
      "epoch": 0.6643777777777777,
      "grad_norm": 2.1173155307769775,
      "learning_rate": 6.713936430317848e-05,
      "loss": 2.178,
      "step": 29897
    },
    {
      "epoch": 0.6644,
      "grad_norm": 1.778635859489441,
      "learning_rate": 6.71349188708602e-05,
      "loss": 1.5821,
      "step": 29898
    },
    {
      "epoch": 0.6644222222222222,
      "grad_norm": 1.8207401037216187,
      "learning_rate": 6.71304734385419e-05,
      "loss": 1.6871,
      "step": 29899
    },
    {
      "epoch": 0.6644444444444444,
      "grad_norm": 1.787549376487732,
      "learning_rate": 6.712602800622361e-05,
      "loss": 1.468,
      "step": 29900
    },
    {
      "epoch": 0.6644666666666666,
      "grad_norm": 1.3397949934005737,
      "learning_rate": 6.712158257390532e-05,
      "loss": 2.3533,
      "step": 29901
    },
    {
      "epoch": 0.6644888888888889,
      "grad_norm": 1.6535183191299438,
      "learning_rate": 6.711713714158703e-05,
      "loss": 2.1798,
      "step": 29902
    },
    {
      "epoch": 0.6645111111111112,
      "grad_norm": 1.3034520149230957,
      "learning_rate": 6.711269170926872e-05,
      "loss": 2.2776,
      "step": 29903
    },
    {
      "epoch": 0.6645333333333333,
      "grad_norm": 1.4036054611206055,
      "learning_rate": 6.710824627695043e-05,
      "loss": 2.2437,
      "step": 29904
    },
    {
      "epoch": 0.6645555555555556,
      "grad_norm": 1.8223963975906372,
      "learning_rate": 6.710380084463214e-05,
      "loss": 2.2021,
      "step": 29905
    },
    {
      "epoch": 0.6645777777777778,
      "grad_norm": 2.307182788848877,
      "learning_rate": 6.709935541231385e-05,
      "loss": 1.7815,
      "step": 29906
    },
    {
      "epoch": 0.6646,
      "grad_norm": 1.9300739765167236,
      "learning_rate": 6.709490997999556e-05,
      "loss": 2.2553,
      "step": 29907
    },
    {
      "epoch": 0.6646222222222222,
      "grad_norm": 1.8276855945587158,
      "learning_rate": 6.709046454767727e-05,
      "loss": 2.4208,
      "step": 29908
    },
    {
      "epoch": 0.6646444444444445,
      "grad_norm": 2.037367820739746,
      "learning_rate": 6.708601911535897e-05,
      "loss": 2.1848,
      "step": 29909
    },
    {
      "epoch": 0.6646666666666666,
      "grad_norm": 1.8194398880004883,
      "learning_rate": 6.708157368304068e-05,
      "loss": 2.4673,
      "step": 29910
    },
    {
      "epoch": 0.6646888888888889,
      "grad_norm": 1.8202264308929443,
      "learning_rate": 6.707712825072239e-05,
      "loss": 2.5849,
      "step": 29911
    },
    {
      "epoch": 0.6647111111111111,
      "grad_norm": 1.4894503355026245,
      "learning_rate": 6.70726828184041e-05,
      "loss": 1.5413,
      "step": 29912
    },
    {
      "epoch": 0.6647333333333333,
      "grad_norm": 1.4747028350830078,
      "learning_rate": 6.70682373860858e-05,
      "loss": 1.8897,
      "step": 29913
    },
    {
      "epoch": 0.6647555555555555,
      "grad_norm": 1.6377867460250854,
      "learning_rate": 6.70637919537675e-05,
      "loss": 2.2015,
      "step": 29914
    },
    {
      "epoch": 0.6647777777777778,
      "grad_norm": 1.5551769733428955,
      "learning_rate": 6.705934652144921e-05,
      "loss": 2.0039,
      "step": 29915
    },
    {
      "epoch": 0.6648,
      "grad_norm": 1.4956742525100708,
      "learning_rate": 6.705490108913092e-05,
      "loss": 1.9786,
      "step": 29916
    },
    {
      "epoch": 0.6648222222222222,
      "grad_norm": 1.1861640214920044,
      "learning_rate": 6.705045565681263e-05,
      "loss": 1.133,
      "step": 29917
    },
    {
      "epoch": 0.6648444444444445,
      "grad_norm": 1.2967723608016968,
      "learning_rate": 6.704601022449434e-05,
      "loss": 1.218,
      "step": 29918
    },
    {
      "epoch": 0.6648666666666667,
      "grad_norm": 1.7160927057266235,
      "learning_rate": 6.704156479217604e-05,
      "loss": 2.0236,
      "step": 29919
    },
    {
      "epoch": 0.6648888888888889,
      "grad_norm": 2.133582353591919,
      "learning_rate": 6.703711935985775e-05,
      "loss": 1.696,
      "step": 29920
    },
    {
      "epoch": 0.6649111111111111,
      "grad_norm": 1.6214841604232788,
      "learning_rate": 6.703267392753946e-05,
      "loss": 2.2105,
      "step": 29921
    },
    {
      "epoch": 0.6649333333333334,
      "grad_norm": 1.700264811515808,
      "learning_rate": 6.702822849522117e-05,
      "loss": 2.034,
      "step": 29922
    },
    {
      "epoch": 0.6649555555555555,
      "grad_norm": 1.8656233549118042,
      "learning_rate": 6.702378306290286e-05,
      "loss": 1.8581,
      "step": 29923
    },
    {
      "epoch": 0.6649777777777778,
      "grad_norm": 1.5610407590866089,
      "learning_rate": 6.701933763058457e-05,
      "loss": 1.808,
      "step": 29924
    },
    {
      "epoch": 0.665,
      "grad_norm": 1.8312547206878662,
      "learning_rate": 6.701489219826628e-05,
      "loss": 2.0996,
      "step": 29925
    },
    {
      "epoch": 0.6650222222222222,
      "grad_norm": 1.595229983329773,
      "learning_rate": 6.701044676594799e-05,
      "loss": 1.597,
      "step": 29926
    },
    {
      "epoch": 0.6650444444444444,
      "grad_norm": 1.6952110528945923,
      "learning_rate": 6.70060013336297e-05,
      "loss": 1.5797,
      "step": 29927
    },
    {
      "epoch": 0.6650666666666667,
      "grad_norm": 1.8080729246139526,
      "learning_rate": 6.700155590131141e-05,
      "loss": 2.0955,
      "step": 29928
    },
    {
      "epoch": 0.6650888888888888,
      "grad_norm": 1.844958782196045,
      "learning_rate": 6.69971104689931e-05,
      "loss": 2.0051,
      "step": 29929
    },
    {
      "epoch": 0.6651111111111111,
      "grad_norm": 1.6383330821990967,
      "learning_rate": 6.699266503667482e-05,
      "loss": 1.7088,
      "step": 29930
    },
    {
      "epoch": 0.6651333333333334,
      "grad_norm": 1.9203208684921265,
      "learning_rate": 6.698821960435653e-05,
      "loss": 2.2203,
      "step": 29931
    },
    {
      "epoch": 0.6651555555555556,
      "grad_norm": 1.5951393842697144,
      "learning_rate": 6.698377417203824e-05,
      "loss": 1.7076,
      "step": 29932
    },
    {
      "epoch": 0.6651777777777778,
      "grad_norm": 1.5344406366348267,
      "learning_rate": 6.697932873971993e-05,
      "loss": 1.6437,
      "step": 29933
    },
    {
      "epoch": 0.6652,
      "grad_norm": 1.807194709777832,
      "learning_rate": 6.697488330740164e-05,
      "loss": 2.2013,
      "step": 29934
    },
    {
      "epoch": 0.6652222222222223,
      "grad_norm": 1.5656250715255737,
      "learning_rate": 6.697043787508336e-05,
      "loss": 1.6515,
      "step": 29935
    },
    {
      "epoch": 0.6652444444444444,
      "grad_norm": 2.082768678665161,
      "learning_rate": 6.696599244276506e-05,
      "loss": 2.3978,
      "step": 29936
    },
    {
      "epoch": 0.6652666666666667,
      "grad_norm": 1.8907321691513062,
      "learning_rate": 6.696154701044677e-05,
      "loss": 1.5345,
      "step": 29937
    },
    {
      "epoch": 0.6652888888888889,
      "grad_norm": 2.222169876098633,
      "learning_rate": 6.695710157812848e-05,
      "loss": 1.7997,
      "step": 29938
    },
    {
      "epoch": 0.6653111111111111,
      "grad_norm": 1.9868658781051636,
      "learning_rate": 6.695265614581019e-05,
      "loss": 2.0057,
      "step": 29939
    },
    {
      "epoch": 0.6653333333333333,
      "grad_norm": 1.4449933767318726,
      "learning_rate": 6.694821071349189e-05,
      "loss": 1.4912,
      "step": 29940
    },
    {
      "epoch": 0.6653555555555556,
      "grad_norm": 1.9717739820480347,
      "learning_rate": 6.69437652811736e-05,
      "loss": 2.2573,
      "step": 29941
    },
    {
      "epoch": 0.6653777777777777,
      "grad_norm": 2.050900936126709,
      "learning_rate": 6.69393198488553e-05,
      "loss": 1.6612,
      "step": 29942
    },
    {
      "epoch": 0.6654,
      "grad_norm": 1.7138173580169678,
      "learning_rate": 6.693487441653701e-05,
      "loss": 1.7574,
      "step": 29943
    },
    {
      "epoch": 0.6654222222222222,
      "grad_norm": 1.945564866065979,
      "learning_rate": 6.693042898421872e-05,
      "loss": 2.1009,
      "step": 29944
    },
    {
      "epoch": 0.6654444444444444,
      "grad_norm": 1.7058165073394775,
      "learning_rate": 6.692598355190043e-05,
      "loss": 1.7286,
      "step": 29945
    },
    {
      "epoch": 0.6654666666666667,
      "grad_norm": 1.0451241731643677,
      "learning_rate": 6.692153811958213e-05,
      "loss": 0.7271,
      "step": 29946
    },
    {
      "epoch": 0.6654888888888889,
      "grad_norm": 1.9874522686004639,
      "learning_rate": 6.691709268726384e-05,
      "loss": 2.2219,
      "step": 29947
    },
    {
      "epoch": 0.6655111111111112,
      "grad_norm": 1.9588372707366943,
      "learning_rate": 6.691264725494555e-05,
      "loss": 1.9927,
      "step": 29948
    },
    {
      "epoch": 0.6655333333333333,
      "grad_norm": 2.0496973991394043,
      "learning_rate": 6.690820182262726e-05,
      "loss": 2.1667,
      "step": 29949
    },
    {
      "epoch": 0.6655555555555556,
      "grad_norm": 1.554182767868042,
      "learning_rate": 6.690375639030895e-05,
      "loss": 0.7582,
      "step": 29950
    },
    {
      "epoch": 0.6655777777777778,
      "grad_norm": 0.9341526031494141,
      "learning_rate": 6.689931095799066e-05,
      "loss": 1.1776,
      "step": 29951
    },
    {
      "epoch": 0.6656,
      "grad_norm": 1.5718581676483154,
      "learning_rate": 6.689486552567237e-05,
      "loss": 2.8773,
      "step": 29952
    },
    {
      "epoch": 0.6656222222222222,
      "grad_norm": 1.5068167448043823,
      "learning_rate": 6.689042009335408e-05,
      "loss": 2.6586,
      "step": 29953
    },
    {
      "epoch": 0.6656444444444445,
      "grad_norm": 1.533138394355774,
      "learning_rate": 6.688597466103579e-05,
      "loss": 2.4295,
      "step": 29954
    },
    {
      "epoch": 0.6656666666666666,
      "grad_norm": 1.6191515922546387,
      "learning_rate": 6.68815292287175e-05,
      "loss": 2.2264,
      "step": 29955
    },
    {
      "epoch": 0.6656888888888889,
      "grad_norm": 1.8643866777420044,
      "learning_rate": 6.68770837963992e-05,
      "loss": 2.3549,
      "step": 29956
    },
    {
      "epoch": 0.6657111111111111,
      "grad_norm": 2.198772430419922,
      "learning_rate": 6.687263836408091e-05,
      "loss": 1.9581,
      "step": 29957
    },
    {
      "epoch": 0.6657333333333333,
      "grad_norm": 1.8021020889282227,
      "learning_rate": 6.686819293176262e-05,
      "loss": 2.2015,
      "step": 29958
    },
    {
      "epoch": 0.6657555555555555,
      "grad_norm": 1.3431627750396729,
      "learning_rate": 6.686374749944433e-05,
      "loss": 1.7711,
      "step": 29959
    },
    {
      "epoch": 0.6657777777777778,
      "grad_norm": 1.6012687683105469,
      "learning_rate": 6.685930206712602e-05,
      "loss": 1.8353,
      "step": 29960
    },
    {
      "epoch": 0.6658,
      "grad_norm": 1.1746835708618164,
      "learning_rate": 6.685485663480773e-05,
      "loss": 0.8971,
      "step": 29961
    },
    {
      "epoch": 0.6658222222222222,
      "grad_norm": 1.4977556467056274,
      "learning_rate": 6.685041120248944e-05,
      "loss": 1.6268,
      "step": 29962
    },
    {
      "epoch": 0.6658444444444445,
      "grad_norm": 1.93625009059906,
      "learning_rate": 6.684596577017115e-05,
      "loss": 1.6674,
      "step": 29963
    },
    {
      "epoch": 0.6658666666666667,
      "grad_norm": 1.4827030897140503,
      "learning_rate": 6.684152033785286e-05,
      "loss": 1.3579,
      "step": 29964
    },
    {
      "epoch": 0.6658888888888889,
      "grad_norm": 1.4736237525939941,
      "learning_rate": 6.683707490553457e-05,
      "loss": 1.5683,
      "step": 29965
    },
    {
      "epoch": 0.6659111111111111,
      "grad_norm": 1.9679960012435913,
      "learning_rate": 6.683262947321627e-05,
      "loss": 1.6845,
      "step": 29966
    },
    {
      "epoch": 0.6659333333333334,
      "grad_norm": 1.2724868059158325,
      "learning_rate": 6.682818404089798e-05,
      "loss": 1.2223,
      "step": 29967
    },
    {
      "epoch": 0.6659555555555555,
      "grad_norm": 1.369015097618103,
      "learning_rate": 6.682373860857969e-05,
      "loss": 1.5704,
      "step": 29968
    },
    {
      "epoch": 0.6659777777777778,
      "grad_norm": 1.5374850034713745,
      "learning_rate": 6.68192931762614e-05,
      "loss": 2.1142,
      "step": 29969
    },
    {
      "epoch": 0.666,
      "grad_norm": 0.48563823103904724,
      "learning_rate": 6.681484774394309e-05,
      "loss": 0.0228,
      "step": 29970
    },
    {
      "epoch": 0.6660222222222222,
      "grad_norm": 1.7181105613708496,
      "learning_rate": 6.68104023116248e-05,
      "loss": 1.9205,
      "step": 29971
    },
    {
      "epoch": 0.6660444444444444,
      "grad_norm": 1.7128758430480957,
      "learning_rate": 6.680595687930653e-05,
      "loss": 2.1458,
      "step": 29972
    },
    {
      "epoch": 0.6660666666666667,
      "grad_norm": 1.8142510652542114,
      "learning_rate": 6.680151144698822e-05,
      "loss": 1.9488,
      "step": 29973
    },
    {
      "epoch": 0.6660888888888888,
      "grad_norm": 1.813297986984253,
      "learning_rate": 6.679706601466993e-05,
      "loss": 2.392,
      "step": 29974
    },
    {
      "epoch": 0.6661111111111111,
      "grad_norm": 1.5008163452148438,
      "learning_rate": 6.679262058235164e-05,
      "loss": 1.7734,
      "step": 29975
    },
    {
      "epoch": 0.6661333333333334,
      "grad_norm": 2.0730113983154297,
      "learning_rate": 6.678817515003334e-05,
      "loss": 1.8511,
      "step": 29976
    },
    {
      "epoch": 0.6661555555555555,
      "grad_norm": 2.2350423336029053,
      "learning_rate": 6.678372971771505e-05,
      "loss": 1.9735,
      "step": 29977
    },
    {
      "epoch": 0.6661777777777778,
      "grad_norm": 1.4494450092315674,
      "learning_rate": 6.677928428539676e-05,
      "loss": 1.6645,
      "step": 29978
    },
    {
      "epoch": 0.6662,
      "grad_norm": 1.9463860988616943,
      "learning_rate": 6.677483885307847e-05,
      "loss": 1.9717,
      "step": 29979
    },
    {
      "epoch": 0.6662222222222223,
      "grad_norm": 1.710606336593628,
      "learning_rate": 6.677039342076018e-05,
      "loss": 1.9876,
      "step": 29980
    },
    {
      "epoch": 0.6662444444444444,
      "grad_norm": 1.8882859945297241,
      "learning_rate": 6.676594798844188e-05,
      "loss": 1.5495,
      "step": 29981
    },
    {
      "epoch": 0.6662666666666667,
      "grad_norm": 1.8677129745483398,
      "learning_rate": 6.67615025561236e-05,
      "loss": 2.0978,
      "step": 29982
    },
    {
      "epoch": 0.6662888888888889,
      "grad_norm": 1.759299397468567,
      "learning_rate": 6.675705712380529e-05,
      "loss": 1.9628,
      "step": 29983
    },
    {
      "epoch": 0.6663111111111111,
      "grad_norm": 2.7281928062438965,
      "learning_rate": 6.6752611691487e-05,
      "loss": 2.2807,
      "step": 29984
    },
    {
      "epoch": 0.6663333333333333,
      "grad_norm": 1.6504846811294556,
      "learning_rate": 6.674816625916871e-05,
      "loss": 1.9276,
      "step": 29985
    },
    {
      "epoch": 0.6663555555555556,
      "grad_norm": 1.9323383569717407,
      "learning_rate": 6.674372082685042e-05,
      "loss": 2.0836,
      "step": 29986
    },
    {
      "epoch": 0.6663777777777777,
      "grad_norm": 1.8040101528167725,
      "learning_rate": 6.673927539453212e-05,
      "loss": 2.2852,
      "step": 29987
    },
    {
      "epoch": 0.6664,
      "grad_norm": 1.518248200416565,
      "learning_rate": 6.673482996221383e-05,
      "loss": 1.6423,
      "step": 29988
    },
    {
      "epoch": 0.6664222222222222,
      "grad_norm": 1.5416886806488037,
      "learning_rate": 6.673038452989553e-05,
      "loss": 1.4105,
      "step": 29989
    },
    {
      "epoch": 0.6664444444444444,
      "grad_norm": 1.7516173124313354,
      "learning_rate": 6.672593909757724e-05,
      "loss": 1.8827,
      "step": 29990
    },
    {
      "epoch": 0.6664666666666667,
      "grad_norm": 1.6546638011932373,
      "learning_rate": 6.672149366525895e-05,
      "loss": 1.7423,
      "step": 29991
    },
    {
      "epoch": 0.6664888888888889,
      "grad_norm": 1.5564340353012085,
      "learning_rate": 6.671704823294066e-05,
      "loss": 1.6448,
      "step": 29992
    },
    {
      "epoch": 0.6665111111111112,
      "grad_norm": 1.8928364515304565,
      "learning_rate": 6.671260280062236e-05,
      "loss": 1.7723,
      "step": 29993
    },
    {
      "epoch": 0.6665333333333333,
      "grad_norm": 1.846963882446289,
      "learning_rate": 6.670815736830407e-05,
      "loss": 2.0836,
      "step": 29994
    },
    {
      "epoch": 0.6665555555555556,
      "grad_norm": 1.6592938899993896,
      "learning_rate": 6.670371193598578e-05,
      "loss": 1.7189,
      "step": 29995
    },
    {
      "epoch": 0.6665777777777778,
      "grad_norm": 1.7135471105575562,
      "learning_rate": 6.669926650366749e-05,
      "loss": 1.8557,
      "step": 29996
    },
    {
      "epoch": 0.6666,
      "grad_norm": 1.8523329496383667,
      "learning_rate": 6.669482107134918e-05,
      "loss": 1.9346,
      "step": 29997
    },
    {
      "epoch": 0.6666222222222222,
      "grad_norm": 1.719085693359375,
      "learning_rate": 6.66903756390309e-05,
      "loss": 1.7526,
      "step": 29998
    },
    {
      "epoch": 0.6666444444444445,
      "grad_norm": 2.335409164428711,
      "learning_rate": 6.66859302067126e-05,
      "loss": 1.9978,
      "step": 29999
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.673316240310669,
      "learning_rate": 6.668148477439431e-05,
      "loss": 1.5546,
      "step": 30000
    }
  ],
  "logging_steps": 1,
  "max_steps": 45000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.96467995936897e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}